SW26010 260 ядерний процесор спроектований китайським Національним центром з проектування високопродуктивних інтегральни

SW26010 - 260-ядерний процесор, спроектований китайським «Національним центром з проектування високопродуктивних інтегральних мікросхем» в Шанхаї. У процесорі реалізована 64-бітова RISC-мікроархітектура , розроблена в Китаї. SW26010 складається з 4 груп (званих кластерами) по 64 «обчислювально-процесорних елемента» (англ. compute-processing elements, CPE), розташованих у вигляді матриці 8 × 8 елементів. CPE виконують SIMD-інструкції і можуть виконувати за один цикл 8 операцій над числами з рухомою комою одинарної точності. Кожен кластер супроводжується більш традиційним ядром загального призначення, званим «керувальним процесорним елементом» (англ. management processing element, MPE), і забезпечує функції моніторингу та управління. Кожен кластер має свій власний контролер пам'яті DDR3 SDRAM і банк пам'яті (англ. Memory bank) зі своїм власним адресним простором. Процесор працює з тактовою частотою 1,45 ГГц.

Кожен CPE має внутрішню надоперативну пам'ять (англ. Scratchpad memory) розміром 64 Кб для даних і 16 КБ для інструкцій, які поєднуються за допомогою «мережі-на-кристалі» (англ. Network on a chip), замість традиційної ієрархії кеш-пам'яті (англ. Cache hierarchy). MPE має більш традиційну схему з 32 Кб кеш-пам'яті 1-го рівня для даних і інструкцій і 256 Кб кеш-пам'яті 2-го рівня. Мережа-на-кристалі з'єднана з єдиним внутрішньосистемним інтерфейсом, який з'єднує мікросхему із зовнішнім світом.

SW26010 застосовуються в суперкомп'ютері Sunway TaihuLight, який з листопада 2016 по 8 червня 2018 року займав 1-е місце по продуктивності в рейтингу TOP500. В Sunway TaihuLight використовується 40 960 процесорів SW26010, продуктивність в тесті LINPACK benchmarks досягає 93,01 P FLOPS.

Примітки

Dongarra, Jack (20 червня 2016). (PDF). www.netlib.org. Архів оригіналу (PDF) за 10 листопада 2018. Процитовано 20 червня 2016.
Fu, H H; Liao, JF; Yang, J Z (2016). . Sci. China Inf. Sci. doi:10.1007/s11432-016-5588-7. Архів оригіналу за 25 січня 2020. Процитовано 22 червня 2016. {{}}: Недійсний |displayauthors=3 ()
Trader, Tiffany (19 червня 2016). . HPC Wire. Архів оригіналу за 21 червня 2016. Процитовано 21 червня 2016. Each core of the CPE has a single floating point that can perform 8 flops per cycle per core (64-bit floating point arithmetic) and the MPE has a dual pipeline each of which can perform 8 flops per cycle per pipeline (64-bit floating point arithmetic)
Hemsoth, Nicole (20 червня 2016). . The Next Platform. Архів оригіналу за 21 червня 2016. Процитовано 20 червня 2016.
Lendino, Jamie (20 червня 2016). . Extremetech. Архів оригіналу за 21 червня 2016. Процитовано 21 червня 2016. The TOP500 report said that the chip also lacks any traditional L1-L2-L3 cache, and instead has 12KB of instruction cache and 64KB “local scratchpad” that works sort of like an L1 cache.
(PDF). Архів оригіналу (PDF) за 18 жовтня 2017. Процитовано 29 жовтня 2018.{{}}: Обслуговування CS1: Сторінки з текстом «archived copy» як значення параметру title ()
. TOP 500. 14 листопада 2016. Архів оригіналу за 3 грудня 2016. Процитовано 26 листопада 2016.

[dongarra2016-1] Dongarra, Jack (20 червня 2016). (PDF). www.netlib.org. Архів оригіналу (PDF) за 10 листопада 2018. Процитовано 20 червня 2016.

[2] Fu, H H; Liao, JF; Yang, J Z (2016). . Sci. China Inf. Sci. doi:10.1007/s11432-016-5588-7. Архів оригіналу за 25 січня 2020. Процитовано 22 червня 2016. {{}}: Недійсний |displayauthors=3 ()

[3] Trader, Tiffany (19 червня 2016). . HPC Wire. Архів оригіналу за 21 червня 2016. Процитовано 21 червня 2016. Each core of the CPE has a single floating point that can perform 8 flops per cycle per core (64-bit floating point arithmetic) and the MPE has a dual pipeline each of which can perform 8 flops per cycle per pipeline (64-bit floating point arithmetic)

[4] Hemsoth, Nicole (20 червня 2016). . The Next Platform. Архів оригіналу за 21 червня 2016. Процитовано 20 червня 2016.

[5] Lendino, Jamie (20 червня 2016). . Extremetech. Архів оригіналу за 21 червня 2016. Процитовано 21 червня 2016. The TOP500 report said that the chip also lacks any traditional L1-L2-L3 cache, and instead has 12KB of instruction cache and 64KB “local scratchpad” that works sort of like an L1 cache.

[6] (PDF). Архів оригіналу (PDF) за 18 жовтня 2017. Процитовано 29 жовтня 2018.{{}}: Обслуговування CS1: Сторінки з текстом «archived copy» як значення параметру title ()

[7] . TOP 500. 14 листопада 2016. Архів оригіналу за 3 грудня 2016. Процитовано 26 листопада 2016.