Нейропроцессор

Новый нейропроцессор «Модуля»

Как стало известно CNews, российский научно-технический центр «Модуль» разработал
новый нейропроцессор NM6408 и запустил его в серийное производство. «Несколько
тысяч процессоров уже у нас на складе, готовы к отгрузке, планируем дозаказывать
еще по мере необходимости», — рассказали в компании.

Этот 21-ядерный чип был спроектирован в топологии 28 нм, реализован
как вычислительный ускоритель для серверов, обладает пиковой производительностью
в 512 ГФЛОПС. Он ориентирован на обработку больших потоков данных в реальном
времени и позволяет, по заверению разработчиков, решать задачи самого широкого
спектра — не только нейросетевые.

Одна из наиболее перспективных областей применения
новинки — обработка нейросетевыми приложениями больших
массивов видеоданных, например, с камер с высоким разрешением. Потенциальные
заказчики — транспортная индустрия (авто и железнодорожная), предприятия сферы
безопасности, энергетические компании и т. д. «Кроме того, поскольку наши чипы
обладают расширенными техническими характеристиками (например, широкий
температурный режим), то можно говорить об устройствах, работающих в тяжелых погодных
условиях, например, на Крайнем Севере», — отмечают в компании.

Новый российский нейропроцессор «Модуля»

Процессоры NM6408 выпускаются на Тайване. «Как только в
России появятся фабрики 28 нм, перенесем производство в нашу страну», — обещают
разработчики.

В «Модуле» уверены, что на данный момент в России у новинки
прямых конкурентов нет, потому что полностью готовыми нейропроцессорами ни один
другой отечественный разработчик не располагает. «Это нейропроцессор с самой
высокой производительностью на российском рынке (все остальные процессоры тоже
у нас, они менее производительные) и по своим характеристикам может
соревноваться с мировыми лидерами», — указывают в компании.

Что касается упомянутых мировых аналогов, то в отношении них
в «Модуле» считают своим преимуществом цену продукта — примерно $70 за NM6408 против
$100 за сопоставимые по параметрам зарубежные чипы. Из известных
моделей-конкурентов в компании отмечают Nvidia Jetson Xavier. «Мы приближаемся
к ним по характеристикам по производительности, — уверены в “Модуле”. — Более
того, при испытаниях выяснилось, что наши процессоры более эффективны именно
для работы нейросетей, то есть они достигают больших результатов меньшими
аппаратными затратами; КПД различается в разы».

На базе нового процессора уже разработан
высокопроизводительный вычислительный модуль МС127.04 — для работы в составе
встраиваемой вычислительной техники и специализированных высокопроизводительных
систем, а также для построения систем цифровой обработки сигналов и машинного
зрения.

Несколько фактов о «Модуле»

По данным ЕГРЮЛ, ЗАО НТЦ «Модуль» было зарегистрировано в
Москве 26 августа 1992 г. Учредителями без указания долей указаны НИИ радиоприборостроения
и межгосударственная акционерная корпорация «Вымпел», а также Михаил Яфраков, Hиколай Шабурин, Тамара Чугунова,
Александр Трухманов, Владимир Петросов, Светлана Кузнецова, Марина Данилова,
Юрий Борисов и Людмила Ефанова.

Гендиректором НТУ заявлен Андрей Адамов. В базе «Контур.фокус» за «Модулем» числится 75
госконтрактов на общую сумму в 5,6 млрд руб. Наиболее крупные подряды «Модуля» последнего
времени связаны с ОКР по линии Минпромторга.

По собственным данным организации, НТЦ «Модуль» был
образован в 1990 г. Начиная с 1995 г., компания разрабатывает
высокопроизводительные процессорные ядра и аналогово-цифровые системы на кристалле.
«В собственности компании вычислительные мощности и технологии, позволяющие
проводить наукоемкие исследования и разработки», — пишет организация на своем
сайте. — НТЦ “Модуль” является лицензиатом консорциумов HDMI и DCP LLC, имеет
аттестованное и оснащенное современным оборудованием сборочное производство,
обеспечивающее мелкосерийный выпуск встраиваемых компьютеров и модулей».

TrueNorth at Work

The actual breakthrough came when the researchers put together 16 TrueNorth chips into one scalable platform, NS16e, with the equivalent parallel processing power of 16 million neurons and 4 billion synapses, which amazingly only consume the energy equivalent of a tablet computer. Similarly, to the human brain, where a certain portion of the cortex is responsible for a well-defined function (e.g. visual recognition or motor function), each of the chips of NS16e can be assigned to certain parts of a large neural network, allowing the network to run more efficiently and faster. This new platform, with 16 TrueNorth chips working together, will be tested in practice by the Lawrence Livermore National Laboratory of the National Nuclear Security Administration (NNSA) in the US.

Synapse 16 chip board (Research.ibm)

The NNSA evaluate machine learning applications, deep learning algorithms and architectures as well as conducting general computing feasibility studies in cyber security and stewardship of the nation’s nuclear deterrent and non-proliferation. As the common programming languages won’t do for this new platform, the NS16e comes together with a programming ecosystem: simulator, programming language, integrated programming environment, library of algorithms and tools for composing neural networks for deep learning.

Although it will take time for such brain-inspired cognitive computing platforms to become fully tested and even longer before they reach the market, this evolving technology will shift the way we perceive Artificial Intelligence and definitely imposes high standards and expectations for the supercomputing arena.

Области применения[ | код]

Nvidia Drive PX-series (англ.)русск..

Беспилотный автомобиль — например, в этом направлении развивает свои платы Drive PX-series (англ.)русск. компания Nvidia.
Беспилотный летательный аппарат — например, навигационная система основанная на чипах Movidius Myriad 2 (англ.)русск. успешно управляет автономными беспилотными летательными аппаратами.
Диагностика в здравоохранении.
Машинный перевод.
Обработка естественного языка.
Поисковая система — NPU повышают энергоэффективность центров обработки данных, и дают возможность использовать все более сложные запросы.
Промышленный робот — NPU позволяют расширить спектр задач, которые возможно автоматизировать, путём добавления приспособляемости к меняющимся ситуациям.
Распознавание по голосу — например, в мобильных телефонах использование технологии Qualcomm Zeroth (англ.)русск.
Сельскохозяйственный робот — например, борьба с сорняками без применения химических средств.

Описание

Нейронные процессоры относятся к вычислительной технике и используются для аппаратного ускорения эмуляции работы нейронных сетей и цифровой обработки сигналов в режиме реального времени. Как правило, нейропроцессор содержит регистры, блоки памяти магазинного типа, коммутатор и вычислительное устройство, содержащее матрицу умножения, дешифраторы, триггеры и мультиплексоры.

На современном этапе (по состоянию на 2017 год) к классу нейронных процессоров могут относиться разные по устройству и специализации типы чипов, например:

Нейроморфные процессоры — построенные по кластерной асинхронной архитектуре, разработанной в Корнеллском университете (принципиально отличающейся от фон Неймановской и Гарвардской компьютерных архитектур, используемых последние 70 лет в IT-отрасли). В отличие от традиционных вычислительных архитектур, логика нейроморфных процессоров изначально узкоспециализирована для создания и разработки разных видов искусственных нейронных сетей. В устройстве используются обычные транзисторы, из которых строятся вычислительные ядра (каждое ядро, как правило, содержит планировщик заданий, собственную память типа SRAM и маршрутизатор для связи с другими ядрами), каждое из ядер эмулирует работу нескольких сотен нейронов и, таким образом, одна интегральная схема, содержащая несколько тысяч таких ядер, алгоритмически может воссоздать массив из нескольких сотен тысяч нейронов и на порядок больше синапсов. Как правило, такие процессоры применяются для алгоритмов глубокого машинного обучения.
Тензорные процессоры — устройства, как правило, являющиеся сопроцессорами, управляемыми центральным процессором, оперирующие тензорами — объектами, которые описывают преобразования элементов одного линейного пространства в другое и могут быть представлены как многомерные массивы чисел, обработка которых осуществляется с помощью таких программных библиотек, как, например TensorFlow. Они, как правило, оснащаются собственной встроенной оперативной памятью и оперируют низкоразрядными (8-битными) числами, и узкоспециализированы для выполнения таких операций, как матричное умножение и свёртка, используемая для эмуляции свёрточных нейронных сетей, которые используются для задач машинного обучения.
Процессоры машинного зрения — во многом похожи на тензорные процессоры, но они узкоспециализированы для ускорения работы алгоритмов машинного зрения, в которых используются методы свёрточных нейронных сетей (CNN) и масштабно-инвариантная трансформация признаков (SIFT). В них делается большой акцент на распараллеливание потока данных между множеством исполнительных ядер, включая использование модели блокнотной памяти (англ.)русск. — как в многоядерных цифровых сигнальных процессорах, и они так же, как тензорные процессоры, используются для вычислений c низкой точностью, принятой при обработке изображений.

Примечания

↑ . Servernews. (31 августа 2017). Дата обращения: 17 ноября 2017.
. FindPatent.RU. Дата обращения: 17 ноября 2017.
. Компьютерра. (31 марта 2016). Дата обращения: 17 ноября 2017.
. PC Week/RE. (22 ноября 2016). Дата обращения: 17 ноября 2017.
↑ . Servernews. (25 августа 2017). Дата обращения: 17 ноября 2017.
↑ . 3DNews. (29 августа 2017). Дата обращения: 17 ноября 2017.
. Nvidia. Дата обращения: 17 ноября 2017. (англ.)
. 3DNews (10 октября 2017). Дата обращения: 17 ноября 2017. (рус.)
. (англ.)
. (англ.)
(недоступная ссылка). Дата обращения: 15 ноября 2017. (англ.)
.
. iXBT.com (18 октября 2017). Дата обращения: 21 ноября 2017.
. (англ.)
. — «TrueNorth is incredibly efficient: The chip consumes just 72 milliwatts at max load, which equates to around 400 billion synaptic operations per second per watt — or about 176,000 times more efficient than a modern CPU running the same brain-like workload, or 769 times more efficient than other state-of-the-art neuromorphic approaches». (англ.)
(недоступная ссылка). Дата обращения: 15 июня 2018.
. 3DNews. (20 августа 2019). Дата обращения: 21 августа 2019.
. 3DNews. (9 июня 2016). Дата обращения: 17 ноября 2017.
. «Открытые системы». (1 июня 2016). Дата обращения: 17 ноября 2017.
. 3DNews. (14.08.2018). Дата обращения: 17 августа 2018.
. Servernews. (11 мая 2017). Дата обращения: 17 ноября 2017.
. Servernews. (12 октября 2017). Дата обращения: 17 ноября 2017.
. Servernews. (1 сентября 2017). Дата обращения: 17 ноября 2017.
(недоступная ссылка). — «The Shakti project now includes plans for at least six microprocessor designs as well as associated fabrics and an accelerator chip». Дата обращения: 15 ноября 2017. (англ.)
. Servernews. (24 июля 2017). Дата обращения: 17 ноября 2017.
. 3DNews. (26 сентября 2017). Дата обращения: 17 ноября 2017.
. (англ.)
. Logmag.net (16 октября 2013). Дата обращения: 17 ноября 2017.
embedded world. (англ.). www.embedded-world.de. Дата обращения: 30 ноября 2020.
. CNews.ru. Дата обращения: 30 ноября 2020.
(англ.). MLPerf. Дата обращения: 30 ноября 2020.
Sally Ward-Foxton. (англ.). Embedded.com (3 ноября 2020). Дата обращения: 30 ноября 2020.

Технические подробности

«”Модуль” разрабатывает линейку процессоров на базе собственного
ядра NMC — NeuroMatrix Core, уникальной
микропоцессорной архитектуры», — говорят в компании. Новый чип принадлежит к
четвертому поколению развития идей, которые первую свою реализацию получили еще
в 1990-х годах. Первый чип, как уверяют разработчики, «произвел фурор на
выставке Cebit в немецком Ганновере в 1998 г. и был лицензирован Fiujitsu».

Идеальный шторм на рынке полупроводников: вызовы и возможности
Бизнес

В состав нового процессора входят один 32-разрядный
универсальный управляющий RISC-процессор (с сокращенным набором команд) ARM
Cortex-A5, а также четыре кластера, каждый из которых содержит по одному
RISC-процессору ARM Cortex-A5 и по четыре процессорных ядра NMC4. Чип имеет
пять интерфейсов с внешней памятью типа DDR3, интерфейсы PCIe2.0, SPI, Ethernet
IEEE Std 802.3-2012, GPIO, JTAG и высокоскоростные интерфейсы для
межпроцессорного обмена.

Типовая потребляемая мощность чипа — 20 Вт, максимальная —
35 Вт. Температурный диапазон, в рамках которого может функционировать
процессор, — от -60°C до +85°C

Уникальная характеристика процессора — тот факт, что он
может разменивать разрядность на производительность, — говорят в “Модуле”. —
Соотношение выглядит так: 512 ГФлопс 32 бита (одинарная точность) и 128 ГФлобс
64 бита (двойная точность). Если высокая точность не нужна, то можно программными
средствами уменьшить разрядность и выиграть в производительности. При
уменьшении разрядности в два раза производительность увеличивается в четыре. При
уменьшении разрядности в три раза, производительность вырастает в девять раз и
т. д. Но меньше четырех разрядов использовать уже неэффективно».

Сколько стоила разработка

Разработка нейропроцессора происходила в рамках исполнения госконтракта
с Минпромторгом на выполнение соответствующих опытно-конструкторских работ
(ОКР). Он был подписан сторонами в марте 2014 г. за 480 млн руб. со сроком
исполнения до 26 декабря 2017 г.

«ОКР был сдан вовремя, — утверждаютют разработчики. — В
течение 2018 г. шло освоение серийного производства: разрабатывалась
инструментальная плата, проводилось тестирование, писался соответствующий софт
для работы на процессоре и т. д.».

На все разработки, которые финансируются Минпромторгом, у «Модуля»
с министерством заключены лицензионные соглашения, которые предоставляют право
производить и реализовывать устройства, отмечают в НТЦ.

SyNAPSE

Conceptually defined back in 2004, the neuromorphic machine technology started to form in 2008 when IBM won the Defense Advanced Research Projects Agency (DARPA) program Systems of Neuromorphic Adaptive Plastic Scalable Electronics (SyNAPSE). By the end of the project, in 2014, the SyNAPSE-developed chip had one million electronic “neurons” and was able to boast more than 250 million “synapses” (programmable logic points), analogous to the connections between brain’s neurons. At the time, the researchers knew that TrueNorth was still orders of magnitude away from the actual synapses in the human brain, but it was a huge step towards highly energy efficient neuro-inspired technology.

TrueNorth Chip Core Array (Research.ibm)