Высокопараллельные вычислители и нейроускорители производства АОЗТ "Инструментальные системы" (Россия)
АОЗТ "Инструментальные системы" [11] выпускает на сегодня в России самую широкую номеклатуру различных многофункциональных мультипроцессорных плат, как в виде "виртуальных" устройств, так и в виде крейтовых модулей и полнофункциональных вычислителей. Элементной базой высокопараллельных нейроускорителей данной фирмы являются DSP фирмы Analog Devices (SISD Sharc, SIMD Sharc, Static Superscalar Sharc) и DSP фирмы Texas Instrumens (в основном семейств: TMS320C4x, TMS320C6xxx). Интерфейсы выпускаемых модулей различны: ISA, PCI, CompactPCI, VME, IEEE1394, RS232, RS482, RS485 и др. Спектр заказных изделий практически неограничен. Проанализируем линейку серийно выпускаемых высокопараллельных ускорителей фирмы "Инструментальные системы" на конкретных примерах.
Наиболее ярким представителей линейки параллельных виртуальных вычислителей является плата ADP160PCI, основанная на процессоре ADSP-21160, предназначена для построения систем радиосвязи, радиолокации, гидролокации, вибродиагностики, обработки изображений. Она построена на базе 32-разрядного 600 Mflops процессора SHARC2 компании Analog Devices. Cигнальный процессор ADSP-21160 работает на тактовой частоте 100 MHz, имеет два исполнительных устройства для выполнения SIMD операций и внутреннею память 4 Мбита. 64-х разрядная шина процессора обеспечивает одновременную выборку двух 32-х разрядных данных для их параллельной обработки в процессоре. Процессор обеспечивает вычисление 1024 точечного комплексного преобразования Фурье с битреверсными перестановками за 90мкс.
Плата ADP160PCI устанавливается в PCI шину персонального компьютера (ПК) и позволяет выполнять программы во взаимодействии с устройствами АЦП и ЦАП, размещенными на дочерней расширительной плате ADM. При этом имеется возможность загружать программы ADSP-21160 и данные, осуществлять сброс процессора, просматривать память и инициировать выполнение программы. Для отладки программного обеспечения в среде VisualDSP к плате ADP160PC подключается внутрисхемный эмулятор EZ-ICE. Эмулятор EZ-ICE позволяет загружать программы, начинать и останавливать выполнение программы, наблюдать и изменять состояние регистров и памяти, выполнять другие операции отладки.
Плата ADP160PCI содержит процессор ADSP-21160 и одно место для установки дочерней платы ADM. Объем синхронной динамической памяти составляет от 32 до 128 Мбайт. Микросхема 32-х разрядного моста "шина PCI-локальная шина" обеспечивает доступ персонального компьютера к HOST-порту и внутренней памяти процессора ADSP-21160 и доступ процессора ADSP-21160 к памяти и портам персонального компьютера. Плата ADP160PCI обеспечивает режим мастера шины в соответствии со спецификацией PCI версии 2.2. Многочисленные режимы синхронизации и прерываний, в том числе и по спецификации I2O, обеспечиваются посредстом регегистров mailbox и doorbell. Шесть линков процессора ADSP-21160 обеспечивают высокоскоростной (100Мбайт/сек) бесконфликтный обмен как c процессорами SHARC_2, так и с процессорами SHARC. Тем самым обеспечивается возможность построения масштабируемых многопроцессорных систем на процессорах семейства ADSP-21160 и ADSP-21060/62. На плате ADP160PCI все линки процессора ADSP-21160 выведены на разъемы, обеспечивая объединение с другими процессорными платами для наращивания вычислительной мощности.
Блок схема платы ADP160PCI представлена на рис.8. Обращения к процессору ADSP-21160 осуществляются по интерфейсу шины PCI. Так как интерфейс PCI непосредственно связан с Ноst-портом процессора, персональный компьютер получает доступ к его внутренним ресурсам. Пропускная способность моста при записи из персонального компьютера во внутреннюю память процессора ADSP-21160 составляет 15 Мбайт/сек, при чтении персональным компьютером из внутренней памяти процессора ADSP21160 составляет 10 Мбайт/сек. Чтобы разгрузить процессоры от рутинной работы по пересылке массивов, в микросхему моста встроены два контроллера прямого доступа к памяти, обеспечивающие пересылку данных между памятью персонального компьютера и внутренней памятью процессора ADSP-21160 со скоростью до 40 Мбайт/сек.
Рис.8. Структурная схема платы ADP160PCI [11].
Модуль DSP60V6
DSP60V6 - высокопроизводительный мультипроцессорный модуль сбора и цифровой обработки сигналов, основанная на процессоре цифровой обработки сигналов ADSP-21060/62 SHARC (рис.9). Он позволяет выполнять программы SHARC во взаимодействии с устройствами, размещенными на дочерней плате ADM, в качестве которой могут использоваться модули АЦП, ЦАП. ADP60V5 устанавливается в промышленные крейты с размером плат 6U.
Модуль может работать как автономно, так и с компьютером, имеющим шину VME. Вы можете загружать программы ADSP-21060/62 и данные через шину VME и/или через пользовательские выводы разъема J2/P2 (X2), осуществлять сброс процессоров, просматривать память и инициировать выполнение программ.
Рис.9. Внешний вид модуля DSP60V6.
Модуль имеет в своем составе процессорный кластер из шести процессоров ADSP2106x производительностью 120 MFLOPs каждый. В процессорном кластере устанавливается до 1Мх48 бит оперативной статичекой памяти и до 16Мх32 бит оперативной динамической памяти. Кластер имеет в своем адресном пространстве VME интерфейс и FLASH память 4Мх8 бит. Модуль может работать независимо от шины VME, в этом случае прием и передача данных производится по 6 коммуникационным портам.
Модуль ADP44PCI
Несущий процессорный модуль ADP44PCI ориентирован на цифровую обработку сигналов и может быть легко конфигурирован для решения конкретных задач путем загрузки в модуль прикладного программного обеспечения и, в случае необходимости, подключения высокоскоростного субмодуля аналогового ввода/вывода и/или модуля стандарта TIM-40. Несколько ADP44PCI образуют распределенную вычислительную структуру из процессорных модулей, соединенных между собой с помощью высокоскоростных связных портов. В состав вычислительной структуры входят высокоскоростные устройства аналогового ввода/вывода, процессоры, локальная и глобальная память, интерфейсы ПЭВМ (рис.10).
Процессорный несущий модуль ADP44PCI использует параллельный 32-разрядный ЦПОС с плавающей точкой TMS320C44 фирмы Texas Instruments. Четыре 30Мбайт/сек связных порта и канала ПДП процессора обеспечивают разнообразные возможности высокоскоростного обмена. Две шины TMS320С44 обеспечивают обмен 120 Мбайт/сек каждая. Работая совместно, но независимо, процессор и ПДП TMS320С44 обеспечивают параллельный обмен данными со скоростью до 560 Мбайт в секунду. Высокоскоростные связные порты позволяют объединять процессоры в кольца, деревья, гиперкуб и др.
Процессорный несущий модуль ADP44PCI удовлетворяет стандарту TIM40 и выполнен с использованием программируемых логических интегральных схем ф.Xilinx и Altera, реализующих функции обмена, средства управления процессором, прерываниями и каналами ПДП. Процессор TMS320C44 имеет производительность 60 МFlops. Объем статической памяти составляет от 128к х 32 до 512к х 32 на двух шинах процессора, предусмотрено расширение путем установки модулей SIMM динамической памяти до 16М х 32 на глобальной шине процессора. Собственно кристалл TMS320С44 имеет 8 кбайт встроенной памяти. На глобальной шине размещен интерфейс ADM-Connect для связи с субмодулем аналогового ввода/вывода со скоростью до 100 Мбайт/сек.
Микросхема JTAG контроллера, размещенная на плате, обеспечивает возможность загрузки и отладки задач ЦОС под управлением многооконного отладчика XDS510 фирмы Texas Instruments. Загрузка программ и данных, обмен информацией между TMS320C44 и ПЭВМ обеспечиваются через высокоскоростной коммуникационный порт. Система прерываний модуля обеспечивает выставление и обработку прерываний, запросов ПДП к TMS320С44 при обмене информацией с ведущей ПЭВМ. Ведущая ПЭВМ имеет возможность остановить, прервать TMS320С44, подтвердить обмен. Интерфейс коммуникационного порта включает FIFO емкостью 1К байт в каждом направлении. Каждый процессорный узел имеет конфигурациооный IDROM в соответствии со стандартом TIM40.
Промышленный стандарт TIM-40 разработан консорциумом под руководством фирмы Texas Instruments для модулей на C40 и C44. Спецификация определяет аппаратные ресурсы, способы программирования и организации многопроцессорных систем. Процессорный несущий модуль ADP44PCI удовлетворяет основным требованиям стандарта TIM-40, что позволяет организовывать многопроцессорные системы с другими модулями стандарта TIM-40.
Рис.10. Структурная схема и внешний вид модуля ADP44PCI
Важными составляющими модуля стандарта TIM-40 являются каналы связи с ведущей ПЭВМ, межпроцессорного обмена по коммуникационным портам, описание доступных С40 ресурсов в специальном идентификационном ПЗУ IDROM, порядок загрузки исполняемых программ, габариты и порядок подсоединения TIM-40 модулей.
Внутренняя структура интерфейса ПЭВМ модуля ADP44PCI полностью определяется загруженной конфигурацией ПЛИС. Реализация иной внутренней структуры системы для решения специальных задач пользователя возможна по отдельному заказу.
Модули на базе ТMS320C6701
Модули данного семейства ориентированы на применение в телекоммуникационных системах, включая базовые станции, системах медицинской диагностики, навигационных системах и системах позиционирования, мультимедиа и т.п., где требуется свервысокая вычислительная мощность. Структурная схема мультипроцессорной платы на базе ТMS320C6701 приведена на ри.11.
Рис.11. Структурная схема мультипроцессорного вычислителя на базе TMS320C6701.
Модуль ADP6701PCI фирмы "Инструментальные системы" (рис.12) построен на базе миропроцессора TMS320C6701 обладающего производительностью 1GFLOPS. Имеет в своем составе восемь параллельных вычислительных блоков, обеспечивает выполнение БПФ на 1024 отсчета за 109 мкс.
Рис.12. Общий вид процессорного модуля на базе TMS320C6701.
Отличительными особенностями платы является: буферная память тракта ввода 64Kx32, вывода 64Кх16, двухпортовая статическая память 64Кх32, синхронная динамическая память до 16 Мбайт. Благодаря гибкому аппаратному интерфейсу на ПЛИС , обеспечивается программная совместиость различных субмодулей.
Нейроускорители НТЦ "Модуль".
За период с 1989 по 1999 гг. в НТЦ "Модуль" разработан ряд образцов нейрокомпьютерных вычислительных систем на современной элементной базе ведущих зарубежных фирм и на основе нейропроцессора NeuroMatrix 6403 и 6404, созданного в НТЦ "Модуль" [10]. Среди широкой линейки различных ускорителей можно выделить: нейроускорители на основе универсальных сигнальных процессоров (в основном используется TMS320C4x) и нейроускорители на базе специализированного нейросигнального процессора NeuroMatrix, созданного в НТЦ Модуль. Примерами ускорителей первого типа являются ускорительные платы: М1, М2 и т.п.
Рис.13. Ускорительная плата М1
Рис.14. Структурная схема платы M1.
Ускорительная плата Ml
Выполнена на цифровых сигнальных процессорах TMS320C40 фирмы TEXAS INSTRUMENTS, связанных по высокоскоростным линкам. Имеется возможность каскадирования - подключения по линкам аналогичных плат. Внешний вид платы представлен на рис.13, а ее структурная схема на рис.14.
Основные характеристики:
- ISA-интерфейс;
- До четырех TMS320C40 с частотой 50 Мгц;
- Пиковая производительность 100 MIPS, 200MFLOPS, 1100 MOPS,
- Объем SRAM 5Мб (по1Мб на процессор + 1Мб разделяемый с IBM PC), время выборки 20 нсек;
- Объем DRAM - до 32Мб;
- 8 внешних связей (скорость - 20 Мб/с);
Ускорительная плата М2
Многопроцессорный модуль М2 цифровой обработки сигналов выполнен на цифровых сигнальных процессорах TMS320C40 фирмы Texas Instruments и представляет собой одноплатную многопроцессорную вычислительную машину. Модуль предназначен как для автономной работы, так и для функционирования в составе ПЭВМ с системной шиной VMEbus, в том числе состоящей из нескольких таких же модулей. Конструктивно блок выполнен в соответствии с механическим стандартом VMEbus IEEE 1014 (6U) (рис.15).
Рис.15. Ускорительная плата M2
Модуль М2 содержит:
- VME-bus контроллер;
- master/slave интерфейс;
- До шести TMS320C40 с частотой 50 Мгц;
- До 2Мб SRAM на процессор
- До 64Мб DRAM на плате;
- FLASH EEPROM до 0.5Мб;
- внешних связей (скорость - 20Мб/сек);
- JTAG-интерфейс;
- RS-232-интерфейс;
- общая производительность - до 300 MFLOPS.
Структурная схема ускорителя М2 приведена на рис.16.
Рис.16. Структурная схема платы М2
Назад |
Содержание |
Вперед