Рубрики
|
индикация |
события |
инструменты |
беспроводная связь |
датчики |
источники питания |
компоненты |
корпуса |
микроконтроллеры |
приборы |
промышленная мебель |
прочее |
сетевые решения |
силовая электроника |
средства разработки |
новые технологии |
Интересные статьи
Рубрика: микроконтроллеры
Результаты тестирования сигнальных процессоров
09.06.2008 В статье, воспроизводимой с любезного разрешения редакции журнала "Электронные компоненты и системы" (Киев, Украина), приведены результаты сравнительного тестирования сигнальных процессоров с фиксированной точкой: TMS320C64xx (Texas Instruments), ADSP-TS20x (Analog Devices) и MSC810x (Motorola). в качестве тестовых использовались программы, предложенные ассоциацией BDTI (Berkeley Design Technology, Inc.) для сравнительной оценки сигнальных процессоров разных типов. в результате тестирования получены количественные показатели быстродействия, уровня энергопотребления и использованного объема памяти.
При тестировании использованы две из двенадцати программ BDTI Benchmark: программа, реализующая КИХ-фильтр при
операциях с блоками данных, представленными вещественными числами (Real Block FIR Filter) и тестовая программа
Control Benchmark. В результате выполнения программ Real Block FIR Filter, оптимизированных для указанных типов
процессоров, было определено время их выполнения, а также вычислен показатель “стоимость-быстродействие”. Кроме
того, был определен объем памяти, необходимый для выполнения тестовых программ Control Benchmark [1–6].
Ассоциация BDTI специализируется на разработке алгоритмов и тестовых программ, а также выполняет количественную
оценку показателей производительности сигнальных процессоров разных типов. Результатами тестирования пользуются
многие ведущие производители микропроцессоров, а на web-сайте ассоциации (www. bdti.com) можно ознакомиться с
последними данными тестирования процессоров. Контрольные программы, которые применяются для тестирования сигнальных
процессоров, основаны на наиболее часто встречающихся алгоритмах, используемых при цифровой обработке сигналов:
алгоритме реализации двойного биквадратного БИХ-фильтра, адаптивного КИХ-фильтра и других типов фильтров; декодера
Витерби; быстрого преобразования Фурье и т.д. [2]. Для каждой тестовой программы вычисляется показатель
“стоимость-быстродействие”, а также определяются: время ее выполнения, число затрачиваемых машинных тактов,
эффективность использования энергоресурсов и памяти.
TMS320C64xx — высокопроизводительные сигнальные процессоры с фиксированной точкой,
созданные на базе архитектуры VLIW (Very Long Instruction Word). Первый процессор этого семейства был анонсирован в
2000 году [1, 3, 5, 6]. В 2003 году начался серийный выпуск процессоров TMS320C6414, TMS320C6415, TMS320C6416.
Тактовая частота этих процессоров достигает 1000 МГц (к примеру, TMS320C6416TGLZ1), а напряжение питания
процессорного ядра составляет 1,2...1,4 В. Стоимость процессора TMS320C6416TGLZ1 — 247 долларов США [3, 5]. Кроме
того, начиная с 2003 года, производятся процессоры TMS320DM640, TMS320DM641 и TMS320DM642, разработанные специально
для применения в мультимедийных приложениях, а в 2005 году начался серийный выпуск новых сигнальных процессоров
TMS320DM643. Эти процессоры содержат встроенные видеопорты (TMS320DM642 имеет три видеопорта) и один или два
многоканальных последовательных порта MsBSP, предназначенных для обмена данными с источниками аудиосигналов. Кроме
того, процессоры TMS320DM640/641/642/643 имеют 64-канальный контроллер прямого доступа к памяти (DMA), хост- и
PCI-интерфейсы. При тактовой частоте 720 МГц пиковая производительность TMS320DM642 составляет 5760 MIPS (Million
Instructions per Second – миллион инструкций в секунду). Стоимость самого мощного процессора TMS320DM642GNZ720 с
тактовой частотой 720 МГц — 67,79 долларов США [3, 5]. Соответственно менее мощные процессоры имеют меньшую
стоимость.
Базовое процессорное ядро TM-S320C64xx содержит восемь операционных блоков: два блока MAC и шесть ALU, четыре из
которых используются для арифметических вычислений, а два — для вычислений адресов. В вычислительном ядре
TMS320C64xx, как и в ранее выпущенных процессорах TMS320C62xx, выполняются операции с 8-, 16-, 32-и 40-разрядными
числами, а, кроме того, появилась возможность работы с 64-разрядными. В течение одного цикла могут выполняться
четыре операции умножения с 16-разрядными и восемь операций с 8-разрядными числами. В процессе вычислений все
операционные блоки могут использоваться одновременно, что дает возможность выполнять параллельно восемь 32-разрядных
инструкций. Ориентированные на применение в высокопроизводительных телекоммуникационных системах сигнальные
процессоры TMS320C6416 и TMS320C6418 содержат встроенный сопроцессор для реализации декодера Витерби (Viterbi
decoder Co-Processor – VCP). Процессор TMS320C6416, кроме того, имеет еще один встроенный сопроцессор TCP (Turbo
Decoder Coprocessor). К периферийным устройствам процессоров TMS320C64xx относятся: 16- или 32-разрядный хост-порт,
многоканальный контроллер DMA, контроллер PCI-шины, последовательные порты MsBSP, три 32-разрядных таймера и другие.
В табл. 1 приведены основные параметры сигнальных процессоров семейства TMS320C64xx [3, 5].
Летом 2005 года фирма Texas Instruments анонсировала новые изготовленные по CMOS-технологии 90 нм
высокопроизводительные сигнальные процессоры TMS320C6455 с тактовой частотой до 1000 МГц и максимальной
производительностью до 8000 MIPS [6]. При тактовой частоте 1000 МГц и работе с 16-разрядными числами в процессорном
ядре может выполняться до 8000 млн операций умножения в секунду. Новые процессоры созданы на базе модифицированного
процессорного ядра, получившего название C64+. Новое ядро позволило увеличить суммарную вычислительную мощность
процессоров этого типа. Сигнальные процессоры TMS320C6455 имеют объем встроенной памяти 2128 кбайт и содержат
высокоскоростные коммуникационные порты Serial RapidIO и Gigabit EMAC (Ethernet MAC), а также контроллер PCI-шины
(тактовая частота 33,66 МГц, 32-разрядная шина данных) и 16-/32-разрядный контроллер HPI (Host-Port Interface).
Пиковая скорость передачи данных через порт Serial RapidIO составляет 3,125 Гбит/с. Как и Link-порты, применяемые в
процессорах ADSP-TS201/202/203, порт Serial RapidIO предназначен для использования в первую очередь для обмена
данными в мультипроцессорных системах. Четыре независимых полнодуплексных канала Serial RapidIO дают возможность
построить многопроцессорную систему, состоящую из двумерного массива процессоров. Кроме того, имеются два
традиционных порта MsBSP и порт I2C. Контроллер внешней памяти поддерживает обмен данными с памятью типа SRAM, ROM,
FLASH, SBSRAM объемом до 32 Мбайт. Кроме того, новые процессоры TMS320C6455 поддерживают работу с 32-разрядной
памятью типа DDR2-500 SDRAM объемом до 256 Мбайт. Как и все процессоры семейства TMS320C64хх, новые содержат
64-канальный контроллер прямого доступа к памяти. Для формирования сигналов тактовых частот в TMS320C6455
реализованы две системы ФАПЧ (PLL). Одна из них (программно управляемая PLL1) генерирует тактовый сигнал частотой до
1000 МГц для работы процессорного ядра. Вторая (PLL2) с фиксированным коэффициентом умножения 10 используется для
формирования сигналов тактовых частот необходимых для работы контроллеров DDR2 SDRAM и Ethernet MAC. Основные
параметры сигнальных процессоров TMS320C64xx приведены в табл. 1. Напряжение питания процессорного ядра составляет
1,2 В, схем ввода/вывода – 3,3 В. Периферийные контроллеры Serial RapidIO, DDR2 SDRAM и Ethernet MAC имеют
соответственно напряжение питания 1,2 и 1,5/1,8 В. Сигнальные процессоры TMS320C6455 выпускаются в корпусе типа
697-PBGA (размерами 24×24 мм с шагом сферических выводов 0,8 мм) и предназначены для работы в диапазоне температур
от 0 до 90°С. Стоимость новых процессоров от 202 до 292 долларов США [5].
Таблица 1. Основные параметры сигнальных процессоров TMS320C64xx
| Наименование параметра |
тип процессора TMS320… |
| C6414 |
C6415 |
C616 |
DM641 |
DM642 |
DM643 |
| Макс. тактовая частота, МГц |
100 |
600 |
720 |
600 |
| Максимальная производительность, MIPS
|
8000 |
4800 |
5760 |
4800 |
| Объем встроенной памяти, Мбайт |
1,032 |
0,16 |
0,288 |
| Число каналов DMA |
64 |
| Число таймеров |
3 |
| Напряжение питания ядра (схем ввода/вывода), В |
1,2 (3,3) |
1,2...1,4 (3,3) |
| Потребляемая мощность, Вт (тактовая частота, МГц) |
1,7 (720) |
1,9 (600) |
2,15 (720) |
1,9 (600) |
| Интерфейсы (число) |
HPI 16-/32-разр.; MsBSP(3) |
PCI; HPI 16-/32-разрядн.; MsBSP(2) |
HPI 16-раз-рядн.; EMAC; два видеопорта |
HPI 32-раз-рядн.; EMAC; PCI; три видеопорта |
HPI 32-раз-рядн.; EMAC; два видеопорта |
| Число выводов и тип корпуса (размеры, мм) |
532-BGA (23Ч23) |
548-BGA (27Ч27) |
| Диапазон рабочих температур, °С |
0...90/-40...105 |
| Стоимость, $ в партии 1000 шт. |
85,85...213,63 |
90,37...224,87 |
99,41...247,36 |
30,77...33,84 |
42,89...67,79 |
31,95...34,95 |
ADSP-TS201/202/203 — сигнальные процессоры семейства Tiger SHARC. В это семейство включены процессоры первого
(ADSP-TS101) и второго поколения (ADSP-TS201/202/203). В табл. 2 приведены основные параметры сигнальных процессоров
семейства Tiger SHARC [4].
Таблица 2. Основные параметры сигнальных процессоров семейства Tiger SHARC
| Наименование параметра |
тип процессора ADSP-… |
| TS101S |
TS201S |
TS202S |
TS203S |
| Макс. тактовая частота, МГц |
300 |
600 |
500 |
| Максимальная производительность, MIPS |
2400 |
4800 |
4000 |
| Объем (тип) встроенной памяти, Мбайт |
0,75 (SRAM) |
3 (DRAM) |
1,5 (DRAM) |
0,5 (DRAM) |
| Разрядность внешней шины данных, бит |
32/64 |
32 |
| Число каналов DMA |
14 |
10 |
| Скорость обмена данными через Link-порт, Гбайт/с |
0.25 |
1.0 |
0.5 |
| Интерфейс (число) |
Link (4) |
Link (2) |
| Напряжение питания ядра (схем ввода/вывода), В |
1,2 (3,3) |
1,05…1,2 (2,5); 1,2 (2,5) |
1,0 (2,5) |
| Ток потребления, типов., А |
|
|
|
|
| Число выводов и тип корпуса (габаритные размеры, мм) |
484-PBGA (19Ч19); 625-PBGA (27Ч27) |
576-PBGA (25Ч25) |
| Число таймеров |
2 |
| Диапазон рабочих температур, °С |
-40…85 |
| Стоимость, $ в партии 1000 шт. |
159… 193 |
205…223 |
149 |
47 |
Архитектура вычислительного ядра ADSP-TS201/202/203 создана на базе архитектуры процессорного ядра ADSP-TS101.
Особенность процессоров ADSP-TS201/202/203 — большой объем встроенной памяти типа DRAM [4]. К примеру, объем памяти
сигнального процессора ADSP-TS201 составляет 24 Мбит. Все процессоры семейства ADSP-TS20x содержат:
высокопроизводительное вычислительное ядро, которое относится к системам типа SIMD (Single Instruction Multiple
Data); большой объем динамической памяти; мощные периферийные контроллеры Link-портов (до четырех 8-разрядных
полнодуплексных портов), поддерживающие через каждый из портов обмен данными со скоростью до 1 Гбайт/с. Архитектура
процессорного ядра сочетает все достоинства RISC (Reduced Instruction Set Computer), VLIW и традиционной архитектуры
цифровых сигнальных процессоров. Для обработки потоков данных в этих сигнальных процессорах имеются два полноценных
вычислительных устройства, содержащих: ALU, умножитель/накопитель 32×32 разряда с 80-разрядным аккумулятором,
64-разрядное устройство сдвига, регистровый файл объемом тридцать два 32-разрядных регистра. Кроме того, имеются еще
два дополнительных целочисленных 32-разрядных ALU: JALU и KALU. Таким образом, четыре ALU позволяют выполнять
параллельно четыре операции с 32-разрядными числами. Вместе с тем, хотя сигнальные процессоры семейства Tiger SHARC
относятся к 32-разрядным процессорам с плавающей точкой, возможности их архитектуры и организация работы
вычислительных устройств позволяют выполнять также операции с 8-, 16-, 32- и 64-разрядными числами с фиксированной
точкой. В течение каждого цикла в процессорном ядре может выполняться четыре инструкции и при этом совершаться до
двадцати четырех операций с 16-разрядными числами с фиксированной точкой или шесть операций с числами с плавающей
точкой. Возможность работы с данными, представленными в разных форматах, позволяет значительно увеличить
производительность этих сигнальных процессоров. Кроме того, дополнительные целочисленные ALU могут работать в двух
режимах. В первом устройства JALU и KALU используются в качестве генераторов адресов при косвенной адресации к
встроенной и внешней памяти, во втором они используются для целочисленной обработки данных (выполнения операций
сложения, вычитания и т.п.). Максимальная производительность самого мощного ADSP-TS201 составляет 4800 MMACS
(Million Multiplication Accumulation per Second — миллионов операций умножения с накоплением в секунду). Архитектура
сигнальных процессоров Tiger SHARC ориентирована в первую очередь на создание высокопроизводительных
мультипроцессорных систем.
Быстродействие
Рис. 1. время выполнения программы Real Block FIR Filter
На рис. 1 приведено время выполнения программы Real Block FIR Filter для разных типов сигнальных процессоров. В этом
тесте данные и программный код размещаются в кэш-памяти процессоров. Как следует из приведенных данных, сигнальный
процессор TMS320C6414 с тактовой частотой 720 МГц затрачивает на выполнение программы Real Block FIR Filter чуть
больше времени, чем процессор ADSP-TS201S, работающий с тактовой частотой 600 МГц. По сравнению с MSC8103 (300 МГц)
скорость выполнения этого теста процессором TMS320C6414 более чем в два раза выше. Это обусловлено не только высокой
тактовой частотой (720 МГц), но и возможностью параллельного выполнения нескольких операций. Для выполнения данного
теста и в MSC8103, и в процессоре TMS320C6414 затрачивается примерно одинаковое число машинных тактов, однако
тактовая частота TMS320C6414 более чем в два раза выше, чем в MSC8103, поэтому процессор TMS320C6414 и показал
лучший результат в сравнении с MSC8103. Программа Real Block FIR Filter отличается тем, что в процессе ее выполнения
необходимо производить большое число операций умножения с суммированием. Однако не только эта особенность
существенно влияет на конечный результат. К примеру, в сигнальном процессоре ADSP-TS201S может в течение одного
цикла выполняться восемь 16-разрядных операций умножения. Это вдвое больше, чем в MSC8103 и TMS320C6414. Вместе с
тем в ADSP-TS201S затрачивается много “пустых” машинных тактов на упорядочивание результатов умножения, что, в
конечном счете, приводит к снижению уровня “полезной” производительности этого процессора. Именно поэтому результат,
полученный в данном тесте, не такой высокий, какого можно было бы ожидать от процессора ADSP-TS201S, сравнивая его с
другими рассматриваемыми в статье процессорами только по показателю производительности, выраженному в числе операций
умножения с накоплением, выполняемых в секунду (MMACS).
Показатель “стоимость-быстродействие”
Чтобы получить числовое значение показателя “стоимость-быстродействие” (мкс×$), используется
результат умножения времени выполнения тестовой программы Real Block FIR Filter на стоимость той модификации
процессора в данном семействе, которая отличается наименьшей ценой среди сигнальных процессоров рассматриваемых
семейств. Числовые значения показателей “стоимость-быстродействие” для разных типов сигнальных процессоров приведены
на рис. 2. Принимая во внимание полученные результаты, сигнальный процессор ADSP-TS203S с тактовой частотой 500 МГц
по сравнению с другими рассматриваемыми в статье процессорами имеет наилучший показатель “стоимость-быстродействие”.
Этот показатель ADSP-TS203S в пять раз лучше, чем процессора MSC8103 (300 МГц) и примерно на 30% лучше, чем
TMS320DM642 (500 МГц). Объем встроенной памяти и число периферийных контроллеров, интегрированных на кристалле, в
значительной мере оказывают влияние на общую стоимость. Однако эти факторы не учитываются при вычислении
количественных показателей “стоимость-быстродействие” для рассматриваемых в статье типов сигнальных процессоров.
Рис. 2. Показатели “стоимость-быстродействие” сигнальных процессоров
Уровень энергопотребления
Уровень энергопотребления (Ватт/ мкс) оценивается по количественному показателю, который получается в результате
умножения типового значения потребляемой процессорами мощности на время выполнения программы Real Block FIR Filter.
При определении этого показателя используются характеристики тех моделей процессоров из рассматриваемых семейств,
которые отличается наилучшей эффективностью использования энергоресурсов. На рис. 3 приведен уровень
энергопотребления сигнальных процессоров при выполнении ими тестовой программы Real Block FIR Filter.
Рис. 3. Уровень энергопотребления сигнальных процессоров
Основываясь на данных, полученных в результате тестирования, можно отметить следующее. Хотя процессор TMS320DM642
имеет меньшее быстродействие по сравнению с ADSP-TS201S при работе с тактовой частотой 500 МГц, уровень его
энергопотребления почти в 2,5 раза меньше, чем процессора ADSP-TS201S, и почти в два раза меньше, чем MSC8103 (300
МГц). Вместе с тем процессор TMS320DM642 (500 МГц) имеет на 35% большее быстродействие почти такие же показатели по
потребляемой мощности, что и MSC8103 (300 МГц).
Используемый объём памяти
Рис. 4. Объем используемой памяти
Тестовая программа Control Benchmark создана специально для оценки объема памяти, используемого при выполнении
программ, предназначенных для решения задач управления/контроля. Программный код, необходимый для выполнения таких
задач, как правило, занимает львиную долю в суммарном объеме памяти пользовательской программы. В то же время
длительность выполнения таких программ составляет лишь малую часть общего времени выполнения пользовательской
программы. Таким образом, проблема минимизации объема памяти, необходимого для хранения программ, ориентированных на
решение задач управления/контроля, значительно более важная, чем минимизация времени ее выполнения. В то время как
почти все тестовые программы BDTI Benchmark оптимизированы для увеличения скорости вычислений, главная цель при
разработке тестовых программ Control Benchmark — минимизировать используемый объем памяти. Этот подход в полной мере
отражает общепринятый принцип, используемый прикладными программистами. Следует особо подчеркнуть, что полученные
при использовании теста Control Benchmark результаты никоим образом не связаны с объемом памяти, используемой при
выполнении программ цифровой обработки сигналов.
На рис. 4 приведен объем используемой памяти, необходимый для выполнения тестовых программ Control Benchmark для
разных типов сигнальных процессоров. Большое различие в показателях для разных типов процессоров обусловлено в
первую очередь отличиями в размерах исполняемых инструкций. Как видно из данных, приведенных на рис. 4, для
выполнения тестовой программы Control Benchmark сигнальные процессоры MSC810х (SC140) используют наименьший объем
памяти. Это обусловлено тем, что в этих процессорах используются как 16-разрядные, так и 32-разрядные инструкции.
При выполнении этого теста используются преимущественно 16-разрядные инструкции. В системе команд, реализованной в
процессорах ADSP-TS201S и TMS320С64хх, используются инструкции, имеющие длину 32 разряда. Как результат, при
выполнении данного теста эти процессоры имеют примерно одинаковые показатели, которые намного хуже в сравнении с
MSC810х.
Рис. 5. Показатели производительности BDTImark2000 сигнальных процессоров разных
типов
На рис. 5 приведены обобщенные показатели производительности рассматриваемых в статье процессоров, полученные в
результате их тестирования с использованием всех двенадцати базовых контрольных алгоритмов BDTImark2000 (май 2005
года).
Более полную информацию о рассмотренных сигнальных процессорах можно найти по адресам [3, 4].
Литература
- A BDTI Analysis of the Texas Instruments TMS320C64xx. – BDTI, 2004 (http://www.bdti.com).
- The BDTImark2000. A Summary Measure of Signal Processing Speed. A White Paper by Berkeley Design Technology,
Inc. – BDTI, September, 2004 (http://www.bdti.com).
- http://www.ti.com.
- http://www.analog.com.
- DSP Selection Guide. Digital Signal Processors, OMAP Processors, System Solutions, Development Tools. – Texas
Instruments, 3Q, 2005, (http://www.ti.com).
- TMS320C6455 Fixed-Point Digital Signal Processor. – Texas Instruments, 2005, (http://www.ti.com).
В. Охрименко (c)
другие статьи
Комментарии
Комментариев нет. Ваш комментарий будет первым.
Чтобы оставить свой комментарий Вам необходимо зарегистрироваться.