АвтоАвтоматизацияАрхитектураАстрономияАудитБиологияБухгалтерияВоенное делоГенетикаГеографияГеологияГосударствоДомДругоеЖурналистика и СМИИзобретательствоИностранные языкиИнформатикаИскусствоИсторияКомпьютерыКулинарияКультураЛексикологияЛитератураЛогикаМаркетингМатематикаМашиностроениеМедицинаМенеджментМеталлы и СваркаМеханикаМузыкаНаселениеОбразованиеОхрана безопасности жизниОхрана ТрудаПедагогикаПолитикаПравоПриборостроениеПрограммированиеПроизводствоПромышленностьПсихологияРадиоРегилияСвязьСоциологияСпортСтандартизацияСтроительствоТехнологииТорговляТуризмФизикаФизиологияФилософияФинансыХимияХозяйствоЦеннообразованиеЧерчениеЭкологияЭконометрикаЭкономикаЭлектроникаЮриспунденкция

Микроархитектурный уровень процессора

Читайте также:
  1. A.Прикладной уровень
  2. B15 (высокий уровень, время – 10 мин)
  3. Cредний уровень
  4. D.Транспортный уровень
  5. F.Канальный уровень
  6. II. СВЕТСКИЙ УРОВЕНЬ МЕЖКУЛЬТУРНОЙ КОММУНИКАЦИИ ОТНОСИТЕЛЬНО ПРИНЦИПОВ ПОЛИТИЧЕСКОЙ СПРАВЕДЛИВОСТИ
  7. III уровень. Формирование словообразования существительных
  8. IV уровень. Формирование словоизменения прилагательных
  9. S: Управление риском или как повысить уровень безопасности
  10. А — одностороннее боковое освещение; б — двустороннее боковое освещение; в — верхнее освещение; г — комбинированное освещение: 1 — уровень рабочей плоскости
  11. А11 (повышенный уровень, время – 3 мин)
  12. Анализ влияния отдельных факторов на уровень затрат по оплате труда

Микроархитектурный уровень связан с интерпретацией команд, предусмотренных архитектурой команд процессора. Его организация зависит от выбора компромисса между критериями, основными из которых являются производительность и стоимость (аппаратная сложность) процессора. Основными характеристиками, определяющими производительность процессора, являются:

- количество циклов (тактов), необходимое для выполнения команд;

- длительность цикла, определяющая тактовую частоту процессора;

- возможность параллельного выполнения нескольких операций с применением конвейеризации и суперскалярной организации вычислений.

Организация простейшей микроархитектуры процессора представлена в общем виде на рис. 5.7.

Схема, изображенная на рис. 5.7, реализует процесс поочередного выполнения извлекаемых из памяти команд под контролем блока микропрограммного управления, в функции которого входят:

- определение адреса и инициация выборки очередной команды из памяти;

- дешифрация команды;

- последовательное считывание из управляющей памяти соответствующих микрокоманд и инициация их выполнения вычислительным трактом процессора.

Сосредоточение всех указанных функций в едином блоке микропрограммного управления, а также использование вычислительного тракта процессора для определения адреса и выборки очередного кода команды из памяти, ограничивают возможность конвейеризации выполнения команд.

Конвейеризация (pipelining) предполагает структурирование процесса обработки каждой инструкции (команды) в виде последовательности этапов, каждый из которых связан с определенной функциональной ступенью конвейера. Такими ступенями могут быть: предвыборка команды, декодирование, формирование адресов и выборка операндов, выполнение команды, запись результата. Это естественный (классический) конвейер, для реализации которого схема микроархитектурного уровня должна быть преобразована к виду, представленному на рис. 5.8. В этой схеме процессы выборки и дешифрации (декодирования) команд выделены в отдельные аппаратные блоки, выполняющие свои функции самостоятельно, без использования вычислительного тракта процессора и блока микропрограммного управления. При этом последний оперирует микропрограммами меньшей длины, включающими только микрокоманды непосредственного выполнения инструкций.

Блок выборки команд может быть построен с использованием сдвигающего регистра, загружаемого из памяти кодами команд в порядке их следования, и ряда дополнительных регистров для копирования в них в порядке поступления в сдвигающий регистр полей определенной длины. Это могут быть однобайтовые или двухбайтовые поля выделяемых кодов операций, словарные поля извлекаемых непосредственных операндов или смещений и другие. В результате в готовом виде получаются все данные, необходимые для функционирования последующих блоков процессора.

 

Блок дешифрации команд может быть организован с использованием в качестве основы постоянного запоминающего устройства (ПЗУ), например, архитектуры 2D. Каждая строка ПЗУ, адресуемая кодом операции, содержит два поля. В первом поле указана длина соответствующей команды, во втором – адрес ее первой микрокоманды в управляющей памяти процессора. Длина команды необходима для правильного использования регистров, загруженных блоком выборки команд. Указанный адрес первой микрокоманды служит отправной точкой для формирования на основании содержимого управляющей памяти очереди микрокоманд последовательного выполнения инструкций. При этом, из кодов микрокоманд, включаемых в очередь, исключается за ненадобностью поле «Следующий адрес». Поле «Условие» оставляется только в микрокомандах с условным переходом, имеющих специальный формат с полем для указания адреса микроперехода. Такие команды помечаются установкой специально отведенного для этого бита. В формате микрокоманд предусмотрен также специальный бит завершения,

отмечающий последнюю микрокоманду микропрограммы.

Очевидно, рассмотренный процесс формирования очереди микрокоманд может быть выделен в отдельный аппаратный блок (блок формирования очереди), реализующий дополнительную ступень конвейера.

Блок микропрограммного управления в каждом своем цикле (такте) выполняет с использованием вычислительного тракта процессора очередную (взятую из очереди) микрокоманду. При этом, цикл складывается из следующих последовательных этапов:

- считывание из очереди кода микрокоманды и установление сигналов управления вычислительным трактом процессора (сигналов активизации регистров, управления АЛУ и других);

- загрузка во входные шины АЛУ содержимого активизированных регистров;

- срабатывание АЛУ и схемы сдвига;

- стабилизация сигналов на выходной шине АЛУ и загрузка результатов в активизированные регистры.

Заметим, что каждый из перечисленных этапов выполняется своей частью аппаратуры блока микропрограммного управления и вычислительного тракта процессора. На каждом этапе задействована только одна аппаратная часть, другие в это время простаивают. Это можно использовать для увеличения глубины (числа ступеней) конвейера, если непрерывный процесс выполнения указанных шагов в одном цикле разорвать введением дополнительных регистров-защелок для фиксации состояний шин вычислительного тракта (рис. 5.9) и поочередной (потактовой) активизации управляющих сигналов кода микрокоманды. Сначала активизируются сигналы управления доступом к входным шинам, затем сигналы управления АЛУ и схемой сдвига и только потом сигналы управления доступом к выходной шине. Каждый такой шаг выполняется быстрее, чем полный цикл вычислительного тракта. Поэтому тактовую частоту процессора можно повысить, и пустить по новым ступеням конвейера поток микрокоманд (точнее сказать, микроопераций).

Конвейеризация, как способ повышения производительности процессора, хорошо работает с линейным кодом программы. Продвижение по ступеням конвейера последовательно выбираемых команд одна за другой экономит общее время, затрачиваемое на выполнение программы. Число ступеней (глубина) конвейера от процессора к процессору может

меняться. Так, у процессора Pentium конвейер пятиступенчатый, глубина конвейера Pentium II составляет 12, Pentium III – 10, а у Pentium IY она достигает 20 ступеней (Hyper Pipelined Technology). Увеличение длины конвейера, связанное с декомпозицией процесса выполнения команды на более мелкие (а значит более быстрые) этапы, позволяет существенно увеличить частоту процессора. Однако, надо заметить, что каждая команда при этом выполняется дольше, т.к. проходит большее число этапов. Это приводит к потерям времени при очищении и перезагрузке конвейера в случаях ошибок в предсказании переходов.

 

Технология предсказания переходов (прогнозирования ветвлений), широко применяемая в современных процессорах, направлена на то, чтобы сохранить сформированный конвейер, не снижая его производительности. Поскольку декодирование происходит на следующей стадии после выборки команды, то до распознания команды перехода и определения нового направления выборки команд уже могут быть вызваны некоторые коды ненужных команд. Для исключения таких ситуаций может быть применена технология отсрочки ветвления, согласно которой компилятор заполняет одну или несколько позиций после команды перехода полезными с его точки зрения командами или пустыми командами, не производящими никаких действий. Это не нарушает правильности выполнения программы, но приводит к значительным потерям на холостых циклах. Поэтому в современных процессорах предусматриваются специальные аппаратные средства предсказания переходов.

Различают технологии динамического и статического прогнозирования переходов. Первые реализуют прогнозы непосредственно в ходе выполнения программы и связаны с построением довольно сложных аппаратных средств. Вторые основную нагрузку возлагают на компиляторы, которые априори анализируют ситуации, связанные с условными переходами и с помощью определенных битов кода (по сути дела новой команды) сообщают аппаратному обеспечению направление перехода. Иногда статическое прогнозирование выполняется компилятором на основании результатов прокрутки программы с фиксацией всех ее переходов. После этого компилятор вносит в программу все необходимые коррективы.

Динамическое предсказание переходов предусматривает наличие в составе аппаратного обеспечения процессора специального блока BTB (Branch Target Buffer– буфер цели перехода). Широко распространенным подходом к организации такого блока является фиксация всех переходов в специальной таблице динамики переходов. Строка таблицы содержит поля для указания ее достоверности (один бит), адреса (или тега) команды перехода и одного или нескольких битов прогнозирования перехода. Возможно также наличие поля для непосредственного сохранения целевого адреса последнего перехода. По m младшим разрядам адреса очередной выбранной команды перехода определяется строка таблицы (общее число строк 2m) и проверяется совпадение указанного в ней тега со старшей составляющей адреса команды. Если совпадение имеет место и строка достоверна, то, в соответствии с битом (битами) прогноза, определяется переход. При несовпадении срабатывает та или иная предусмотренная эвристика (например, можно пойти вперед по линейному коду или отдать предпочтение переходу назад). Рассмотренная организация таблицы аналогична организации кэш-памяти прямого отображения. Очевидно, для придания большей гибкости системе в плане разрешения конфликтных ситуаций (на одно и то же место в таблице могут претендовать многие команды перехода) целесообразно использовать более сложную таблицу с многовходовой наборно-ассоциативной или полностью ассоциативной организацией.

Ассоциативная память BTB процессора Pentium IY хранит 4096 адресов ранее выполненных переходов (для сравнения, BTB Pentium III рассчитан на 512 переходов). Предусмотренные биты прогнозирования фиксируют предысторию ветвления, анализ которой позволяет определить наиболее часто реализуемое направление перехода. При этом обеспечивается 90-процентная вероятность правильного предсказания [27].

Процессор с единственным конвейером называется скалярным в отличие от суперскалярного процессора, имеющего два и более конвейеров, обрабатывающих инструкции параллельно. Основная идея суперскалярной архитектуры состоит в преобразовании исходной последовательной программы в как можно большее количество параллельных динамических вычислительных структур, одновременная реализация которых ускоряет выполнение программы. При этом речь идет о параллельности уровня команды.

Суперскалярная архитектура процессора Pentium базируется на двух пятиступенчатых конвейерах. Главный конвейер (u-конвейер) способен выполнять произвольные команды. Второй конвейер (v-конвейер) может выполнять только простые команды с целыми числами и одну простую команду с плавающей точкой (FXCH – обмен данными между регистрами стека). Претендующая на параллельное выполнение пара команд должна быть совместимой для этого.

Увеличение числа конвейеров путем дублирования полного (или почти полного) состава блоков требует создания громоздкого аппаратного обеспечения. Поэтому, начиная с микроархитектуры Pentium Pro, используется более рациональный подход, реализующий идею одного (главного) конвейера с распараллеливанием только самых сложных его этапов. Этот могут быть этапы декодирования команд и непосредственного выполнения микрокоманд функциональными блоками. Пример такого лежит в основе микроархитектуры процессора Pentium II.

       
   
 
 
 
 


1 | 2 |

Поиск по сайту:



Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Студалл.Орг (0.005 сек.)