Количество текстурных блоков в видеокарте на что влияет
Влияние количества исполнительных блоков на общую производительность архитектуры Nvidia G8x
Поводом для исследования вопроса производительности архитектуры Nvidia G8x при разном количестве активных шейдерных блоков и написания этой небольшой заметки, послужили как уже существующие урезанные решения среднего и младшего уровня этой архитектуры, так и возможные будущие решения обеих лидирующих на рынке компаний, разрабатывающих видеочипы, в которых количество универсальных шейдерных блоков (а, скорее всего и соотношение количества блоков разного назначения) будет изменено.
Очень интересно, насколько отличается производительность подобных решений при разном количестве блоков, исполняющих вершинные и пиксельные шейдеры в уже существующих играх. Исследование поможет оценить и то, насколько сильно на скорости рендеринга сказывается шейдерная производительность, и как сильно современные игры ограничены скоростью текстурирования и филлрейтом.
В топовых видеочипах имеется большое количество ALU, которые занимаются исполнением всех типов шейдеров, но нужно ли такое их количество существующим приложениям? Нагружают ли имеющиеся игры эти блоки соответствующим количеством пиксельных и вершинных шейдеров (про геометрические пока даже не заикаемся) или можно было бы ограничиться меньшим числом таких блоков, и сниженное их количество в чипах среднего и низшего ценового диапазонов оправдано?
Сегодня мы постараемся ответить на все эти вопросы, исследовав сравнительную производительность Geforce 8800 GTX в нескольких распространенных играх при разном количестве активных блоков. Как вы знаете, в G80 общее число этих блоков равно 128. При помощи известной утилиты RivaTuner от Алексея Николайчука, которая позволяет отключать эти блоки, мы сделали замеры производительности с 32, 64, 96 и 128 активными блоками для того, чтобы оценить сравнительную скорость рендеринга в известных играх, список которых приведен ниже. К сожалению, «чистого» исследования сделать не удастся, так как в архитектуре G8x нельзя отключить исполнительные блоки ALU отдельно от блоков текстурирования (TMU).
Конфигурация и настройки тестовой системы
Использовались два режима видеонастроек: стандартный режим наиболее распространенного разрешения 1280×1024 (или ближайший к нему 1280×960 для игр без поддержки такового) без использования анизотропной фильтрации и антиалиасинга; и режим высокого качества с разрешением экрана 1600×1200 пикселей, с включенными мультисэмплингом 4x и анизотропной фильтрацией максимально возможного уровня 16x. Два режима были выбраны для того, чтобы исключить упор в производительность CPU и другие исполнительные блоки GPU.
Набор игр, использовавшихся в наших тестах, включает только стандартные бенчмарки, часто используемые в статьях: Quake 4, F.E.A.R., Serious Sam 2, Call of Juarez, Company of Heroes, S.T.A.L.K.E.R.: Shadow of Chernobyl. Игры, не предоставляющие стандартных средств для измерения производительности, в этот раз не применялись, для предлагаемого исследования достаточно и представленных выше. Из дополнительного программного обеспечения использовалась утилита RivaTuner 2.02.
Результаты тестирования
Quake 4 1.3
Игра использует графический движок, появившийся еще в игре DOOM 3 три года назад. Он уже порядком устарел и полученные нами результаты не должны сильно зависеть от количества исполнительных шейдерных блоков. Кроме того, Quake 4 достаточно процессорозависим, так как использует центральный процессор системы в алгоритме расчета и наложения теней, и для расчета физических взаимодействий. Рассмотрим на практике сначала «легкий» режим:
Так и есть, процессорозависимость в разрешении 1280×1024 налицо. Снижение производительности отмечено только при 32 активных шейдерных блоках, в остальных случаях скорость близкая. Рассматриваем «тяжелый» режим:
Вот тут уже видно, что в таком режиме с включенными анизотропной фильтрацией и антиалиасингом, нагружающим видеокарту, скорость ограничена в том числе количеством и мощностью шейдерных блоков и блоков текстурирования, только при переходе от 96 к 128 блокам скорость сильно ограничена чем-то другим и мало зависит от количества активных ALU. Интересно, что даже такая устаревшая игра, как Quake 4, довольно сильно зависит от мощности исполнительных блоков, можно было бы ожидать большей зависимости от блоков ROP. Хотя зависимость от количества исполнительных блоков не полная, игре явно хватило бы и меньшего количества шейдерных блоков, чем есть в наличии у G80.
Игра F.E.A.R. также использует для наложения теней алгоритмы, схожие с теми, что есть в DOOM 3 и использует CPU для физических расчетов, что может ограничивать производительность в «легком» режиме. Но всё же в F.E.A.R. скорость рендеринга более всего зависит от мощности видеокарты, от филлрейта и пропускной способности памяти. Проверим, что получится при тестировании встроенным бенчмарком в первом тестовом режиме:
Как и в предыдущем случае, скорость ограничена центральным процессором, и количество активных ALU у G80 не сильно влияет на общую производительность. Смотрим более сложные условия:
Наше раннее предположение в том, что скорость в большей степени ограничена филлрейтом, не оправдывается. Зависимость от количества шейдерных и текстурных блоков имеется, хотя и не такая явная. Ситуация почти полностью повторяет ту, что мы видели в Quake 4, прирост производительности невелик только в последнем случае, а до того прослеживается явное влияние мощи исполнительных блоков на общую скорость рендеринга, хотя и не соответствующее их сравнительному количеству.
Serious Sam 2
Еще одна довольно старая игра, производительность которой больше зависит от видеокарты, особенно на уровнях с не очень большим количеством врагов. Движок игры не ставит особенно сложных задач перед блоками исполнения шейдеров, зато нагружает текстурные, поэтому мы, скорее всего, увидим примерно ту же картину, что и в двух уже исследованных играх.
Легкий режим традиционно показывает упор в скорость CPU, и только в случае с 32 активными блоками ALU наблюдается сильный спад общей производительности, когда скорость рендеринга значительно снижается. В сложном режиме такого повториться не должно:
Видим почти то же самое, что и в других протестированных играх, хотя зависимость производительности от количества активных блоков тут еще заметнее, особенно в случае 32 и 64 шейдерных блоков. Но даже потом зависимость остаётся явной, игра получает прирост скорости рендеринга, в том числе от увеличения количества активных блоков ALU до 96 и 128 штук. Но, судя по всему, не сами по себе блоки ALU служат ограничивающим скорость фактором, а «привязанные» к ним блоки текстурирования.
Call of Juarez
Это уже относительно новая игра, отличающаяся весьма технологичным игровым движком (в нашем материале использовалась Direct3D 9 версия игры). Как мы определили в технологическом обзоре, производительность в Call of Juarez более всего ограничена видеокартой, именно на неё ложится большая нагрузка. В игре много геометрии и очень много пиксельной обработки, которой занимаются как раз те блоки, количество которых мы сегодня изменяем. Процессор может ограничивать производительность только из-за большого количества вызовов отрисовки, но в игре есть оптимизации, снижающие это воздействие, так что скорость CPU не должна стать серьёзным ограничивающим фактором в этот раз.
Это, пожалуй, первая игра, в которой мы видим такую явную зависимость от количества шейдерных и текстурных блоков даже в легком режиме. И эта зависимость почти одинакова для обоих режимов, игра в очередной раз подтверждает то, что скорость рендеринга в ней зависит от мощности видеокарты, прежде всего. Видно, что скорость увеличивается с каждым шагом очень сильно, хотя и не прямо пропорционально количеству блоков. Это говорит о том, что количество и мощность блоков по выполнению вершинных и пиксельных шейдеров в Call of Juarez оказывает сильнейшее влияние на получаемую частоту кадров в секунду.
Company of Heroes
А вот игра, не являющаяся шутером от первого лица, а стратегией в реальном времени. К сожалению, встроенный бенчмарк в Company of Heroes не отражает игровой производительности, там показывается скриптовый ролик, мало похожий на саму игру, но все же будет интересно посмотреть на разницу в скорости рендеринга кинематографических сцен движком игры с разным количеством активных блоков GPU. Использовалась Direct3D 9 версия игры. Рассмотрим сначала легкий режим:
Пусть здесь зависимость и не такая явная, как в Call of Juarez, но она явно больше, чем в старых играх, которые были в начале. Упор в центральный процессор наблюдается только в случае 96 и 128 блоков, выполняющих вершинные и пиксельные шейдеры.
В тяжелом режиме ситуация почти повторяет ту, что мы видели в прошлый раз: приросты скорости от увеличения количества ALU есть всегда, и довольно большие. Хотя частота кадров и зависит в том числе от мощности других блоков видеочипа, зависимость от мощности шейдерных и текстурных вычислений велика, особенно в случае 32 и 64 процессоров.
S.T.A.L.K.E.R.: Shadow of Chernobyl
Эта самая новая игра включена в статью из-за своей популярности и технологической «продвинутости», в ней используются многие новые и интересные технические решения. К счастью, после патчей разработчики игры добавили возможность записи и проигрывания демок, а также соответствующего почти полноценного тестирования производительности. «Почти полноценного» потому, что в демке не записывается геймплей, а просто производится «облёт» местности, что хоть не позволяет считать такое тестирование геймплейным, но всё же лучше, чем ничего. Смотрим, что у нас получается в режиме 1280×1024 при условии максимальных игровых настроек:
Как и в первых протестированных играх, скорость рендеринга очень сильно ограничена мощностью центрального процессора, небольшая разница в полученном количестве кадров в секунду есть лишь в случае наименьшего количества активных исполнительных блоков. Посмотрим, что получится в более сложном режиме:
К сожалению, Direct3D 9 движок игры не позволяет использовать мультисэмплинг, поэтому для видеокарты задача сильно облегчена. Что мы и видим в полученных цифрах производительность уменьшена только в случае 32 активных шейдерных блоков, в остальных случаях она примерно равна. Причем, как видите сами, при изменении режима производительность уменьшилась совсем чуть-чуть, что говорит о сильном упоре скорости в мощность CPU или в какой-то другой параметр, но явно не в возможности GPU. Это делает тестирование Direct3D 9 режима почти бесполезным для наших сегодняшних тестов, в таком случае производительность игры не зависит ни от количества ALU, ни от количества TMU, исключая самую слабую конфигурацию.
Выводы
Анализируем стоимость текстурирования в современных видеокартах
реклама
С момента появления первых серьёзных ускорителей трёхмерной графики, показатель производительности блока наложения текстур (Texture Mapping Unit, TMU) считался одним из самых важных при выборе 3D ускорителя. По сути, наложение текстур до сих пор является базовым функционалом, который присутствует в любом графическом ускорителе. Более того, этот функционал не желает никуда уходить и, судя по всему, будет сопровождать нас на протяжении ещё нескольких десятилетий, потому что титаны мировой индустрии всеми силами отказываются от перехода на воксельные технологии, продолжая кормить нас треугольными полигонами с текстурами. В итоге мы имеем то, что от факта того, насколько быстро видеокарта наложит текстуры на 3D модели объектов, зависит то, насколько быстро мы сможем увидеть объект на экране.
Понятно, что со временем технологии менялись, процесс визуализации сцены усложнялся и по одному только параметру скорости наложения текстур нельзя измерять производительность всей видеокарты, но всё это не может отрицать роли блока текстурирования, ведь если не будет текстур, то на экране мы увидим только WireFrame, палочки каркаса, понять происходящее в игре по которым будет практически невозможно.
реклама
Мы можем прожить без «вау» специальных эффектов (FX, effects) типа красивых перекатов волн морской воды, развевающихся на ветру белых волос эльфийки или огня с искрами от костров орков. Мы можем прожить без красивых теней, без «анти-элайзинга» (anti aliasing) текстур и без эффектов «эмбиент эклюжен» (ambient occlusion). Многие профессиональные геймеры специально отключают эти эффекты, пожирающие количество кадров в секунду, когда становится важна молниеносность реакции на действия в игре.
Более того, если изучить историю, то можно вспомнить, что аппаратная поддержка трансформации и освещения (Hardware T&L) в видеокартах появилась только с приходом легендарной видеокарты GeForce 256 от nVidia одиннадцатого октября 1999 года (11.10.1999). У знаменитой карты Voodoo5 5500 фирмы 3dfx не было никакой аппаратной реализации T&L, и люди ведь как-то жили и играли в трёхмерные игры. И, Боже упаси, большинству из нас до сих пор не важна трассировка лучей в реальном времени, потому что на быстрой скорости передвижения персонажа игры человеческий глаз не способен уловить все эти тонкости.
Можно сказать точно, что без текстур в играх мы пройти игру не сможем. Весь игровой мир без текстур на объектах рассыпется в труху. Всем, кто отрицает важность текстур в мире 3D визуализации можем только предложить посмотреть на следующий кадр из замечательного фильма с названием «13-ый Этаж».
реклама
Если Вы не испугались всего ранее сказанного и до сих пор остались на этой странице, то нижеследующий анализ предназначен для Вас.
реклама
Каждая серия видеокарт выделена в подраздел, отделённый сплошной линией. Для каждой серии цветным фоном выделена карта с наиболее выгодным соотношением между ценой и производительностью блока TMU. Отдельно, для самой эффективной по наложению текстур видеокарты жирным текстом выделена её стоимость в долларах США (USD), отражающая её привлекательность для конченого потребителя.
Предоставляем читателю возможность самостоятельно сделать выводы из имеющихся данных. Каждый, кому это будет интересно, сможет увидеть в таблице то, что захочет.
Как верно было замечено в комментариях ко статье, в исходных данных, взятых с сайта Википедия, оказалась неточность. Для полноты картины были проведены дополнительные расчёты по данным, взятым с сайта TechPowerUp, которые содержат более точную информацию по производительности блока TMU.
VJ Железо
Современные графические процессоры содержат множество функциональных блоков, от количества и характеристик которых зависит и итоговая скорость рендеринга, влияющая на комфортность игры. По сравнительному количеству этих блоков в разных видеочипах можно примерно оценить, насколько быстр тот или иной GPU. Характеристик у видеочипов довольно много, в этом разделе мы рассмотрим самые важные из них.
Тактовая частота видеочипа
Рабочая частота GPU измеряется в мегагерцах, в миллионах тактов в секунду. Эта характеристика прямо влияет на производительность видеочипа, чем она выше, тем больший объем работы чип может выполнить в единицу времени, обработать большее количество вершин и пикселей. Пример из реальной жизни: частота видеочипа, установленного на плате RADEON X1900 XTX равна 650 МГц, а точно такой же чип на RADEON X1900 XT работает на частоте в 625 МГц. Соответственно будут отличаться и все основные характеристики производительности. Но далеко не только рабочая частота чипа однозначно определяет производительность, на его скорость сильно влияет и архитектура: количество различных исполнительных блоков, их характеристики и т.п.
В последнее время участились случаи, когда тактовая частота для отдельных блоков GPU отличается от частоты работы всего остального чипа. То есть, разные части GPU работают на разных частотах, и сделано это для увеличения эффективности, ведь некоторые блоки способны работать на повышенных частотах, а другие — нет. Из последних примеров можно назвать семейство GeForce 8800 от NVIDIA, видеочип модели GTS работает на частоте 512 МГц, но универсальные шейдерные блоки тактуются на значительно более высокой частоте — 1200 МГц.
Скорость заполнения (филлрейт)
Скорость заполнения показывает, с какой скоростью видеочип способен отрисовывать пиксели. Различают два типа филлрейта: пиксельный (pixel fill rate) и текстурный (texel rate). Пиксельная скорость заполнения показывает скорость отрисовки пикселей на экране и зависит от рабочей частоты и количества блоков ROP (блоков операций растеризации и блендинга), а текстурная — это скорость выборки текстурных данных, которая зависит от частоты работы и количества текстурных блоков.
Количество блоков пиксельных шейдеров (или пиксельных процессоров)
Пиксельные процессоры — это одни из главных блоков видеочипа, которые выполняют специальные программы, известные также как пиксельные шейдеры. По числу блоков пиксельных шейдеров и их частоте можно сравнивать шейдерную производительность разных видеокарт. Так как большая часть игр сейчас ограничена производительностью исполнения пиксельных шейдеров (см. технологические обзоры игр), то количество этих блоков очень важно! Если одна модель видеокарты основана на GPU с 8 блоками пиксельных шейдеров, а другая из той же линейки — 16 блоками, то при прочих равных вторая будет вдвое быстрее обрабатывать пиксельные программы, и в целом будет производительнее. Но на основании одного лишь количества блоков делать однозначные выводы нельзя, обязательно нужно учесть и тактовую частоту и разную архитектуру блоков разных поколений и производителей чипов. Чисто по этим цифрам прямо можно сравнивать чипы только в пределах одной линейки одного производителя: AMD(ATI) или NVIDIA. В других же случаях нужно обращать внимание на тесты производительности в интересующих играх.
Количество блоков вершинных шейдеров (или вершинных процессоров)
Аналогично предыдущему пункту, эти блоки выполняют программы шейдеров, но уже вершинных. Данная характеристика важна для некоторых игр, но не так явно, как предыдущая, так как даже современными играми блоки вершинных шейдеров почти никогда не бывают загружены даже наполовину. И, так как производители балансируют количество разных блоков, не позволяя возникнуть большому перекосу в распределении сил, количеством вершинных процессоров при выборе видеокарты вполне можно пренебречь, учитывая их только при прочих равных характеристиках.
Количество унифицированных шейдерных блоков (или универсальных процессоров)
Унифицированные шейдерные блоки объединяют два типа перечисленных выше блоков, они могут исполнять как вершинные, так и пиксельные программы (а также геометрические, которые появились в DirectX 10). Впервые унифицированная архитектура была применена в видеочипе игровой консоли Microsoft Xbox 360, этот графический процессор был разработан компанией ATI. А в видеочипах для персональных компьютеров унифицированные шейдерные блоки появились не так давно, с появлением плат NVIDIA GeForce 8800. И, похоже, что все DirectX 10 совместимые видеочипы будут основаны на подобной унифицированной архитектуре. Унификация блоков шейдеров значит, что код разных шейдерных программ (вершинных, пиксельных и геометрических) универсален, и соответствующие унифицированные процессоры могут выполнить любые программы из вышеперечисленных. Соответственно, в новых архитектурах число пиксельных, вершинных и геометрических шейдерных блоков как бы сливается в одно число — количество универсальных процессоров.
Блоки текстурирования (TMU)
Эти блоки работают совместно с шейдерными процессорами всех указанных типов, ими осуществляется выборка и фильтрация текстурных данных, необходимых для построения сцены. Число текстурных блоков в видеочипе определяет текстурную производительность, скорость выборки из текстур. И хотя в последнее время большая часть расчетов осуществляется блоками шейдеров, нагрузка на блоки TMU до сих пор довольно велика, и с учетом упора некоторых игр в производительность блоков текстурирования, можно сказать, что количество блоков TMU и соответствующая высокая текстурная производительность являются одними из важнейших параметров видеочипов. Особое влияние этот параметр оказывает на скорость при использовании трилинейной и анизотропной фильтраций, требующих дополнительных текстурных выборок.
Блоки операций растеризации (ROP)
Блоки растеризации осуществляют операции записи рассчитанных видеокартой пикселей в буферы и операции их смешивания (блендинга). Как мы уже отмечали выше, производительность блоков ROP влияет на филлрейт и это — одна из основных характеристик видеокарт всех времен. И хотя в последнее время её значение несколько снизилось, еще попадаются случаи, когда производительность приложений сильно зависит от скорости и количества блоков ROP (см. технологические обзоры игр). Чаще всего это объясняется активным использованием фильтров постобработки и включенным антиалиасингом при высоких игровых настройках.
Нужно еще раз отметить, что современные видеочипы нельзя оценивать только числом разнообразных блоков и их частотой. Каждая серия GPU использует новую архитектуру, в которой исполнительные блоки сильно отличаются от старых, да и соотношение количества разных блоков может отличаться. Компания ATI первой применила архитектуру, в которой количество блоков пиксельных шейдеров было в разы больше числа блоков текстурирования. Это было сделано немного преждевременно, на наш взгляд, но в некоторых приложениях пиксельные блоки используются более активно, чем остальные и для таких приложений подобное решение будет неплохим вариантом, не говоря уже о будущем. Также, в предпоследней архитектуре AMD(ATI) нет отдельных пиксельных конвейеров, пиксельные процессоры не «привязаны» к блокам TMU. Впрочем, у NVIDIA в GeForce 8800 получилось еще сложнее.
Рассмотрим ситуацию на примере видеокарт GeForce 7900 GT и GeForce 7900 GS. Обе они имеют одинаковые рабочие частоты, интерфейс памяти и даже одинаковый видеочип. Но модификация 7900 GS использует GPU с 20 активными блоками пиксельных шейдеров и текстурных блоков, а видеокарта 7900 GT — по 24 блока каждого типа. Рассмотрим разницу в производительности этих двух решений в игре Prey:
Разница в количестве основных исполнительных блоков в 20% дала разный прирост скорости в тестовых разрешениях. Значение 20% оказалось недостижимо потому, что производительность в Prey не ограничена на этих видеокартах только скоростью блоков TMU и ROP. Разница в разрешении 1024×768 составила меньше 8%, а в более высоких достигла 12%, что ближе к теоретической разности в количестве исполнительных блоков.
Объем видеопамяти
Собственная память используется видеочипами для хранения необходимых данных: текстур, вершин, буферов и т.п. Казалось бы, что чем её больше — тем лучше. Но не всё так просто, оценка мощности видеокарты по объему видеопамяти — это наиболее распространенная ошибка! Значение объема памяти неопытные пользователи переоценивают чаще всего, используя его для сравнения разных моделей видеокарт. Оно и понятно — раз параметр, указываемый во всех источниках одним из первых, в два раза больше, то и скорость у решения должна быть в два раза выше, считают они. Реальность же от этого мифа отличается тем, что рост производительности растет до определенного объема и после его достижения попросту останавливается.
В каждой игре есть определенный объем видеопамяти, которого хватает для всех данных, и хоть 4 ГБ туда поставь — у нее не появится причин для ускорения рендеринга, скорость будут ограничивать исполнительные блоки, о которых речь шла выше. Именно поэтому почти во всех случаях видеокарта с 320 Мбайт видеопамяти будет работать с той же скоростью, что и карта с 640 Мбайт (при прочих равных условиях). Ситуации, когда больший объем памяти приводит к видимому увеличению производительности, существуют, это очень требовательные игры в высоких разрешениях и при максимальных настройках. Но такие случаи весьма редки, поэтому, объем памяти учитывать нужно, но не забывая о том, что выше определенного объема производительность просто не растет, есть более важные параметры, такие как ширина шины памяти и ее рабочая частота. Подробнее о выборе объема видеопамяти читайте во второй части статьи.
Ширина шины памяти
Ширина шины памяти является важнейшей характеристикой, влияющей на пропускную способность памяти (ПСП). Большая ширина позволяет передавать большее количество информации из видеопамяти в GPU и обратно в единицу времени, что положительно влияет на производительность в большинстве случаев. Теоретически, по 128-битной шине можно передать в два раза больше данных за такт, чем по 64-битной. На практике разница в скорости рендеринга хоть и не достигает двух раз, но весьма близка к этому во многих случаях с упором в пропускную способность видеопамяти.
Современные видеокарты используют разную ширину шины: от 64 до 512 бит, в зависимости от ценового диапазона и времени выпуска конкретной модели GPU. Для low-end видеокарт чаще всего используется 64- и (значительно реже) 128-бит, для среднего уровня 128-бит и иногда 256-бит, ну а high-end видеокарты используют шины от 256 до 512 бит шириной.
Частота видеопамяти
Еще одним параметром, влияющим на пропускную способность памяти, является её тактовая частота. А как мы поняли выше, повышение ПСП прямо влияет на производительность видеокарты в 3D приложениях. Частота шины памяти на современных видеокартах бывает от 500 МГц до 2000 МГц, то есть может отличаться в четыре раза. И так как ПСП зависит и от частоты памяти и от ширины ее шины, то память с 256-битной шиной, работающая на частоте 1000 МГц, будет иметь большую пропускную способность, по сравнению с 1400 МГц памятью с 128-битной шиной.
Рассмотрим относительную производительность видеокарт с разной пропускной способностью на примере видеокарт RADEON X1900 XTX и RADEON X1950 XTX, которые используют почти одинаковые GPU с одними характеристиками и частотой. Основные их отличия состоят в типе и частоте используемой памяти — GDDR3 на частоте 775(1550) МГц и GDDR4 на 1000(2000) МГц, соответственно.
Хорошо видно, как отстает карта с меньшей пропускной способностью памяти, хотя разница никогда не достигает теоретических 29%. Разница между достигнутой частотой кадров растет с увеличением разрешения, начинаясь с 8% в 1024×768 и достигая 12-13% в максимальных режимах. Но это сравнение видеокарт с небольшой разницей в ПСП, а особенное внимание на параметры ширины шины памяти и частоты ее работы следует уделять при покупке недорогих видеокарт, на многие из которых ставят лишь 64-битные интерфейсы, что сильно сказывается на их производительности. Вообще, покупка решений на базе 64-бит шины для игр вовсе не рекомендуется.
Типы памяти
На видеокарты устанавливают несколько различных типов памяти. Старую SDR память с одинарной скоростью передачи мы рассматривать не будем, её уже почти нигде не встретишь. Все современные типы памяти DDR и GDDR позволяют передавать в два раза большее количество данных на той же тактовой частоте за единицу времени, поэтому цифру её рабочей частоты зачастую указывают удвоенной (умножают на два). Так, если для DDR памяти указана частота 1400 МГц, то эта память работает на физической частоте в 700 МГц, но указывают так называемую «эффективную» частоту, то есть ту, на которой должна работать SDR память, чтобы обеспечить такую же пропускную способность.
Основное преимущество DDR2 памяти заключается в возможности работы на больших тактовых частотах, а соответственно — увеличении пропускной способности по сравнению с предыдущими технологиями. Это достигается за счет увеличенных задержек, которые, впрочем, не так важны для видеокарт. Первой платой, использующей DDR2 память, стала NVIDIA GeForce FX 5800 Ultra. По сути, на ней стояла GDDR2 память, которая не настоящая DDR2, а нечто среднее между технологиями DDR и DDR2. После применения GDDR2 в серии GeForce FX 5800, последующие видеокарты NVIDIA использовали DDR память, но эта память получила дальнейшее распространение в GeForce FX 5700 Ultra и в некоторых более поздних mid-end видеокартах. С тех пор технологии графической памяти продвинулись дальше, был разработан стандарт GDDR3, который близок к спецификациям DDR2, с некоторыми изменениями, сделанными специально для видеокарт.
GDDR3 — это специально предназначенная для видеокарт память, с теми же технологиями, что и DDR2, но с улучшениями характеристик потребления и тепловыделения, что позволило создать микросхемы, работающие на более высоких тактовых частотах. И опять же, несмотря на то, что стандарт был разработан в ATI, первой видеокартой, ее использующей, стала вторая модификация NVIDIA GeForce FX 5700 Ultra, а следующей стала GeForce 6800 Ultra.
Ну а GDDR4 — это последнее поколение «графической» памяти, работающее почти в два раза быстрее, чем GDDR3. Основными отличиями GDDR4 от GDDR3, существенными для пользователей, являются в очередной раз повышенные рабочие частоты и сниженное энергопотребление. Технически, память GDDR4 не сильно отличается от GDDR3, это дальнейшее развитие тех же идей. Первыми видеокартами с чипами GDDR4 на борту стали RADEON X1950 XTX, а у компании NVIDIA продукты на базе этого типа памяти еще не вышли. Преимущества новых микросхем памяти перед GDDR3 в том, что энергопотребление модулей может быть примерно на треть ниже. Это достигается за счет более низкого номинального напряжения для GDDR4.
Итак, видеопамять самых современных типов: GDDR3 и GDDR4, отличается от DDR некоторыми деталями, но также работает с удвоенной передачей данных. В ней применяются некоторые специальные технологии, позволяющие поднять частоту работы. Так, GDDR2 память обычно работает на более высоких частотах, по сравнению с DDR, GDDR3 — на еще более высоких, ну а GDDR4 обеспечивает максимальную частоту и пропускную способность.