Технический форум - GF100 и GF104: подробности об архитектуре, решениях, производительности и ценах

Несмотря на то, что архитектура Fermi и чип GF100 были представлены ещё в сентябре, анонс видеокарт на их основе до сих пор не состоялся, а информация об этом чипе была крайне скудная и ориентирована, в первую очередь, на любителей вычислений на GPU. Тем не менее, мы рассмотрели особенности новой архитектуры ещё осенью. Произошедшая на днях “утечка” информации была заранее спланирована NVIDIA. Ещё во время выставки CES 2010 журналистам раздали необходимую документацию, а вчера сняли запрет на публикацию данных. Итак, чем же нас порадуют Fermi и GF100? Если кратко, то новая архитектура несёт много революционных и эволюционных изменений, рассмотрим их на примере GF100. Чип будет состоять из следующих “глобальных” блоков:
*контроллеры шины PCI Express и вывода изображения;
*блок распределения потоков – GigaThread Engine;
*четыре кластера обработки графики – GPC (Graphics Processing Cluster);
*шесть 64-битных контроллеров памяти с кэшем второго уровня и блоками ROP.

Контроллеры шины PCI Express, вывода изображений и блок GigaThread Engine не нуждаются в представлении, а вот остальные рассмотрим подробнее. Начнём с Graphics Processing Cluster. Фактически это самостоятельный графический процессор, которых в GF100 четыре штуки, что снимает целый ряд ограничений и расширяет узкие места графического конвейера. По заявлениям NVIDIA, Fermi разрабатывалась с учётом всех особенностей DirectX 11 и основным отличием от предыдущей архитектуры является увеличение геометрической производительности в несколько раз. Каждый Graphics Processing Cluster состоит из одного блока растеризации (не путать с ROP) и четырёх SM (Streaming Multiprocessors).

Каждый SM, в свою очередь, состоит из:
*конфигурируемого кэша первого уровня (64 Кб) и кэша текстур (12 Кб);
*двух планировщиков варпов;
*регистрового файла (128 Кб);
*двух массивов скалярных процессоров, по 16 CUDA Cores в каждом (всего в GF100 – 512 штук);
*четырёх блоков SFU для специальных вычислительных операций (всего в GF 100 – 64 штуки);
*шестнадцати блоков LSU (загрузки и выгрузки данных, всего в GF100 - 256 штук);
*четырёх блоков TMU (выборки и фильтрации текстур, всего в GF100 – 64 штуки);
*блока PolyMorph Engine;

О последнем поговорим подробнее. Этот блок отвечает за пять стадий графического конвейера - выборку вершин, тесселяцию, преобразование в экранные координаты, установку атрибутов и потоковый вывод.

Первое важное заключение – GF100 не имеет единого выделенного блока тесселяции как Cypress, но зато каждый GPC имеет четыре подобных блока, что позволяет в значительной степени распараллелить эту операцию. Возникает вопрос – что же лучше, один “большой” блок тесселяции (AMD) или шестнадцать “маленьких” (NVIDIA)? Ответом на этот вопрос являются продемонстрированные NVIDIA результаты тестов, где решение калифорнийцев обходит Radeon HD 5870 в 2-6 раз.

http://www.overclockers.ru/images/ne...GF100-tess.png

Разумеется, подобное превосходство относится к синтетическим и полусинтетическим тестам тесселяции, а не общей производительности чипа. При сравнении Radeon HD 5870 и GF100 в популярном тесте Unigine Heaven последний демонстрирует превосходство над соперником примерно в 1.6 раза.

http://www.overclockers.ru/images/ne...GF100-dx11.png

В популярной игре Far Cry 2 будущий флагман NVIDIA демонстрирует аналогичные показатели – более, чем в полтора раза быстрее старшего одночипового решения от AMD. А в 3DMark Vantage, на настройках Extreme, GF100 быстрее Radeon HF 5870 примерно на 80%. В общем, по результатам первых тестов можно сделать вывод, что GF100 значительно быстрее одночипового флагмана AMD и фактически сравнима с двухчиповым решением – Radeon HD 5970.
Ещё один интересный момент. Общее число блоков выборки и фильтрации текстур всего 64 штуки, что меньше, чем у Cypress и GT200 (по 80 штук). NVIDIA утверждает, что им удалось значительно увеличить эффективность их работы, что выливается в 40-60% превосходства над GT200.

Де-факто это означает удвоение эффективности относительно GT200. Некоторые независимые специалисты даже предполагают, что TMU теперь работают на частоте шейдерного домена. Кстати, о частотах. Как известно, решения на базе G80 и новее имели две независимых частоты – ядра и шейдерного домена. Причём вторая всегда была более чем вдвое выше первой и практически никак от неё не зависела. В Fermi всё перевернули с ног на голову. Основной частотой чипа теперь считается частота шейдерного домена, которая у GF100 находится в пределах 1400-1500 МГц, а частота остальных блоков теперь жёстко задаётся через понижающий множитель 1/2.
Но, вернёмся к рассмотрению подробностей архитектуры Fermi. Последняя деталь – контроллеры памяти, блоки ROP и кэш второго уровня. Судя по документации, общий кэш второго уровня (768 Кб) разбит на шесть блоков по 128 Кб, которые сообщаются непосредственно с контроллером памяти и блоками ROP. Контроллеры памяти GF100 поддерживают память типа GDDR-5 и имеют общую ширину 384 бита, что позволяет увеличить пропускную способность памяти более, чем в полтора раза по сравнению с GT200. Блоки растровых операций (ROP) также претерпели изменения по сравнению с GT200. Их число на канал удвоено (8 штук на каждый контроллер памяти, всего в GF100 – 48 штук, у GT200 – 32 штуки), а эффективность увеличена, что позволяет новинке опережать GeForce GTX 285, при использовании 8х полноэкранного сглаживания, более чем в два раза.

Подводя итоги по архитектуре, остаётся признать, что с теоретической точки зрения NVIDIA удалось поймать сразу двух зайцев – значительно усовершенствовать архитектуру для GPGPU и одновременно произвести ряд революционных и эволюционных изменений для увеличения производительности в 3D приложениях. Думаю, это снимает все претензии к NVIDIA в ключе “они ударились в вычисления и больше не интересуются 3D рынком”. Впрочем, стоит дождаться первых независимых тестов, чтобы окончательно расставить точки над i.

В заключение остаётся поделиться свежими слухами относительно новинок от NVIDIA. К выпуску планируется два решения, с предполагаемыми именами GeForce GTX 380 и GeForce GTX 360. Первый продукт будет являться флагманом, соперничать с Radeon HD 5970, иметь энергопотребление около 280 Вт и стоимость около $500-550. Младшее решение будет иметь ряд отключенных блоков и немного опережать Radeon HD 5870 ($399). Для соперничества с Radeon HD 5850 ($299) и более слабыми решениями, а также для замены решений на базе GT200, будет выпущен чип GF104. Предположительно, число его исполнительных устройств будет урезано вдвое, по сравнению с GF100 и он будет состоять из двух блоков GPC. Тактовые частоты могут быть чуть выше, чем у GF100, что позволит ему демонстрировать производительность на уровне 50-55% от флагмана. Предполагается, что GF104 выйдет или одновременно с GF100 или в ближайшем времени после появления нового флагмана NVIDIA. На сегодня это вся информация, остаётся только ждать новых фотографий серийных видеокарт и тестов от независимых источников.

источник