AGI | NLP | A100 | H100 | Nvidia | Aurora
GPT| LLM | A800 | H800 | Intel | ChatGPT
В последнее время, благодаря поддержке глубокого обучения, высокопроизводительных вычислений, обучения больших моделей и других технологий, наступает эра общего искусственного интеллекта. Разные производители тоже вовсю работают. Например, NVIDIA некоторое время назад выпустила GH 200, который содержит 36 коммутаторов NVLink, соединяющих 256 чипов GH200 Grace Hopper и 144 ТБ общей памяти в один блок. Кроме того, NVIDIA A100, A800, H100 и V100 также популярны при обучении больших моделей. Память AMD MI300X намного превосходит 120 ГБ чипа NVIDIA GPU H100, вплоть до 192 ГБ.
22 июня Intel объявила, что Аргоннская национальная лаборатория Министерства энергетики США завершила установку суперкомпьютера нового поколения «Аврора». Этот суперкомпьютер основан на процессоре и графическом процессоре Intel и, как ожидается, будет запущен в эксплуатацию позднее в этом году. Он будет обеспечивать производительность более 2 экзафлопсов с плавающей запятой FP64, превзойдя «Frontier» Окриджской национальной лаборатории Министерства энергетики США. стать первым в мире суперкомпьютером с теоретической пиковой производительностью более 2 эксафлопс.
Суперкомпьютер Aurora — это совместный проект Intel, Hewlett-Packard (HPE) и Министерства энергетики США (DOE), направленный на реализацию всего потенциала высокопроизводительных вычислений (HPC) в области моделирования, анализа данных и искусственного интеллекта (ИИ). Система состоит из 10 624 блейд-серверов, каждый из которых состоит из двух процессоров серии Intel Xeon Max (Xeon Max 9480) и шести графических процессоров серии Intel Max.
Внедрение шести технологий GPT-4, являющихся передовой технологией искусственного интеллекта, приведет к огромным прорывам и изменениям в области искусственного интеллекта. Графический процессор играет жизненно важную роль в качестве важного носителя вычислительной мощности основного сервера. Эффективная вычислительная мощность и возможности параллельных вычислений графического процессора делают его отличным выбором для крупномасштабного обучения языковой модели. Однако нехватка вычислительных мощностей центров обработки данных стала одним из основных факторов, ограничивающих его развитие.
В Китае крупные компании также конкурируют за входные билеты на ИИ и возможности графических процессоров. Эта конкуренция стремительно стимулирует развитие Китая в области искусственного интеллекта. Широкое применение графических процессоров предоставит китайским компаниям больше возможностей занять более выгодную позицию в области обучения крупным моделям искусственного интеллекта.
В этой статье будут глубоко изучены важность и преимущества графических процессоров в области обучения больших моделей искусственного интеллекта, а также проанализированы текущие проблемы и возможности. В то же время мы изучим, как оптимизировать адаптацию сервера графического процессора, чтобы добиться прорыва в крупномасштабном обучении языковых моделей. В следующем материале мы рассмотрим, как устранить узкие места вычислительных центров обработки данных, ускорить развитие технологий искусственного интеллекта, оптимизировать адаптацию серверов графических процессоров и повысить конкурентоспособность китайских предприятий в области искусственного интеллекта. Это приведет нас в новую эру искусственного интеллекта и создаст более широкие перспективы для развития искусственного интеллекта.
1. Большие параметры + большие данные + инновации в алгоритмах
Расширение параметров является ключевым фактором в улучшении возможностей больших языковых моделей (LLM). GPT-3 впервые расширяет размер модели до шкалы параметров 175B. На ранних стадиях языковой модели производительность примерно линейно связана с размером модели, но когда размер модели достигнет определенного уровня, произойдет очевидная мутация в производительности задачи. Основа большой языковой модели обладает высокой масштабируемостью и может обеспечивать повторяющуюся самоитерацию.
Возможности модели зависят не только от размера модели, но также от размера данных и общих вычислительных затрат. Кроме того, качество данных перед обучением имеет решающее значение для достижения хорошей производительности.
Источники корпуса перед обучением можно грубо разделить на две категории: общие данные и специализированные данные. Общие данные включают веб-страницы, книги и тексты разговоров. Благодаря своему большому размеру, разнообразию и легкому доступу они широко используются в крупномасштабных языковых моделях, которые могут расширить возможности языкового моделирования и обобщения. Профессиональные данные включают в себя многоязычные данные, научные данные и код и т. д., что позволяет языковым моделям иметь возможность решать конкретные задачи.
Успешное обучение мощной модели большого языка (LLM) является непростой задачей. Для реализации обучения сетевых параметров LLM обычно требуется несколько параллельных стратегий. Было выпущено несколько платформ оптимизации, таких как Transformer, DeepSpeed и Megatron-LM, для облегчения реализации и развертывания параллельных алгоритмов. Кроме того, навыки оптимизации также имеют решающее значение для стабильности обучения и производительности модели.
В настоящее время библиотеки, обычно используемые для обучения LLM, включают Transformers, DeepSpeed, Megatron-LM, JAX, Colossal-AI, BMTrain и FastMoe и т. д. Кроме того, существующие платформы глубокого обучения, такие как PyTorch, TensorFlow, MXNet, PaddlePaddle, MindSpore и OneFlow, также обеспечивают поддержку параллельных алгоритмов.
два、Трансформер
Трансформатор был предложен Google в статье «Внимание — это все, что вам нужно» в 2017 году. И GPT, и BERT используют модель Transformer. Механизм внимания Transformer, основанный на значимости, предоставляет контекстную информацию для любой позиции во входной последовательности, что дает ему преимущества сильных возможностей глобального представления, высокой степени параллелизма, неограниченных операций ассоциации позиций, высокой универсальности и сильной масштабируемости, что создает модель GPT. иметь отличную производительность.
Механизм самообслуживания (Self-Attention) позволяет модели при обработке каждого слова (каждой позиции во входной последовательности) фокусироваться не только на слове в текущей позиции, но и на словах в других позициях предложения, тем самым улучшая кодирование этого слова. Этот механизм позволяет модели запоминать, с какими словами слово встречается в одном предложении. Модель Трансформера основана на механизме самообслуживания и изучает вероятность совместного появления слов. После ввода корпуса Transformer может выводить вероятность совместного появления слов и слов, а также фиксировать двустороннюю связь между словами в контексте дальней связи.
3. РЛХФ
RLHF (Reinforcement Learning with Human Feedback) — одна из ключевых технологий, используемых ChatGPT. Это расширенная ветвь обучения с подкреплением (RL), которая включает информацию обратной связи от человека в процесс обучения. Используя эту информацию обратной связи для построения нейронной сети модели вознаграждения, RLHF предоставляет сигналы вознаграждения агенту RL, чтобы помочь ему учиться. Этот метод может более естественно передавать агенту такую информацию, как человеческие потребности, предпочтения и концепции, в интерактивной форме обучения, чтобы согласовать цели оптимизации между людьми и искусственным интеллектом, тем самым получая результаты, соответствующие человеческому поведению и системе ценностей.
4. Подсказка
«Подсказка» — это подсказка, даваемая предварительно обученной языковой модели, призванная помочь ей лучше понять человеческие проблемы. Добавляя к входным данным дополнительный текст (подсказку/подсказку), вы можете более полно использовать знания предварительно обученной модели.
Базовый процесс быстрого обучения включает в себя четыре этапа: построение подсказки, построение ответа, прогнозирование ответа и сопоставление меток ответа. Преимущества быстрого обучения в основном отражаются в следующих аспектах: 1) широкое использование предварительно обученной модели LM 2) улучшение эффекта обучения сцены с небольшой выборкой 3) значительное снижение затрат на тонкую настройку и т. д.
Контекстное обучение (ICL) — это особая форма подсказки, которая была впервые предложена в GPT-3 и стала типичным методом использования предварительно обученных языковых моделей. При контекстном обучении некоторые примеры сначала выбираются из описания задачи в качестве демонстрации. Эти примеры затем объединяются в определенном порядке для формирования подсказок на естественном языке со специально разработанными шаблонами. Наконец, в демонстрационную версию добавляются тестовые экземпляры в качестве входных данных для предварительно обученной языковой модели для генерации выходных данных. На основе этих демонстраций задач предварительно обученная языковая модель может идентифицировать и выполнять новые задачи, не требуя явного обновления градиента.
5. Плагины
Поскольку предварительно обученные языковые модели (LLM) обучаются на больших массивах простого текста, они могут неэффективно работать в нетекстовых аспектах генерации, таких как числовые вычисления. Кроме того, возможности LLM ограничены данными предварительного обучения и не могут собирать самую свежую информацию. Чтобы решить эти проблемы, ChatGPT представляет внешний механизм подключаемых модулей, который помогает ChatGPT получать самую свежую информацию, выполнять расчеты или использовать сторонние сервисы, аналогичные «глазам и ушам» LLM, тем самым широко расширяя объем возможностей LLM. .
По состоянию на май 2023 года ChatGPT обновлен и включает возможности просмотра веб-страниц и 70 бета-плагинов. Обновление обещает революционизировать способ использования ChatGPT, охватывая все: от развлечений и покупок до поиска работы и прогнозирования погоды. ChatGPT создал сообщество разработчиков плагинов для создания плагинов ChatGPT и перечисляет включенные плагины в подсказке, отображаемой языковой моделью, а также справочную документацию, которая поможет модели использовать каждый плагин.
6. Системная инженерия
Сэм Альтман, соучредитель и генеральный директор OpenAI, сказал, что GPT-4 — самая сложная программная система, когда-либо созданная человеком. С ростом числа предварительно обученных языковых моделей (LLM) границы между исследованиями и разработками стираются. Обучение LLM требует обширного опыта крупномасштабной обработки данных и распределенного параллельного обучения. Исследователи, разрабатывающие LLM, должны решать сложные инженерные проблемы и тесно сотрудничать с инженерами или сами становиться инженерами.
1. Сервер: важный носитель вычислительной мощности ИИ.
Сервер — это компьютер с высокой вычислительной мощностью, который может предоставлять услуги нескольким пользователям. В отличие от персональных компьютеров, которые обычно обслуживают только одного пользователя. Сервер также отличается от хоста. Хост предоставляется пользователям через терминальные устройства, а сервер предоставляет услуги пользователям-клиентам через сеть.
Сервер ИИ — это сервер, специально используемый для вычислений искусственного интеллекта (ИИ). Он может поддерживать локальные приложения и веб-страницы, а также предоставлять сложные модели искусственного интеллекта и услуги для облачных и локальных сервисов. Его основная функция — предоставление вычислительных услуг в реальном времени для различных приложений искусственного интеллекта в реальном времени. В соответствии с различными сценариями применения серверы ИИ можно разделить на два типа: обучение и логический вывод. К обучающим серверам предъявляются более высокие требования к вычислительной мощности чипа, тогда как к серверам вывода предъявляются относительно низкие требования к вычислительной мощности.
Высокопроизводительная большая модель учебной платформы Blue Ocean Brain использует рабочую жидкость в качестве среды для промежуточной передачи тепла для передачи тепла из горячей зоны в удаленное место для охлаждения. Поддерживает различные аппаратные ускорители, включая CPU, GPU, FPGA, AI и т. д., которые могут удовлетворить потребности крупномасштабной обработки данных и сложных вычислительных задач. Он использует архитектуру распределенных вычислений для эффективной обработки крупномасштабных данных и сложных вычислительных задач, а также обеспечивает мощную вычислительную поддержку для исследований и разработки алгоритмов глубокого обучения, высокопроизводительных вычислений, обучения больших моделей и алгоритмов больших языковых моделей (LLM). Он обладает высокой степенью гибкости и масштабируемости и может быть настроен в соответствии с различными сценариями и потребностями приложений. Различные вычислительные задачи можно быстро развертывать и управлять ими, улучшая использование и эффективность вычислительных ресурсов.
1. Мировой рынок серверов
Согласно отчету Counterpoint, ожидается, что к 2022 году выручка мирового рынка серверов вырастет на 17% в годовом исчислении до 111,7 млрд долларов США. На этом рынке основные компании-производители серверов включают Dell, HP, Lenovo, Inspur и Super Micro, а также производителей ODM, таких как Foxconn, Quanta, Wistron и Inventec. Темпы роста ODM Direct на 3 процентных пункта выше, чем в целом по рынку, поэтому ODM Direct станет выбором оборудования для крупномасштабных развертываний центров обработки данных. По прогнозу IDC, объем рынка в 2022 году составит примерно 18,3 млрд долларов США, а в 2023 году объем рынка достигнет 21,1 млрд долларов США. По доле рынка Inspur Information занимает 20,2%, за ней следуют Dell, HPE, Lenovo и Huawei, чьи рыночные доли составляют 13,8%, 9,8%, 6,1% и 4,8% соответственно.
2. Серверный рынок Китая
По данным, объем серверного рынка Китая в 2022 году достигнет 27,34 миллиарда долларов США. На этом рынке Inspur занимает первое место с долей рынка 28,1%, а выручка достигает 53,063 миллиарда долларов США. По данным IDC, рынок ускоренных серверов Китая достигнет 6,7 млрд долларов США в 2022 году, что на 24% больше, чем в прошлом году. Inspur, H3C и Ningchang входят в тройку лидеров рынка, на их долю приходится более 60% доли рынка. Интернет-индустрия по-прежнему является крупнейшей отраслью по закупкам серверов ускорения, составляя почти половину всего рынка.
2. Графический процессор: основа вычислительной мощности ИИ
При обучении больших моделей необходима сверхкрупномасштабная вычислительная мощность, и в ее основе лежит графический процессор. Без карты графического процессора обучение больших моделей практически невозможно.
Чипы искусственного интеллекта — это основа вычислительной мощности, также известные как ускорители искусственного интеллекта или вычислительные карты. Они специально используются для решения большого количества вычислительных задач в приложениях искусственного интеллекта (другие невычислительные задачи выполняются центральным процессором). С быстрым ростом объема данных, сложностью моделей алгоритмов и неоднородностью объектов обработки требования к производительности вычислений также становятся все выше и выше.
По данным, в 2022 году на GPU-серверы будет приходиться 89% серверов искусственного интеллекта в моей стране. В настоящее время графический процессор является одним из наиболее широко используемых чипов искусственного интеллекта. Помимо графических процессоров, чипы искусственного интеллекта также включают программируемые вентильные матрицы (FPGA), специализированные интегральные схемы (ASIC) и нейроморфные чипы (NPU). Графический процессор — это чип общего назначения, ASIC — чип специального назначения, а FPGA находится между ними и имеет полунастраиваемые характеристики.
Графический процессор (GPU) — это микропроцессор, специально используемый для выполнения графических операций, также известный как ядро дисплея, визуальный процессор, чип дисплея или графический чип. Он имеет сотни или тысячи ядер и оптимизирован для параллельного выполнения большого количества вычислительных задач. Хотя графические процессоры наиболее известны благодаря 3D-рендерингу в играх, они особенно полезны для выполнения алгоритмов аналитики, глубокого обучения и машинного обучения. По сравнению с традиционными процессорами, графические процессоры могут выполнять определенные вычисления в 10–100 раз быстрее. GPGPU — это процессор, который применяет возможности обработки графики графического процессора в области общих вычислений.
В 2023 году глобальный доход Nvidia достигнет $26,97 млрд. Среди них выручка графического подразделения составила примерно 11,9 млрд долларов США, а выручка сектора вычислений и сетей — 15,1 млрд долларов США. В первом квартале 2023 года (первый квартал 24 финансового года) выручка от бизнеса в сфере центров обработки данных Nvidia достигла 4,28 млрд долларов США, что является рекордным показателем, увеличившись в годовом исчислении на 14% и в месячном исчислении на 18%.
3. Знакомство со всей линейкой графических процессоров NVIDIA для обучения крупных моделей.
С тех пор, как OpenAI выпустила ChatGPT, технология генеративного искусственного интеллекта стала горячей тенденцией, привлекшей большое внимание. Эта технология требует мощной вычислительной мощности для создания текста, изображений, видео и другого контента. В этом контексте вычислительная мощность стала необходимым условием в области искусственного интеллекта, и чипы искусственного интеллекта, производимые Nvidia, чип-гигантом, играют в этом решающую роль. Nvidia последовательно выпустила ряд чипов для обучения искусственного интеллекта, таких как V100, A100 и H100. Чтобы соответствовать американским стандартам, Nvidia выпустила две версии продуктов с уменьшенной пропускной способностью, A800 и H800, для продажи на рынке материкового Китая. .
V100 — это высокопроизводительный ускоритель вычислений и искусственного интеллекта, выпущенный NVIDIA и принадлежащий к серии архитектур Volta. Он использует 16-нм техпроцесс FinFET, имеет 5120 ядер CUDA и от 16 до 32 ГБ памяти HBM2. V100 также оснащен ускорителем Tensor Cores, который может обеспечить повышение производительности глубокого обучения до 120 раз. Кроме того, V100 поддерживает технологию NVLink, обеспечивающую высокоскоростную связь между графическими процессорами и ускоряющую скорость обучения крупномасштабных моделей. V100 широко используется в различных крупномасштабных сценариях обучения и вывода ИИ, включая обработку естественного языка, компьютерное зрение и распознавание речи.
A100 — это мощный графический процессор для центров обработки данных, выпущенный NVIDIA и использующий новую архитектуру Ampere. Он имеет до 6912 ядер CUDA и 40 ГБ высокоскоростной памяти HBM2. A100 также включает в себя технологию NVLink второго поколения, обеспечивающую быструю связь между графическими процессорами и ускоряющую обучение больших моделей. Кроме того, A100 также поддерживает независимо разработанный NVIDIA ускоритель Tensor Cores, который может обеспечить повышение производительности глубокого обучения до 20 раз. A100 широко используется в различных крупномасштабных сценариях обучения и вывода ИИ, включая обработку естественного языка, компьютерное зрение и распознавание речи.
При обучении больших моделей и V100, и A100 являются очень мощными графическими процессорами. Вот их основные отличия и преимущества:
1. Архитектура
V100 и A100 архитектурно различаются. V100 использует архитектуру Volta, а A100 — новую архитектуру Ampere. Архитектура Ampere имеет некоторые улучшения по сравнению с архитектурой Volta, включая более высокую энергоэффективность и новую конструкцию ускорителя Tensor Core, которая позволяет A100 работать лучше в определенных сценариях.
2. Вычислительные способности
A100 оснащен колоссальными 6912 ядрами CUDA, что больше, чем 5120 ядер CUDA у V100. Это означает, что A100 может выполнять более высокие операции с плавающей запятой в секунду (флопс) и большую пропускную способность, что приводит к более быстрому обучению при работе с большими моделями и наборами данных.
3. Пропускная способность хранилища
Пропускная способность памяти V100 составляет около 900 ГБ/с, тогда как пропускная способность памяти A100 достигает более высоких 1555 ГБ/с. Высокая пропускная способность памяти может уменьшить узкие места при передаче данных и повысить эффективность обучения, поэтому A100 может работать лучше при обработке больших наборов данных.
4. Емкость хранения
V100 может иметь до 32 ГБ видеопамяти HBM2, а A100 — до 80 ГБ видеопамяти HBM2. Поскольку большим моделям обычно требуется больше памяти для хранения параметров и градиентов, больший объем памяти A100 может обеспечить лучшую производительность.
5. Коммуникационная эффективность
A100 поддерживает технологию NVLink третьего поколения, обеспечивающую высокоскоростную связь между графическими процессорами и ускоряющую обучение больших моделей. Кроме того, в A100 также реализована функция Multi-Instance GPU (MIG), которая позволяет разделить один графический процессор на несколько независимых экземпляров для дальнейшего улучшения использования ресурсов и производительности.
В целом A100 может работать лучше, чем V100, при обработке больших моделей и наборов данных, но в реальных приложениях вам необходимо выбирать подходящий графический процессор в зависимости от конкретных сценариев и потребностей.
Независимо от того, насколько высока производительность одной карты, если производительность сети не успевает за ней, вам остается только беспомощно ждать. Более того, по мере расширения масштаба кластера потери вычислительной мощности, вызванные сетью, станут более очевидными. Традиционная сетевая архитектура требует многоуровневой обработки стека протоколов при передаче данных: необходимо неоднократно останавливаться для проверки, сортировки и упаковки данных, что делает связь очень неэффективной.
1. Схема InfiniBand от Nvidia
Под оборудованием передачи данных понимается коммуникационное оборудование, которое может реализовывать терминалы доступа к IP-сети, подключения к локальной и глобальной сети, обмен данными и обеспечивать соответствующие функции защиты безопасности, включая коммутаторы, маршрутизаторы и сети WLAN. Коммутаторы и маршрутизаторы являются одними из наиболее важных устройств. Эти сетевые устройства составляют уровень физической инфраструктуры Интернета и являются необходимыми инфраструктурными продуктами для построения информации.
В состав сферы услуг по производству сетевого оборудования в основном входят производители микросхем, печатных плат, источников питания и различных электронных компонентов. Непосредственными нисходящими поставщиками являются различные марки сетевого оборудования. Терминал вниз по течению охватывает различные отрасли, такие как операторы, правительство, финансы, образование, энергетика, электроэнергетика, транспорт, малые и средние предприятия, больницы и т. д.
В отрасли сетевого оборудования конкурентная среда очень сконцентрирована. Несколько компаний, таких как Cisco, Huawei и H3C, занимают подавляющую часть рынка, образуя рыночную структуру олигополической конкуренции. Поскольку спрос на искусственный интеллект и высокопроизводительные вычисления продолжает расти, растет и спрос на высокоскоростную связь в системах с несколькими узлами и несколькими графическими процессорами. Для создания надежной комплексной вычислительной платформы, способной удовлетворить требования бизнеса к скорости, решающее значение приобретают быстрые и масштабируемые межсетевые сети.
В области искусственного интеллекта связь стала узким местом вычислительных мощностей. Хотя ускорители искусственного интеллекта могут увеличить пиковую вычислительную мощность оборудования за счет упрощения или удаления других частей, они с трудом решают проблемы с памятью и связью. Будь то связь внутри чипа, между чипами или между ускорителями ИИ, она стала ограничивающим фактором в процессе обучения ИИ.
За последние 20 лет вычислительная мощность вычислительных устройств выросла в 90 000 раз, память развилась от DDR до GDDR6x, а стандарт интерфейса был повышен с PCIe1.0a до NVLink3.0. Однако по сравнению с этим рост пропускной способности связи составит всего 30 раз.
NVLink — это технология соединения между графическими процессорами с высокой пропускной способностью, энергоэффективная, с малой задержкой и без потерь, разработанная NVIDIA. Он имеет функции устойчивости, включая обнаружение ошибок на уровне канала и механизмы воспроизведения пакетов, для обеспечения надежной передачи данных.
По сравнению с предыдущим поколением NVLink четвертого поколения позволяет увеличить пропускную способность глобальных операций в 3 раза и увеличить общую пропускную способность на 50%. Один графический процессор NVIDIA H100 с тензорными ядрами поддерживает до 18 соединений NVLink, а общая пропускная способность между несколькими графическими процессорами может достигать 900 ГБ/с, что в 7 раз больше, чем у PCIe 5.0.
NVSwitch — это технология, разработанная NVIDIA, которая включает в себя переключатели, расположенные внутри и снаружи узлов для подключения нескольких графических процессоров для использования в средах серверов, кластеров и центров обработки данных. NVSwitch в каждом узле оснащен 64 портами связи NVLink четвертого поколения для ускорения соединений между несколькими графическими процессорами. Новое поколение технологии NVSwitch увеличивает общую пропускную способность коммутатора с 7,2 Тбит/с предыдущего поколения до 13,6 Тбит/с.
NVIDIA объединяет новые технологии NVLink и NVSwitch для создания крупномасштабной системной сети NVLink Switch, достигая беспрецедентного уровня пропускной способности связи. Система поддерживает до 256 графических процессоров, а соединенные между собой узлы способны обеспечить 57,6 ТБ полосы пропускания «многие ко многим», обеспечивая мощную вычислительную мощность для разреженных вычислений FP8 до уровня 1 exaFLOP.
InfiniBand — это стандарт компьютерной сети для высокопроизводительных вычислений, который отличается высокой пропускной способностью и низкой задержкой. В основном используется в высокопроизводительных вычислениях, высокопроизводительных кластерных серверах приложений, высокопроизводительных хранилищах и других областях. Чтобы усилить свои инвестиции в область InfiniBand, Nvidia приобрела Mellanox за 6,9 миллиарда долларов США в 2019 году. Эта новая архитектура обеспечивает разработчикам искусственного интеллекта и научным исследователям превосходную производительность сети и богатую функциональность. Благодаря этой технологии пользователи могут получить более быстрые и надежные сетевые соединения для поддержки своей работы и исследований в области искусственного интеллекта.
2. Оптический модуль: базовое сетевое устройство, обучение искусственному интеллекту повышает спрос на 800G.
Ожидается, что доля графических процессоров Nvidia H100 и оптических модулей 800G в вычислительной сети будет варьироваться в зависимости от уровня. Ожидается, что на уровне сервера соотношение графических процессоров и оптических модулей 800G составит 1:1, на уровне коммутатора ожидается 1:2; Принимая во внимание коммутаторы уровня ядра, сеть управления, сеть хранения и другие факторы, а также соответствующие соображения относительно скорости установки в целом, ожидается, что соотношение графического процессора NVIDIA H100 к оптическим модулям 800G будет примерно между 1:2 и 1. :4. Такая конфигурация обеспечит эффективную связь и передачу данных внутри вычислительной сети.
В мае 2023 года NVIDIA выпустила DGX GH200 — это полностью подключенный 256 суперчип NVIDIA Grace Hopper, предназначенный для обработки моделей терабайтного уровня для крупномасштабных рекомендательных систем, генеративного искусственного интеллекта и графического анализа. Система коммутации NVLink использует двухуровневую неблокирующую структуру «толстого дерева». Как показано ниже: Уровни L1 и L2 разделены на 96 и 32 коммутатора. Вычислительная объединительная плата, на которой установлен суперчип Grace Hopper, подключена к системе коммутаторов NVLink с помощью специальных кабелей на первом уровне структуры NVLink. Кабели LinkX расширяют возможности подключения уровня 2 фабрики NVLink. Мы ожидаем, что запуск GH200 будет способствовать дальнейшему росту спроса на оптические модули 800G.
Во всем мире конкуренция за графические процессоры NVIDIA является жесткой. Однако зарубежные гиганты ранее занимались закупками графических процессоров и закупали большие объемы, и их инвестиции в последние годы были относительно постоянными. Крупные китайские компании более остро нуждаются в спросе и инвестициях в графические процессоры, чем зарубежные гиганты. Если взять в качестве примера Baidu, то количество заказов на графические процессоры, размещенных у Nvidia в этом году, достигло десятков тысяч. Хотя Baidu намного меньше, ее выручка в прошлом году составила всего 123,6 млрд юаней, что эквивалентно 6% выручки Google. Однако это показывает быстрое развитие и огромный спрос со стороны крупных китайских компаний в области графических процессоров.
Понятно, что Byte, Tencent, Alibaba и Baidu — это компании, занимающиеся технологиями искусственного интеллекта и облачных вычислений, которые больше всего инвестировали в Китай. В прошлом они накопили десятки тысяч графических процессоров A100. Среди них Byte владеет наибольшим количеством A100. Если не считать новых заказов в этом году, у Byte имеется около 100 000 моделей A100 и продуктов предыдущего поколения V100. Компания SenseTime, находящаяся на стадии роста, также заявила, что в ее вычислительном кластере «больших устройств искусственного интеллекта» развернуто 27 000 графических процессоров, включая 10 000 A100. Даже Huan Fang, количественная инвестиционная компания, которая, похоже, не имеет ничего общего с ИИ, приобрела 10 000 штук A100.
Судя по общему количеству, этих графических процессоров, похоже, достаточно для обучения больших моделей. Согласно материалам на официальном сайте NVIDIA, OpenAI использовала 10 000 блоков V100 при обучении GPT-3 со 175 миллиардами параметров, но время обучения не разглашается. По оценкам NVIDIA, если использовать A100 для обучения GPT-3, то на один месяц обучения понадобится 1024 блока A100, а производительность A100 в 4,3 раза выше, чем у V100.
Большие количества графических процессоров, приобретенные крупными китайскими компаниями в прошлом, в основном использовались для поддержки существующего бизнеса или продавались на платформах облачных вычислений, и их нельзя было свободно использовать для разработки крупных моделей или удовлетворения потребностей клиентов в больших моделях. Это также объясняет огромные различия в оценках вычислительных ресурсов среди китайских специалистов по искусственному интеллекту. Чжан Яцинь, декан Научно-исследовательского института интеллектуальной промышленности Цинхуа, сказал во время участия в форуме Цинхуа в конце апреля: «Если сложить вычислительную мощность Китая, она будет эквивалентна 500 000 A100, и пять моделей можно легко обучить».
Инь Ци, генеральный директор компании Megvii Technology, занимающейся искусственным интеллектом, заявил в интервью Caixin, что общее количество A100, доступных в настоящее время для крупномасштабного обучения моделей в Китае, составляет всего около 40 000. Это отражает разрыв на порядок величины в вычислительных ресурсах между крупными китайскими и иностранными компаниями, включая инвестиции в основные средства, такие как чипы, серверы и центры обработки данных. Baidu, которая первой протестировала продукты ChatGPT, за последние несколько лет потратила ежегодные капитальные затраты от 800 до 2 миллиардов долларов США, Alibaba от 6 до 8 миллиардов долларов США и Tencent от 7 до 11 миллиардов долларов США. .
При этом минимальные годовые капитальные затраты на самостоятельно построенные дата-центры четырех американских технологических компаний — Amazon, Meta, Google и Microsoft — превышают 15 миллиардов долларов США. За последние три года эпидемии капитальные затраты зарубежных компаний продолжали расти. Капитальные затраты Amazon в прошлом году достигли 58 миллиардов долларов США, Meta и Google составили 31,4 миллиарда долларов США соответственно, а Microsoft приблизились к 24 миллиардам долларов США. Инвестиции китайских компаний начнут сокращаться после 2021 года. Капитальные затраты Tencent и Baidu в прошлом году упали более чем на 25% по сравнению с аналогичным периодом прошлого года.
Если китайские компании хотят инвестировать в крупные модели и получать больше прибыли в долгосрочной перспективе, им необходимо продолжать увеличивать ресурсы графических процессоров. Как и OpenAI, они сталкиваются с проблемой нехватки графических процессоров. В общении с разработчиками генеральный директор OpenAI Сэм Альтман заявил, что из-за недостаточного количества графических процессоров их API-сервисы недостаточно стабильны и быстры.
Пока не станет доступно больше графических процессоров, мультимодальные возможности GPT-4 не удовлетворят потребности каждого пользователя. Аналогично, Microsoft сталкивается с аналогичными проблемами. Microsoft тесно сотрудничает с OpenAI, и их новая версия Bing замедлила скорость ответа, поскольку предложение графических процессоров не поспевает за ростом пользователей.
Microsoft Office 365 Copilot включает в себя возможности крупномасштабных моделей. Он еще не был открыт в больших масштабах, и только более 600 компаний тестируют его. Учитывая почти 300 миллионов пользователей Office 365 по всему миру, крупным китайским компаниям необходимо заранее зарезервировать больше ресурсов графического процессора, если они хотят использовать большие модели для создания большего количества сервисов и поддержки других клиентов для обучения более крупных моделей в облаке.
В настоящее время с точки зрения крупномасштабного обучения моделей ИИ почти нет заменителей A100, H100 и их версий уменьшенной конфигурации A800 и H800 специально для китайского рынка. По расчетам количественного хедж-фонда Khaveen Investments, доля Nvidia на рынке графических процессоров для центров обработки данных достигнет 88% к 2022 году, а оставшуюся долю рынка поделят AMD и Intel.
Текущая незаменимость графических процессоров NVIDIA обусловлена механизмом обучения больших моделей, ключевые этапы которого включают предварительное обучение и тонкую настройку. Предварительное обучение – заложить основу модели, что эквивалентно получению общего образования до окончания колледжа, тонкая настройка – оптимизировать модель для адаптации к конкретным сценариям и задачам и повышения ее производительности.
Фаза предварительного обучения особенно требует большого количества вычислительных ресурсов и предъявляет очень высокие требования к производительности одного графического процессора и возможностям передачи данных между несколькими картами. В настоящее время только A100 и H100 могут обеспечить эффективную вычислительную мощность, необходимую для предварительного обучения, и хотя они дороги, на самом деле они являются наиболее экономичными вариантами. Поскольку коммерческие приложения ИИ все еще находятся на ранних стадиях разработки, стоимость напрямую влияет на доступность услуг.
Некоторые модели в прошлом, такие как VGG16, которые могут идентифицировать кошку как кошку, имели только 130 миллионов параметров. В то время некоторые компании использовали видеокарты потребительского уровня (например, серии RTX) для запуска моделей искусственного интеллекта. Однако с выпуском крупных моделей, таких как GPT-3, размер параметра достиг 175 миллиардов. Поскольку большие модели требуют огромных вычислительных ресурсов, использовать более низкопроизводительные графические процессоры для объединения вычислительной мощности уже невозможно.
При использовании нескольких графических процессоров для обучения необходимо передавать данные между чипами и синхронизировать информацию о параметрах, в результате чего некоторые графические процессоры простаивают и не могут полностью реализовать свои рабочие возможности. Следовательно, чем больше вы используете менее производительный графический процессор, тем больше потеря вычислительной мощности. Когда OpenAI использует 10 000 графических процессоров V100 для обучения GPT-3, коэффициент использования вычислительной мощности составляет менее 50%. A100 и H100 не только обладают высокой вычислительной мощностью на одной карте, но также обладают высокой пропускной способностью для улучшения передачи данных между картами. Вычислительная мощность FP32 у A100 достигает 19,5 терафлопс (1 терафлопс эквивалентен одному триллиону операций с плавающей запятой в секунду), а у H100 вычислительная мощность FP32 еще выше, достигая 134 терафлопс, что примерно в 4 раза больше, чем у конкурента AMD MI250.
A100 и H100 также обеспечивают эффективные возможности передачи данных для минимизации вычислительной мощности в режиме ожидания. Эксклюзивный секрет Nvidia — технологии протоколов связи, такие как NVLink и NVSwitch, запущенные с 2014 года. NVLink четвертого поколения, используемый в H100, может увеличить пропускную способность двусторонней связи графического процессора в пределах одного сервера до 900 ГБ/с (передача 900 ГБ данных в секунду), что в 7 раз превышает пропускную способность PCle последнего поколения (точка-точка). точка стандарта высокоскоростной последовательной передачи) много.
В прошлом году правила экспорта графических процессоров Министерства торговли США в основном ограничивали два аспекта: вычислительную мощность и пропускную способность: предел вычислительной мощности составляет 4800 TOPS, а предел пропускной способности — 600 ГБ/с. Вычислительная мощность A800 и H800 эквивалентна исходной версии, но пропускная способность уменьшена.
Пропускная способность A800 упала с 600 ГБ/с, как у A100, до 400 ГБ/с. Конкретные параметры H800 не разглашаются. По имеющимся данным, его пропускная способность составляет лишь половину от H100 (900 ГБ/с). ). При выполнении той же задачи искусственного интеллекта H800 может потребоваться на 10–30 % больше времени, чем H100. Инженер по искусственному интеллекту предположил, что H800, возможно, не так эффективен в обучении, как A100, но он дороже.
Тем не менее, A800 и H800 превосходят аналогичные продукты других крупных компаний и стартапов. Ограниченные производительностью и более специализированной архитектурой, чипы искусственного интеллекта или чипы графических процессоров, выпускаемые различными компаниями, в основном используются для рассуждений ИИ и с трудом справляются с задачами предварительного обучения больших моделей. Короче говоря, обучение ИИ заключается в создании моделей, а рассуждение ИИ — в использовании моделей, поэтому обучение предъявляет более высокие требования к производительности чипов.
Помимо разницы в производительности, большее конкурентное преимущество NVIDIA заключается в ее программной экосистеме. Еще в 2006 году NVIDIA запустила вычислительную платформу CUDA, которая представляет собой программный механизм параллельных вычислений. Разработчики могут использовать CUDA для более эффективного обучения искусственного интеллекта и вывода данных, а также полностью использовать вычислительную мощность графического процессора. Сегодня CUDA стала стандартом для инфраструктуры искусственного интеллекта, и на основе CUDA разрабатываются основные платформы, библиотеки и инструменты искусственного интеллекта.
Если другие графические процессоры и чипы искусственного интеллекта хотят получить доступ к CUDA, им необходимо предоставить собственное адаптационное программное обеспечение, но они могут получить только часть производительности CUDA, а скорость обновления и итерации низкая. Некоторые платформы искусственного интеллекта, такие как PyTorch, пытаются сломать монополию экосистемы программного обеспечения CUDA и предоставить больше программных функций для поддержки графических процессоров других производителей, но их привлекательность для разработчиков ограничена. Специалист по искусственному интеллекту упомянул, что его компания рассматривала возможность использования производителя графических процессоров, не относящегося к NVIDIA, который предлагал более низкие цены на чипы и услуги и обещал обеспечить более своевременную поддержку. Однако в конечном итоге они пришли к выводу, что использование других графических процессоров приведет к общим затратам на обучение и разработку. выше, чем при использовании NVIDIA, а также вам придется смириться с неопределенностью результатов и потратить больше времени. «Хотя цена А100 высока, она наиболее экономична в реальном использовании».
Для крупных технологических компаний и ведущих стартапов, заинтересованных в использовании возможностей крупных моделей, деньги часто не являются проблемой, а время является наиболее ценным ресурсом. В краткосрочной перспективе единственным фактором, который может повлиять на продажи графических процессоров NVIDIA для центров обработки данных, могут стать производственные мощности TSMC.
Чипы H100/800 и A100/800 используют 4-нм и 7-нм техпроцессы TSMC. По сообщениям тайваньских СМИ, в этом году Nvidia увеличила заказ на 10 000 графических процессоров для центров обработки данных для TSMC и разместила срочные заказы, которые могут сократить время производства до 50%. Обычно на производство чипов A100 компании TSMC уходит несколько месяцев. Текущее узкое место производства в основном заключается в недостаточной производственной мощности современной упаковки. Разрыв достиг 10–20%. Производственные мощности необходимо постепенно увеличивать, что может занять от 3 до 6 месяцев.
С тех пор как в области глубокого обучения появились графические процессоры, подходящие для параллельных вычислений, движущей силой развития искусственного интеллекта стали аппаратное и программное обеспечение. Вычислительная мощность графических процессоров и разработка моделей и алгоритмов способствуют друг другу: развитие моделей стимулирует рост спроса на вычислительные мощности, а рост вычислительных мощностей делает возможным крупномасштабное обучение, которого изначально было трудно достичь. На последней волне бума глубокого обучения, представленного распознаванием изображений, возможности программного обеспечения искусственного интеллекта в Китае были на одном уровне с самыми передовыми мировыми уровнями; текущая трудность заключается в вычислительной мощности — для разработки и производства чипов требуется больше времени. цепочки поставок и многочисленные патентные барьеры.