Недавно компания DeepSeek из Ханчжоу выпустила модель MoE второго поколения DeepSeek-V2. Судя по различным показателям, она находится на лидирующем уровне, по сравнению с моделями с открытым исходным кодом или моделями с закрытым исходным кодом, она находится в первом эшелоне. сильный конкурент передовых крупных моделей, таких как GPT-4, Wenxin 4.0, Qwen1.5 72B, LLaMA3 70B и так далее. Эта статья познакомит вас с этим.
Размер параметра и производительность
DeepSeek-V2 содержит 236B (миллиардов) параметров, каждый токен активирует 2,1B параметров и поддерживает длину контекста до 128K. С точки зрения производительности, он находится в одном эшелоне с моделями с закрытым исходным кодом, такими как GPT-4-Turbo и Wenxin 4.0, в китайской комплексной оценке возможностей, а его комплексные возможности на английском языке находятся в том же эшелоне с моделью с открытым исходным кодом LLaMA3-70B. .
длина контекста
Открытый исходный Код Модель поддерживает длину до 128К. контекста, а чат и API поддерживают длину 32 КБ. контекста, помогает решать сложные задачи, требующие большого количества контекстной информации.
знание китайского языка
Китайская комплексная способность (AlignBench) является самой сильной среди моделей с открытым исходным кодом и находится в том же эшелоне оценки, что и модели с закрытым исходным кодом, такие как GPT-4-Turbo и Wenxin 4.0.
Возможность программирования
Хорошо справляется с программированием задач и логическим рассуждением.,Подходит для технических областей и сценариев применения, требующих принятия сложных решений. Официально поставить кодера на видное место,Видно, что команда уверена в своей команде.
цена API
Цена API DeepSeek-V2 составляет 1 юань (0,14 доллара США) за миллион входных токенов и 2 юаня (0,28 доллара США) за миллион выходных токенов, что является конкурентоспособной ценой.
Модельная архитектура
DeepSeek-V2 использует архитектуру MoE. В частности, он внедряет инновационный механизм самообслуживания в архитектуре Transformer, предлагает структуру MLA (Multi-head Latent Attention) и использует технологию MoE для дальнейшего сокращения объема вычислений и повышения эффективности рассуждений. .
коммерческий
Протокол «Открытый исходный код» — MIT, и отмечается, что серия V2 поддерживает коммерческий.
Заключение
Чрезвычайно конкурентоспособная цена и, казалось бы, хорошая производительность данных заинтересовали меня этой компанией. Познакомившись с ней, я узнал, что эта компания является независимой компанией Magic Square, которая сама занимается количественной оценкой ИИ. Как инвестор, я обнаружил, что ИИ. имеет большой потенциал, создала независимый бизнес, создала новый бренд для расширения модели и изучила различные возможности. Я думаю, что среди нынешних основных сервисов больших моделей хорошая модель должна иметь следующие моменты: 1. Открытый исходный код, 2. Низкая цена, 3. Хорошее понимание китайского языка, 4. Архитектурная поддержка больших контекстных окон и лучшая производительность. Если оставить в стороне известные зарубежные модели, то эмоционально я больше поддерживаю превосходные отечественные модели. В области ИИ больше приложений ИИ, которые можно создать в китайском контексте, не только позволят обычным разработчикам использовать их с меньшими затратами. Стоимость перехода на путь ИИ также позволит большему количеству обычных людей насладиться удобством, предоставляемым ИИ.