2023 год! 10 лучших предварительно обученных моделей обработки естественного языка (НЛП)
2023 год! 10 лучших предварительно обученных моделей обработки естественного языка (НЛП)

введение

Языковые модели являются ключом к созданию приложений НЛП. В настоящее время принято считать, что построение языковых моделей НЛП на основе предварительно обученных моделей является практичным и эффективным методом. Я считаю, что по мере того, как туман эпидемии рассеивается, технология НЛП продолжит проникать во многие отрасли. В этом процессе многие студенты обязательно будут использовать или изучать модели предварительного обучения НЛП. По этой причине автор собрал десять лучших моделей и статей по предварительному обучению НЛП в 2023 году. Эффекты моделей не расположены в определенном порядке.

Серверный ответ:Топ-10 предварительно обученных моделей Получите полный текст статьи

1. Модель БЕРТ

Модель BERT (представления двунаправленного кодировщика от Transformers) — это модель предварительного обучения НЛП, исследованная и выпущенная Google в 2018 году. После выпуска она была так же популярна, как ChatGPT.

Он использует уникальную архитектуру нейронной сети Transformer (которая, похоже, уже не нова) для понимания языка. Эта модель подходит для любых задач, таких как распознавание речи (ASR), преобразование текста в речь (TTS) и последовательность в последовательность (Sequence To Sequence). Модель BERT может эффективно справляться с 11 задачами НЛП. Поиск Google является лучшим примером использования модели BERT. Другие случаи применения Google, такие как документы Google, написание электронной почты Google и т. д., используют возможности прогнозирования текста модели BERT. .

2. Модель ГПТ-2.

Модель GPT-2 (Generative Pre-trained Transformer) — это модель с открытым исходным кодом, выпущенная OpenAI в феврале 2019 года, а полная версия языковой модели GPT-2 была выпущена в ноябре того же года (с 1,5 миллиардами параметров).

GPT-2 может достигать человеческого уровня в задачах НЛП, таких как перевод текста, вопросы и ответы для обеспечения качества, резюме статьи и генерация текста. Но при создании статей о росте они могут стать повторяющимися или бессмысленными. GPT-2 является общей моделью. Она не проходила специальной подготовки для вышеперечисленных задач. Это связано с ее уникальной способностью к расширению обобщения, то есть она может точно синтезировать следующий элемент в любой последовательности. GPT-2 — это «прямое расширение» модели GPT OpenAI 2018 года с десятикратным увеличением количества параметров и размера набора обучающих данных. Модель GPT также основана на Transformer. Она использует внимание для замены предыдущих архитектур RNN и CNN, позволяя модели выборочно фокусироваться на наиболее релевантных фрагментах входного текста, которые она прогнозирует.

3. Модель ГПТ-3

Модель GPT-3 (Генераторный предварительно обученный преобразователь) — это авторегрессионная языковая модель, выпущенная OpenAI в 2020 году. Она использует глубокое обучение для генерации текста, похожего на человеческий. То есть, учитывая исходный текст в качестве подсказки, он продолжит генерировать последующие тексты. Текст, сгенерированный GPT-3, настолько высокого качества, что сложно определить, был ли он написан человеком, что имеет как преимущества, так и риски. (Популярный сейчас чатGPT обучен на основе GPT-3.5)

Архитектура GPT-3 имеет только сеть Transformer декодера, которая имеет контекст длиной 2048 токенов и 175 миллиардов параметров, требующих 800 ГБ хранилища. Модель обучается с использованием генеративного предварительного обучения; после обучения она может предсказать, каким будет следующий токен, на основе предыдущего токена. Модель демонстрирует сильные способности к обучению при выполнении задач обучения с нулевой и малой вероятностью.

4、RoBERTa

Модель RoBERTa (надежно оптимизированный подход к предварительному обучению BERT) была выпущена Meta AI в июле 2019 года. Она оптимизирована на основе модели BERT. Модель строит свою языковую модель на основе стратегии языковой маскировки BERT путем изучения и прогнозирования намеренно замаскированных частей текста и обучается с использованием более крупных мини-пакетов и скорости обучения. Это позволяет RoBERTa улучшить цели моделирования языка в масках и повысить производительность последующих задач по сравнению с BERT.

RoBERTa — это предварительно обученная модель, которая хорошо работает при GLUE или оценке общего понимания языка.

5、ALBERT

Модель ALBERT (Маленький Берт) — это упрощенная версия модели BERT, выпущенная Google в начале 2020 года. Эта модель в основном используется для решения проблемы медленного времени обучения, вызванной увеличением размера модели. В этой языковой модели используются два метода упрощения параметров: внедрение факторов и совместное использование параметров между уровнями, то есть при факторизованном внедрении скрытый слой и внедрение словаря измеряются отдельно. Однако совместное использование параметров между уровнями предотвращает увеличение количества параметров по мере роста сети. Успех ALBERT демонстрирует важность выявления аспектов модели, которые дают мощные контекстуальные представления. Сосредоточив усилия по улучшению на этих аспектах архитектуры модели, можно значительно повысить эффективность и производительность модели при решении различных задач НЛП.

6、XLNet

XLNet — это модель, подобная BERT, а не совершенно другая модель. Короче говоря, XLNet — это общий авторегрессионный метод предварительного обучения. Это модель, выпущенная командами CMU и Google Brain в июне 2019 года. XLNet превзошла производительность BERT на 20 задачах и достигла лучших на данный момент результатов (современных) на 18 задачах, включая машинный ответ на вопросы, естественный. языковой вывод, анализ настроений и ранжирование документов.

Модель предварительного обучения модели BERT, основанная на автокодировщиках с шумоподавлением, может хорошо моделировать двунаправленную контекстную информацию, и ее производительность лучше, чем метод предварительного обучения, основанный на авторегрессионных языковых моделях. Однако из-за необходимости маскировать часть входных данных BERT игнорирует зависимость между замаскированными позициями, поэтому существует разница между эффектами предварительной тренировки и точной настройки (несоответствие предварительной настройки и точной настройки). На основе вышеуказанных проблем возникает обобщенная авторегрессия. появилась предтренировочная модель XLNet.

7、T5

Модель T5 (трансформатор преобразования текста в текст) — это мощная унифицированная модель, выпущенная Google в июле 2020 года. Она преобразует все задачи НЛП в задачи преобразования текста в текст, что позволяет легко оценить влияние различных структур модели. целевые функции предварительной подготовки, немаркированные наборы данных и т. д. для выполнения ряда задач НЛП, таких как понимание прочитанного, создание сводок и классификация текста.

Google предложил единый метод переноса обучения НЛП, создав новую ситуацию в этой области. Модель была обучена с использованием данных веб-скрапинга и достигла самых современных результатов в нескольких задачах НЛП.

8、ELECTRA

Модель ELECTRA (Эффективное обучение кодировщика, который точно классифицирует замены токенов), эта модель достигает эффекта RoBERTa с 1/4 вычислительной мощности. Эта модель опирается на идею состязательных сетей и обучает две модели нейронных сетей. Генератор случайным образом блокирует слова в исходном тексте и выполняет прогнозирующее обучение. это правда, ложь, если другое. Используется метод совместного обучения, но в отличие от состязательной сети параметры не передаются обратно в генераторе и дискриминаторе, а используется только встраивание. Размер встраивания соответствует скрытому слою дискриминатора.

9、DeBERTa

Модель DeBERTa (BERT с улучшенным декодированием и распутанным вниманием) была выпущена Microsoft в начале 2021 года. В настоящее время модель фактически была повторена в трех версиях. Модель DeBERTa использует две новые технологии (механизм развязки внимания, улучшенный декодер маски) для улучшения моделей BERT и RoBERTa, а также представляет новый метод тонкой настройки (метод виртуального состязательного обучения) для улучшения общей производительности модели. . Результаты показывают, что вышеупомянутые технологии и методы повышают эффективность предварительного обучения модели и производительность последующих задач понимания естественного языка (NLU) и генерации естественного языка (NLG).

10、StructBERT

Модель StructBERT — это предварительно обученная языковая модель, модель предварительного обучения НЛП, предложенная Alibaba Damo Academy в 2019 году. Это усовершенствование, основанное на модели BERT. Самое большое отличие состоит в том, что StructBERT добавляет две задачи и цели предварительного обучения, которые могут максимально использовать порядок слов и предложений и использовать языковые структуры на уровне слов и предложений соответственно. Таким образом, новая модель подходит для разных уровней понимания языка, необходимых для последующих задач.

Рекомендуем к прочтению

[1] «Обработка естественного языка (НЛП)» Что вы должны знать “ Двенадцать ведущих международных конференций ” !

[2] Национальный университет Сингапура | Создайте надежную модель контроля качества (устойчивую к изменениям дистрибутива). & (Включая исходный код)

[3]В GPT-3 есть ошибка! Количественный анализ «робастности» крупномасштабных языковых моделей на базе Transformer

boy illustration
Углубленный анализ переполнения памяти CUDA: OutOfMemoryError: CUDA не хватает памяти. Попыталась выделить 3,21 Ги Б (GPU 0; всего 8,00 Ги Б).
boy illustration
[Решено] ошибка установки conda. Среда решения: не удалось выполнить первоначальное зависание. Повторная попытка с помощью файла (графическое руководство).
boy illustration
Прочитайте нейросетевую модель Трансформера в одной статье
boy illustration
.ART Теплые зимние предложения уже открыты
boy illustration
Сравнительная таблица описания кодов ошибок Amap
boy illustration
Уведомление о последних правилах Points Mall в декабре 2022 года.
boy illustration
Даже новички могут быстро приступить к работе с легким сервером приложений.
boy illustration
Взгляд на RSAC 2024|Защита конфиденциальности в эпоху больших моделей
boy illustration
Вы используете ИИ каждый день и до сих пор не знаете, как ИИ дает обратную связь? Одна статья для понимания реализации в коде Python общих функций потерь генеративных моделей + анализ принципов расчета.
boy illustration
Используйте (внутренний) почтовый ящик для образовательных учреждений, чтобы использовать Microsoft Family Bucket (1T дискового пространства на одном диске и версию Office 365 для образовательных учреждений)
boy illustration
Руководство по началу работы с оперативным проектом (7) Практическое сочетание оперативного письма — оперативного письма на основе интеллектуальной системы вопросов и ответов службы поддержки клиентов
boy illustration
[docker] Версия сервера «Чтение 3» — создайте свою собственную программу чтения веб-текста
boy illustration
Обзор Cloud-init и этапы создания в рамках PVE
boy illustration
Корпоративные пользователи используют пакет регистрационных ресурсов для регистрации ICP для веб-сайта и активации оплаты WeChat H5 (с кодом платежного узла версии API V3)
boy illustration
Подробное объяснение таких показателей производительности с высоким уровнем параллелизма, как QPS, TPS, RT и пропускная способность.
boy illustration
Удачи в конкурсе Python Essay Challenge, станьте первым, кто испытает новую функцию сообщества [Запускать блоки кода онлайн] и выиграйте множество изысканных подарков!
boy illustration
[Техническая посадка травы] Кровавая рвота и отделка позволяют вам необычным образом ощипывать гусиные перья! Не распространяйте информацию! ! !
boy illustration
[Официальное ограниченное по времени мероприятие] Сейчас ноябрь, напишите и получите приз
boy illustration
Прочтите это в одной статье: Учебник для няни по созданию сервера Huanshou Parlu на базе CVM-сервера.
boy illustration
Cloud Native | Что такое CRD (настраиваемые определения ресурсов) в K8s?
boy illustration
Как использовать Cloudflare CDN для настройки узла (CF самостоятельно выбирает IP) Гонконг, Китай/Азия узел/сводка и рекомендации внутреннего высокоскоростного IP-сегмента
boy illustration
Дополнительные правила вознаграждения амбассадоров акции в марте 2023 г.
boy illustration
Можно ли открыть частный сервер Phantom Beast Palu одним щелчком мыши? Супер простой урок для начинающих! (Прилагается метод обновления сервера)
boy illustration
[Играйте с Phantom Beast Palu] Обновите игровой сервер Phantom Beast Pallu одним щелчком мыши
boy illustration
Maotouhu делится: последний доступный внутри страны адрес склада исходного образа Docker 2024 года (обновлено 1 декабря)
boy illustration
Кодирование Base64 в MultipartFile
boy illustration
5 точек расширения SpringBoot, супер практично!
boy illustration
Глубокое понимание сопоставления индексов Elasticsearch.
boy illustration
15 рекомендуемых платформ разработки с нулевым кодом корпоративного уровня. Всегда найдется та, которая вам понравится.
boy illustration
Аннотация EasyExcel позволяет экспортировать с сохранением двух десятичных знаков.