введение
Языковые модели являются ключом к созданию приложений НЛП. В настоящее время принято считать, что построение языковых моделей НЛП на основе предварительно обученных моделей является практичным и эффективным методом. Я считаю, что по мере того, как туман эпидемии рассеивается, технология НЛП продолжит проникать во многие отрасли. В этом процессе многие студенты обязательно будут использовать или изучать модели предварительного обучения НЛП. По этой причине автор собрал десять лучших моделей и статей по предварительному обучению НЛП в 2023 году. Эффекты моделей не расположены в определенном порядке.
Серверный ответ:Топ-10 предварительно обученных моделей Получите полный текст статьи
Модель BERT (представления двунаправленного кодировщика от Transformers) — это модель предварительного обучения НЛП, исследованная и выпущенная Google в 2018 году. После выпуска она была так же популярна, как ChatGPT.
Он использует уникальную архитектуру нейронной сети Transformer (которая, похоже, уже не нова) для понимания языка. Эта модель подходит для любых задач, таких как распознавание речи (ASR), преобразование текста в речь (TTS) и последовательность в последовательность (Sequence To Sequence). Модель BERT может эффективно справляться с 11 задачами НЛП. Поиск Google является лучшим примером использования модели BERT. Другие случаи применения Google, такие как документы Google, написание электронной почты Google и т. д., используют возможности прогнозирования текста модели BERT. .
Модель GPT-2 (Generative Pre-trained Transformer) — это модель с открытым исходным кодом, выпущенная OpenAI в феврале 2019 года, а полная версия языковой модели GPT-2 была выпущена в ноябре того же года (с 1,5 миллиардами параметров).
GPT-2 может достигать человеческого уровня в задачах НЛП, таких как перевод текста, вопросы и ответы для обеспечения качества, резюме статьи и генерация текста. Но при создании статей о росте они могут стать повторяющимися или бессмысленными. GPT-2 является общей моделью. Она не проходила специальной подготовки для вышеперечисленных задач. Это связано с ее уникальной способностью к расширению обобщения, то есть она может точно синтезировать следующий элемент в любой последовательности. GPT-2 — это «прямое расширение» модели GPT OpenAI 2018 года с десятикратным увеличением количества параметров и размера набора обучающих данных. Модель GPT также основана на Transformer. Она использует внимание для замены предыдущих архитектур RNN и CNN, позволяя модели выборочно фокусироваться на наиболее релевантных фрагментах входного текста, которые она прогнозирует.
Модель GPT-3 (Генераторный предварительно обученный преобразователь) — это авторегрессионная языковая модель, выпущенная OpenAI в 2020 году. Она использует глубокое обучение для генерации текста, похожего на человеческий. То есть, учитывая исходный текст в качестве подсказки, он продолжит генерировать последующие тексты. Текст, сгенерированный GPT-3, настолько высокого качества, что сложно определить, был ли он написан человеком, что имеет как преимущества, так и риски. (Популярный сейчас чатGPT обучен на основе GPT-3.5)
Архитектура GPT-3 имеет только сеть Transformer декодера, которая имеет контекст длиной 2048 токенов и 175 миллиардов параметров, требующих 800 ГБ хранилища. Модель обучается с использованием генеративного предварительного обучения; после обучения она может предсказать, каким будет следующий токен, на основе предыдущего токена. Модель демонстрирует сильные способности к обучению при выполнении задач обучения с нулевой и малой вероятностью.
Модель RoBERTa (надежно оптимизированный подход к предварительному обучению BERT) была выпущена Meta AI в июле 2019 года. Она оптимизирована на основе модели BERT. Модель строит свою языковую модель на основе стратегии языковой маскировки BERT путем изучения и прогнозирования намеренно замаскированных частей текста и обучается с использованием более крупных мини-пакетов и скорости обучения. Это позволяет RoBERTa улучшить цели моделирования языка в масках и повысить производительность последующих задач по сравнению с BERT.
RoBERTa — это предварительно обученная модель, которая хорошо работает при GLUE или оценке общего понимания языка.
Модель ALBERT (Маленький Берт) — это упрощенная версия модели BERT, выпущенная Google в начале 2020 года. Эта модель в основном используется для решения проблемы медленного времени обучения, вызванной увеличением размера модели. В этой языковой модели используются два метода упрощения параметров: внедрение факторов и совместное использование параметров между уровнями, то есть при факторизованном внедрении скрытый слой и внедрение словаря измеряются отдельно. Однако совместное использование параметров между уровнями предотвращает увеличение количества параметров по мере роста сети. Успех ALBERT демонстрирует важность выявления аспектов модели, которые дают мощные контекстуальные представления. Сосредоточив усилия по улучшению на этих аспектах архитектуры модели, можно значительно повысить эффективность и производительность модели при решении различных задач НЛП.
XLNet — это модель, подобная BERT, а не совершенно другая модель. Короче говоря, XLNet — это общий авторегрессионный метод предварительного обучения. Это модель, выпущенная командами CMU и Google Brain в июне 2019 года. XLNet превзошла производительность BERT на 20 задачах и достигла лучших на данный момент результатов (современных) на 18 задачах, включая машинный ответ на вопросы, естественный. языковой вывод, анализ настроений и ранжирование документов.
Модель предварительного обучения модели BERT, основанная на автокодировщиках с шумоподавлением, может хорошо моделировать двунаправленную контекстную информацию, и ее производительность лучше, чем метод предварительного обучения, основанный на авторегрессионных языковых моделях. Однако из-за необходимости маскировать часть входных данных BERT игнорирует зависимость между замаскированными позициями, поэтому существует разница между эффектами предварительной тренировки и точной настройки (несоответствие предварительной настройки и точной настройки). На основе вышеуказанных проблем возникает обобщенная авторегрессия. появилась предтренировочная модель XLNet.
Модель T5 (трансформатор преобразования текста в текст) — это мощная унифицированная модель, выпущенная Google в июле 2020 года. Она преобразует все задачи НЛП в задачи преобразования текста в текст, что позволяет легко оценить влияние различных структур модели. целевые функции предварительной подготовки, немаркированные наборы данных и т. д. для выполнения ряда задач НЛП, таких как понимание прочитанного, создание сводок и классификация текста.
Google предложил единый метод переноса обучения НЛП, создав новую ситуацию в этой области. Модель была обучена с использованием данных веб-скрапинга и достигла самых современных результатов в нескольких задачах НЛП.
Модель ELECTRA (Эффективное обучение кодировщика, который точно классифицирует замены токенов), эта модель достигает эффекта RoBERTa с 1/4 вычислительной мощности. Эта модель опирается на идею состязательных сетей и обучает две модели нейронных сетей. Генератор случайным образом блокирует слова в исходном тексте и выполняет прогнозирующее обучение. это правда, ложь, если другое. Используется метод совместного обучения, но в отличие от состязательной сети параметры не передаются обратно в генераторе и дискриминаторе, а используется только встраивание. Размер встраивания соответствует скрытому слою дискриминатора.
Модель DeBERTa (BERT с улучшенным декодированием и распутанным вниманием) была выпущена Microsoft в начале 2021 года. В настоящее время модель фактически была повторена в трех версиях. Модель DeBERTa использует две новые технологии (механизм развязки внимания, улучшенный декодер маски) для улучшения моделей BERT и RoBERTa, а также представляет новый метод тонкой настройки (метод виртуального состязательного обучения) для улучшения общей производительности модели. . Результаты показывают, что вышеупомянутые технологии и методы повышают эффективность предварительного обучения модели и производительность последующих задач понимания естественного языка (NLU) и генерации естественного языка (NLG).
Модель StructBERT — это предварительно обученная языковая модель, модель предварительного обучения НЛП, предложенная Alibaba Damo Academy в 2019 году. Это усовершенствование, основанное на модели BERT. Самое большое отличие состоит в том, что StructBERT добавляет две задачи и цели предварительного обучения, которые могут максимально использовать порядок слов и предложений и использовать языковые структуры на уровне слов и предложений соответственно. Таким образом, новая модель подходит для разных уровней понимания языка, необходимых для последующих задач.
[1] «Обработка естественного языка (НЛП)» Что вы должны знать “ Двенадцать ведущих международных конференций ” !