Углубленный анализ того, как DPO и его варианты справляются с различными задачами и как выбрать
Углубленный анализ того, как DPO и его варианты справляются с различными задачами и как выбрать

Глубокое обучение обработке естественного языка Оригинал Автор:wkk

Часть: Университет штата Аризона документ: Взгляд на согласованность: оценка DPO и его вариантов в рамках нескольких задач Ссылка: https://arxiv.org/pdf/2404.14723

Сегодня я собираюсь познакомить вас с исследованием больших языковых моделей (LLM), которое провел Амир Амир из Университета штата Аризона. Saeidi、Shivanshu Верма и Читта Передовые результаты, полученные тремя экспертами Baral. Их последняя статья Insights into Alignment: Evaluating DPO and its Variants Across Multiple Задачи» представила нам Прямую оптимизация Тайна предпочтений (DPO) и производный от нее метод, показавшие большой потенциал в адаптации модели оптимизации к человеческим предпочтениям.

введение

LLMПродемонстрировал превосходство в различных задачахпроизводительность。Прямая оптимизация предпочтений(DPO)какRL-freeизоптимизация人类偏好из策略Модельизметод Появился。Однако,Ряд ограничений препятствует широкому распространению этого метода. Для устранения этих недостатков,Были представлены различные версии DPO. Однако,Комплексная оценка этих переменных в различных задачах до сих пор отсутствует.

В данном исследовании этот пробел восполняется путем изучения эффективности метода спортивного соревнования на трех разных сценах:

  • сцена первая: Оставьте часть контролируемой точной настройки (SFT).
  • Место сцены: Пропустите часть SFT.
  • Сцена третья: пропустите часть SFT и настройте Модель с помощью команды тонкой настройки.

Кроме того, также исследуется влияние различных шкал обучения на его результативность. Оценка в этой статье охватывает ряд задач, включая диалоговые системы, рассуждения, решение математических задач, ответы на вопросы, подлинность и понимание многозадачности, включая 13 тестов, таких как MT-Bench, Big Bench и Open LLM Leaderboard.

Введение

LLM вызвал революцию в решении реальных задач, продемонстрировав впечатляющие возможности в различных областях, требующих рассуждений и опыта. Эти модели превосходно справляются с математическими рассуждениями/решением задач, генерацией кода/программированием, генерацией текста, обобщением и творческим письмом, а также другими задачами.

Среди них на основе контролируемой тонкой настройки (SFT) и обучения. с подкреплением и обратной связью от человека(RLHF)из Метод выравнивания,LLM добился значительных результатов в области человеческих предпочтений. Хотя по сравнению с SFT,RLHF демонстрирует значительную производительность,но оно сталкиваетсяreward hackingи т. д. ограничения。В сравнении,DPO — это современный метод автономного обучения с подкреплением.,Было предложено использовать человеческие предпочтения без необходимости использования процессов RL.

Метод Ограничения соревнования включают такие проблемы, как переобучение, неэффективное обучение и использование памяти, ранжирование предпочтений и зависимость от предпочтений для различных сцен, таких как диалоговые системы, подведение итогов, анализ настроений, полезные и вредные вопросы и ответы, а также машинный перевод. Несмотря на важность этих исследований, ни одно из них не исследовало тщательно ключевые неясности в согласовании, такие как появление метода без SFT. выравниванияиз可学习性、Справедливое сравнение этих методов、Оценка его производительности после SFT、Пара томов данныхпроизводительностьиз影响以及这些метод固有из弱点。они на языкерассуждениеирассуждение中起着至关重要из作用。

исследовательские инновации

В этой статье подробно рассматриваются методы спорта без RLалгоритма, такие как производительность для DPO, IPO, KTO и CPO. Этот метод обычно состоит из двух этапов:

  • Контролируемая доработка стратегии Модель,
  • Использовать выравниваниеалгоритм(нравитьсяDPO)оптимизацияSFTМодель。

В этой статье о эксперименте рассматриваются различные задачи.,Включает диалоговую систему、рассуждение、решение задачи по математике、Вопросы и ответы、подлинностьи多任务理解。и в13Они были оценены по эталону Метод выравнивания。

Вклад этой статьи можно разделить на следующие пункты:

  1. Изучите способности к обучению метода спортивного спорта.,Разработан для решения проблем переоснащения в рамках DPO. Результаты исследования показывают,Пропустить часть SFT в MT-Bench,СПО и КТО демонстрируют значительную производительность.
  2. Системы перекрестного диалога были тщательно изучены на трех разных сценах.、рассуждение、решение задачи по математике、Вопросы и ответы、подлинностьи多任务理解из Метод Срок действия соревнования.
  3. Комплексная оценка показывает,«Метод тенниса» показал недостаточную продуктивность в решении задач на рассуждение.,Но в решенииматематика问题иподлинность方面表现出令人印象深刻изпроизводительность。
  4. В ходе стандартного процесса выравнивания,Точная настройка модели SFT со всеми согласованиями с использованием небольшого набора обучающих данных обеспечивает более высокую производительность.

Связанная работа

С развитием предварительно обученных LLM,Достигнута отличная производительность в сценах с нулевой и малой выборкой при выполнении различных задач. Однако,Применительно к последующим задачам,Производительность LLM имеет тенденцию к снижению. Хотя использование ручной точной настройки модели помогает с выравниванием и производительностью.,Но зачастую более осуществимо получить человеческие предпочтения в ответах. поэтому,Недавние исследования обратились к тонкой настройке LLM с учетом человеческих предпочтений. Вот методы спортивных соревнований для различных задач:

  • Обучение с подкреплением и обратной связью от человека(RLHF):предложено с использованием проксимальных стратегийоптимизация(PPO)Ждите подкрепленияалгоритм,Модель вознаграждения с использованием модели Брэдли-Терри (BT), обучение оптимизации операций с максимальным вознаграждением. Хотя RLHF повышает производительность модели,Но ему приходится иметь дело с присущей обучению с подкреплением нестабильностью.
  • калибровка вероятности последовательности(SLiC):引入了один种新изметоддля более точной настройки надзора(SFT)Модель产生из偏好进行排名,Калибровочные потери и регуляризация используются для точной настройки потерь во время обучения. в то же время,Предположим, что для каждого ввода имеется несколько отсортированных ответов.,Обучите SFTModel, используя контрастные потери с нулевой предельной вероятностью.
  • Оптимизация статистической бракованной выборки(RSO):комбинированныйSLiCиDPOизметод,Также представлен метод улучшения, который собирает пары предпочтений посредством статистической выборки отклонения.
  • KTO:получатьKahnemanиTversky关于前景理论из开创性工作из启发,Стремясь напрямую максимизировать полезность LLM,вместо максимизации логарифмической вероятности предпочтений. Этот метод устраняет необходимость в двух предпочтениях для одного и того же ввода.,Потому что он фокусируется на распознавании того, является ли предпочтение желательным или нежелательным.
  • Self-Play fIne tuNing(SPIN):использованиеSFT步骤中使用из数据集来增强DPOиз自我训练метод。Этот видметодиз关键思想是использовать生成из合成数据作为拒绝响应,И используйте золотой ответ, выбранный из набора данных SFT. в то же время,Оптимизация предпочтения сокращения (CPO) предлагает эффективный метод предпочтения обучения, который сочетает в себе потерю максимального правдоподобия и функцию потерь DPO.,Предназначен для улучшения памяти и эффективности обучения.

В вышеупомянутой работе отсутствует Метод завершения и обучения предпочтениям. Сравнительное исследование спортсменния. Хотя эти исследования касаются необходимости этапа SFT для DPO, дальнейшее изучение альтернатив оправдано. Хотя важность предпочтений высокого качества широко признана, все еще существует необходимость изучить влияние объема данных на метод. Влияние спортивнойпроизводительности. Более того, критические аспекты генерализации остаются неисследованными. Хотя выравнивание модели предназначено для повышения всех категорий производительности, улучшение метода Спортния обычно происходит за счет производительности в других областях.

Метод выравнивания

Обычно процесс настройки РЛ делят на три этапа:

  • Стратегии точной настройки с использованием модели контролируемой точной настройки (SFT),
  • Модель вознаграждения за обучение,
  • Используйте обучение с подкреплением (RL) для дальнейшей настройки исходной модели политики.,внаграда Модель Обеспечить механизм обратной связи。

Недавнее исследование DPO представляет метод без RL, предназначенный для согласования стратегий «Модель» с возможностью оптимизации предпочтительных и непредпочтительных ответов. Функция потерь DPO выражается следующим образом:

\mathcal{L}_{DPO}(\pi_\theta;\pi_{ref})=-\mathbb{E}_{(x,y_w,y_l)\sim \mathcal{D}}\bigg[log \sigma(\beta log\frac{\pi_\theta(y_w|x)}{\pi_{ref}(y_w|x)})-\beta log\frac{\pi_\theta(y_l|x)}{\pi_{ref}(y_l|x)})\bigg]

Хотя DPO превосходит RLHF методом без RTL,Но он сталкивается с такими ограничениями, как переобучение и необходимость жесткой регуляризации.,Это может снизить эффективность стратегии Модель. Чтобы обойти эти ограничения,Ученые-исследователи представили алгоритм IPO,Этот алгоритм определяет общую форму DPO и переформулирует ее для устранения переобучения и регуляризации. Функция потерь IPO выглядит следующим образом:

\mathcal{L}_{IPO}(\pi)=-\mathbb{E}_{(y_w,y_l,x)\sim \mathcal{D}}\biggl(h_\pi(y_w,y_l,x)-\frac{\tau^-1}{2}\biggl)^2
h_\pi(y,y^{'},x)=log\biggl(\frac{\pi(y|x)\pi_{ref}(y^{'}|x)}{\pi(y^{'}|x)\pi_{ref}(y|x)}\biggl)

Алгоритм IPO решает проблему переоснащения и недостаток необходимости обширной регуляризации в DPO, но основан на двух предпочтениях Метода. Спортния бывает разной сложности. Исследование KTO направлено на повышение эффективности метода DPO путем реализации стратегий, использующих только одно предпочтение. Выражение функции потерь КТО имеет следующий вид:

\mathcal{L}_{KTO}(\pi_\theta,\pi_{ref};\beta)=\mathbb{E}_{x,y\sim \mathcal{D}}[1-\hat h(x,y;\beta)]
\hat h(x,y;\beta)=\begin{cases} \sigma\Big(\beta log\frac{\pi_\theta(y|x)}{\pi_{ref}(y|x)}-\mathbb{E}_{x^{'}\sim D}[\beta KL(\pi_\theta||\pi_{ref})]\Big) \qquad & if \quad y \sim y_{desirable}|x \\ \sigma\Big(\mathbb{E}_{x^{'}\sim D}[\beta KL(\pi_\theta||\pi_{ref})]-\beta log\frac{\pi_\theta(y|x)}{\pi_{ref}(y|x)}\Big) \qquad & if \quad y \sim y_{undesirable}|x \end{cases}

IPOиKTOУлучшенныйDPOМодельизпроизводительностьи решенов Некоторые недостатки。Однако,Когда две модели загружаются одновременно,Это приведет к низкой эффективности обучения DPOалгоритма. Чтобы улучшить это,Ученые разработали метод CPO,Повышена эффективность DPOметода. Исследования показывают,Нет необходимости загружать эталонную модель стратегии во время обучения. Опустив ссылку на память Модель,CPO повышает операционную эффективность,По сравнению с ДПО,Возможность обучения более крупной модели по более низкой цене. Выражение функции потерь CPO выглядит следующим образом:

\mathcal{L}_{NLL}=-\mathbb{E}_{(x,y_w) \sim \mathcal{D}}[log\pi_\theta(y_w|x)]
\mathcal{L}_{prefer}=-\mathbb{E}_{(x,y_w,y_l)\sim \mathcal{D}}[log\sigma(\beta log\pi_\theta(y_w|x)-\beta log\pi_\theta(y_l|x)))]
\mathcal{L}_{CPO}=\mathcal{L}_{prefer}+\mathcal{L}_{NLL}

эксперимент

Исследовательская группа разработала три различных эксперимента для оценки производительности DPO и некоторых других типов метода спорта (таких как IPO, KTO, CPO):

  • Контролируемая точная настройка (SFT): сначала обучите модель SFT, а затем используйте метод. спортсменния для дальнейшей оптимизации.
  • Точная настройка предварительно обученной модели: пропустите этап SFT и примените метод спортивного соревнования непосредственно к предварительно обученной модели.
  • Настройка инструкций. Точная настройка модели: пропуск этапа SFT.,Используйте настроенную командой модель в качестве основы.,Сделай это снова Метод Доработка спортсменния. Эти эксперименты охватывают 13 эталонных тестов, таких как диалоговая система, рассуждение, решение математических задач, ответы на вопросы, подлинность и понимание многозадачности, включая MT-Bench, Big Скамья и Открытый LLM Leaderboard。

метод

чтобы оценитьрассуждениеметод,экспериментиспользоватьARC、HellaSwag、Winogrande、Big Понимание скамейки запасных видов спорта (BBsports), Big Судебное причинно-следственное суждение (BB-casual), Большой Формальная ошибка Bench (BB-формальная) и PIQA. Для оценки возможностей решения математических задач различными методами используется тест GSM8K. Оценка подлинности с помощью теста TruthfulQA. Кроме того, тест MLU используется для измерения их производительности в многозадачном режиме. Тесты OpenBookQA и BoolQ используются для оценки их производительности в задачах с ответами на вопросы. Наконец, чтобы оценить их эффективность в диалоговых системах, MT-Bench бенчмарк, который состоит из восьми областей знаний 160 Состоящий из вопросов, GPT-4 оценивает ответы, сгенерированные моделью, по шкале от 0 до 10.

экспериментрезультат

Рисунок 1

Рисунок 2

Рисунок 3

Рисунок 4

Рисунок 5

Таблица 1

Таблица 2

Таблица 3

Таблица 4

сцена

в заключение

один сцена: Надзор и тонкая настройка

объединить Рисунок 1-2и Таблица 1 видно, что, за исключением MLU, КТО превосходит другие Методы в MT-Bench. спортсменния и показывает хорошие результаты по всем академическим показателям. Особо следует отметить превосходные характеристики KTO на GSM8K, подчеркивающие его сильные способности решать математические задачи. Кроме того, метод не используется. Спортния лучше, чем SFT в MMLU. Это показывает, что SFT по-прежнему превосходит другие инструменты многозадачного понимания. Кроме того, SFT продемонстрировал значительную производительность, за исключением алгоритма KTO, в рассуждениях, достоверности и вопросах и ответах. Это показывает, что метод Значительных улучшений в этих задачах добиться сложно.

сцена: Предварительное обучение. Точная настройка модели.

Рисунок Результаты в 3 показывают, что пропуск этапа SFT приводит к плохой работе Mistral+IPO и Mistral+TPO в диалоговых системах, поскольку они имеют более низкие оценки по сравнению с SFT. Однако показатели «Мистраль+КТО» и «Мистраль+ЦПО» сопоставимы с «Мистралем+СФТ». Рисунок Результаты, показанные на рисунке 1, позволяют сделать несколько ключевых выводов. Во-первых, пропуск этапа SFT приводит к незначительному повышению производительности рассуждений без существенного влияния. Во-вторых, за исключением IPO GSM8K, наблюдаются значительные и последовательные улучшения во всех сравнениях тестов GSM8K и TruthfulQA. Более того, в тесте MMLU пропуск этапа SFT не только повышает производительность, но и приводит к Все спортивные результаты превосходят эталон SFT.

сценатри: Настройка команд Точная настройка модели

Таблица Результаты, показанные в 3, показывают, что КТО и IPO в TruthfulQA Производительность TruthfulQA лучше, чем SFT, а KTO, основанная на модели предварительного обучения, работает лучше, чем SFT на TruthfulQA. Это подчеркивает высокую эффективность модели корректировки инструкций, особенно с точки зрения аутентичности. Кроме того, Таблица 4 показывает, что IPO превосходит другие методы в MT-Bench. Таблица 2и Таблица Результаты, показанные в 3, показывают, что SFT сравнительно хорошо справляется с тестами на рассуждение, математику, ответы на вопросы и понимание многозадачности. Хотя Метод выравниванияпоказать, чем SFT Производительность выше, но проблема подготовки предпочтительных наборов данных по-прежнему остается значительной, и в большинстве случаев использование SFT предпочтительнее. Стоит отметить, что в MT-Bench производительность с CPO хуже по сравнению с SFT, что указывает на то, что Модель, настроенная с помощью CPO, демонстрирует меньшую производительность в диалоговых системах по сравнению с Моделью, настроенной с помощью SFT. Рисунок 4 показывает, что, хотя общие показатели производительности улучшаются, возможности Модели в некоторых областях снижаются. Рисунок Еще один интересный вывод в 5 заключается в том, что KTO не только достигает того же балла, что и GPT-4 в гуманитарных науках, но и CPO также превосходит GPT-4 в областях STEM. Это открытие подчеркивает метод спортивные возможности, сравнимые с современным программным обеспечением, таким как GPT-4.

Подвести итог

В этой статье оценивается производительность RL-free при выполнении различных задач.,Включая рассуждения, решение математических задач, подлинность, вопросы и ответы и понимание многозадачности, три разные сцены. Результаты показывают,в большинстве случаев,KTOлучше, чем другие Метод спортсменния. Однако эти методы существенно не улучшают производительность Модели при регулярном выравнивании и ответах на вопросы, хотя они значительно улучшают решение математических задач. Исследования также показывают, что Метод спортивного соревнования особенно чувствителен к объему тренировочных данных.,Лучше всего работает с меньшими подмножествами данных. Стоит отметить, что,Отличие от ДПО,KTO и CPO могут обойти часть SFT и добиться сопоставимой производительности на MT-Bench.

Это исследование предназначено не только для метода LLM. Спортния обеспечивает комплексную структуру оценки, а также дает ценную информацию о будущих направлениях исследований о том, как разработать более надежную Модель для решения проблем согласования.

boy illustration
Учебное пособие по Jetpack Compose для начинающих, базовые элементы управления и макет
boy illustration
Код js веб-страницы, фон частицы, код спецэффектов
boy illustration
【новый! Суперподробное】Полное руководство по свойствам компонентов Figma.
boy illustration
🎉Обязательно к прочтению новичкам: полное руководство по написанию мини-программ WeChat с использованием программного обеспечения Cursor.
boy illustration
[Забавный проект Docker] VoceChat — еще одно приложение для мгновенного чата (IM)! Может быть встроен в любую веб-страницу!
boy illustration
Как реализовать переход по странице в HTML (html переходит на указанную страницу)
boy illustration
Как решить проблему зависания и низкой скорости при установке зависимостей с помощью npm. Существуют ли доступные источники npm, которые могут решить эту проблему?
boy illustration
Серия From Zero to Fun: Uni-App WeChat Payment Practice WeChat авторизует вход в систему и украшает страницу заказа, создает интерфейс заказа и инициирует запрос заказа
boy illustration
Серия uni-app: uni.navigateЧтобы передать скачок значения
boy illustration
Апплет WeChat настраивает верхнюю панель навигации и адаптируется к различным моделям.
boy illustration
JS-время конвертации
boy illustration
Обеспечьте бесперебойную работу ChromeDriver 125: советы по решению проблемы chromedriver.exe не найдены
boy illustration
Поле комментария, щелчок мышью, специальные эффекты, js-код
boy illustration
Объект массива перемещения объекта JS
boy illustration
Как открыть разрешение на позиционирование апплета WeChat_Как использовать WeChat для определения местонахождения друзей
boy illustration
Я даю вам два набора из 18 простых в использовании фонов холста Power BI, так что вам больше не придется возиться с цветами!
boy illustration
Получить текущее время в js_Как динамически отображать дату и время в js
boy illustration
Вам необходимо изучить сочетания клавиш vsCode для форматирования и организации кода, чтобы вам больше не приходилось настраивать формат вручную.
boy illustration
У ChatGPT большое обновление. Всего за 45 минут пресс-конференция показывает, что OpenAI сделал еще один шаг вперед.
boy illustration
Copilot облачной разработки — упрощение разработки
boy illustration
Микросборка xChatGPT с низким кодом, создание апплета чат-бота с искусственным интеллектом за пять шагов
boy illustration
CUDA Out of Memory: идеальное решение проблемы нехватки памяти CUDA
boy illustration
Анализ кластеризации отдельных ячеек, который должен освоить каждый&MarkerгенетическийВизуализация
boy illustration
vLLM: мощный инструмент для ускорения вывода ИИ
boy illustration
CodeGeeX: мощный инструмент генерации кода искусственного интеллекта, который можно использовать бесплатно в дополнение к второму пилоту.
boy illustration
Машинное обучение Реальный бой LightGBM + настройка параметров случайного поиска: точность 96,67%
boy illustration
Бесшовная интеграция, мгновенный интеллект [1]: платформа больших моделей Dify-LLM, интеграция без кодирования и встраивание в сторонние системы, более 42 тысяч звезд, чтобы стать свидетелями эксклюзивных интеллектуальных решений.
boy illustration
LM Studio для создания локальных больших моделей
boy illustration
Как определить количество слоев и нейронов скрытых слоев нейронной сети?
boy illustration
[Отслеживание целей] Подробное объяснение ByteTrack и детали кода