Больше галантерейных товаров, доставленных как можно скорее
Несколько дней назад OpenAI выпустила волну крупных обновлений,5 новых моделей анонсированы одновременно,Среди них два новых текста Встроить Модель.
Мы знаем, что вложения — это последовательности чисел, которые представляют концепции в таких вещах, как естественный язык или код. Встраивания упрощают моделям машинного обучения и другим алгоритмам понимание того, как связан контент, и выполнение таких задач, как кластеризация или извлечение.
Использование более крупных вложений (например, их сохранение в векторной памяти для извлечения) обычно обходится дороже, чем меньшие вложения, и потребляет больше вычислительной мощности, памяти и хранилища. На этот раз OpenAI представила две модели встраивания текста: меньшую и более эффективную модель встраивания текста-3-маленький и более крупную и мощную модель встраивания текста-3-большого.
Обе новые модели внедрения обучаются с использованием метода, который позволяет разработчикам найти компромисс между производительностью и стоимостью использования внедрений. В частности, разработчики сокращают встраивание (т. е. удаляют некоторые числа из конца последовательности), передавая встраивание в параметре API измерений, не теряя при этом свойств концептуального представления. Например, в тесте MTEB text-embedding-3-large можно сократить до размера 256, при этом превосходя по производительности несокращенное встраивание text-embedding-ada-002 (размер 1536).
Эта технология очень гибкая: например, при использовании хранилища векторных данных, которое поддерживает только встраивания до 1024 измерений, разработчики теперь по-прежнему могут использовать лучшую модель встраивания text-embedding-3-large и указать параметр API измерений со значением 1024. Размерность внедрения сокращена с 3072, при этом жертвуется некоторая точность в обмен на меньшие размеры векторов.
Метод «сокращенного встраивания», использованный OpenAI, впоследствии привлек широкое внимание исследователей.
Было обнаружено, что этот метод аналогичен методу «Обучение представлениям матрешки», предложенному в статье в мае 2022 года.
За новым обновлением модели встраивания OpenAI скрывается крутая техника представления встраивания, предложенная @adityakusupati и др.
Адитья Кусупати, один из авторов MRL, также сказал: «OpenAI использует MRL по умолчанию в API встраивания v3 для поиска и RAG! Другие модели и сервисы должны скоро догнать их».
Так что же такое MRL? Насколько это эффективно? Все это описано в документе за 2022 год ниже.
Введение в документ MRL
Вопрос, который ставят исследователи, заключается в следующем: можно ли разработать гибкий метод представления, позволяющий адаптироваться к множеству последующих задач с различными вычислительными ресурсами?
MRL изучает представления различных мощностей в одном и том же многомерном векторе путем явной оптимизации O (log (d)) низкоразмерных векторов вложенным способом, отсюда и название «Матрешка». MRL можно адаптировать к любому существующему конвейеру представления и легко расширить для решения многих стандартных задач в области компьютерного зрения и обработки естественного языка.
Рисунок 1 иллюстрирует основную идею MRL и настройку адаптивного развертывания изученного представления Матрешки:
Первые m-измерения (mε[d]) представления Матрешки представляют собой насыщенный информацией низкоразмерный вектор, который не требует дополнительных затрат на обучение и столь же точен, как и независимо обученные m-мерные представления. Информационное содержание представлений «матрешка» увеличивается с увеличением размеров, образуя представление от грубого до точного без необходимости тщательного обучения или дополнительных затрат на развертывание. MRL обеспечивает необходимую гибкость и точность определения векторов, обеспечивая почти оптимальный компромисс между точностью и вычислительными затратами. Благодаря этим преимуществам MRL можно развертывать адаптивно в зависимости от точности и вычислительных ограничений.
В этой работе мы концентрируемся на двух ключевых строительных блоках реальных систем машинного обучения: крупномасштабной классификации и поиске.
Для классификации мы использовали адаптивные каскады и представления переменного размера, созданные моделями, обученными с помощью MRL, что значительно снизило среднюю встроенную размерность, необходимую для достижения определенной точности. Например, в ImageNet-1K адаптивная классификация MRL + приводит к уменьшению размера представления до 14 раз с той же точностью, что и базовый уровень.
Точно так же исследователи также использовали MRL в адаптивных поисковых системах. Учитывая запрос, первые несколько измерений внедрения запроса используются для фильтрации кандидатов на поиск, а затем последовательно используются дополнительные измерения для изменения порядка набора поиска. Простая реализация этого подхода обеспечивает 128-кратное увеличение теоретической скорости (в FLOPS) и 14-кратное увеличение времени настенных часов по сравнению с одной системой поиска, использующей стандартные векторы внедрения. Важно отметить, что точность поиска MRL сравнима с точностью; однократный поиск (раздел 4.3.1).
Наконец, поскольку MRL явно изучает векторы представления от грубого до точного, интуитивно он должен делиться большим количеством семантической информации в разных измерениях (рис. 5). Это отражено в настройках непрерывного обучения с длинным хвостом, которые могут повысить точность до 2%, оставаясь при этом такими же надежными, как и исходные внедрения. Кроме того, из-за крупнозернистого и мелкозернистого характера MRL его также можно использовать в качестве метода для анализа простоты классификации экземпляров и узких мест в информации.