через некоторое время,Все больше корпоративных пользователей начинают применять большие языковые модели в бизнесе. Однако,Из-за недостатков больших языковых моделей, таких как устаревание, неточность, галлюцинации, серьезная чушь и обучение на основе данных Интернета,,поэтому,Непосредственное использование контента, созданного с помощью больших языковых моделей, в бизнес-сценариях.,Особенно сценарии, затрагивающие некоторые профессиональные области и частные данные.,не может предоставить точную или ценную информацию. поэтому,Применение больших моделей часто необходимо сочетать с технологией поиска. таким образом,Семантический поиск внезапно стал горячей темой, которая раньше редко обсуждалась.。но,Объединение семантического поиска с большими моделями — это не просто комбинация инструментов.,Ни один“Преобразуйте все данные с помощью моделей машинного обучения -> Семантический поиск снова -> Наконец, результаты поиска можно ввести в большую модель. Поэтому в этой статье будут представлены некоторые мысли по этому поводу, которые, надеюсь, будут полезны всем.
главный,нам нужно подумать,Почему нам следует использовать семантический поиск при работе с большими моделями,Знайте, каково ваше первоначальное намерение, и тогда вы сможете его придерживаться.,а не зависеть от второстепенных вещей,Со временем проект деформировался.
Наше первоначальное намерение состоит в том, чтобы использовать возможности понимания, рассуждения и генерации больших моделей, чтобы помочь нам повысить производительность и удобство работы с пользователем. Однако устаревшие или неточные ответы на выводы в больших моделях, обученных на основе данных Интернета, имеют недостатки. технология, обеспечивающая большие модели точной контекстной информацией (плюс вопросами) в качестве исходного материала для создания.
Поскольку семантический поиск позволяет лучше понимать разговорные вопросы в длинных текстах и находить более релевантный контент в базах данных, он является хорошим дополнением к более крупным моделям.
Основные возможности семантического поиска могут обеспечить точное контекстное окно для больших моделей.
Но еще один момент,Что нам нужно четко знать, так это,Будь то ChatGPT или Bard,Или, может быть, это просто слова Вэнь Синя.,Тонги Цяньвэнь и др.,LLMВвод на самом деле является текстом。Контент, который мы отправляем в большую модель для обобщения, расширения, перевода, переписывания и создания, не является вектором.。
поэтому,Основная цель — точно и эффективно предоставить контекстную информацию для больших языковых моделей.。Семантический поиск является лишь дополнительным техническим средством и представляет собой ветвь многопутевого вызова. Инвертированный поиск, фильтрация категорий данных и сущностей, объединение воспоминаний, переупорядочение и т. д. — все это технические решения, которые необходимо учитывать для этой цели.
Семантический поиск делится на инвертированный поиск с разреженным представлением.и Два типа поиска по сходству для плотных представлений。То, что мы обычно называем векторным поиском, относится к поиску по сходству, основанному на плотном представлении встраивания (поиск KNN и ANN).。Но на самом деле у нас также есть инвертированный семантический поиск, основанный на разреженном представлении.Эти два метода поиска,Все получают выгоду от крупномасштабных языковых моделей (примечание,LLM относится к языковой модели со многими параметрами.,Это не относится конкретно к моделям со сверхвысокими параметрами, таким как ChatGPT.,на самом деле,Разработку моделей с десятками миллионов признаков-параметров можно назвать большими языковыми моделями),И большой прогресс был достигнут в скорости запоминания и корреляции.,Особенно модель, разработанная на основе трансформатора,напримерBERTждать。
Но когда мы выбираем решение семантического поиска, поиск по сходству (поиск KNN и ANN), основанный на плотном представлении встраивания, не обязательно является оптимальным решением. Например, SPLADE на рисунке ниже представляет собой модель разреженного представления, которая не уступает большинству моделей плотного внедрения. Преимущество этой модели в том, что данные, обрабатываемые моделью, представляют собой не векторный массив, а читаемый человеком. интерпретируемые слова + вес, технология обратного поиска все еще используется. Таким образом, будут преимущества в размере модели, генерируемом индексе и производительности поиска. Кроме того, благодаря своей сильной способности сопоставления терминов, он также может лучше адаптироваться к информационному выражению, отображаемому векторным поиском, когда пользовательский ввод слишком короткий и есть. недостаточно контекста. Недостаток слабых способностей.
В этом отношении ELSER в Elasticsearch работает хорошо:
Конечно, векторный поиск по-прежнему обладает более мощными возможностями семантического понимания. Нам нужен векторный поиск. Но в то же время вам также необходимо знать, что эффективно, элегантно и точно создать возможности векторного поиска непросто. Это подлежит:
Если объяснить в одном предложении, эффект векторного поиска не может быть непосредственно представлен или получен после того, как вы решите использовать векторную библиотеку. Выбор модели, разумная настройка, размеры модели, количественная оценка, обновления модели и т. д. — все это повлияет на эффект.
В частности, большинство векторных библиотек предоставляют только возможности хранения векторов, индексации векторов и сравнения сходства векторов.,Но это решает только инженерную задачу,То есть,Библиотека векторов решает лишь проблему быстрого поиска векторов или нет.,QPS высокий?,Вопрос о том, велика ли пропускная способность или нет,Однако не существует способа решить проблему точности поиска, то есть эффекта, который требует выбора, настройки и непрерывного обучения модели встраивания.Это не в узком смысле“векторный поиск”вопрос,Это проблема НЛП (обработки естественного языка) в широком смысле.
Актуальность векторного поиска во многом зависит от выбранной модели. Из теста ниже мы видим,Есть даже многоembeddingЭффект от модели не так хорош, какBM25+CE。В то же время он не так хорош, как инвертированный поиск с разреженным представлением.。Поэтому не стоит сразу использовать векторный поиск на основе KNN или ANN, поскольку эффект может оказаться не таким хорошим, как вы думаете.而且即便你用正确из方式打开了векторный поиск,Большинство полученных улучшений составляют около 10 % (от 8 x % до 9 x %).,Насколько это полезно для конечного пользователя?,Это необходимо оценить. Эта оценка должна основываться на количестве кликов по результатам поиска.
Чтобы использовать векторный поиск, мы должны сначала решить проблему векторизации документов и запросов. То есть нам нужно знать, как выбирать и использовать модель внедрения.
Различные модели внедрения по-разному влияют на разные области. Причины следующие:
Для конкретных областей для достижения лучших результатов следует рассмотреть следующие подходы:
Поэтому, если нет модели, подходящей для ваших данных, лучше сначала использовать BM25, чтобы установить собственный эталон, а затем сравнивать эффекты один за другим.
Transformer Сам по себе авторегрессивен, BERT Создатель,Производительность значительно снижается при использовании документов с числом токенов более 512.。
Большинство моделей на базе Transformer имеют это ограничение. Ниже приведены несколько распространенных моделей внедрения на основе Transformer:
Помимо вышеперечисленных моделей, существуют и другие модели, основанные на Transformer модель встраивания, например Transformer-XL、Electra、BERT-Base ждать. Эти модели основаны на Transformer архитектура,Поэтому нам нужно не только выбрать подходящую модель встраивания на основе Трансформера, исходя из конкретных задач и потребностей.,И выполнить соответствующую предварительную подготовку или тонкую настройку,получить встроенное в текст представление, подходящее для конкретной задачи,И при создании вложений вам также необходимо учитывать ограничения токенов.。
И для OpenAI,в настоящий момент,его главныйembeddingмодельtext-embedding-ada-002
,ограничение длины токенадля:8191。См. документацию。
Что касается других моделей, которые можно скачать с Huggingface, большинство из них есть в модели. Никаких ограничений в карте не указано.,Но изНекоторые модели отмечены ограничениямиПриходите и посмотрите,Обычно оно ограничено значением менее 512:
(0): Transformer({'max_seq_length': 509, 'do_lower_case': False}) with Transformer model: BertModel
(1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': True, 'pooling_mode_mean_tokens': False, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False})
так,Если вы хотите эффективно использовать модель внедрения,Вам необходимо соблюдать размер входного документа. Ввод длинного текста (например, документов,пресс-релизы и др.),Для обработки файлов необходима стратегия фрагментации,например,Можно сделать по рядам、по предложению、Разделить по абзацу или по указанному количеству символов。Общий принцип состоит в том, чтобы попытаться гарантировать, что вырезанный контент содержит полную семантику, не превышая предела.Общие методы обработки включают в себяClipping(метод усечения),Pooling(метод объединения),оконный метод,метод сжатия。Можно ссылаться:Как Берт решает проблему с длинным текстом?или chatgpt-retrieval-plugin/services/chunks.py
поэтому,Может ли модель внедрения достичь желаемой корреляции,Есть много ограничений,напримерBEIRвdataset,ВсеДанные после разумного разделения:
С другой стороны, не все данные следует использовать для внедрения. Обратитесь к набору данных BEIR, указанному выше. В статье некоторые части подходят для точного сопоставления и фильтрации. возьмем бумагу в качестве примера:
Сначала следует использовать подходящую модель НЛП.,Извлечение категорий из статей,автор,Котировки и другая информация,Этот тип информации больше подходит для хранения в поле ключевого слова для полнотекстового поиска и точного соответствия.。Для введения, резюме, результатов, контента, эффектов и т. д. после разделения на фрагменты используется модель внедрения для извлечения информации о функциях.。
с другой стороны,Чтобы добиться лучших результатов,Встраивание моделей имеет тенденцию увеличивать параметры модели для улучшения понимания контекста. Несколько хороших моделей встраивания,Он может даже поддерживать семантическое понимание на нескольких языках.,Но еще и потому, что параметров больше,Часто он потребляет больше ресурсов。OpenAIизembeddingМодельtext-embedding-ada-002
,Размер модели превышает 300 ГБ.
Если вы используете платформу машинного обучения для развертывания, вам необходимо обратить внимание на потребление ресурсов. В Elasticsearch модели распределяются между потоками. Другими словами, модель будет загружена в память и распределена между несколькими выделениями (чем больше выделений, тем выше одновременная пропускная способность), и каждое выделение может улучшить возможности обработки за счет настройки многопотоков (чем больше потоков, тем выше одновременная пропускная способность). ). Чем быстрее скорость рассуждений)
Чтобы предоставить более точную контекстную информацию для больших моделей, необходимо объединить лучшие методы в разных сценариях для достижения эффективности и точности.
В практических приложениях нам часто необходимо объединить векторный поиск и другие технологии поиска или даже объединить машинное обучение и технологию рассуждений НЛП, чтобы создать эффективную и гибкую систему поиска. Это позволяет в полной мере использовать преимущества различных технологий, избегая при этом их ограничений. Вот некоторые распространенные методы и предложения:
И вПоисковая платформа Elasticsearch не только предоставляет различные инструменты для повышения релевантности поиска, но также предоставляет инструменты базового тестирования для проверки эффектов отзыва и релевантности.。Благодаря поддержке сообщества можно использовать разные плагины для оптимизации в разных ситуациях.
Улучшение возможностей поиска не может быть достигнуто в одночасье. Изменения в требованиях и технологических итерациях также означают, что требуется постоянное совершенствование. Выбор надежной, полной и широко проверенной платформы станет для нас хорошим началом для эффективного использования семантического поиска и эффективной интеграции с большими моделями, что поможет нам победить на старте.