Расшифровка подсказки Серия 19. LLM Применение Агента в области анализа данных: Data-Copilot & InsightPilot
Расшифровка подсказки Серия 19. LLM Применение Агента в области анализа данных: Data-Copilot & InsightPilot

в предыдущем LLM Agent+DB из главы I уже говорилось о том, как использовать большие модели для доступа к базе данных и получения данных.,этотодна глава яих Поговорим о крупных модельных агентах в области анализа данных.изприложение。Анализ данных в основном относится к после получения данных.изОчистка данных,Обработка данных,Моделирование данных,Анализ данныхивизуализация данныхизшаг。может быть частои Работа с данными,Тем не менее, это не слишком сложно слишком Способность анализа данных и студенты обеспечивают ежедневную работу и поддержку,видел много BI Платформы пробуют аналогичные решения. Здесь мы говорим о двух статьях: Data-Copilot и InsightPilot, В основном относятся к некоторым интересным идеям ~

Анализ данных: Data-Copilot

paper: Data-Copilot: Bridging Billions of Data and Humans with Autonomous Workflow github: https://github.com/zwq2018/Data-Copilot

Во-первых, давайте представим расширенную структуру анализа данных, предложенную Чжэцзянским университетом.,поддерживатьРазличные типы финансовых данных: запрос, Обработка данных,Простое моделирование,ивизуализация данных。Data-copilot Если взять в качестве примера анализ данных в финансовой сфере, он предоставляет структуру анализа данных, которую можно легко расширить и создать на основе существующих данных.

Вся конструкция разделена на две части,На основе большой модели APIиНа основе ограниченного API для планирования и выполнения задач llm.。На самом деле, это совсем не сложно.,Несколько основных элементов задач анализа данных:

  • Что анализировать: Вопрос из сущности,запас? Связь? Управляющий фондом?
  • Какой период анализировать: данные охвата, первый квартал? В этом году?
  • Какой индикатор использовать: доходность акций? Процентные ставки по облигациям? Чистая стоимость фонда?
  • Как анализировать: сравнение доходов? Цены растут или падают? Рейтинг?
  • Как вывести: сюжет? лист? текст?

Генерация API

В части проектирования фактически используются большие модели для построения более контекстной семантики. API заявление о вызове и API извходитьвыход。этот Некоторые коды не имеют открытого исходного кода......так что яих Только на основе бумагии Краткое введение в добавку для мозга。В основном разделены на следующие четырешаг

1. Генерируйте больше запросов пользователей

API Генерировать необходимо на основе того, какие вопросы будет задавать пользователь. Вопросы пользователя основаны на том, какие данные у вас есть. Таким образом, здесь используется описание данных, написание вручную и начальные вопросы, как указано выше, так что LLM Еще больше вопросов пользователей.

2. Создание операторов вызова API

Спросите всех пользователей, которые указали выше,Ввод моделей по одной,Используйте следующую подсказку Руководство по эксплуатации llm, чтобы выполнить задачу анализа данных.,Требуется несколько шагов,и каждыйшагпереписыватьсяизAPI Описание и Псевдокод "Interface1={Интерфейс Name: %s, Function description:%s, Input and Output:%s}"

3. Объедините похожие вызовы API

Каждый раз, когда вы получаете новый из API function,городiужесоздано API function После сопряжения войдите в модель и используйте следующую команду, чтобы позволить большой модели оценить двух function Можно ли объединить аналогичные функции в новую API. Например, запрос GDP из API iQuery CPI из API объединить в запрос GDP_CPI из API. Но мое личное ощущение таково, что планирование занимает много времени. token Стоимость довольно высокая, поэтому может быть более подходящим online API из Создавайте онлайн, при сборке офлайн сначала на основе API из описания кластеризуется, а затем каждый cluster Может быть, выгоднее объединиться?

4. Сгенерируйте соответствующий код для каждого API.

Наконец, после слияния, API,генерация кода с использованием больших моделей. используется здесь pandas DataFrame как Обработка данные, рисование данных из формата взаимодействия данных. В этой статье вызов инструмента разделен на 5 Категория: сбор данных, Обработка данных,Объединить фрагменты,Моделирование и визуализация.

Прочитав весь процесс создания API, описанный выше, нетрудно обнаружить, что использование llm для автоматического создания API имеет следующие преимущества (хотя предполагается, что полная автоматизация будет затруднена...)

  • Экономьте рабочую силу
  • и APE Идея аналогична, команда «большая модель «уменьшение»» больше соответствует модели «уменьшение предпочтения», API Та же причина
  • В настоящее время пакет находится в автономном режиме, если его можно оптимизировать как online из API generirovathiзgenererowathiз, может сделать API С динамической масштабируемостью

вызов API

API API изExecution для ответа на вопросы пользователя/выполнения задач пользователя. Поток задач в этом разделе также разделен на несколько этапов:

Распознавание намерений

Первый шаг – Распознание намерений, это вообще-то интегрировано в поиск query Несколько функций предварительной обработки:

  • Распознавание намерений используется для сужения круга проблемы и улучшения следующих API точность вызова
  • Модуль своевременности основан на сегодняшней дате и вопросах пользователей, а вопросы соответствуют конкретным временным диапазонам (включая стандартизацию временных диапазонов).
  • Модуль сущностей используется для обнаружения проблем и основных сущностей.
  • Выходная форма оценивается как рисунок.、Табличный или текстовый вывод

В статье перечисленные выше модули объединены в один, основанный на few-shot Задача перезаписи большой модели перепишет вопрос пользователя в новый с четким интервалом времени, а тип задачи будет более понятным из текста, а не столько Распознавание намерения, вообще-то больше похоже query переписать. следующее

Лично я считаю, что это намерение вообще не обязательно должно основываться на большой модели, или большая модель может быть использована для создания выборки, а затем преобразована в маленькую модель. и все Распознание Модуль намерений можно разделить на несколько независимых и более детальных модулей. В финансовой сфере его можно, по крайней мере, разделить на большие категории объектов активов, извлечение и согласование, выявление различных проблемных намерений для разных типов активов и независимую своевременность. Модуль дискриминации. Модуль намерений напрямую влияет на следующее ипланирование Таким образом, точность и успешность выполнения должны быть достаточно высокими.

планирование поведения

планирование Модуль поведения состоит из двух шагов. Первый шаг — дизассемблирование задачи. query Он будет использоваться в качестве входных данных для модуля дизассемблирования задачи. Также на основе few-shot из Командная задача большой модели,Разделите задачу на несколько этапов выполнения.,Каждый шаг включает тип задачи.

Здесь автор определяет stock_task、fund_task、economic_task, visualization_task、financial_task этот 5 вид задач, демонтаж задач аналогичен COT Разделите задачу на несколько этапов выполнения, но, по сути, для уменьшения APIизвызовобъем。Инструкции следующие:

На основе вышеуказанного модуля выбора задач каждый шаг по типу задачи,Например, stock_task, будут различия few-shot prompt Чтобы использовать модель для этого типа задач, API вызов, включая каждый шаг вызова API, ввод, вывод и возвращаемое значение. планирование Некоторые общие инструкции по поведению заключаются в следующем:

планирование Интересным моментом в поведении является то, что API, встроенный в статью, содержит три различных метода выполнения: последовательную операцию с одним входом и одним выходом, параллельную операцию для получения нескольких индикаторных данных для ценной бумаги и циклическую операцию, аналогичную map к несколькимвходитьвыполнить то же самоеиздействовать。Ниже приводитсяData-CopilotизDemo

Анализ данных: InsightPilot

paper:Demonstration of InsightPilot: An LLM-Empowered Automated Data Exploration System Связанный paper:QuickInsights: Quick and Automatic Discovery of Insights from Multi-Dimensional Data Связанный paper:MetaInsight: Automatic Discovery of Structured Knowledge for Exploratory Data Analysis Связанный paper:XInsight: eXplainable Data Analysis Through The Lens of Causality https://www.msra.cn/zh-cn/news/features/exploratory-data-analysis

InsightPilot — это не столько статья бумага, больше похожая на Microsoft BI из Информационный документ о продукте. Основной продукт EDA Анализ данных,ивышеиз Data-copilot В совокупности его можно рассматривать как охватывающее самую базовую работу по анализу данных. Дайте мне пример данныеиз каштана, первый в UG Когда работает отдел роста пользователей, каждый раз APP Количество активных пользователей сократилось. Команда анализа данных получила задание проанализировать данные активных пользователей, чтобы выяснить, почему пользователи были потеряны, потому что их отобрали конкурирующие продукты. Это из-за каких-то новых функций, которые пользователи не использовали? не так, как недавно? Или это было предыдущее? Качество привлеченных по активности пользователей невысокое, а удержание низкое, что обусловлено отсутствием пользовательского опыта. данных,Лучше сформулировать следующий шаг, чтобы удержать пользователей потокового вещания.,Конкретные планы по активации тихих пользователей.

Так как же найти выбросы в данных? Основная операция — разделить и сравнить данные в разных измерениях. Например, разделите активных пользователей на мужчин и женщин.,старый и молодой,разные города,Различные модели,Источник канала,Различные предпочтения чтения и другие аспекты,Понаблюдайте, не снизилась ли активность пользователей в разных подгруппах.,Коэффициенты снижения одинаковы?,Есть ли определенный аспект, в котором потеря групп пользователей является наиболее значительной? Это разделение измерений может быть параллельным измерениям.,Это также может быть детализированное измерение.,Метод сравнения может представлять собой сравнение тенденций изменений первого порядка.,Это также может быть второй порядок, такой как волатильность.тенденцияиз Сравнить и т. д.

Решение Microsoft по реализации фактически заключается в использовании LLM Microsoft разработала ранее и применялась к BI из Три модели Анализ Инструменты обработки данных объединены последовательно, это три типа анализа. Инструменты обработки данных QuickInsight,Мета Инсайт и XInsight. Позвольте мне сначала кратко представить три инструмента,Давайте посмотрим, как большие модели объединяют и связывают инструменты анализа данных.

Информация

QuickInsight

QuickInisght Это самый ранний и базовый инструмент анализа данных. Он позволяет быстро обнаружить различия в многомерных данных. pattern。этоиз Блок данных Insights состоит из трех элементов.subject ≔ {𝑠𝑢𝑏𝑠𝑝𝑎𝑐𝑒(𝑠) пространство данных, 𝑏𝑟𝑒𝑎𝑘𝑑𝑜𝑤𝑛 разделение размеров, 𝑚𝑒𝑎𝑠𝑢𝑟𝑒(𝑠)индикатор наблюдения}, Ниже приводится {Los Анхелес, Месяц, Продажи} производит из Анализ данных

QuickInsight сначала рассчитает разные показатели в соответствии с разными измерениями, чтобы получить несколько наборов данных. Аналитическая часть запланирована 12 вид разницыиз Методы анализа данных,Например, выбросы,точка мутации,тенденция,Сезонный,Связанный секс и многое другое. Каждый тип понимания будет оцениваться комплексно на основе значимости и вклада.,На вершине рейтинга должны находиться одномерные данные с наиболее значительными изменениями.,И это оказывает большее влияние на общую ситуацию.

MetaInsight

Аналитика QuickInsight в основном основана на одном блоке данных аналитики.,MetaInsight может агрегировать и коррелировать несколько единиц аналитических данных.,Вывод более сложный,передовойиз Анализ данные. Проще говоря, в приведенном выше тройке Анализ Основываясь на данных, найдите разные изподъязы и измерьте, найдите похожий Анализ. данныхизтриплет,и выполнить комбинированный анализ. Продолжаем приведенные выше данные о продажах в Лос-Анджелесе от Insights.,Когда я расширю подпространство на другие города из данных о продажах,MetaInsight выполнит следующий корреляционный анализ.

XInsight

Вышеупомянутые QuickInsight и MetaInsight все еще относятся к сфере анализа сексуальных данных.,XInsight фокусируется на причинно-следственном анализе,Его также можно рассматривать как очень популярное направление причинно-следственного вывода за последние два года. То есть я не только хочу знать, что на моем телефоне одновременно есть пользователи приложений Kuaishou и Douyin.,Используйте Douyin в течение более короткого времени,Я все еще хочу знать, не отнимает ли у пользователей время приложение Kuaishou.,Или это Некоторые группы пользователей сами принадлежат к группе, которая смотрит по сторонам и не имеет фиксированных предпочтений. Но в реальном мире сложно найти причинно-следственные выводы, полностью соответствующие гипотезе.,Потому что хаха параллельного мира не существует,Поэтому можно использовать только некоторые управляющие переменные.,иматематическое моделированиеизсхема для аппроксимации причинно-следственных сценариев。заинтересованныйиз Студенты могут просмотретьПричинно-следственный вывод из весны

В следующих случаях,Также разбито по месяцам.,Время задержки рейса как индикатор. При анализе всех данных обнаруживается, что время задержки в мае намного больше, чем в ноябре.,Но когда контрольной переменной является, будет ли в этот день дождь,Вы обнаружите, что в дождливые дни задержки рейсов в мае меньше, чем в ноябре.,Таким образом, более высокие уровни осадков в мае могут объяснить более высокие задержки рейсов в мае.

LLM Pipeline

InsightPilot основан на трех вышеупомянутых механизмах анализа данных.,Использование больших моделей для конкатенации,Для удовлетворения потребностей пользователей из Анализ данных. Все еще та же точка зрения,Комбинация LLM+Агент,Что действительно важно, так это агент,LLM отвечает только за выбор наиболее подходящего агента на основе контекстной семантики.,И решите следующий шаг на основе содержимого, возвращенного агентом.,Грубо говоря, это просто тусовка.,Конечно, в конечном итоге LLM также необходим для предоставления отчетов по анализу данных.

этот Ли Да Модель в основном отвечает за:инициализация->Понимание выбора->выбор намерения->Понимание выбора->выбор намерения....->Отчетгенерировать

  1. Задача инициализации: сначала вызов QuickInsightгенерировать набор данных изBasic Insights.,Затем используйте подсказку,Пусть LLM возвращает несколько элементов в зависимости от агента данные, пользовательский запрос и набор данных из описания (аналогично БД Схема), чтобы выбрать результат анализа для дальнейшего анализа.
  2. Задача выбора намерения: как проанализировать приведенные выше выводы,В этом есть три намерения,Соответствует вышеуказанным 3 агентам соответственно,Понять-QuickInsight, Суммировать-MetaInsight, Объяснить-XInsight. Большие модели будут основаны на запросах пользователей.,Вышеуказанный контент из Insight,Давайте выберем Агента для продолжения анализа.
  3. Выбор Insight: новое поколение нескольких документов на основе агента данных,Если LLM определит, что не может ответить на вопрос пользователя,затем будет выбрана инсайт для продолжения анализа.
  4. Отчет думать: Последний на основе TopK Анализ генерировать отчеты для ответов на вопросы пользователей

Оставьте раздел Top-K Insights из раздела в итоговом фильтре.,В документе также добавлена ​​ссылка на рейтинг.,Говорят, что он отсортирован, но это зависит от реализации.,Это больше похоже на дедупликацию + фильтрацию по сходству + рассеяние.

  1. Прежде всего, разберитесь в отношениях между ними.,Если инсайт A содержит контент инсайта B,Удалить статистику Б
  2. Далее следует фильтрация сходства,Будет фильтровать и вопросы пользователей, имеющие отношение к более низкой информации. Но на самом деле есть некоторые сомнения в этом,Поскольку информация существует, детализация по измерениям и многомерное сравнение,Похоже, сходство не подходит в качестве критерия фильтрации.
  3. Наконец, стратегия расставания,Это делается для того, чтобы уменьшить сходство между идеями.,Улучшите богатство конечного контента. В этой стратегии используется следующая приблизительная оценка второго порядка:,где |I| — показатель полезности каждого понимания,Оценка пересечения представляет собой минимальное значение полезности двух идей * перекрытия идей.,Общая стратегия заключается в улучшении общего объема информации, содержащейся в аналитике TopK.

Наконец, InsightPilot сообщает об эффекте снижения,И помогайте пользователям анализировать каждый абзац содержания отчета.,Выполнить проверку данных,Когда вы нажмете на первый абзац Inspire Me, появится диаграмма данных соответствующего абзаца «Связанныйиз» (рисунок справа). Честно говоря, я смотрел только эту демку,Эффект несколько потрясающий,Но что действительно мощно, так это три механизма понимания, описанные выше.,LLM – это просто портье и копирайтер.

Если вы хотите увидеть более полный обзор большой модели, данные и структуру для точной настройки и предварительного обучения, а также приложение AIGC, перейдите на Github. >> DecryPrompt

Я участвую в третьем этапе специального тренировочного лагеря Tencent Technology Creation 2023 с эссе, получившими приз, и сформирую команду, которая разделит приз!

boy illustration
Углубленный анализ переполнения памяти CUDA: OutOfMemoryError: CUDA не хватает памяти. Попыталась выделить 3,21 Ги Б (GPU 0; всего 8,00 Ги Б).
boy illustration
[Решено] ошибка установки conda. Среда решения: не удалось выполнить первоначальное зависание. Повторная попытка с помощью файла (графическое руководство).
boy illustration
Прочитайте нейросетевую модель Трансформера в одной статье
boy illustration
.ART Теплые зимние предложения уже открыты
boy illustration
Сравнительная таблица описания кодов ошибок Amap
boy illustration
Уведомление о последних правилах Points Mall в декабре 2022 года.
boy illustration
Даже новички могут быстро приступить к работе с легким сервером приложений.
boy illustration
Взгляд на RSAC 2024|Защита конфиденциальности в эпоху больших моделей
boy illustration
Вы используете ИИ каждый день и до сих пор не знаете, как ИИ дает обратную связь? Одна статья для понимания реализации в коде Python общих функций потерь генеративных моделей + анализ принципов расчета.
boy illustration
Используйте (внутренний) почтовый ящик для образовательных учреждений, чтобы использовать Microsoft Family Bucket (1T дискового пространства на одном диске и версию Office 365 для образовательных учреждений)
boy illustration
Руководство по началу работы с оперативным проектом (7) Практическое сочетание оперативного письма — оперативного письма на основе интеллектуальной системы вопросов и ответов службы поддержки клиентов
boy illustration
[docker] Версия сервера «Чтение 3» — создайте свою собственную программу чтения веб-текста
boy illustration
Обзор Cloud-init и этапы создания в рамках PVE
boy illustration
Корпоративные пользователи используют пакет регистрационных ресурсов для регистрации ICP для веб-сайта и активации оплаты WeChat H5 (с кодом платежного узла версии API V3)
boy illustration
Подробное объяснение таких показателей производительности с высоким уровнем параллелизма, как QPS, TPS, RT и пропускная способность.
boy illustration
Удачи в конкурсе Python Essay Challenge, станьте первым, кто испытает новую функцию сообщества [Запускать блоки кода онлайн] и выиграйте множество изысканных подарков!
boy illustration
[Техническая посадка травы] Кровавая рвота и отделка позволяют вам необычным образом ощипывать гусиные перья! Не распространяйте информацию! ! !
boy illustration
[Официальное ограниченное по времени мероприятие] Сейчас ноябрь, напишите и получите приз
boy illustration
Прочтите это в одной статье: Учебник для няни по созданию сервера Huanshou Parlu на базе CVM-сервера.
boy illustration
Cloud Native | Что такое CRD (настраиваемые определения ресурсов) в K8s?
boy illustration
Как использовать Cloudflare CDN для настройки узла (CF самостоятельно выбирает IP) Гонконг, Китай/Азия узел/сводка и рекомендации внутреннего высокоскоростного IP-сегмента
boy illustration
Дополнительные правила вознаграждения амбассадоров акции в марте 2023 г.
boy illustration
Можно ли открыть частный сервер Phantom Beast Palu одним щелчком мыши? Супер простой урок для начинающих! (Прилагается метод обновления сервера)
boy illustration
[Играйте с Phantom Beast Palu] Обновите игровой сервер Phantom Beast Pallu одним щелчком мыши
boy illustration
Maotouhu делится: последний доступный внутри страны адрес склада исходного образа Docker 2024 года (обновлено 1 декабря)
boy illustration
Кодирование Base64 в MultipartFile
boy illustration
5 точек расширения SpringBoot, супер практично!
boy illustration
Глубокое понимание сопоставления индексов Elasticsearch.
boy illustration
15 рекомендуемых платформ разработки с нулевым кодом корпоративного уровня. Всегда найдется та, которая вам понравится.
boy illustration
Аннотация EasyExcel позволяет экспортировать с сохранением двух десятичных знаков.