в предыдущем LLM Agent+DB из главы I уже говорилось о том, как использовать большие модели для доступа к базе данных и получения данных.,этотодна глава яих Поговорим о крупных модельных агентах в области анализа данных.изприложение。Анализ данных в основном относится к после получения данных.изОчистка данных,Обработка данных,Моделирование данных,Анализ данныхивизуализация данныхизшаг。может быть частои Работа с данными,Тем не менее, это не слишком сложно слишком Способность анализа данных и студенты обеспечивают ежедневную работу и поддержку,видел много BI Платформы пробуют аналогичные решения. Здесь мы говорим о двух статьях: Data-Copilot и InsightPilot, В основном относятся к некоторым интересным идеям ~
paper: Data-Copilot: Bridging Billions of Data and Humans with Autonomous Workflow github: https://github.com/zwq2018/Data-Copilot
Во-первых, давайте представим расширенную структуру анализа данных, предложенную Чжэцзянским университетом.,поддерживатьРазличные типы финансовых данных: запрос, Обработка данных,Простое моделирование,ивизуализация данных。Data-copilot Если взять в качестве примера анализ данных в финансовой сфере, он предоставляет структуру анализа данных, которую можно легко расширить и создать на основе существующих данных.
Вся конструкция разделена на две части,На основе большой модели APIиНа основе ограниченного API для планирования и выполнения задач llm.。На самом деле, это совсем не сложно.,Несколько основных элементов задач анализа данных:
В части проектирования фактически используются большие модели для построения более контекстной семантики. API заявление о вызове и API извходитьвыход。этот Некоторые коды не имеют открытого исходного кода......так что яих Только на основе бумагии Краткое введение в добавку для мозга。В основном разделены на следующие четырешаг
API Генерировать необходимо на основе того, какие вопросы будет задавать пользователь. Вопросы пользователя основаны на том, какие данные у вас есть. Таким образом, здесь используется описание данных, написание вручную и начальные вопросы, как указано выше, так что LLM Еще больше вопросов пользователей.
Спросите всех пользователей, которые указали выше,Ввод моделей по одной,Используйте следующую подсказку Руководство по эксплуатации llm, чтобы выполнить задачу анализа данных.,Требуется несколько шагов,и каждыйшагпереписыватьсяизAPI Описание и Псевдокод "Interface1={Интерфейс Name: %s, Function description:%s, Input and Output:%s}"
Каждый раз, когда вы получаете новый из API function,городiужесоздано API function После сопряжения войдите в модель и используйте следующую команду, чтобы позволить большой модели оценить двух function Можно ли объединить аналогичные функции в новую API. Например, запрос GDP из API iQuery CPI из API объединить в запрос GDP_CPI из API. Но мое личное ощущение таково, что планирование занимает много времени. token Стоимость довольно высокая, поэтому может быть более подходящим online API из Создавайте онлайн, при сборке офлайн сначала на основе API из описания кластеризуется, а затем каждый cluster Может быть, выгоднее объединиться?
Наконец, после слияния, API,генерация кода с использованием больших моделей. используется здесь pandas DataFrame как Обработка данные, рисование данных из формата взаимодействия данных. В этой статье вызов инструмента разделен на 5 Категория: сбор данных, Обработка данных,Объединить фрагменты,Моделирование и визуализация.
Прочитав весь процесс создания API, описанный выше, нетрудно обнаружить, что использование llm для автоматического создания API имеет следующие преимущества (хотя предполагается, что полная автоматизация будет затруднена...)
API API изExecution для ответа на вопросы пользователя/выполнения задач пользователя. Поток задач в этом разделе также разделен на несколько этапов:
Первый шаг – Распознание намерений, это вообще-то интегрировано в поиск query Несколько функций предварительной обработки:
В статье перечисленные выше модули объединены в один, основанный на few-shot Задача перезаписи большой модели перепишет вопрос пользователя в новый с четким интервалом времени, а тип задачи будет более понятным из текста, а не столько Распознавание намерения, вообще-то больше похоже query переписать. следующее
Лично я считаю, что это намерение вообще не обязательно должно основываться на большой модели, или большая модель может быть использована для создания выборки, а затем преобразована в маленькую модель. и все Распознание Модуль намерений можно разделить на несколько независимых и более детальных модулей. В финансовой сфере его можно, по крайней мере, разделить на большие категории объектов активов, извлечение и согласование, выявление различных проблемных намерений для разных типов активов и независимую своевременность. Модуль дискриминации. Модуль намерений напрямую влияет на следующее ипланирование Таким образом, точность и успешность выполнения должны быть достаточно высокими.
планирование Модуль поведения состоит из двух шагов. Первый шаг — дизассемблирование задачи. query Он будет использоваться в качестве входных данных для модуля дизассемблирования задачи. Также на основе few-shot из Командная задача большой модели,Разделите задачу на несколько этапов выполнения.,Каждый шаг включает тип задачи.
Здесь автор определяет stock_task、fund_task、economic_task, visualization_task、financial_task этот 5 вид задач, демонтаж задач аналогичен COT Разделите задачу на несколько этапов выполнения, но, по сути, для уменьшения APIизвызовобъем。Инструкции следующие:
На основе вышеуказанного модуля выбора задач каждый шаг по типу задачи,Например, stock_task, будут различия few-shot prompt Чтобы использовать модель для этого типа задач, API вызов, включая каждый шаг вызова API, ввод, вывод и возвращаемое значение. планирование Некоторые общие инструкции по поведению заключаются в следующем:
планирование Интересным моментом в поведении является то, что API, встроенный в статью, содержит три различных метода выполнения: последовательную операцию с одним входом и одним выходом, параллельную операцию для получения нескольких индикаторных данных для ценной бумаги и циклическую операцию, аналогичную map к несколькимвходитьвыполнить то же самоеиздействовать。Ниже приводитсяData-CopilotизDemo
paper:Demonstration of InsightPilot: An LLM-Empowered Automated Data Exploration System Связанный paper:QuickInsights: Quick and Automatic Discovery of Insights from Multi-Dimensional Data Связанный paper:MetaInsight: Automatic Discovery of Structured Knowledge for Exploratory Data Analysis Связанный paper:XInsight: eXplainable Data Analysis Through The Lens of Causality https://www.msra.cn/zh-cn/news/features/exploratory-data-analysis
InsightPilot — это не столько статья бумага, больше похожая на Microsoft BI из Информационный документ о продукте. Основной продукт EDA Анализ данных,ивышеиз Data-copilot В совокупности его можно рассматривать как охватывающее самую базовую работу по анализу данных. Дайте мне пример данныеиз каштана, первый в UG Когда работает отдел роста пользователей, каждый раз APP Количество активных пользователей сократилось. Команда анализа данных получила задание проанализировать данные активных пользователей, чтобы выяснить, почему пользователи были потеряны, потому что их отобрали конкурирующие продукты. Это из-за каких-то новых функций, которые пользователи не использовали? не так, как недавно? Или это было предыдущее? Качество привлеченных по активности пользователей невысокое, а удержание низкое, что обусловлено отсутствием пользовательского опыта. данных,Лучше сформулировать следующий шаг, чтобы удержать пользователей потокового вещания.,Конкретные планы по активации тихих пользователей.
Так как же найти выбросы в данных? Основная операция — разделить и сравнить данные в разных измерениях. Например, разделите активных пользователей на мужчин и женщин.,старый и молодой,разные города,Различные модели,Источник канала,Различные предпочтения чтения и другие аспекты,Понаблюдайте, не снизилась ли активность пользователей в разных подгруппах.,Коэффициенты снижения одинаковы?,Есть ли определенный аспект, в котором потеря групп пользователей является наиболее значительной? Это разделение измерений может быть параллельным измерениям.,Это также может быть детализированное измерение.,Метод сравнения может представлять собой сравнение тенденций изменений первого порядка.,Это также может быть второй порядок, такой как волатильность.тенденцияиз Сравнить и т. д.
Решение Microsoft по реализации фактически заключается в использовании LLM Microsoft разработала ранее и применялась к BI из Три модели Анализ Инструменты обработки данных объединены последовательно, это три типа анализа. Инструменты обработки данных QuickInsight,Мета Инсайт и XInsight. Позвольте мне сначала кратко представить три инструмента,Давайте посмотрим, как большие модели объединяют и связывают инструменты анализа данных.
QuickInisght Это самый ранний и базовый инструмент анализа данных. Он позволяет быстро обнаружить различия в многомерных данных. pattern。этоиз Блок данных Insights состоит из трех элементов.subject ≔ {𝑠𝑢𝑏𝑠𝑝𝑎𝑐𝑒(𝑠) пространство данных, 𝑏𝑟𝑒𝑎𝑘𝑑𝑜𝑤𝑛 разделение размеров, 𝑚𝑒𝑎𝑠𝑢𝑟𝑒(𝑠)индикатор наблюдения}, Ниже приводится {Los Анхелес, Месяц, Продажи} производит из Анализ данных
QuickInsight сначала рассчитает разные показатели в соответствии с разными измерениями, чтобы получить несколько наборов данных. Аналитическая часть запланирована 12 вид разницыиз Методы анализа данных,Например, выбросы,точка мутации,тенденция,Сезонный,Связанный секс и многое другое. Каждый тип понимания будет оцениваться комплексно на основе значимости и вклада.,На вершине рейтинга должны находиться одномерные данные с наиболее значительными изменениями.,И это оказывает большее влияние на общую ситуацию.
Аналитика QuickInsight в основном основана на одном блоке данных аналитики.,MetaInsight может агрегировать и коррелировать несколько единиц аналитических данных.,Вывод более сложный,передовойиз Анализ данные. Проще говоря, в приведенном выше тройке Анализ Основываясь на данных, найдите разные изподъязы и измерьте, найдите похожий Анализ. данныхизтриплет,и выполнить комбинированный анализ. Продолжаем приведенные выше данные о продажах в Лос-Анджелесе от Insights.,Когда я расширю подпространство на другие города из данных о продажах,MetaInsight выполнит следующий корреляционный анализ.
Вышеупомянутые QuickInsight и MetaInsight все еще относятся к сфере анализа сексуальных данных.,XInsight фокусируется на причинно-следственном анализе,Его также можно рассматривать как очень популярное направление причинно-следственного вывода за последние два года. То есть я не только хочу знать, что на моем телефоне одновременно есть пользователи приложений Kuaishou и Douyin.,Используйте Douyin в течение более короткого времени,Я все еще хочу знать, не отнимает ли у пользователей время приложение Kuaishou.,Или это Некоторые группы пользователей сами принадлежат к группе, которая смотрит по сторонам и не имеет фиксированных предпочтений. Но в реальном мире сложно найти причинно-следственные выводы, полностью соответствующие гипотезе.,Потому что хаха параллельного мира не существует,Поэтому можно использовать только некоторые управляющие переменные.,иматематическое моделированиеизсхема для аппроксимации причинно-следственных сценариев。заинтересованныйиз Студенты могут просмотретьПричинно-следственный вывод из весны
В следующих случаях,Также разбито по месяцам.,Время задержки рейса как индикатор. При анализе всех данных обнаруживается, что время задержки в мае намного больше, чем в ноябре.,Но когда контрольной переменной является, будет ли в этот день дождь,Вы обнаружите, что в дождливые дни задержки рейсов в мае меньше, чем в ноябре.,Таким образом, более высокие уровни осадков в мае могут объяснить более высокие задержки рейсов в мае.
InsightPilot основан на трех вышеупомянутых механизмах анализа данных.,Использование больших моделей для конкатенации,Для удовлетворения потребностей пользователей из Анализ данных. Все еще та же точка зрения,Комбинация LLM+Агент,Что действительно важно, так это агент,LLM отвечает только за выбор наиболее подходящего агента на основе контекстной семантики.,И решите следующий шаг на основе содержимого, возвращенного агентом.,Грубо говоря, это просто тусовка.,Конечно, в конечном итоге LLM также необходим для предоставления отчетов по анализу данных.
этот Ли Да Модель в основном отвечает за:инициализация->Понимание выбора->выбор намерения->Понимание выбора->выбор намерения....->Отчетгенерировать
Оставьте раздел Top-K Insights из раздела в итоговом фильтре.,В документе также добавлена ссылка на рейтинг.,Говорят, что он отсортирован, но это зависит от реализации.,Это больше похоже на дедупликацию + фильтрацию по сходству + рассеяние.
Наконец, InsightPilot сообщает об эффекте снижения,И помогайте пользователям анализировать каждый абзац содержания отчета.,Выполнить проверку данных,Когда вы нажмете на первый абзац Inspire Me, появится диаграмма данных соответствующего абзаца «Связанныйиз» (рисунок справа). Честно говоря, я смотрел только эту демку,Эффект несколько потрясающий,Но что действительно мощно, так это три механизма понимания, описанные выше.,LLM – это просто портье и копирайтер.
Если вы хотите увидеть более полный обзор большой модели, данные и структуру для точной настройки и предварительного обучения, а также приложение AIGC, перейдите на Github. >> DecryPrompt
Я участвую в третьем этапе специального тренировочного лагеря Tencent Technology Creation 2023 с эссе, получившими приз, и сформирую команду, которая разделит приз!