Колонна «Машинное сердце»
Редакция «Машинное сердце»
Станут ли агенты ключом к AGI? Команда Fudan NLP всесторонне исследует агентов на основе LLM.
Недавно группа обработки естественного языка Фуданьского университета (FudanNLP) запустила LLM-based Agents Обзорная статья, полный текст не превышает размера 86 Страниц, всего 600 Больше ссылок! Авторы начинают с AI Agent отход от истории,Комплексный обзор текущего состояния интеллектуальных агентов на основе крупномасштабных языковых моделей, включая: предысторию, состав, сценарии применения агентов на основе LLM и вызывающее обеспокоенность агентское общество.。в то же время,Авторы обсудили Agent Соответствующие перспективные открытые вопросы имеют большое значение для будущих тенденций развития в смежных областях.
Члены команды также добавят «резюме в одно предложение» к каждому соответствующему документу, добро пожаловать в репозиторий Star.
История исследования
В течение долгого времени исследователи занимались созданием общего искусственного интеллекта (искусственного интеллекта), который эквивалентен человеческому уровню или даже превосходит его. General интеллект, ОИИ). Уже как 1950 С, Алан Turing Он распространил понятие «интеллект» на искусственные объекты и предложил знаменитый тест Тьюринга. Эти объекты искусственного интеллекта часто называют —— актерское мастерство(Agent*)。「актерское Понятие «мастерство» зародилось в философии и описывает человека, имеющего желания, убеждения, намерения. также Сущность, способная действовать. В сфере искусственного интеллекта,Термин получил новое значение:Интеллектуальные сущности, характеризующиеся автономией, реактивностью, позитивностью и коммуникабельностью.。
*Не существует единого мнения относительно китайского перевода термина «Агент». Некоторые ученые переводят его как «агент», «действующее лицо», «агент» или «разумный агент». Оба термина «агент» и «разумный агент», встречающиеся в этой статье, относятся к агенту.
С тех пор актерское Дизайн мастерства оказался в центре внимания сообщества искусственного интеллекта. Однако прошлая работа в основном была сосредоточена на повышении актерского мастерства. мастерствоособые способности,Например, рассуждение символа или освоение конкретной задачи (шахматы, го и т. д.). Эти исследования больше сосредоточены на разработке алгоритмов и стратегиях обучения.,и пренебрегли развитием присущих Модели общих возможностей.,Такие как память знаний, долгосрочное планирование, эффективное обобщение и эффективное взаимодействие и т. д. Оказывается,Расширение присущих моделям возможностей является ключевым фактором содействия дальнейшему развитию интеллектуальных агентов.
Появление больших языковых моделей (LLM) дает надежду на дальнейшее развитие интеллектуальных агентов. Если путь развития от НЛП к ОИИ разделить на пять уровней: корпус, Интернет, восприятие, воплощение и социальные атрибуты, то нынешние крупномасштабные языковые модели достигли второго уровня, с вводом и выводом текста в масштабе Интернета. Исходя из этого, если агентам, основанным на LLM, предоставить пространство восприятия и пространство действий, они достигнут третьего и четвертого уровней. Более того, когда несколько агентов взаимодействуют и сотрудничают для решения более сложных задач или отражения социального поведения в реальном мире, у них есть потенциал достичь пятого уровня — агентского общества.
Авторы представляют себе гармоничное общество разумных агентов, в котором могут участвовать и люди. Сцена взята из Фестиваля морских фонарей в «Genshin Impact».
Рождение агента
Шикарное актерское с благословения Великой Модели. Каким будет мастерство? Вдохновленные законом Дарвина о «выживании наиболее приспособленных», авторы предложили интеллектуальное актерское искусство, основанное на большой модели. мастерство универсальных рамок. Один Если люди хотят выжить в обществе, они должны научиться приспосабливаться к окружающей среде, поэтому им необходимо обладать когнитивными способностями и уметь воспринимать и реагировать на изменения во внешнем мире. Так же умное актерское мастерство Структура также состоит из трех частей.:Конец управления (Мозг), конец восприятия (Восприятие) и конец действия (Действие).
LLM-based Agent Концептуальная основа состоит из трех компонентов: консоль (Brain), Чувствующая. конец(Perception)имобильный терминал(Action)。
Авторы используют пример, чтобы проиллюстрировать рабочий процесс агента на основе LLM: когда человек спрашивает, будет ли дождь, окончание восприятия (Восприятие) преобразует инструкцию в представление, понятное LLM. Затем терминал управления (Мозг) приступает к рассуждениям и планированию действий на основе текущей погоды и прогнозов погоды в Интернете. Наконец, Действие отвечает и передает зонтик человеку.
Повторяя описанный выше процесс, интеллектуальный агент может непрерывно получать обратную связь и взаимодействовать с окружающей средой.
Контроллер: Мозг
В качестве основного компонента интеллектуального агента авторы представляют его возможности с пяти аспектов:
Взаимодействие на естественном языке:Язык – средство общения,Он содержит огромное количество информации. Воспользуйтесь LLMs Благодаря мощным возможностям генерации и понимания естественного языка интеллектуальные агенты могут взаимодействовать с внешним миром в течение нескольких раундов посредством естественного языка для достижения своих целей. Конкретно его можно разделить на два аспекта:
Знание:На основе масштабного корпусного обучения LLM обладают способностью хранить огромные объемы знаний. Помимо языковых знаний, необходимы знания здравого смысла и профессиональных навыков. LLM-based Agents важный компонент.
Хотя у самих студентов LLM все еще есть такие проблемы, как истечение срока действия знаний и галлюцинации, некоторые существующие исследования могут в определенной степени облегчить их с помощью таких методов, как редактирование знаний или вызов внешних баз знаний.
память:В рамках этой статьи,модуль памяти(Memory)сохраненоактерское мастерство Последовательность прошлых наблюдений, мыслей и действий. Благодаря специфическому механизму памяти актерское мастерство позволяет эффективно размышлять и применять предыдущие стратегии.,Позвольте ему использовать прошлый опыт, чтобы адаптироваться к незнакомой среде.
Для улучшения памяти обычно используются три метода:
Кроме того, важен также метод извлечения из памяти. Только извлекая соответствующий контент, агент может получить доступ к наиболее актуальной и точной информации.
рассуждение & планирование:рассуждениеспособность(Reasoning)Для умныхактерское мастерство необходимо для сложных задач, таких как принятие решений и анализ. Бетонприезжать LLMs Вверх, то есть на основе Цепочка мыслей (CoT) представляет собой серию оперативных методов. Планирование — это часто используемая стратегия при столкновении с большими проблемами. Это помогает агентам организовать свое мышление, поставить цели и определить шаги для достижения этих целей. В конкретной реализации планирование может включать в себя два этапа:
Мобильность & Обобщаемость:обладать мировыми знаниями LLMs Наделите интеллектуальных агентов мощными возможностями миграции и обобщения. Хороший агент — это не статичная база знаний, он также обладает возможностями динамического обучения:
Конец восприятия: Восприятие
Люди воспринимают мир мультимодально, поэтому исследователи возлагают одни и те же ожидания на агентов на основе LLM. Мультимодальное восприятие может углубить понимание агентом рабочей среды и значительно повысить ее универсальность.
Ввод текста:как LLMs Самые базовые способности здесь описываться не будут.
Визуальный ввод:LLMs Он не обладает возможностями визуального восприятия и может понимать только дискретный текстовый контент. А визуальный ввод обычно содержит много информации о мире, включая свойства объектов, пространственные отношения, расположение сцены и т. д. Распространенными методами являются:
Слуховой ввод:Слух также является частью человеческого восприятия.важный компонент.потому что LLMs Благодаря отличным возможностям вызова инструментов интуитивная идея такова: агент может LLMs В качестве центра управления он каскадно вызывает существующие наборы инструментов или экспертные модели для восприятия аудиоинформации. Кроме того, звук также можно визуально представить через спектрограмму. Спектрограммы могут отображаться в виде плоских изображений. 2D Информация, следовательно, некоторыми методами визуальной обработки может быть перенесена в речевую область.
Другой ввод:В реальном мире информация — это гораздо больше, чем просто текст.、视觉и听觉。Авторы надеются, что в будущем,разумныйактерское Мастерство может быть оснащено более богатыми сенсорными модулями, такими как осязание, обоняние и другие органы, для получения более богатых атрибутов целевых объектов. В то же время актерское Мастерство также может четко чувствовать температуру, влажность, светотени окружающей среды и принимать более Environment-aware действие.
Кроме того, агента также можно познакомить с восприятием более широкой окружающей среды: используя зрелые модули восприятия, такие как лидар, GPS и инерциальные измерительные блоки.
Действие: Действие
После того, как мозг проанализирует и примет решения, агенту также необходимо предпринять действия, чтобы адаптироваться к окружающей среде или изменить ее:
Текстовый вывод:как LLMs Самые базовые способности здесь описываться не будут.
Использование инструмента:хотя LLMs Он обладает отличными знаниями и профессиональными способностями, но при столкновении с конкретными проблемами может возникнуть ряд проблем, таких как проблемы с устойчивостью и галлюцинации. В то же время инструменты, как расширение возможностей пользователя, могут оказать помощь в таких аспектах, как профессионализм, актуальность и интерпретируемость. Например, вы можете использовать калькулятор для решения математических задач и поисковую систему для поиска информации в реальном времени.
Кроме того, инструменты также могут расширить пространство действий интеллектуальных агентов. Например, мультимодальные действия можно получить, вызывая такие экспертные модели, как генерация речи и генерация изображения. Поэтому то, как сделать так, чтобы агенты стали отличными пользователями инструментов, то есть научились эффективно использовать инструменты, — это очень важное и перспективное направление.
В настоящее время основные методы инструментального обучения включают обучение на демонстрациях и обучение на основе обратной связи. Кроме того, метаобучение, курсовое обучение и т. д. также могут использоваться для предоставления агентам возможностей обобщения при использовании различных инструментов. Сделав еще один шаг вперед, интеллектуальные агенты смогут научиться создавать инструменты «самостоятельно», тем самым увеличивая свою автономию и независимость.
Воплощенное действие:Воплощенный(Embodyment)относится кактерское мастерство Умение понимать, преобразовывать окружающую среду и обновлять собственный статус в процессе взаимодействия с окружающей средой. Воплощенный Action) рассматривается как мост между виртуальным интеллектом и физической реальностью.
Традиционное обучение на основе подкрепления Agent Существуют ограничения в эффективности выборки, обобщении и сложных задачах и т. д., в то время как LLM-based Agents Представляя богатые внутренние знания о больших моделях, Embodied Agent Способны активно воспринимать и влиять на физическую среду, как люди. По степени автономности агента в выполнении задачи или Action Уровень сложности может иметь следующие атомы Action:
Комбинируя эти атомарные действия, агенты могут выполнять более сложные задачи. Например, воплощенные задачи контроля качества, такие как «Арбуз на кухне больше, чем миска?» Чтобы решить эту проблему, агенту необходимо пройти на кухню и получить ответ, изучив размеры обеих.
Ограниченные высокой стоимостью аппаратного обеспечения физического мира и отсутствием наборов воплощенных данных, текущие исследования воплощенных действий по-прежнему в основном сосредоточены на виртуальных средах-песочницах, таких как игровая платформа «Minecraft». Поэтому, с одной стороны, авторы надеются на парадигму задачи и стандарт оценки, которые будут ближе к реальности. С другой стороны, им также необходимы дополнительные исследования по эффективному построению соответствующих наборов данных.
Агент на практике: разнообразные сценарии применения
В настоящее время агенты, получившие степень LLM, продемонстрировали впечатляющее разнообразие и высокую производительность. Знакомые примеры приложений, такие как AutoGPT, MetaGPT, CAMEL и GPT Engineer, растут с беспрецедентной скоростью.
Прежде чем представить конкретные приложения, авторы обсуждают принципы проектирования Agent in Practice:
1. Помогите пользователям освободиться от ежедневных задач и повторяющегося труда, снизить нагрузку на человека и повысить эффективность решения задач;
2. Пользователям больше не нужно давать явные инструкции низкого уровня, и они могут анализировать, планировать и решать проблемы совершенно независимо;
3. Освободив руки пользователя, попытайтесь освободить мозг: дайте полную свободу своему потенциалу в передовых научных областях и завершите инновационную и исследовательскую работу.
Исходя из этого, применение агентов может иметь три парадигмы:
Три парадигмы применения агента на основе LLM: одиночный агент, мультиагент и взаимодействие человека и компьютера.
Сценарий с одним агентом
Интеллектуальные агенты, способные принимать команды на естественном языке человека и выполнять повседневные задачи, в настоящее время пользуются популярностью у пользователей и имеют высокую практическую ценность. Авторы сначала подробно остановились на его разнообразных сценариях применения и соответствующих возможностях в сценарии применения одного интеллектуального агента.
В данной статье применение единого интеллектуального агента разделено на следующие три уровня:
Существует три уровня сценариев применения одного агента: ориентированный на задачи, ориентированный на инновации и ориентированный на жизненный цикл.
Мультиагентный сценарий
Еще в 1986 году Марвин Мински сделал дальновидный прогноз. В «Обществе разума» он предложил новую теорию интеллекта, утверждая, что интеллект возникает в результате взаимодействия множества более мелких агентов, выполняющих определенные функции. Например, некоторые агенты могут отвечать за выявление закономерностей, тогда как другие могут отвечать за принятие решений или генерирование решений.
Эта идея была реализована конкретно с появлением распределенного искусственного интеллекта. Мультиагентная система, как одна из основных проблем исследования, в основном фокусируется на том, как агенты могут эффективно координировать свои действия и сотрудничать для решения проблем. Автор данной статьи делит взаимодействие между несколькими агентами на следующие две формы:
В сценариях многоагентных приложений существуют две формы взаимодействия: кооперативное взаимодействие и конфронтационное взаимодействие.
Кооперативное взаимодействие:как实际应用中部署最为广泛的类型,Система кооперативного актерского мастерства может эффективно повысить эффективность выполнения задач и совместно улучшить процесс принятия решений. Конкретно,В зависимости от формы сотрудничества,Далее авторы подразделяют кооперативные взаимодействия на неупорядоченное сотрудничество и упорядоченное сотрудничество.
Конфронтационное взаимодействие:разумныйактерское мастерство в «око за око» (тит for тат) для взаимодействия. Через конкуренцию, переговоры и дебаты актерское мастерство отказаться от убеждения, которое могло быть ошибочным,Сделайте содержательные размышления о своем поведении или процессе обсуждения.,В конечном итоге улучшается качество отклика всей системы.
Сценарий взаимодействия человека и компьютера
Взаимодействие человека и агента, как следует из названия, представляет собой интеллектуальный агент, который сотрудничает с людьми для выполнения задач. С одной стороны, способность агента к динамическому обучению должна поддерживаться общением, с другой стороны, производительность нынешней системы агентов в области интерпретируемости все еще недостаточна, и могут возникнуть проблемы с безопасностью, законностью и т. д., поэтому для этого требуется человек; участие. Регулирование и надзор.
В статье авторы разделяют взаимодействие человека и агента на следующие два режима:
Сценарий взаимодействия человека и Два типа компьютера: Инструктор-Исполнитель модель vs. Equal Partnership модель。
Агентское общество: от личности к социальности
В течение долгого времени исследователи мечтали о создании «интерактивного искусственного общества». окружающая среда.
В статье авторы используют диаграмму для описания концептуальной основы Агентного общества:
Концептуальная основа агентского общества, разделенная на две ключевые части: агентность и среда.
В этой структуре мы можем увидеть:
Социальное поведение и личность агента
В статье рассматривается деятельность агентов в обществе с точки зрения внешнего поведения и внутренней личности:
Социальное поведение:С социальной точки зрения,Поведение можно разделить на два уровня: индивидуальный и коллективный:
Личность:включая познание、情感и性格。就像人类существовать社会化过程中逐渐形成自己的特质一样,актерское мастерство также показало так называемое «Человеческий интеллект» — это постепенное формирование личности посредством взаимодействия с группами и окружающей средой.
Моделирование операционной среды общества
Агентское общество не только состоит из независимых индивидов, но также включает в себя среду, с которой они взаимодействуют. Окружающая среда влияет на то, как агенты воспринимают, действуют и взаимодействуют. В свою очередь, агенты также изменяют состояние окружающей среды своими действиями и решениями. Для отдельного агента среда включает в себя других автономных агентов, людей и доступные ресурсы.
Здесь авторы исследуют три типа сред:
Текстовая среда:потому что LLMs полагается в первую очередь на язык как на формат ввода и вывода, поэтому текстовая среда является актерской. мастерство Самая естественная операционная платформа. Социальные явления и взаимодействия описываются посредством слов, а текстовая среда обеспечивает семантические и фоновые знания. актерское мастерство существует в таком текстовом мире и опирается на текстовые ресурсы для восприятия, рассуждения и принятия мер.
Среда виртуальной песочницы:существовать计算机领域,Песочница — это контролируемая и изолированная среда.,Обычно используется для тестирования программного обеспечения и анализа вирусов. Виртуальная песочница общества «Актерское мастерство» — это платформа для моделирования социального взаимодействия и поведенческой симуляции.,Его основные особенности включают в себя:
Реальная физическая среда:物理环境是由实际物体и空间组成的有形环境,актерское мастерство наблюдать и действовать в нем. Эта среда вводит богатую сенсорную информацию (визуальную, слуховую и пространственную). В отличие от виртуальной среды, физические пространства очень важны для актерского мастерства. Мастерство поведения предъявляет больше требований. то есть актерское Мастерство должно быть адаптируемым в физической среде, создавая исполняемое управление движением.
Автор приводит пример, объясняющий сложность физической среды: представьте себе интеллектуального агента, управляющего роботизированной рукой на заводе. При управлении роботизированной рукой требуется точный контроль силы, чтобы избежать повреждения объектов из различных материалов; агенту необходимо находиться в физическом рабочем пространстве. Своевременно перемещайтесь и корректируйте траекторию движения, чтобы избежать препятствий и оптимизировать траекторию движения роботизированной руки.
Эти требования увеличивают сложность и сложность работы агентов в физической среде.
Симуляция, начни!
В статье авторы считают, что моделируемое общество должно быть открытым, устойчивым, ситуативным и организованным. Открытость позволяет агентам входить и выходить из моделируемого общества автономно; настойчивость означает, что общество имеет последовательную траекторию, которая развивается с течением времени; контекстуальность подчеркивает существование и функционирование субъектов в конкретной среде; гарантирует, что моделируемое общество имеет физический мир; как правила и ограничения.
Что касается значения моделируемого общества, то город Генеративных агентов Стэнфордского университета представляет собой яркий пример для всех — общество агентов можно использовать для исследования границ возможностей группового интеллекта, например, агенты совместно организовали вечеринку в честь Дня святого Валентина; используется для ускорения социальных исследований, таких как наблюдение за коммуникативными явлениями путем моделирования социальных сетей. Кроме того, проводятся исследования, направленные на изучение ценностей, стоящих за агентами, путем моделирования этических сценариев принятия решений, а также для оказания помощи в принятии решений путем моделирования воздействия политики на общество.
Кроме того, автор отметил, что эти симуляции также могут иметь определенные риски, включая, помимо прочего: вредные социальные стереотипы и предрассудки; проблемы конфиденциальности и безопасности;
Перспективные открытые вопросы
В конце статьи автор также обсуждает некоторые перспективные открытые вопросы и вдохновляет читателей на размышления:
Как исследования интеллектуальных агентов и больших языковых моделей могут способствовать друг другу и развиваться вместе?большой Модельсуществовать语言理解、принятие решения также Способность к обобщению и другие аспекты показали большой потенциал и стали актерскими. мастерство Ключевая роль в строительном процессе и актерское Прогресс мастерства также выдвигает более высокие требования к большой Модели.
Какие проблемы и проблемы принесут агенты, работающие на базе LLM?разумныйактерское Может ли мастерство действительно воплотиться в жизнь?,Требует тщательной оценки безопасности.,Избегайте реального вреда. Автор суммирует больше потенциальных угроз,Например:незаконное злоупотребление、Риск безработицы、Влияние на благосостояние человека и так далее.
Масштабирование количества агентов Какие возможности и проблемы это принесет?существовать模拟社会中,Увеличение числа людей может значительно повысить достоверность и достоверность моделирования. Однако,С ростом количества актерского мастерства,Проблемы коммуникации и распространения сообщений могут стать весьма сложными.,Искажение, непонимание или галлюцинация информации существенно снизят эффективность всей системы моделирования.
О в Интернете LLM-based Agent Приводит ли это к AGI соответствующего пути.Некоторые исследователи полагают,к GPT-4 Большая модель, представленная , была обучена на достаточном корпусе, и агент, построенный на этой основе, потенциально может стать открытым AGI Ключ от двери. Однако другие исследователи полагают, что авторегрессионное языковое моделирование (Авторегрессивное языковое моделирование) Language Моделирование) не проявляют настоящего интеллекта, потому что они просто реагируют. Более полный метод моделирования, такой как модель мира (World модель), может привести к AGI。
Эволюция роевого интеллекта. Роевой интеллект — это процесс сбора мнений множества людей и преобразования их в решения.Однако,Вслепую увеличивая актерское мастерство Производит ли количество мастерства настоящий «интеллект»? Также как согласовывать отдельное актерское мастерство,让разумныйактерское мастерство Может ли общество преодолеть «групповое мышление» и личные когнитивные предубеждения?
Агент как услуга (Агент as a Service,AaaS)。потому что LLM-based Agents Она более сложна, чем сама большая модель, и малым и средним предприятиям или частным лицам ее сложнее построить локально. Поэтому поставщики облачных технологий могут рассмотреть возможность внедрения интеллектуальных агентов в форме услуг, то есть. Агент как услуга. Как и другие облачные сервисы, AaaS Имеет потенциал предоставить пользователям высокую гибкость и самообслуживание по требованию.