Отдел технологии целевой платформы/отдел обеспечения качества компании Meituan провел научно-исследовательское сотрудничество с командой профессора Чжоу Янфаня из Фуданьского университета. На основе реальных бизнес-сценариев они независимо разработали модель распознавания намерений мультимодального взаимодействия пользовательского интерфейса и поддерживающую структуру взаимодействия пользовательского интерфейса.
Эта статья начинается с болевых точек в области обеспечения качества большого интерфейса и знакомит с проектированием и реализацией методов распознавания намерений взаимодействия с пользовательским интерфейсом. Тестовые примеры, написанные на основе намерения взаимодействия пользовательского интерфейса, продемонстрировали возможность обобщения между терминалами и приложениями в реальном бизнесе. Я надеюсь, что это может вдохновить или помочь студентам, занимающимся соответствующей работой.
в последние годы,С расширением и развитием различных направлений бизнеса Meituan,,Задачи UItest становятся все более обременительными. Направляемся на проблему чрезмерных трудозатрат в UItest,Мейтуан в магазинетест Команда разработала инструменты визуальной автоматизации дляUIИнтерфейсстатическая регрессияисследовать。Однако,дляЛогика функции взаимодействия пользовательского интерфейсаПроверка по-прежнему сильно зависит от скриптатест,Он не может удовлетворить высокий спрос на дальнейшее улучшение эффективности и покрытия. Основные трудности отражаются в двух аспектах:
Рассмотрим две вышеупомянутые трудности.,Технологический отдел платформы назначения Meituan/Отдел инженерного обеспечения качества и команда профессора Чжоу Янфаня из Школы компьютерных наук и технологий Университета Фудань начали научно-исследовательское сотрудничество по «интеллектуальному аномальному методу обнаружения, основанному на интерактивном понимании пользовательского интерфейса».,Используйте мультимодальную модель для объединения видимого пользователю текста, содержимого визуального изображения и атрибутов в дереве компонентов пользовательского интерфейса.,Достигнуто точное распознавание намерения взаимодействия с пользовательским интерфейсом [1]. Эта работа имеет справочное значение для многих областей, таких как обеспечение качества большого пользовательского интерфейса.,Бумага, знакомящая с работой[2]былESEC/FSE 2023(Область программного обеспеченияCCF Конференция по рекомендациям категории А) была принята и будет проведена в рамках отраслевой направленности 6 декабря. трек) для публичного выпуска и продвижения.
Мобильные приложения состоят из «страниц», а разные «модули» на разных страницах предоставляют пользователям разные функции. Когда пользователи просматривают страницу, основываясь на прошлом опыте использования и изображениях, тексте, структуре страницы и другой информации на текущей странице, они могут быстро понять, какие [функции] хотят предоставить разные [модули] на странице, и что пользователи можно достичь с помощью этой функции 【Цель】. Мы назвали эти модули страниц, которые, по мнению пользователей, могут предоставлять определенные функции и достигать ожидаемой цели [Кластер намерений взаимодействия].
В качестве примера возьмем страницу на картинке ниже.,Разные модули обычно соответствуют разным типам намерений взаимодействия. Например, область сведений о продукте,Мы можем знать, что этот модуль в основном предоставляет нам наиболее важную информацию о текущих продуктах.,роствыставкаэффект;Область информации о клиенте,Требует от пользователя выполненияНажмите или введитеперсональная информация,Используется для заполнения информации, необходимой для всего заказа. На странице также будут различные функциональные кнопки.,через кнопку Расположение 、текстовые сообщения, значкии другая информация,Пользователи также могут примерно сделать вывод, какие результаты будут получены после операции. таким образом,мы можемUIНамерение взаимодействия определяется как「Концепции и интерактивные функции различных модулей, выводимые пользователем через текущий UIвыставка」。
Рисунок 1. Концепция модулей и примеры интерактивных функций.
Для сложных сценариев взаимодействия с пользовательским интерфейсом, таких как страницы отправки заказов, тестировщикам необходимо сформулировать более сложные процессы тестирования и правила тестирования для различных модулей и в то же время писать и поддерживать сложную логику автоматизированного тестирования. Если взять в качестве примера сценарий тестирования приложения в Meituan, то многие разные страницы имеют схожие функциональные модули. Хотя эти функциональные модули имеют разный внешний вид, для обычных пользователей намерения взаимодействия ясны и схожи, и их не составляет труда понять. нравиться:
Рис. 2. Подобные функциональные модули
Ожидания по этой темеОбъединение нескольких методов машинного обучения,Получите «намерение взаимодействия», соответствующее искусственному познанию, с помощью машин.,Эта информация затем используется для моделирования процесса проверки клиентского продукта «понимание-эксплуатация-проверка» персоналом-испытателем.。Как ручное управление,Мы надеемся, что эта возможность сможет работать и проверять аналогичные функции с логикой, аналогичной логике обычных пользователей.,Совместимость с различными стеками технологий, приложениями и сферами бизнеса одновременно.,Никакой специальной адаптации не требуется. Точно так же, как пользователь может забронировать отель на Meituan.,Вы также можете завершить процесс бронирования отеля по мини-программам Dianping или Meituan, которыми вы никогда не пользовались.
С точки зрения целей возможностей, позиционирование распознавания намерений взаимодействия с пользовательским интерфейсом заключается в завершении сопоставления общих концепций взаимодействия с пользователем с сущностями страницы. Прямой доступ людей к сопоставлению обеспечивает высочайшую точность и лучшее обобщение. Типичным сценарием является ручное тестирование, то есть люди наблюдают за страницей, а затем работают и проверяют ее. Люди могут найти объекты целевых операций (такие как различные кнопки отправки, карточки товаров) в различных дизайнах и формах реализации программы. Текущее автоматизированное тестирование скриптов повышает эффективность, но из-за плохой генерализации картографирования часто требуется отдельная адаптация для каждой страницы.
Кроме того, в отрасли опробованы такие методы, как определение целевой страницы резюме, но они все еще неудовлетворительны с точки зрения надежности, обобщения и стоимости использования. Это исследование направлено на использование глубокого обучения и мультимодальной информации для максимального улучшения картографической способности интерактивного распознавания намерений с помощью небольшого количества аннотированных данных, приближая его к человеческому распознаванию и когнитивным уровням.
Рис. 3. Цели возможностей понимания намерений взаимодействия пользовательского интерфейса
Это исследованиеОбеспечивает общую способность понимать намерения взаимодействия пользовательского интерфейса, которые могут применяться во всех аспектах основного процесса тестирования «понимание-операция-проверка».。
Рисунок 4. Основной процесс «понять-работать-проверить»
Рисунок 5. Пример ожидаемых эффектов
Учитывая, что понимание намерений взаимодействия пользовательского интерфейса является общей способностью понимания страниц, его необходимо сочетать с бизнес-сценариями для получения реальных результатов.,Мы решили сначала применить его кИнтеллектуальное взаимодействие с пользовательским интерфейсом,Изучите возможности понимания намерений взаимодействия и проверьте эффекты реализации.。В будущем эта возможность будет расширена до интеллектуальныхтестлогикаисследовать、Интеллектуальный тест обхода、Управление стандартизацией тестовых знаний и рекомендации, а также другие крупные интерфейсные приложения для тестирования.
Чтобы проверить осуществимость технического направления, эта тема сначала ограничивается определенной вертикальной сферой бизнеса (заказом/формой) для исследования, подтверждается фактический эффект от использования, а затем обобщается метод на другие области.
Конкретно технический план данного проекта разделен на две части:
В этом проекте на данный момент реализован комплекс общих Пониманий. намерений взаимодействия с пользовательским интерфейсомметод,Интеллектуальные тестовые варианты использования, написанные в некоторых сценариях с использованием намерений взаимодействия пользовательского интерфейса, могут использоваться на разных страницах пользовательского интерфейса и в разных стеках технологий.,Даже разныеAppМультиплексирование между。Вот использованиеUIНаписано с интерактивным намерением“Разместите заказ на свой первый продукт”тест Намерение взаимодействия варианта использования и эффект его способности к обобщению.выставка:
Процесс взаимодействия:Определите первый продукт、Нажмите «Купить», чтобы перейти на страницу отправки заказа.、Заполните информацию о клиенте、Отправить заказ.
AppЭффектвыставка:
Разместите заказ в приложении Meituan и приобретите первый товар в списке.
Рисунок 6. Проблемы во время тестирования
Самая большая трудность в этом проекте — заставить машину изучать когнитивные концепции обычных пользователей, а также автоматически анализировать и получать предопределенные намерения взаимодействия с пользовательским интерфейсом.
Ввиду вышеперечисленных трудностей,Эта тема начинается с реальных потребностей бизнеса,Сначала разбираются категории намерений взаимодействия, которые необходимо идентифицировать. впоследствии,Были проанализированы категории намерений взаимодействия.,Различные методы были опробованы последовательно,Сравнение эффектов различных дизайнов посредством количественных экспериментов,Наконец выбраноСначала классифицируйте, затем группируйтеплан реализации:Сначала срендеринг Элемент дерева — это наименьшая единица классификации типа намерения взаимодействия.,Затем выполните кластеризацию элементов в различных измерениях намерения взаимодействия.,Сгенерируйте соответствующие кластеры намерений взаимодействия.
После глубокого изучения потребностей бизнеса,Мы обнаружили, что намерение взаимодействия с пользовательским интерфейсом не является одномерным.,В зависимости от сценариев и различных потребностей будут использоваться разные стандарты классификации. Конкретно,еслисосредоточиться на относится к бизнес-категории, а кластер намерений взаимодействия можно разделить на: информацию о продукте, оценку и счет-фактуру и т. д., когда сосредоточено; в режиме работы пользователя,Также необходимо разделить интерактивные компоненты на три категории: клик, ввод и долгое нажатие. Например,для“Нажмите, чтобы перейти на первую страницу сведений о продукте”Такое интерактивное намерение:Модель Нужно начать сбизнес-уровеньоказаться«Информация о продукте»,в кластере информации о продуктеоказатьсяОперационный уровеньДа“Нажмите”изUIкомпоненты(«Информация о Пересечение «продукте» и «клик»), а затем выполните операцию щелчка.
также,Поскольку предварительный экспериментальный сценарий данной работы представляет собой страницу формы с большим количеством логики вычислений и ввода информации,,Поэтому мы добавилиВычислительный уровеньиСлой формыДва уникальныхиз Размеры。Например,Для намерений взаимодействия, таких как «Купить самый дешевый товар».,Оно разбито на два последовательных поднамерения: «Найти самый дешевый товар» и «Заполнение заказа». Конкретно,Модель Вам нужно сначала узнать на странице списка товаровбизнес-уровень«Информация о продукте»и Вычислительный уровень «Статистика сумм» пересечения и сортировки, затем нажмите на самый дешевый товар, чтобы перейти на страницу оформления заказа. На странице отправки заказа Модель должна ввести «Информацию о клиенте» и Слой на бизнес-уровне. формыиз“Ввод информации”Найдите общее средиизэлемент,И генерировать соответствующую информацию для ввода текста на основе этих элементов.,На этом поднамерение «выполнение заказа» завершено.
Исходя из этого, мы использовали вышеупомянутые четыре измерения, чтобы определить новые критерии классификации по 16 не взаимоисключающим категориям.
Ожидаемые результаты классификации по четырем параметрам показаны на рисунке ниже:
Рисунок 7. Многоуровневые ожидаемые результаты распознавания.
Чтобы добиться Понимания намерений взаимодействия с пользовательским интерфейсом Эта цель,Мы спекулируем,Обычные пользователи понимают это аналогично,Всестороннее рассмотрение, основанное на разнообразной информации, может улучшить общий эффект.,Поэтому были выбраны три способа.из Информация о странице:Информация об изображении(Скриншот страницы)、Отображение информации о деревеитекстовое сообщение。
Например, для элемента [кнопка «Общий платеж»] доступны следующие три типа ключевой информации:
Рисунок 8. Пример мультимодальной информации.
Анализ входных данных показывает, что среди трех информационных входов только «дерево рендеринга» имеет четкие границы.,Но их концепции «намерения взаимодействия» существенно различаются по степени детализации. поэтому,Это исследование Рассмотрите возможность принятияСначала классифицируйте, затем группируйтеиз Идеи:Сначала срендеринг Элемент дерева — это наименьшая единица классификации типа намерения взаимодействия.,Затем выполните кластеризацию элементов в различных измерениях намерения взаимодействия.,Сгенерируйте соответствующие кластеры намерений взаимодействия.
Конкретно:
Поскольку дерево рендеринга отражает наиболее детализированные компоненты пользовательского интерфейса, самая большая сложность классификации компонентов в дереве рендеринга заключается в недостатке информации: числа на странице заказа могут обозначать сумму, количество товаров и количество клиентов. В таких случаях они основаны только на текущем дереве рендеринга, узлы которого неотличимы. Таким образом, это исследование опирается на опыт в области НЛП и использует механизм самообслуживания для извлечения признаков для достижения цели обращения к информации других элементов при оценке текущей категории элементов.
Структура модели классификации показана на рисунке ниже.,мы используемVision Transformerпредварительная подготовка Модельизвлекатьизображениеособенность,использоватьКитайский Бертпредварительная подготовка Модельизвлекатьтекстособенность,В то же время атрибуты элемента дерева рендеринга извлекаются и вводятся в Модель.,Категории элементов комплексного решения:
Рис. 9. Структура модели.
Чтобы изучить эффективность трех типов ключевой информации (дерево рендеринга, информация о визуальном изображении, текст, видимый пользователю) и взаимосвязь между ними (дополняют ли они друг друга), мы использовали различную ключевую информацию в качестве входных типов модели. Для проведения экспериментов по абляции и обучения были разработаны 7 различных классификационных моделей самообслуживания. Кроме того, учитывая, что многие практики в области пользовательского интерфейса используют возможности обнаружения целей CV для достижения аналогичной работы, чтобы сравнить влияние таких моделей обнаружения целей и моделей самообслуживания на текущие проблемы, в этом исследовании в качестве репрезентативного используется модель YOLOv7. количественно оценить его влияние на классификацию компонентов пользовательского интерфейса.
В ходе эксперимента в приложении Meituan случайным образом было перехвачено 158 страниц отправки заказов из четырех направлений бизнеса (гостиницы, КТВ, секретные комнаты, билеты). После ручного аннотирования 123 из них были использованы в качестве обучающих наборов, а остальные были использованы в качестве обучающих наборов. тестовый набор. В тестовом наборе показатель F1[3] для каждого измерения выглядит следующим образом:
Это видно из таблицы выше,Решение для понимания намерений взаимодействия пользовательского интерфейса с многомодальным самообслуживанием и глубоким обучением имеет наилучшую производительность при одном и том же наборе данных.。Есть две основные причины для анализа.:первый,По мере увеличения количества модальностей эффект Модели будет становиться лучше.,Видно, что информация трех режимов дополняет друг друга.,Кроме того, позволяет модели более точно соответствовать нескольким измерениям;,Внедрение механизма самовнимания позволяет при классификации узлов учитывать соответствующую информацию вокруг них.,Улучшен эффект извлечения признаков,Сделайте классификацию компонентов пользовательского интерфейса более точной. поэтому,насиз Дальнейшие исследования основаны на этом.Мультимодальная модель внимания к себеРасширять。
Примеры результатов многомерной классификации для компонентов пользовательского интерфейса этой мультимодальной модели следующие:
Рисунок 10. Эффекты классификации на разных страницах (разные цветные прямоугольники представляют разные категории).
Объекты распознавания, на которые нацелена текущая мультимодальная модель мультиклассификации, представляют собой узлы дерева рендеринга. Вообще говоря, несколько узлов дерева рендеринга могут быть объединены в полный кластер намерений взаимодействия, поэтому мы рассматриваем кластеризацию узлов, принадлежащих одному и тому же намерению, вместе, чтобы предоставить более доступную информацию для последующих задач.
Сначала мы попробовали метод неконтролируемой кластеризации на основе правил: смежные узлы на странице формы, которые классификационная модель считала принадлежащими к одному и тому же типу, группировались в кластер намерений взаимодействия. Однако из-за низкой производительности при обработке непрерывных, но независимых кластеров схожих намерений взаимодействия он не подходит для текущих сложных сценариев.
Углубленный анализ показывает, что в задаче кластеризации есть две трудности:
Рисунок 11. Три последовательных кластера намерений взаимодействия при вводе информации.
Что касается реализации кластеризации, мы рассмотрели различные часто используемые методы кластеризации:
После долгих попыток,нас Наконец выбрано Схема контролируемой кластеризации:Каждый узел, в свою очередь, вычисляет, принадлежит ли он к одному и тому же кластеру с другими узлами, и объединяет узлы, которые считаются принадлежащими к одному и тому же кластеру.。по классификации Модель Определить, принадлежат ли они к одному кластеру,и Модельизground На самом деле все кластеры элементов дерева рендеринга на каждой странице категории мы аннотировали вручную. Структура модели кластеризации и процесс обучения следующие:
Рисунок 12. Структура модели кластеризации.
Мы используем те же данные аннотаций страниц, что и модель классификации, для создания обучающих и тестовых наборов. Во время обучения мы сначала генерируем все возможные попарные комбинации для каждого UI-интерфейса. Комбинации, принадлежащие одному кластеру в любой категории, являются положительными примерами входных данных модели, а остальные — отрицательными. При прогнозировании мы отправляем результаты модели классификации в модель кластеризации, и модель кластеризации выводит окончательный кластер намерений взаимодействия.
Что касается показателей оценки кластеризации компонентов пользовательского интерфейса, мы используем стандартный параметр количественной оценки кластеризации коэффициент Rand [5] для измерения эффекта модели кластеризации. Уильям М. Рэнд определил матрицу путаницы (TP, TN) в проблеме кластеризации, превратив проблему кластеризации в проблему принятия решения о том, находится ли какая-либо комбинация двух элементов (N (N-1)) в одном кластере. ФП, ФН). Таким образом, в этом исследовании используется Precision для измерения точности результатов кластеризации, Recall для указания полноты результатов кластеризации, а оценка F1 для обоих является коэффициентом Рэнда.
Поскольку в этом исследовании используется алгоритм многоуровневой параллельной кластеризации, общее значение коэффициента Рэнда невелико (как показано в таблице ниже). Однако из диаграммы эффекта кластеризации (рис. 13) видно, что текущая модель контролируемой кластеризации оказывает хороший эффект кластеризации на интерактивные кластеры.
Рисунок 13. Пример выбранного эффекта контролируемой кластеризации (разноцветные прямоугольники обозначают разные категории).
Подводя итоги, мы пришли к следующим выводам:
Решение для интерактивного понимания намерений пользовательского интерфейса, предложенное в этом исследовании, основанное на мультимодальном глубоком обучении с самообслуживанием, имеет определенные преимущества в точности и обобщении, а его требования к аннотациям данных и упрощенному обучению соответствуют реальным сценариям тестирования в отрасли.
Интеллектуальный драйвер тестового сценария, основанный на понимании намерений взаимодействия пользовательского интерфейса.
Модель распознавания намерений взаимодействия пользовательского интерфейса уже имеет определенные возможности интерактивного распознавания кластеров намерений в поле страницы заказа. Мы надеемся использовать модель распознавания намерений взаимодействия пользовательского интерфейса для управления интеллектуальными тестовыми примерами: писать большие интерфейсные тестовые примеры на уровне намерения взаимодействия и Надеемся, что тестовые примеры обеспечат выполнение перекрестного, межприложенного и межтехнологического стека без какой-либо адаптации. Мы использовали возможность интерактивного распознавания кластера намерений, чтобы завершить написание драйвера для следующих тестовых случаев на стороне Android сценария страницы сведений об отеле в приложении Meituan:
Ниже приведен псевдокод тестового примера и часть определения входной коллекции:
Рис. 14. Псевдокод тестового примера и поток выполнения
На рисунке показан процесс псевдокода для выбора «Первого отеля» и «Самого дешевого отеля».
Разместите заказ в приложении Meituan и приобретите первый товар в списке.
Разместите заказ в приложении Meituan и купите самый дешевый товар в списке.
Кроме того, мы количественно изучили удобство использования и обобщение интеллектуальных тестовых примеров для пяти приложений, не входящих в обучающую выборку. Среди 100 различных страниц интеллектуальные тестовые примеры, основанные на понимании намерений взаимодействия пользовательского интерфейса, были правильно выполнены и переданы на 89 страницах. Этот эксперимент доказывает, что интеллектуальные тестовые примеры, основанные на понимании намерений взаимодействия пользовательского интерфейса, обладают хорошей надежностью и обобщением.
В настоящее время мы продвигаем реализацию намерений взаимодействия пользовательского интерфейса при написании реальных автоматизированных тестовых примеров, то есть использование намерений взаимодействия пользовательского интерфейса для замены сценариев, основанных на правилах и управляемых тестированием. Поскольку сценарии тестирования в отрасли часто включают большое количество похожих страниц между различными стеками технологий и разными предприятиями, тестовые сценарии с сильными возможностями обобщения можно повторно использовать на похожих страницах, что снижает затраты на разработку. Кроме того, в отличие от существующих тестовых сценариев, основанных на правилах, этот метод не чувствителен к мелкомасштабным изменениям на странице пользовательского интерфейса, не требует частого обслуживания Selector [6] и позволяет снизить затраты энергии на автоматическое обслуживание Case до определенного уровня. степень. .
В будущем мы будем собирать более широкий спектр данных пользовательского интерфейса для обучения общей модели понимания намерений взаимодействия с пользовательским интерфейсом, чтобы охватить распознавание намерений взаимодействия с пользовательским интерфейсом на общих страницах. Персонал по обеспечению качества бизнеса может напрямую использовать эту общую способность распознавания для разработки обобщений и интеллектуальных тестовых примеров. с большей прочностью. Для тех страниц, которые временно выходят за рамки возможностей модели или недавно запущенных предприятий, мы предоставим интерфейс тонкой настройки модели. При небольшой доработке аннотированных данных эффект распознавания можно отобразить на соответствующих. страницы.
В этой статье представлены исследование и практический опыт использования мультимодальной информации на странице в области тестирования пользовательского интерфейса. Стремясь решить проблему распознавания информации о намерениях, мы исследовали интерактивную модель распознавания кластеров намерений, используя информацию об атрибутах макета изображения + текста + рендеринга, и проверили осуществимость мультимодального направления, основанного на самовнимании. Эта модель может идентифицировать многомерную информацию об атрибутах намерения элементов дерева рендеринга и использует алгоритм кластеризации для кластеризации узлов в интерактивные кластеры намерений, которые могут предоставлять структурированную информацию для принятия решений для последующих задач. Даже при наличии менее размеченных данных он по-прежнему демонстрирует хорошую точность и способность к обобщению. В дальнейших планах — продолжать повышать точность распознавания моделей за счет расширения набора данных и усиления предварительного обучения.
Оглядываясь назад на весь процесс понимания и исследования намерений взаимодействия пользовательского интерфейса, мы последовательно столкнулись с «разделением областей без присмотра/без категорий», «контролируемой классификацией узлов пользовательского интерфейса», «кластеризацией после классификации» и «использованием результатов идентификации для записи и выполнения». тест-кейсы» Четыре этапа. В настоящее время мы изучили более подходящее решение для извлечения намерений взаимодействия пользовательского интерфейса и реализуем реальную бизнес-реализацию для интеграции возможности распознавания намерений взаимодействия пользовательского интерфейса с текущими возможностями крупномасштабного внешнего тестирования и получения практических приложений в интеллектуальном управлении тестовыми примерами, интеллектуальных осмотр и другие направления доходов.
Ниже приведены несколько задач бизнес-реализации, основанных на возможностях понимания намерений взаимодействия пользовательского интерфейса.
1. Интеллектуальное исследовательское тестирование
Текущее приложение имеет сложные функции и большое количество работоспособных компонентов, а эффективность бессознательного исследования слишком низка. Ожидается, что результаты распознавания намерений будут использоваться для автоматического тестирования значимых операций над некоторыми распространенными работоспособными компонентами текущего сценария тестирования. и для проверки логических проблем.
Рисунок 15. Общий процесс исследовательского тестирования.
2. Разница в пользовательском интерфейсе с разными разрешениями и атрибуция
Существуют различия в макетах под разными разрешениями/устройствами, и сравнение на уровне пикселей не может идентифицировать пользовательские интерфейсы под разными разрешениями. Диф. Использование кластера намерений взаимодействия Он может значительно ослабить помехи, вызванные различиями в пикселях, поддерживать сравнение перекрестных разрешений и выделять различия, необходимые для Diff. наизтекст/изображениеизменять,Информация о намерениях может использоваться для структурированной атрибуции результатов.
3. Выбор соответствия узла
Используйте модель предварительного обучения распознавания намерений для поддержки задач сопоставления узлов и достижения четкого обобщения по разрешениям, стекам технологий и возможностям поиска узлов между приложениями, что соответствует существующим линейным моделям условного выбора узлов на основе XPath, Selector и т. д. . дополнительный.
В средне- и долгосрочной перспективе мы планируем использовать распознавание намерений взаимодействия пользовательского интерфейса в качестве общей возможности для извлечения больших объемов структурированной информации в различных областях бизнеса, таких как интеллектуальные тестовые боты, стандартизированная организация знаний и оценка покрытия для терминального тестирования, а также интеллектуальные написание вспомогательного тестового примера. Продолжайте исследовать и внедрять в направлении производства и генерации.
Рис. 16. Связанные последующие задачи
В настоящее время в отрасли существует два основных типа больших моделей: большие языковые модели [7] (LLM: поддерживает только текстовый модальный ввод и вывод) и мультимодальные большие языковые модели [8] (MLLM: могут обрабатывать несколько модальных данных одновременно). В настоящее время модели большого языка обладают относительно хорошими возможностями понимания общей логики, в то время как мультимодальные модели большого языка могут одновременно осуществлять понимание и суждение на основе модальной информации, такой как текст и изображения. Однако в целом существует определенный разрыв. уровень логических способностей по сравнению с большими языковыми моделями, точность суждения и анализа некоторых мультимодальных задач недостаточно удовлетворительна.
На основе этих двух больших моделей,существовать实际任务解决上有两种相对应из Основной режим:【LLM as Controller】 и 【MLLM cognize Everything】,Понимание намерений взаимодействия с пользовательским Как возможность вертикального поля, интерфейс имеет соответствующий потенциал применения в обоих режимах.
Основная идея этой модели — использовать вертикальные возможности в качестве инструментов.,LLM в качестве главного контроллера,Используйте свои способности к логическому рассуждению.,Понимать цели через естественный язык,тогда прими решение,Располагайте и вызывайте инструменты,Выполните задание. Типичные примеры этой парадигмы включают HuggingGPT [9] и так далее. в рамках этой парадигмы,LLM может дополнить преимущества вертикальных возможностей,Лучше выполнять задачи в нескольких областях.
Рис. 17. Связанные последующие задачи
Если взять в качестве примера проект HuggingGPT, основная идея состоит в том, чтобы использовать LLM в качестве общего средства управления, а многочисленные модели вертикальных возможностей на платформе HuggingFace — в качестве набора инструментов. Пользователи могут выдвигать требования, а LLM называет вертикальные возможности в соответствии с потребностями. Наконец, LLM генерирует мультимодальный контент, отвечающий потребностям пользователей, на основе результатов, возвращаемых вертикальными возможностями.
Рис. 18. Рабочий процесс HuggingGPT
Видно, что в этом режиме,Другие вертикальные инструменты имеют аналогичные возможности.,Понимание намерений взаимодействия с пользовательским интерфейсом Способность можеткделатьдля Предоставляемые возможности инструментаLLMвызов,Лучше выполнять задачи, связанные с взаимодействием с пользовательским интерфейсом.
После появления мультимодальных больших языковых моделей мы видим зарождение универсальных решений мультимодальных задач. В частности, для задачи распознавания намерений взаимодействия с пользовательским интерфейсом мы попытались использовать различные MLLM для прямой идентификации намерений взаимодействия с пользовательским интерфейсом. В целом, MLLM уже имеет хорошие возможности распознавания, но все еще существуют отклонения в конкретных координатах и анализе контента. Модель распознавания намерений взаимодействия пользовательского интерфейса может помочь MLLM повысить производительность задач распознавания намерений следующими двумя способами:
Здесь мы возьмем MiniGPT в качестве примера, чтобы представить режим кодировщика.
Рисунок 19. Структура модели MiniGPT.
Как видно из рисунка выше,В большом мультимодальном языке Модель модальная информация обычно обрабатывается модулями, соответствующими каждой модальности.,Как показано на картинке вышеVIT[10]&Q-Former[11]дляизображение Модальная часть обработки,Vicuna[12]это открытый исходный кодизLLM。Понимание намерений взаимодействия с пользовательским интерфейсом Модель Можетк Заменить картинкуVIT&Q-Formerиз Расположение,В качестве кодировщика для предварительного обучения для обработки интерактивной информации о намерениях в сочетании с LLM для обучения мультимодальной интеграции.,Анализ выходных страниц для помощи в применении мультимодальной модели большого языка в крупномасштабном интерфейсном обеспечении качества.
Рисунок 20. Структура мультимодальной модели большого языка, основанная на способности понимания намерений пользовательского интерфейса.
общий,UIИнтерактивное распознавание намерений – этоПростые, легкие, но эффективные возможности вертикального домена,Требуется лишь небольшой объем обучающих данных.,Он может обеспечить способность точно определять несколько намерений взаимодействия в сложных сценариях, таких как межприложение, межтехнологический стек и межбизнес. Поле большой Модели меняется с каждым днём.,Мы также продолжим изучать возможности распознавания намерений взаимодействия пользовательского интерфейса и способы объединения технологий в этой области.,с наилучшим эффектом.
Шиюй, Чжан Юй, Юнсян и т. д. — все они из бизнес-группы Disheng/отдела платформенных технологий/отдела обеспечения качества компании Meituan.
---------- END ----------