Метод обнаружения аномалий, основанный на понимании намерений взаимодействия с пользовательским интерфейсом.
Метод обнаружения аномалий, основанный на понимании намерений взаимодействия с пользовательским интерфейсом.

Отдел технологии целевой платформы/отдел обеспечения качества компании Meituan провел научно-исследовательское сотрудничество с командой профессора Чжоу Янфаня из Фуданьского университета. На основе реальных бизнес-сценариев они независимо разработали модель распознавания намерений мультимодального взаимодействия пользовательского интерфейса и поддерживающую структуру взаимодействия пользовательского интерфейса.

Эта статья начинается с болевых точек в области обеспечения качества большого интерфейса и знакомит с проектированием и реализацией методов распознавания намерений взаимодействия с пользовательским интерфейсом. Тестовые примеры, написанные на основе намерения взаимодействия пользовательского интерфейса, продемонстрировали возможность обобщения между терминалами и приложениями в реальном бизнесе. Я надеюсь, что это может вдохновить или помочь студентам, занимающимся соответствующей работой.

  • 1. Предыстория
  • 2. Введение во взаимодействие с пользовательским интерфейсом
    • 2.1 Модуль пользовательского интерфейса и намерение взаимодействия
    • 2.2 Текущие болевые точки и вдохновение
    • 2.3 Цели исследования
    • 2.4 Ожидаемые результаты
  • 3. Архитектурный дизайн
    • 3.1 Технические идеи
    • 3.2 Текущий прогресс и демонстрация эффекта
    • 3.3 Трудности в реализации
  • 4 Исследование методов реализации
    • 4.1 Требования к интерактивной идентификации намерений
    • 4.2 ввод модели
    • 4.3 Двухступенчатое Понимание намерений взаимодействия с пользовательским интерфейсом
    • 4.4 Экспериментальное заключение
  • 5 Исследование практической реализации
  • 6 Резюме
  • 7 Перспективы
  • Информация о наборе персонала

1. Предыстория

в последние годы,С расширением и развитием различных направлений бизнеса Meituan,,Задачи UItest становятся все более обременительными. Направляемся на проблему чрезмерных трудозатрат в UItest,Мейтуан в магазинетест Команда разработала инструменты визуальной автоматизации дляUIИнтерфейсстатическая регрессияисследовать。Однако,дляЛогика функции взаимодействия пользовательского интерфейсаПроверка по-прежнему сильно зависит от скриптатест,Он не может удовлетворить высокий спрос на дальнейшее улучшение эффективности и покрытия. Основные трудности отражаются в двух аспектах:

  • Разнообразные стеки интерфейсных технологий,Разные страницы реализованы по-разному.,Это приводит к множеству различий в деревьях компонентов модулей пользовательского интерфейса со схожими функциями на разных страницах.,Тестовые сценарии, основанные на правилах, трудно обобщать.,Стоимость производства и обслуживания очень высока.
  • Существует множество стилей пользовательского интерфейса, и одни и те же функциональные модули могут визуально сильно отличаться, что затрудняет реализацию автоматизированного вождения на основе метода CV.

Рассмотрим две вышеупомянутые трудности.,Технологический отдел платформы назначения Meituan/Отдел инженерного обеспечения качества и команда профессора Чжоу Янфаня из Школы компьютерных наук и технологий Университета Фудань начали научно-исследовательское сотрудничество по «интеллектуальному аномальному методу обнаружения, основанному на интерактивном понимании пользовательского интерфейса».,Используйте мультимодальную модель для объединения видимого пользователю текста, содержимого визуального изображения и атрибутов в дереве компонентов пользовательского интерфейса.,Достигнуто точное распознавание намерения взаимодействия с пользовательским интерфейсом [1]. Эта работа имеет справочное значение для многих областей, таких как обеспечение качества большого пользовательского интерфейса.,Бумага, знакомящая с работой[2]былESEC/FSE 2023(Область программного обеспеченияCCF Конференция по рекомендациям категории А) была принята и будет проведена в рамках отраслевой направленности 6 декабря. трек) для публичного выпуска и продвижения.

2. Введение во взаимодействие с пользовательским интерфейсом

2.1 Модуль пользовательского интерфейса и намерение взаимодействия |

Мобильные приложения состоят из «страниц», а разные «модули» на разных страницах предоставляют пользователям разные функции. Когда пользователи просматривают страницу, основываясь на прошлом опыте использования и изображениях, тексте, структуре страницы и другой информации на текущей странице, они могут быстро понять, какие [функции] хотят предоставить разные [модули] на странице, и что пользователи можно достичь с помощью этой функции 【Цель】. Мы назвали эти модули страниц, которые, по мнению пользователей, могут предоставлять определенные функции и достигать ожидаемой цели [Кластер намерений взаимодействия].

В качестве примера возьмем страницу на картинке ниже.,Разные модули обычно соответствуют разным типам намерений взаимодействия. Например, область сведений о продукте,Мы можем знать, что этот модуль в основном предоставляет нам наиболее важную информацию о текущих продуктах.,роствыставкаэффект;Область информации о клиенте,Требует от пользователя выполненияНажмите или введитеперсональная информация,Используется для заполнения информации, необходимой для всего заказа. На странице также будут различные функциональные кнопки.,через кнопку Расположениетекстовые сообщения, значкии другая информация,Пользователи также могут примерно сделать вывод, какие результаты будут получены после операции. таким образом,мы можемUIНамерение взаимодействия определяется как「Концепции и интерактивные функции различных модулей, выводимые пользователем через текущий UIвыставка」。

Рисунок 1. Концепция модулей и примеры интерактивных функций.

2.2 Текущие болевые точки и открытия |

Для сложных сценариев взаимодействия с пользовательским интерфейсом, таких как страницы отправки заказов, тестировщикам необходимо сформулировать более сложные процессы тестирования и правила тестирования для различных модулей и в то же время писать и поддерживать сложную логику автоматизированного тестирования. Если взять в качестве примера сценарий тестирования приложения в Meituan, то многие разные страницы имеют схожие функциональные модули. Хотя эти функциональные модули имеют разный внешний вид, для обычных пользователей намерения взаимодействия ясны и схожи, и их не составляет труда понять. нравиться:

Рис. 2. Подобные функциональные модули

2.3 Цели исследования |

Ожидания по этой темеОбъединение нескольких методов машинного обучения,Получите «намерение взаимодействия», соответствующее искусственному познанию, с помощью машин.,Эта информация затем используется для моделирования процесса проверки клиентского продукта «понимание-эксплуатация-проверка» персоналом-испытателем.。Как ручное управление,Мы надеемся, что эта возможность сможет работать и проверять аналогичные функции с логикой, аналогичной логике обычных пользователей.,Совместимость с различными стеками технологий, приложениями и сферами бизнеса одновременно.,Никакой специальной адаптации не требуется. Точно так же, как пользователь может забронировать отель на Meituan.,Вы также можете завершить процесс бронирования отеля по мини-программам Dianping или Meituan, которыми вы никогда не пользовались.

С точки зрения целей возможностей, позиционирование распознавания намерений взаимодействия с пользовательским интерфейсом заключается в завершении сопоставления общих концепций взаимодействия с пользователем с сущностями страницы. Прямой доступ людей к сопоставлению обеспечивает высочайшую точность и лучшее обобщение. Типичным сценарием является ручное тестирование, то есть люди наблюдают за страницей, а затем работают и проверяют ее. Люди могут найти объекты целевых операций (такие как различные кнопки отправки, карточки товаров) в различных дизайнах и формах реализации программы. Текущее автоматизированное тестирование скриптов повышает эффективность, но из-за плохой генерализации картографирования часто требуется отдельная адаптация для каждой страницы.

Кроме того, в отрасли опробованы такие методы, как определение целевой страницы резюме, но они все еще неудовлетворительны с точки зрения надежности, обобщения и стоимости использования. Это исследование направлено на использование глубокого обучения и мультимодальной информации для максимального улучшения картографической способности интерактивного распознавания намерений с помощью небольшого количества аннотированных данных, приближая его к человеческому распознаванию и когнитивным уровням.

Рис. 3. Цели возможностей понимания намерений взаимодействия пользовательского интерфейса

2.4 Ожидаемые результаты |

Это исследованиеОбеспечивает общую способность понимать намерения взаимодействия пользовательского интерфейса, которые могут применяться во всех аспектах основного процесса тестирования «понимание-операция-проверка».

  • Определите намерение взаимодействия с модулем страницы: смоделируйте когнитивные способности тестирующего персонала посредством распознавания намерений взаимодействия с пользовательским интерфейсом страницы.
  • Внедрение тестового поведения: используйте намерение взаимодействия с пользовательским интерфейсом для определения информации о результатах и ​​программирования логики работы.
  • Проверка результатов теста: используйте информацию о результатах распознавания намерений взаимодействия с пользовательским интерфейсом для выполнения универсальной проверки статуса страницы.

Рисунок 4. Основной процесс «понять-работать-проверить»

Рисунок 5. Пример ожидаемых эффектов

3. Архитектурный дизайн

3.1 Технические идеи |

Учитывая, что понимание намерений взаимодействия пользовательского интерфейса является общей способностью понимания страниц, его необходимо сочетать с бизнес-сценариями для получения реальных результатов.,Мы решили сначала применить его кИнтеллектуальное взаимодействие с пользовательским интерфейсом,Изучите возможности понимания намерений взаимодействия и проверьте эффекты реализации.。В будущем эта возможность будет расширена до интеллектуальныхтестлогикаисследовать、Интеллектуальный тест обхода、Управление стандартизацией тестовых знаний и рекомендации, а также другие крупные интерфейсные приложения для тестирования.

Чтобы проверить осуществимость технического направления, эта тема сначала ограничивается определенной вертикальной сферой бизнеса (заказом/формой) для исследования, подтверждается фактический эффект от использования, а затем обобщается метод на другие области.

Конкретно технический план данного проекта разделен на две части:

  • Понимание намерений взаимодействия с пользовательским интерфейсом:На основе метода глубокого обучения, форма в процессе транзакции/Заказать сценарий для целиUIИнтерактивная идентификация и разделение кластера намерений。
  • Интеллектуальный драйвер тестового сценария:определениетестцели варианта использования,Написание логики взаимодействия на основе кластеров намерений взаимодействия пользовательского интерфейса в таких сценариях, как формы/заказы.,В кросс-приложении, По стекам технологий、Попробуйте повторно использовать выполнение в межбизнес-сценариях.

3.2 Текущий прогресс и демонстрация эффектов |

В этом проекте на данный момент реализован комплекс общих Пониманий. намерений взаимодействия с пользовательским интерфейсомметод,Интеллектуальные тестовые варианты использования, написанные в некоторых сценариях с использованием намерений взаимодействия пользовательского интерфейса, могут использоваться на разных страницах пользовательского интерфейса и в разных стеках технологий.,Даже разныеAppМультиплексирование между。Вот использованиеUIНаписано с интерактивным намерением“Разместите заказ на свой первый продукт”тест Намерение взаимодействия варианта использования и эффект его способности к обобщению.выставка:

Процесс взаимодействия:Определите первый продукт、Нажмите «Купить», чтобы перейти на страницу отправки заказа.、Заполните информацию о клиенте、Отправить заказ.

AppЭффектвыставка

Разместите заказ в приложении Meituan и приобретите первый товар в списке.

3.3 Трудности реализации |

Рисунок 6. Проблемы во время тестирования

Самая большая трудность в этом проекте — заставить машину изучать когнитивные концепции обычных пользователей, а также автоматически анализировать и получать предопределенные намерения взаимодействия с пользовательским интерфейсом.

4 Исследование методов реализации

Ввиду вышеперечисленных трудностей,Эта тема начинается с реальных потребностей бизнеса,Сначала разбираются категории намерений взаимодействия, которые необходимо идентифицировать. впоследствии,Были проанализированы категории намерений взаимодействия.,Различные методы были опробованы последовательно,Сравнение эффектов различных дизайнов посредством количественных экспериментов,Наконец выбраноСначала классифицируйте, затем группируйтеплан реализации:Сначала срендеринг Элемент дерева — это наименьшая единица классификации типа намерения взаимодействия.,Затем выполните кластеризацию элементов в различных измерениях намерения взаимодействия.,Сгенерируйте соответствующие кластеры намерений взаимодействия.

4.1 Требования к идентификации намерения взаимодействия |

После глубокого изучения потребностей бизнеса,Мы обнаружили, что намерение взаимодействия с пользовательским интерфейсом не является одномерным.,В зависимости от сценариев и различных потребностей будут использоваться разные стандарты классификации. Конкретно,еслисосредоточиться на относится к бизнес-категории, а кластер намерений взаимодействия можно разделить на: информацию о продукте, оценку и счет-фактуру и т. д., когда сосредоточено; в режиме работы пользователя,Также необходимо разделить интерактивные компоненты на три категории: клик, ввод и долгое нажатие. Например,для“Нажмите, чтобы перейти на первую страницу сведений о продукте”Такое интерактивное намерение:Модель Нужно начать сбизнес-уровеньоказаться«Информация о продукте»,в кластере информации о продуктеоказатьсяОперационный уровеньДа“Нажмите”изUIкомпоненты(«Информация о Пересечение «продукте» и «клик»), а затем выполните операцию щелчка.

также,Поскольку предварительный экспериментальный сценарий данной работы представляет собой страницу формы с большим количеством логики вычислений и ввода информации,,Поэтому мы добавилиВычислительный уровеньиСлой формыДва уникальныхиз Размеры。Например,Для намерений взаимодействия, таких как «Купить самый дешевый товар».,Оно разбито на два последовательных поднамерения: «Найти самый дешевый товар» и «Заполнение заказа». Конкретно,Модель Вам нужно сначала узнать на странице списка товаровбизнес-уровень«Информация о продукте»и Вычислительный уровень «Статистика сумм» пересечения и сортировки, затем нажмите на самый дешевый товар, чтобы перейти на страницу оформления заказа. На странице отправки заказа Модель должна ввести «Информацию о клиенте» и Слой на бизнес-уровне. формыиз“Ввод информации”Найдите общее средиизэлемент,И генерировать соответствующую информацию для ввода текста на основе этих элементов.,На этом поднамерение «выполнение заказа» завершено.

Исходя из этого, мы использовали вышеупомянутые четыре измерения, чтобы определить новые критерии классификации по 16 не взаимоисключающим категориям.

Ожидаемые результаты классификации по четырем параметрам показаны на рисунке ниже:

Рисунок 7. Многоуровневые ожидаемые результаты распознавания.

4.2 Ввод модели |

Чтобы добиться Понимания намерений взаимодействия с пользовательским интерфейсом Эта цель,Мы спекулируем,Обычные пользователи понимают это аналогично,Всестороннее рассмотрение, основанное на разнообразной информации, может улучшить общий эффект.,Поэтому были выбраны три способа.из Информация о странице:Информация об изображении(Скриншот страницы)、Отображение информации о деревеитекстовое сообщение

Например, для элемента [кнопка «Общий платеж»] доступны следующие три типа ключевой информации:

Рисунок 8. Пример мультимодальной информации.

4.3 Понимание намерений двухэтапного взаимодействия с пользовательским интерфейсом |

Анализ входных данных показывает, что среди трех информационных входов только «дерево рендеринга» имеет четкие границы.,Но их концепции «намерения взаимодействия» существенно различаются по степени детализации. поэтому,Это исследование Рассмотрите возможность принятияСначала классифицируйте, затем группируйтеиз Идеи:Сначала срендеринг Элемент дерева — это наименьшая единица классификации типа намерения взаимодействия.,Затем выполните кластеризацию элементов в различных измерениях намерения взаимодействия.,Сгенерируйте соответствующие кластеры намерений взаимодействия.

Конкретно:

  • Во время классификации механизм самообслуживания используется для извлечения признаков для достижения цели обращения к информации о другом элементе при оценке текущей категории элемента.
  • В процессе кластеризации элементов,Используйте метод контролируемой кластеризации для агрегирования классифицированных элементов дерева рендеринга в различных измерениях намерения взаимодействия.,Получите результаты разделения кластера.
4.3.1 Модель классификации компонентов пользовательского интерфейса

Поскольку дерево рендеринга отражает наиболее детализированные компоненты пользовательского интерфейса, самая большая сложность классификации компонентов в дереве рендеринга заключается в недостатке информации: числа на странице заказа могут обозначать сумму, количество товаров и количество клиентов. В таких случаях они основаны только на текущем дереве рендеринга, узлы которого неотличимы. Таким образом, это исследование опирается на опыт в области НЛП и использует механизм самообслуживания для извлечения признаков для достижения цели обращения к информации других элементов при оценке текущей категории элементов.

Структура модели классификации показана на рисунке ниже.,мы используемVision Transformerпредварительная подготовка Модельизвлекатьизображениеособенность,использоватьКитайский Бертпредварительная подготовка Модельизвлекатьтекстособенность,В то же время атрибуты элемента дерева рендеринга извлекаются и вводятся в Модель.,Категории элементов комплексного решения:

Рис. 9. Структура модели.

Чтобы изучить эффективность трех типов ключевой информации (дерево рендеринга, информация о визуальном изображении, текст, видимый пользователю) и взаимосвязь между ними (дополняют ли они друг друга), мы использовали различную ключевую информацию в качестве входных типов модели. Для проведения экспериментов по абляции и обучения были разработаны 7 различных классификационных моделей самообслуживания. Кроме того, учитывая, что многие практики в области пользовательского интерфейса используют возможности обнаружения целей CV для достижения аналогичной работы, чтобы сравнить влияние таких моделей обнаружения целей и моделей самообслуживания на текущие проблемы, в этом исследовании в качестве репрезентативного используется модель YOLOv7. количественно оценить его влияние на классификацию компонентов пользовательского интерфейса.

В ходе эксперимента в приложении Meituan случайным образом было перехвачено 158 страниц отправки заказов из четырех направлений бизнеса (гостиницы, КТВ, секретные комнаты, билеты). После ручного аннотирования 123 из них были использованы в качестве обучающих наборов, а остальные были использованы в качестве обучающих наборов. тестовый набор. В тестовом наборе показатель F1[3] для каждого измерения выглядит следующим образом:

Это видно из таблицы выше,Решение для понимания намерений взаимодействия пользовательского интерфейса с многомодальным самообслуживанием и глубоким обучением имеет наилучшую производительность при одном и том же наборе данных.。Есть две основные причины для анализа.:первый,По мере увеличения количества модальностей эффект Модели будет становиться лучше.,Видно, что информация трех режимов дополняет друг друга.,Кроме того, позволяет модели более точно соответствовать нескольким измерениям;,Внедрение механизма самовнимания позволяет при классификации узлов учитывать соответствующую информацию вокруг них.,Улучшен эффект извлечения признаков,Сделайте классификацию компонентов пользовательского интерфейса более точной. поэтому,насиз Дальнейшие исследования основаны на этом.Мультимодальная модель внимания к себеРасширять。

Примеры результатов многомерной классификации для компонентов пользовательского интерфейса этой мультимодальной модели следующие:

Рисунок 10. Эффекты классификации на разных страницах (разные цветные прямоугольники представляют разные категории).

4.3.2 Генерация кластера намерений взаимодействия: кластеризация компонентов пользовательского интерфейса

Объекты распознавания, на которые нацелена текущая мультимодальная модель мультиклассификации, представляют собой узлы дерева рендеринга. Вообще говоря, несколько узлов дерева рендеринга могут быть объединены в полный кластер намерений взаимодействия, поэтому мы рассматриваем кластеризацию узлов, принадлежащих одному и тому же намерению, вместе, чтобы предоставить более доступную информацию для последующих задач.

Сначала мы попробовали метод неконтролируемой кластеризации на основе правил: смежные узлы на странице формы, которые классификационная модель считала принадлежащими к одному и тому же типу, группировались в кластер намерений взаимодействия. Однако из-за низкой производительности при обработке непрерывных, но независимых кластеров схожих намерений взаимодействия он не подходит для текущих сложных сценариев.

Углубленный анализ показывает, что в задаче кластеризации есть две трудности:

  • Случай 1. Если узлы дерева рендеринга не идут подряд, но принадлежат одному кластеру.,Все еще надеюсь успешно кластеризовать его.
  • Сценарий 2: Узлы дерева непрерывного рендеринга могут быть оценены как одна и та же категория намерения взаимодействия по классификации Модель.,Но мы надеемся согласовать общее понимание пользователей, объединив его в несколько независимых кластеров намерений взаимодействия. (Например: мы надеемся разделить несколько последовательных полей для заполнения форм.,Как показано на рисунке ниже, существует три последовательных кластера намерений взаимодействия [Ввод информации].

Рисунок 11. Три последовательных кластера намерений взаимодействия при вводе информации.

Что касается реализации кластеризации, мы рассмотрели различные часто используемые методы кластеризации:

  1. Простейшее правило кластеризации (непрерывные узлы дерева рендеринга с одной и той же меткой представляют собой один и тот же кластер) не может справиться с вышеупомянутой ситуацией, когда несколько последовательных одинаковых кластеров.
  2. кk-means[4]дляпредставлятьизнеконтролируемая кластеризацияметодсуществовать Это исследованиевовлеченныйиз多Размеры聚类问题上也表现不佳,Мы испробовали широкий диапазон его гиперпараметров, но не смогли получить идеальные результаты кластеризации.

После долгих попыток,нас Наконец выбрано Схема контролируемой кластеризации:Каждый узел, в свою очередь, вычисляет, принадлежит ли он к одному и тому же кластеру с другими узлами, и объединяет узлы, которые считаются принадлежащими к одному и тому же кластеру.。по классификации Модель Определить, принадлежат ли они к одному кластеру,и Модельизground На самом деле все кластеры элементов дерева рендеринга на каждой странице категории мы аннотировали вручную. Структура модели кластеризации и процесс обучения следующие:

Рисунок 12. Структура модели кластеризации.

Мы используем те же данные аннотаций страниц, что и модель классификации, для создания обучающих и тестовых наборов. Во время обучения мы сначала генерируем все возможные попарные комбинации для каждого UI-интерфейса. Комбинации, принадлежащие одному кластеру в любой категории, являются положительными примерами входных данных модели, а остальные — отрицательными. При прогнозировании мы отправляем результаты модели классификации в модель кластеризации, и модель кластеризации выводит окончательный кластер намерений взаимодействия.

Что касается показателей оценки кластеризации компонентов пользовательского интерфейса, мы используем стандартный параметр количественной оценки кластеризации коэффициент Rand [5] для измерения эффекта модели кластеризации. Уильям М. Рэнд определил матрицу путаницы (TP, TN) в проблеме кластеризации, превратив проблему кластеризации в проблему принятия решения о том, находится ли какая-либо комбинация двух элементов (N (N-1)) в одном кластере. ФП, ФН). Таким образом, в этом исследовании используется Precision для измерения точности результатов кластеризации, Recall для указания полноты результатов кластеризации, а оценка F1 для обоих является коэффициентом Рэнда.

Поскольку в этом исследовании используется алгоритм многоуровневой параллельной кластеризации, общее значение коэффициента Рэнда невелико (как показано в таблице ниже). Однако из диаграммы эффекта кластеризации (рис. 13) видно, что текущая модель контролируемой кластеризации оказывает хороший эффект кластеризации на интерактивные кластеры.

Рисунок 13. Пример выбранного эффекта контролируемой кластеризации (разноцветные прямоугольники обозначают разные категории).

4.4 Экспериментальные выводы |

Подводя итоги, мы пришли к следующим выводам:

Решение для интерактивного понимания намерений пользовательского интерфейса, предложенное в этом исследовании, основанное на мультимодальном глубоком обучении с самообслуживанием, имеет определенные преимущества в точности и обобщении, а его требования к аннотациям данных и упрощенному обучению соответствуют реальным сценариям тестирования в отрасли.

5 Исследование практической реализации

Интеллектуальный драйвер тестового сценария, основанный на понимании намерений взаимодействия пользовательского интерфейса.

Модель распознавания намерений взаимодействия пользовательского интерфейса уже имеет определенные возможности интерактивного распознавания кластеров намерений в поле страницы заказа. Мы надеемся использовать модель распознавания намерений взаимодействия пользовательского интерфейса для управления интеллектуальными тестовыми примерами: писать большие интерфейсные тестовые примеры на уровне намерения взаимодействия и Надеемся, что тестовые примеры обеспечат выполнение перекрестного, межприложенного и межтехнологического стека без какой-либо адаптации. Мы использовали возможность интерактивного распознавания кластера намерений, чтобы завершить написание драйвера для следующих тестовых случаев на стороне Android сценария страницы сведений об отеле в приложении Meituan:

  1. Разместите заказ на свой первый продукт
  2. Закажите самый дешевый товар

Ниже приведен псевдокод тестового примера и часть определения входной коллекции:

Рис. 14. Псевдокод тестового примера и поток выполнения

На рисунке показан процесс псевдокода для выбора «Первого отеля» и «Самого дешевого отеля».

  • Сначала на странице сведений об отеле мы BuyFirstItem и BuyCheapestItem Основная логика реализована в этих двух функциях . Среди них BuyFirstItem найдет первый, распознанный Моделью как «Информация о продукте» Намерение взаимодействия и найдите в этом намерении взаимодействия намерение «Кнопка «Купить», щелкните его и перейдите на страницу заполнения формы. существовать BuyCheapestItem Мы получим все элементы на странице «Информация о продукте» намерение взаимодействия и определение «информации о цене» из каждого информационного намерения о продукте. Интерактивное намерение: получить цену каждого продукта для сравнения, найти самый дешевый продукт и нажать кнопку «Купить», чтобы перейти на страницу заполнения формы.
  • После входа на страницу заполнения формы определите «Информационное заполнение» по Модели. Намерение взаимодействия. Как показано на рисунке, сначала выявляются два «информационных наполнения». Намерение через текст подсказки [Имя гостя, контактный телефон 】соответствует входному набору Имя、Телефон,Затем выберите информацию и заполните ее в соответствующем поле ввода. после этого,Используйте Модель, чтобы определить намерение взаимодействия «Отправить заказ» на странице.,Нажмите, чтобы отправить заказ, чтобы завершить весь процесс заказа.

Разместите заказ в приложении Meituan и приобретите первый товар в списке.

Разместите заказ в приложении Meituan и купите самый дешевый товар в списке.

Кроме того, мы количественно изучили удобство использования и обобщение интеллектуальных тестовых примеров для пяти приложений, не входящих в обучающую выборку. Среди 100 различных страниц интеллектуальные тестовые примеры, основанные на понимании намерений взаимодействия пользовательского интерфейса, были правильно выполнены и переданы на 89 страницах. Этот эксперимент доказывает, что интеллектуальные тестовые примеры, основанные на понимании намерений взаимодействия пользовательского интерфейса, обладают хорошей надежностью и обобщением.

В настоящее время мы продвигаем реализацию намерений взаимодействия пользовательского интерфейса при написании реальных автоматизированных тестовых примеров, то есть использование намерений взаимодействия пользовательского интерфейса для замены сценариев, основанных на правилах и управляемых тестированием. Поскольку сценарии тестирования в отрасли часто включают большое количество похожих страниц между различными стеками технологий и разными предприятиями, тестовые сценарии с сильными возможностями обобщения можно повторно использовать на похожих страницах, что снижает затраты на разработку. Кроме того, в отличие от существующих тестовых сценариев, основанных на правилах, этот метод не чувствителен к мелкомасштабным изменениям на странице пользовательского интерфейса, не требует частого обслуживания Selector [6] и позволяет снизить затраты энергии на автоматическое обслуживание Case до определенного уровня. степень. .

В будущем мы будем собирать более широкий спектр данных пользовательского интерфейса для обучения общей модели понимания намерений взаимодействия с пользовательским интерфейсом, чтобы охватить распознавание намерений взаимодействия с пользовательским интерфейсом на общих страницах. Персонал по обеспечению качества бизнеса может напрямую использовать эту общую способность распознавания для разработки обобщений и интеллектуальных тестовых примеров. с большей прочностью. Для тех страниц, которые временно выходят за рамки возможностей модели или недавно запущенных предприятий, мы предоставим интерфейс тонкой настройки модели. При небольшой доработке аннотированных данных эффект распознавания можно отобразить на соответствующих. страницы.

6 Резюме

В этой статье представлены исследование и практический опыт использования мультимодальной информации на странице в области тестирования пользовательского интерфейса. Стремясь решить проблему распознавания информации о намерениях, мы исследовали интерактивную модель распознавания кластеров намерений, используя информацию об атрибутах макета изображения + текста + рендеринга, и проверили осуществимость мультимодального направления, основанного на самовнимании. Эта модель может идентифицировать многомерную информацию об атрибутах намерения элементов дерева рендеринга и использует алгоритм кластеризации для кластеризации узлов в интерактивные кластеры намерений, которые могут предоставлять структурированную информацию для принятия решений для последующих задач. Даже при наличии менее размеченных данных он по-прежнему демонстрирует хорошую точность и способность к обобщению. В дальнейших планах — продолжать повышать точность распознавания моделей за счет расширения набора данных и усиления предварительного обучения.

Оглядываясь назад на весь процесс понимания и исследования намерений взаимодействия пользовательского интерфейса, мы последовательно столкнулись с «разделением областей без присмотра/без категорий», «контролируемой классификацией узлов пользовательского интерфейса», «кластеризацией после классификации» и «использованием результатов идентификации для записи и выполнения». тест-кейсы» Четыре этапа. В настоящее время мы изучили более подходящее решение для извлечения намерений взаимодействия пользовательского интерфейса и реализуем реальную бизнес-реализацию для интеграции возможности распознавания намерений взаимодействия пользовательского интерфейса с текущими возможностями крупномасштабного внешнего тестирования и получения практических приложений в интеллектуальном управлении тестовыми примерами, интеллектуальных осмотр и другие направления доходов.

7 Перспективы

Ниже приведены несколько задач бизнес-реализации, основанных на возможностях понимания намерений взаимодействия пользовательского интерфейса.

1. Интеллектуальное исследовательское тестирование

Текущее приложение имеет сложные функции и большое количество работоспособных компонентов, а эффективность бессознательного исследования слишком низка. Ожидается, что результаты распознавания намерений будут использоваться для автоматического тестирования значимых операций над некоторыми распространенными работоспособными компонентами текущего сценария тестирования. и для проверки логических проблем.

Рисунок 15. Общий процесс исследовательского тестирования.

2. Разница в пользовательском интерфейсе с разными разрешениями и атрибуция

Существуют различия в макетах под разными разрешениями/устройствами, и сравнение на уровне пикселей не может идентифицировать пользовательские интерфейсы под разными разрешениями. Диф. Использование кластера намерений взаимодействия Он может значительно ослабить помехи, вызванные различиями в пикселях, поддерживать сравнение перекрестных разрешений и выделять различия, необходимые для Diff. наизтекст/изображениеизменять,Информация о намерениях может использоваться для структурированной атрибуции результатов.

3. Выбор соответствия узла

Используйте модель предварительного обучения распознавания намерений для поддержки задач сопоставления узлов и достижения четкого обобщения по разрешениям, стекам технологий и возможностям поиска узлов между приложениями, что соответствует существующим линейным моделям условного выбора узлов на основе XPath, Selector и т. д. . дополнительный.

В средне- и долгосрочной перспективе мы планируем использовать распознавание намерений взаимодействия пользовательского интерфейса в качестве общей возможности для извлечения больших объемов структурированной информации в различных областях бизнеса, таких как интеллектуальные тестовые боты, стандартизированная организация знаний и оценка покрытия для терминального тестирования, а также интеллектуальные написание вспомогательного тестового примера. Продолжайте исследовать и внедрять в направлении производства и генерации.

Рис. 16. Связанные последующие задачи

приложение

Значение способности понимать намерения взаимодействия пользовательского интерфейса в эпоху больших моделей

В настоящее время в отрасли существует два основных типа больших моделей: большие языковые модели [7] (LLM: поддерживает только текстовый модальный ввод и вывод) и мультимодальные большие языковые модели [8] (MLLM: могут обрабатывать несколько модальных данных одновременно). В настоящее время модели большого языка обладают относительно хорошими возможностями понимания общей логики, в то время как мультимодальные модели большого языка могут одновременно осуществлять понимание и суждение на основе модальной информации, такой как текст и изображения. Однако в целом существует определенный разрыв. уровень логических способностей по сравнению с большими языковыми моделями, точность суждения и анализа некоторых мультимодальных задач недостаточно удовлетворительна.

На основе этих двух больших моделей,существовать实际任务解决上有两种相对应из Основной режим:【LLM as Controller】 и 【MLLM cognize Everything】,Понимание намерений взаимодействия с пользовательским Как возможность вертикального поля, интерфейс имеет соответствующий потенциал применения в обоих режимах.

LLM as Controller

Основная идея этой модели — использовать вертикальные возможности в качестве инструментов.,LLM в качестве главного контроллера,Используйте свои способности к логическому рассуждению.,Понимать цели через естественный язык,тогда прими решение,Располагайте и вызывайте инструменты,Выполните задание. Типичные примеры этой парадигмы включают HuggingGPT [9] и так далее. в рамках этой парадигмы,LLM может дополнить преимущества вертикальных возможностей,Лучше выполнять задачи в нескольких областях.

Рис. 17. Связанные последующие задачи

Если взять в качестве примера проект HuggingGPT, основная идея состоит в том, чтобы использовать LLM в качестве общего средства управления, а многочисленные модели вертикальных возможностей на платформе HuggingFace — в качестве набора инструментов. Пользователи могут выдвигать требования, а LLM называет вертикальные возможности в соответствии с потребностями. Наконец, LLM генерирует мультимодальный контент, отвечающий потребностям пользователей, на основе результатов, возвращаемых вертикальными возможностями.

Рис. 18. Рабочий процесс HuggingGPT

Видно, что в этом режиме,Другие вертикальные инструменты имеют аналогичные возможности.,Понимание намерений взаимодействия с пользовательским интерфейсом Способность можеткделатьдля Предоставляемые возможности инструментаLLMвызов,Лучше выполнять задачи, связанные с взаимодействием с пользовательским интерфейсом.

MLLM cognize Everything

После появления мультимодальных больших языковых моделей мы видим зарождение универсальных решений мультимодальных задач. В частности, для задачи распознавания намерений взаимодействия с пользовательским интерфейсом мы попытались использовать различные MLLM для прямой идентификации намерений взаимодействия с пользовательским интерфейсом. В целом, MLLM уже имеет хорошие возможности распознавания, но все еще существуют отклонения в конкретных координатах и ​​анализе контента. Модель распознавания намерений взаимодействия пользовательского интерфейса может помочь MLLM повысить производительность задач распознавания намерений следующими двумя способами:

  • Используйте Модель распознавания намерений взаимодействия пользовательского интерфейса в качестве многомодального кодировщика информации на странице, чтобы повысить точность задач распознавания намерений посредством тонкой настройки.

Здесь мы возьмем MiniGPT в качестве примера, чтобы представить режим кодировщика.

Рисунок 19. Структура модели MiniGPT.

Как видно из рисунка выше,В большом мультимодальном языке Модель модальная информация обычно обрабатывается модулями, соответствующими каждой модальности.,Как показано на картинке вышеVIT[10]&Q-Former[11]дляизображение Модальная часть обработки,Vicuna[12]это открытый исходный кодизLLM。Понимание намерений взаимодействия с пользовательским интерфейсом Модель Можетк Заменить картинкуVIT&Q-Formerиз Расположение,В качестве кодировщика для предварительного обучения для обработки интерактивной информации о намерениях в сочетании с LLM для обучения мультимодальной интеграции.,Анализ выходных страниц для помощи в применении мультимодальной модели большого языка в крупномасштабном интерфейсном обеспечении качества.

Рисунок 20. Структура мультимодальной модели большого языка, основанная на способности понимания намерений пользовательского интерфейса.

  • Используйте модель распознавания намерений взаимодействия пользовательского интерфейса в качестве инструмента извлечения информации.,Добавьте идентифицированную структурированную информацию в запрос,Помогите MLLM более точно распознавать намерения.

общий,UIИнтерактивное распознавание намерений – этоПростые, легкие, но эффективные возможности вертикального домена,Требуется лишь небольшой объем обучающих данных.,Он может обеспечить способность точно определять несколько намерений взаимодействия в сложных сценариях, таких как межприложение, межтехнологический стек и межбизнес. Поле большой Модели меняется с каждым днём.,Мы также продолжим изучать возможности распознавания намерений взаимодействия пользовательского интерфейса и способы объединения технологий в этой области.,с наилучшим эффектом.

Автор этой статьи

Шиюй, Чжан Юй, Юнсян и т. д. — все они из бизнес-группы Disheng/отдела платформенных технологий/отдела обеспечения качества компании Meituan.

Ссылки

  • [1] Намерение взаимодействия с пользовательским интерфейсом: Концепции и интерактивные функции различных модулей, выводимые пользователем через текущий UIвыставка。
  • [2] академическая успеваемость:Appaction: Automatic GUI Interaction for Mobile Apps via Holistic Widget Perception
  • [3] F1 Score:Точность(Precision)и Отзывать(Recall)изнастраиватьисреднее значение。
  • [4] k-means:Тип, первоначально полученный в результате обработки сигналов.извекторное квантованиеметод,Целью является сокращение n наблюдений за ростом k кластеров за счет минимизации внутрикластерной дисперсии.
  • [5] Коэффициент Рэнда: Рэнд В. М. Объективные критерии оценки методов кластеризации [J]. Журнал Американской статистической ассоциации, 1971, 66 (336): 846–850.
  • [6] Селектор: относится к инструменту для выбора/нахождения компонентов пользовательского интерфейса в тестовом сценарии на основе правил.
  • [7] Модель большого языка (LLM). Согласно определению Википедии, модель большого языка — это искусственная нейронная сеть, которая может понимать и генерировать естественный язык. Они используют огромные текстовые данные и сложные структуры нейронных сетей для прогнозирования следующего слова или использования подсказок. для выполнения различных языковых задач, но также может страдать от неточностей и предвзятости. Из определения видно, что большой язык в узком смысле ввода моделии输出仅支持текст模态изинформация。ChatGPT-3.5、LLaMa от Meta и BLOOM、Клод из Anthropic и другие принадлежат к этому типу.
  • [8] Мультимодальная модель большого языка (MLLM): Мультимодальная модель большого языка (английский: мультимодальный large language model,MLLM) — это метод, который может обрабатывать многие типы данных.,Например, текст, изображения, аудио, видео и т. д.,Достичь универсального понимания языка и создания искусственного интеллекта Модель. MLLM использует огромные мультимодальные данные и сложные структуры нейронных сетей.,Может конвертировать, объединять и рассуждать между различными модальностями.,выполнять различные языковые задания,Например, классификация текста, вопросы и ответы, диалоги, описание изображений, видео-резюме и т. д. Это видно из определения,Мультимодальный большой язык Модель Может输入或输出多种模态изинформация。GPT-4VLLaVAMinigpt-4принадлежат к этому типу。
  • [9] HuggingGPT:microsoft/JARVIS: JARVIS, a system to connect LLMs with ML community. Paper: https://arxiv.org/pdf/2303.17580.pdf (github.com)
  • [10] VIT (Vision Transformer): VIT — это модель на основе трансформатора.,Первоначально предлагалось для задач классификации изображений. Традиционная сверточная нейронная сеть (CNN) отличается,VIT рассматривает изображение как последовательность (или набор фрагментов изображения).,И используйте механизм внимания Transformer, чтобы изучить глобальное представление функций изображения. VIT делит входное изображение на серию патчей изображения (патчей).,Эти фрагменты изображения затем преобразуются в векторную форму.,и подайте его в кодер Transformer. Через механизм самовнимания и многослойный перцептрон.,VIT может изучить глобальное представление функций изображения.,Затем он классифицируется с помощью классификационного заголовка.
  • [11] Q-Former (квази-рекуррентный преобразователь): Q-Former — это модель, сочетающая в себе CNN и преобразователь.,Для решения задач моделирования последовательностей,Например, языковое моделирование и машинный перевод. Q-Former сочетает в себе модуль CNN и модуль Transformer.,для фиксации локальных функций и глобальных зависимостей в последовательностях. В Q-Former,Модуль CNN используется для извлечения локального представления функций входной последовательности.,Модуль Transformer затем используется для изучения глобальных зависимостей и моделирования последовательностей. По сравнению с традиционной моделью Трансформера,Q-Former может повысить производительность при выполнении некоторых последовательных задач.,и имеет более высокую вычислительную эффективность.
  • [12] Vicuna:lm-sys/FastChat: An open platform for training, serving, and evaluating large language models. Release repo for Vicuna and FastChat-T5. (github.com),Подробности о конкретном мультимодальном процессе обучения см. в документе проекта.

---------- END ----------

boy illustration
Углубленный анализ переполнения памяти CUDA: OutOfMemoryError: CUDA не хватает памяти. Попыталась выделить 3,21 Ги Б (GPU 0; всего 8,00 Ги Б).
boy illustration
[Решено] ошибка установки conda. Среда решения: не удалось выполнить первоначальное зависание. Повторная попытка с помощью файла (графическое руководство).
boy illustration
Прочитайте нейросетевую модель Трансформера в одной статье
boy illustration
.ART Теплые зимние предложения уже открыты
boy illustration
Сравнительная таблица описания кодов ошибок Amap
boy illustration
Уведомление о последних правилах Points Mall в декабре 2022 года.
boy illustration
Даже новички могут быстро приступить к работе с легким сервером приложений.
boy illustration
Взгляд на RSAC 2024|Защита конфиденциальности в эпоху больших моделей
boy illustration
Вы используете ИИ каждый день и до сих пор не знаете, как ИИ дает обратную связь? Одна статья для понимания реализации в коде Python общих функций потерь генеративных моделей + анализ принципов расчета.
boy illustration
Используйте (внутренний) почтовый ящик для образовательных учреждений, чтобы использовать Microsoft Family Bucket (1T дискового пространства на одном диске и версию Office 365 для образовательных учреждений)
boy illustration
Руководство по началу работы с оперативным проектом (7) Практическое сочетание оперативного письма — оперативного письма на основе интеллектуальной системы вопросов и ответов службы поддержки клиентов
boy illustration
[docker] Версия сервера «Чтение 3» — создайте свою собственную программу чтения веб-текста
boy illustration
Обзор Cloud-init и этапы создания в рамках PVE
boy illustration
Корпоративные пользователи используют пакет регистрационных ресурсов для регистрации ICP для веб-сайта и активации оплаты WeChat H5 (с кодом платежного узла версии API V3)
boy illustration
Подробное объяснение таких показателей производительности с высоким уровнем параллелизма, как QPS, TPS, RT и пропускная способность.
boy illustration
Удачи в конкурсе Python Essay Challenge, станьте первым, кто испытает новую функцию сообщества [Запускать блоки кода онлайн] и выиграйте множество изысканных подарков!
boy illustration
[Техническая посадка травы] Кровавая рвота и отделка позволяют вам необычным образом ощипывать гусиные перья! Не распространяйте информацию! ! !
boy illustration
[Официальное ограниченное по времени мероприятие] Сейчас ноябрь, напишите и получите приз
boy illustration
Прочтите это в одной статье: Учебник для няни по созданию сервера Huanshou Parlu на базе CVM-сервера.
boy illustration
Cloud Native | Что такое CRD (настраиваемые определения ресурсов) в K8s?
boy illustration
Как использовать Cloudflare CDN для настройки узла (CF самостоятельно выбирает IP) Гонконг, Китай/Азия узел/сводка и рекомендации внутреннего высокоскоростного IP-сегмента
boy illustration
Дополнительные правила вознаграждения амбассадоров акции в марте 2023 г.
boy illustration
Можно ли открыть частный сервер Phantom Beast Palu одним щелчком мыши? Супер простой урок для начинающих! (Прилагается метод обновления сервера)
boy illustration
[Играйте с Phantom Beast Palu] Обновите игровой сервер Phantom Beast Pallu одним щелчком мыши
boy illustration
Maotouhu делится: последний доступный внутри страны адрес склада исходного образа Docker 2024 года (обновлено 1 декабря)
boy illustration
Кодирование Base64 в MultipartFile
boy illustration
5 точек расширения SpringBoot, супер практично!
boy illustration
Глубокое понимание сопоставления индексов Elasticsearch.
boy illustration
15 рекомендуемых платформ разработки с нулевым кодом корпоративного уровня. Всегда найдется та, которая вам понравится.
boy illustration
Аннотация EasyExcel позволяет экспортировать с сохранением двух десятичных знаков.