Текущее состояние международных исследований мультимодального взаимодействия человека и компьютера
Текущее состояние международных исследований мультимодального взаимодействия человека и компьютера

Тао Цзяньхуа, У Инцай, Юй Чунь, Вэн Дундун, Ли Гуаньцзюнь, Хань Тэн, Ван Юньтао, Лю Бинь 2022. Обзор мультимодального взаимодействия человека и компьютера, Китайский журнал изображений и графики, 27 (6): 1956–1987.

Мультимодальный процесс представления информации предполагает взаимодействие. с визуализацией больших технологии данных, технология взаимодействия смешанной реальности и Диалоги взаимодействие человека и Компьютерные технологии. Нижеследующее взято из Взаимодействия с визуализацией больших данных、Взаимодействие, основанное на восприятии звукового поля、Физическое взаимодействие в смешанной реальности、носимое взаимодействиеи Диалоговое взаимодействие человека и Измерения компьютера5 знакомят с прогрессом исследований мультимодального взаимодействия человека и компьютера. рамка контента, например изображение 1 показано.

▲ Рисунок 1. Структура содержания этой статьи.

01 Взаимодействие с визуализацией больших данных

Визуализация — это важная научная технология анализа и исследования данных. Она преобразует абстрактные данные в графические представления и способствует аналитическому рассуждению с помощью интерактивных интерфейсов. Она играет ключевую роль в городском планировании, медицинской диагностике, спортивной подготовке и других областях. В современную эпоху бурного роста данных визуализация преобразует сложные большие данные в простой для понимания контент, улучшая способность людей понимать и исследовать данные.

Традиционные устройства визуального взаимодействия, независимо от того, какая система визуализации загружена, в основном состоят из двухмерного экрана, клавиатуры и мыши. Визуальный контент исследуется посредством таких взаимодействий, как нажатие, перетаскивание, выбор кадра и перемещение с помощью. клавиатура и мышь. Однако этот интерактивный интерфейс может поддерживать только плоский визуальный дизайн, включая каналы сопоставления данных и методы взаимодействия с данными, и не может удовлетворить потребности анализа в контексте эпохи больших данных.

Визуализация данных в эпоху больших данных вызовет такие проблемы, как ограниченное пространство представления, абстрактное выражение данных и окклюзия данных. Появление иммерсивной визуализации обеспечивает широкое пространство представления для многомерной визуализации больших данных, объединяя мультимодальность мультимодальности. Сенсорные каналы позволяют пользователям взаимодействовать с данными естественно и параллельно, используя несколько каналов.

1.1 Проектирование визуализации больших данных

Визуализация массивных данных со сложной структурой по-прежнему остается сложной задачей, особенно данных с трехмерной пространственной информацией. Традиционная плоская презентация ограничивает визуальные каналы и визуальную обратную связь двухмерным пространством, что также ограничивает пространство дизайна. Разработка иммерсивных устройств раскрыла возможности стереоскопического зрения пользователей, и исследователи начали изучать потенциал интерактивного 3D-пространства в визуализации.

Визуальное восприятие 3D людьми обусловлено такими признаками глубины, как бинокулярное несоответствие, окклюзия и относительный размер. С одной стороны, пользователи могут легко определить форму трехмерных объектов; С другой стороны, наклон угла обзора в 3D деформирует форму 2D-плоскости, что затрудняет ее распознавание пользователями. Следовательно, как сделать эффективный визуальный дизайн в трехмерной среде – это взаимодействие. с визуализацией больших Одна из горячих точек исследований в области данных.

Точки — важные маркеры в визуализациях. В двухмерной плоскости визуальные каналы, такие как расположение, размер и цвет точек, часто могут использоваться для кодирования различных свойств данных. В трехмерной среде Краус и др. (2020) в ходе пользовательских экспериментов обнаружили, что пользователи могут более эффективно идентифицировать кластеры на трехмерной диаграмме рассеяния в среде виртуальной реальности по сравнению с диаграммой рассеяния на двухмерной плоскости. Альпер и др. (2011) предложили метод визуализации структур данных графа в трехмерной среде. Технология использует стереоскопическую глубину, чтобы выделить области интереса, проецируя их на плоскость, расположенную ближе к линии зрения пользователя. Однако вышеуказанные методы визуализации занимают визуальный канал трехмерного положения и поэтому не могут кодировать положение точки в трехмерной среде. Чтобы решить вышеуказанные проблемы, Крехов и Крюгер (2019) и Крехов и др. (2020) предложили технологию Deadeye для выделения точек посредством разделенного представления. Как показано на рисунке 2, технология разделенного представления отображает точки, которые необходимо выделить в одном глазу, на основе предъявления разных стимулов каждому глазу. Благодаря этой технологии точки, которые необходимо выделить, могут быть немедленно обнаружены системой технического зрения.

▲ Рисунок 2. Технические изображения разделенной презентации.

Визуальные элементы, такие как линии, широко используются при визуализации пространственно-временных данных. Однако традиционная двумерная блок-схема проецирует поток в одной и той же области в разное время в область, в результате чего условия потока в разное время перекрывают друг друга. Куб пространства-времени — это метод интуитивной визуализации пространственно-временных данных в трехмерной среде. Куб пространства-времени использует два измерения в горизонтальном направлении для кодирования информации о положении и использует измерение в вертикальном направлении для кодирования информации о времени.

Ссин и др. (2019) предложили GeoGate — технологию визуализации данных о траекториях на основе куба пространства-времени. GeoGate — система визуализации в среде дополненной реальности. Система расширяет куб пространства-времени и использует кольцевой пользовательский интерфейс для исследования корреляций между физическими объектами в нескольких наборах данных о местоположении. Филхо и др. (2019) предложили систему визуализации пространственно-временных данных в среде виртуальной реальности. В этой работе кубы пространства-времени используются для создания прототипа системы в среде виртуальной реальности, интегрируя куб с виртуальным представлением рабочего стола пользователя. В сценарии отображения данных о географических потоках Ян и др. (2019) разделили потоки на 2D-карте путем увеличения высоты. В ходе экспериментов они обнаружили, что отображение потоков на разной высоте может повысить точность определения пользователями потоков на карте. карта.

Визуализация графиков — важная область визуализации информации. Традиционная компоновка 2D-графиков вызовет серьезные проблемы с окклюзией при увеличении объема данных. Чтобы решить эту проблему, Квон и др. (2016) предложили разработать технологию компоновки, рендеринга и взаимодействия для визуализации графиков в иммерсивной среде, чтобы улучшить ее. улучшает способность людей исследовать и анализировать крупномасштабную графическую визуализацию, как показано на рисунке 3.

▲ Рисунок 3. Иммерсивная визуализация графика.

1.2 Интерактивная помощь для невизуального восприятия

Невизуальное восприятие включает в себя слух.、трогать、Запах и вкус。Эти представления предоставляют людям большой объем информации в повседневной жизни.,Такие как ориентация, звук и температура и т. д.,А вместе со зрением оно помогает людям воспринимать и понимать окружающие их вещи. в последние годы,Мультимодальные аппаратные технологии становятся все более зрелыми,Устройства, используемые для генерации или моделирования невизуального восприятия, постепенно миниатюризируются и коммерциализируются.,Это побудило специалистов по взаимодействию с визуализацией больших данных начать изучение методов невизуального взаимодействия. Такой подход к взаимодействию с данными погружает пользователей в данные.,И обеспечить слуховые, тактильные и другие сенсорные каналы в дополнение к зрительному восприятию.,Улучшите участие и погружение пользователей,Позвольте пользователям воспринимать детали и закономерности, которые трудно обнаружить по одному визуальному каналу.

Среди невизуальных восприятий слух является самым простым каналом восприятия. Благодаря стереозвуку, издаваемому объектом, пользователи могут легко определить его местоположение, расстояние и другую информацию; Речь может эффективно передавать семантическую информацию, описывающую данные. Высота звука, тембр, громкость звука и местоположение слушателя могут использоваться в качестве каналов для сопоставления данных и использоваться для кодирования категорий и непрерывных типов данных. Робертс (2003) Информация о категориях и пропорции на круговой диаграмме преобразуются в различные типы звуков; Си и Келли (2015) предложили инструмент для использования звуков для анализа данных временных рядов;

Тактильное восприятие может предоставить пользователям категориальную или непрерывную информацию, такую ​​как текстура объекта, температура и амплитуда вибрации. Используя величину амплитуды, Прузо и др. (2019) сопоставили плотность облака точек на трехмерной диаграмме рассеяния с различными уровнями амплитуды, улучшив способность пользователя обнаруживать области с высокой или низкой плотностью в центре облака точек. . Кроме того, физикализация данных — это метод преобразования абстрактных данных в осязаемые объекты, который повышает эффективность исследования данных, позволяя пользователям прикасаться к объектам, а не просто смотреть на них, например гистограммы, диаграммы связей узлов и т. д.

Преимущество запаха и вкуса заключается в том, что их легко запомнить и распознать. Использование информации о категориях, предоставляемой различными запахами, а также непрерывной информации, такой как скорость и температура воздушного потока, запах и вкус, также может кодировать дискретные и непрерывные данные. Например, viScent предлагает пространство отображения между различными запахами и типами данных для кодирования данных в разные запахи.

В качестве дополнения к визуальному восприятию невизуальное восприятие может повысить эффективность пользователей при анализе и понимании данных. Например, при анализе большого количества или высокой плотности распределения визуализации данных оно позволяет пользователям воспринимать информацию о данных вне поля. поля зрения или оно закрыто. Кроме того, для некоторых людей, которые не могут получить визуальную информацию при визуализации больших данных, взаимодействие невизуального восприятия может преобразовать информацию в визуализации в невизуальную информацию и передать ее им. Однако использование этих органов чувств часто приводит к дополнительному утомлению, например, утомлению рук, вызванному длительным прикосновением, тем самым сокращая продолжительность анализа. В то же время еще предстоит изучить, как кодировать и проектировать сложные данные, такие как многомерные данные с множеством переменных, для невизуального восприятия.

1.3 Проектирование мультимодального взаимодействия

существовать Взаимодействие с визуализацией больших В области данных, помимо визуального дизайна, существующие исследования направлены на изучение более естественных и интуитивно понятных методов взаимодействия, чтобы улучшить понимание людьми большой визуализации в трехмерном пространстве. Операционная эффективность данных. Мультимодальное взаимодействие сочетает в себе преимущества единой модальности, позволяя в полной мере раскрыть высокую способность людей получать и обрабатывать информацию, передаваемую различными сенсорными каналами, улучшать понимание пользователями интерактивного поведения и улучшать их понимание большой визуализации. Исследование и анализ эффективности данных.

1) Контактное взаимодействие

Мобильные устройства, в основном смартфоны и планшеты, обеспечивают изображения высокой четкости и высокоточное взаимодействие для визуального взаимодействия. Контактное взаимодействие позволяет пользователям напрямую касаться визуальных маркеров руками или ручными датчиками для передачи интерактивных выражений данных. Этот тип естественного взаимодействия имеет более высокую точность работы и может улучшить понимание информации при изучении визуализации больших данных. . Как показано на рисунке 4, Лангнер и др. (2021) точно выбрали визуальные диаграммы с помощью сенсорного экрана планшета для обновления расширенного контента, видимого в HoloLens.

▲ Рис. 4. Взаимодействие посредством сенсорного экрана планшета.

Помимо взаимодействия на основе сенсорного экрана в средах дополненной реальности, контактное взаимодействие также распространено в виртуальной реальности. Например, как показано на рисунке 5, система виртуальной реальности Usher et al (2018) может захватывать нервные пути мозга, очерченные пользователем, отслеживая движения рук пользователя. Тактильная обратная связь, создаваемая после взаимодействия с данными, может повысить интуитивность и погружение взаимодействия с пользователем.

Исследователи изучили методы взаимодействия, которые сочетают виртуальные и реальные объекты, используя реальные объекты в качестве эталонных объектов для виртуальных маркеров в реальном мире, к которым пользователи могут прикасаться, чтобы повысить точность взаимодействия. Например, исследователи рассматривают плоскости двумерной визуализации, такие как карты или проекции точек данных в иммерсивном пространстве, как виртуальный рабочий стол, как показано на рисунке 5, и сопоставляют их с реальным рабочим столом. Пользователи могут напрямую щелкнуть по рабочему столу, чтобы работать с соответствующими данными. . Кроме того, Кордейл и др. (2020) использовали 3 оси ползунка для материализации осей координат данных, и пользователи могут точно выбирать данные в пространстве осей, управляя положением ползунка.

▲ Рисунок 5. Захват намеченного пути с помощью отслеживания рук.

2) Взаимодействие на основе жестов

Развитие технологий распознавания движений и сенсорных технологий постепенно сделало взаимодействие на основе жестов одним из широко используемых методов взаимодействия. Взаимодействие на основе жестов использует устройства слежения или фиксирует движение пальцев пользователя, чтобы фиксировать движения рук, чтобы помочь пользователям завершить манипулирование данными. Распространенным методом взаимодействия с помощью жестов является нацеливание лучей, при котором пользователи могут использовать свет, излучаемый устройством, например контроллером, для выбора ближайшего объекта, пересекающего свет. Чтобы повысить точность этого типа взаимодействия, RayCursor добавляет красный курсор управления вдоль направления проецируемого света, как показано на рисунке 6, чтобы избежать выбора скрытых точек рассеяния. Кроме того, FiberClay позволяет пользователям контролировать лучи, испускаемые ручкой, для завершения проверки траекторий, как показано на рисунке 7.

▲ Рисунок 6. Принципиальная схема виртуального рабочего стола.

▲ Рисунок 7. Дизайн взаимодействия на основе световой проекции.

В дополнение к указывающей метафоре технологии проекции света, также изучались другие метафоры, такие как захват, перетаскивание и т. д. Как показано на рисунке 8 (a), Вагнер и др. (2021) использовали метафору виртуальной руки для разработки таких действий, как захват и растяжение, для выполнения таких операций, как перемещение, масштабирование и выбор визуализации пространственно-временной траектории; al (2021a) Операция масштабирования диаграммы рассеяния реализуется с помощью жестов закрытия и разгибания рук, как показано на рисунке 8 (b); TiltMap реализует различные виды визуализации карты, как показано на рисунке 8 (c) с помощью. изменение угла наклона ручки переключения между. Эти методы взаимодействия помогают пользователям снизить нагрузку на взаимодействие с помощью интуитивных метафор жестов.

▲ Рисунок 8. 3 типа интерактивных проектов, основанных на метафорах жестов.

3) Взаимодействие на основе взгляда

Использование информации о взгляде пользователя для взаимодействия взгляда также является распространенным режимом взаимодействия при изучении визуализации больших данных. Взаимодействие на основе взгляда использует технологию отслеживания глаз для захвата фокуса взгляда пользователя, тем самым понимая информацию, передаваемую во взгляде пользователя, например, контент, на котором в данный момент сосредоточено внимание, или психическое состояние пользователя и т. д.

Кроме того, система может осуществлять взаимодействие на основе этой информации, например выделять контент, который интересует пользователя. Сиденмарк и др. (2020) используют эту технологию, чтобы помочь пользователям выбирать некоторые перекрытые объекты на виртуальной трехмерной сцене, как показано на рисунке 9: Пользователь смотрит на точки на контуре объекта и использует линию взгляда для управления. точки, где объект не перекрыт. Двигайтесь по контурам, чтобы точно выделить частично перекрытые объекты. Альгофаили и др. (2019) использовали модель долговременной кратковременной памяти (LSTM) для обнаружения аномалий в данных о движении глаз пользователя, чтобы определить, адаптируется ли пользователь к текущей виртуальной среде, и обеспечить вспомогательную обратную связь, когда пользователь теряется.

▲ Рисунок 9. Дизайн взаимодействия для выбора цели с помощью технологии отслеживания взгляда.

4) Взаимодействие на основе мобильной навигации

Мобильная навигация также является важным интерактивным режимом при изучении визуализации больших данных, представленных в огромной виртуальной трехмерной сцене. Однако виртуальное пространство может не соответствовать физическому пространству, что влияет на возможность пользователя достичь лучшей точки наблюдения в виртуальном пространстве и снижает возможности исследования. С этой целью интерактивная мобильная навигация может помочь пользователям переместиться к лучшей точке наблюдения, избегая при этом физического дискомфорта, вызванного непоследовательностью пространственного восприятия.

Абтахи и др. (2019a) установили три уровня сопоставления реальной скорости с виртуальной скоростью, чтобы облегчить пользователям перемещение пространства представления визуализации данных в небольшом реальном пространстве. Кроме того, технология виртуального движения еще больше расширяет возможности перемещения по виртуальному пространству. Такие технологии включают прямую телепортацию в определенные места, телепортацию с использованием трехмерных миниатюр и использование контроллеров для управления полетом.

02 Взаимодействие, основанное на восприятии звукового поля

По принципу работы технологию можно разделить на следующие три типа:

1) Измерять и идентифицировать звуковые характеристики конкретных помещений и дорожек или изменения звуковых характеристик, вызванные действиями;

2) использовать акустическую дальность (угол) группы/массива микрофонов для определения позиционирования источника звука и повышения точности и надежности позиционирования за счет передачи звука определенной несущей через звуковой излучатель;

3) Алгоритмы машинного обучения идентифицируют звуки, издаваемые конкретными сценами, средами или человеческими телами.

Технические решения включают единый метод, основанный на восприятии звукового поля и объединении датчиков.

Этот раздел из Распознавания действий на основе восприятия звукового поля、Интерактивная технология, основанная на локализации источника звука、Улучшение голосового взаимодействия на основе параголосовой информацииа также Восприятие и распознавание звука на повсеместных Обзор 4 аспектов устройств Международного Взаимодействия, основанное на восприятии звукового поля Технологии.

2.1 Распознавание действий на основе восприятия звукового поля

Распознавание различных жестов и действий на основе восприятия звукового поля является актуальной темой исследований взаимодействия человека с компьютером. Распознавание жестов или действий осуществляется на основе изменений звукового поля, вызванных жестами или позами.

Например, использование микрофона на гарнитуре для определения надевания и снятия гарнитуры является наиболее интуитивным распознаванием жестов. Röddiger et al (2021) использовали микрофон внутреннего уха для определения сокращения мышцы, напрягающей барабанную перепонку в среднем ухе. для взаимодействия. Для распознавания жестов двумя руками многие исследователи добавляют динамики, чтобы создать звуковое поле вокруг устройства, и идентифицируют соответствующие жесты, анализируя изменения сигнала, получаемого микрофоном. Для стационарных устройств, таких как ноутбуки и экраны, исследователи использовали звуковые поля для распознавания жестов рук, таких как махание руками и пребывание в воздухе. Более широко используются носимые устройства, такие как часы и браслеты. Хан и др. (2017) использовали специально расположенную на часах группу микрофонов для определения таких жестов, как вращение запястья, похлопывание рук и щелканье пальцами в разных положениях. Сигнал на браслете завершает распознавание жестов рук, большого пальца вверх и других жестов.

Кроме того, во многих исследованиях звуковые сигналы сочетаются с сигналами движения гироскопа для достижения более сложного распознавания действий. Вначале Уорд и др. (2005) использовали микрофоны и гироскопы на двух браслетах для изучения простого распознавания жестов. В последние годы точность и качество датчиков постепенно улучшались, а дополнительные исследования повысили точность и точность распознавания жестов. И FingerSound, и FingerPing распознают щелчки и сжимания большого пальца на других пальцах, а FingerPing использует эти преимущества. Информация о резонансе снижает зависимость от гироскопов, а TapSkin распознает более тонкие взаимодействия с жестами, такие как щелчки по коже рядом с часами.

Помимо самих жестов, некоторые исследования изучают поведение и жесты пользователя при взаимодействии с другими объектами. Acustico использует микрофон на браслете рядом с рабочим столом, чтобы определить двухмерное местоположение щелчка пользователя на рабочем столе для интерактивного ввода. Pentelligence и WriteHacker Микрофон на ручке может более точно восстановить почерк пользователя, а Оно и др. (2013) использовали микрофон на игрушке для определения места касания пользователя.

2.2 Технология взаимодействия, основанная на локализации источника звука

Локализация источника звука часто зависит от точных измерений расстояния. С помощью различных методов акустической дальности можно определить расстояние между источником звука и микрофоном, а затем с помощью метода триангуляции можно определить положение источника звука; Обычно используемые методы акустической дальнометрии включают методы дальнометрии на основе эффекта Доплера, корреляции и фазы. Кроме того, в последнее время для акустической дальнометрии также стали использовать частотно-модулированные непрерывные волны (FMCW), которые широко используются в радиолокационных системах. годы. На основе вышеупомянутой технологии акустической дальности могут быть реализованы интерактивные технологии, такие как распознавание жестов и отслеживание устройств.

Основываясь на эффекте Доплера и точном расчете расстояния посредством изменения частоты, AAMouse обеспечивает точное отслеживание со средней ошибкой 1,4 см, реализуя функцию мыши, отслеживая положение мобильного устройства в вашей руке. Основываясь на корреляции для расчета разницы во времени прибытия, BeepBeep использует сигналы чирпа и технологию двустороннего зондирования для измерения расстояния между устройствами на уровне сантиметра. Основываясь на алгоритме, предложенном в BeepBeep, Tracko интегрирует BLE и IMU для достижения трехмерного восприятия пространства между устройствами.

Основываясь на изменении фазы эха, вызванном движениями пальцев и ладоней, LLAP достигает точности двумерного отслеживания 4,6 мм, что позволяет отслеживать жесты без необходимости носить дополнительное оборудование. SoundTrack применяет аналогичную технологию, но расширяет диапазон чувствительности до трехмерного пространства, используя кольцо со встроенными динамиками и умные часы с набором микрофонов для обеспечения непрерывного отслеживания пальцев. Основанная на технологии FMCW, CAT обеспечивает точность отслеживания 8–9 мм за счет сочетания эффекта Доплера и IMU. MilliSonic использует информацию о фазе в FMCW для расчета расстояния и реализует прототип на основе смартфона и матрицы из четырех микрофонов, достигая трехмерной точности 2,6 мм, что еще больше улучшает возможности отслеживания интеллектуальных устройств.

Помимо того, что отслеживаемое устройство активно излучает звук в качестве источника звука, для позиционирования также можно использовать эхо отслеживаемого объекта. FingerIO применяет технологию мультиплексирования с ортогональным частотным разделением (OFDM) для отслеживания эхо-сигналов от пальцев без необходимости носить на пальцах другие датчики, обеспечивая двумерное отслеживание пальцев со средней точностью 8 мм. Мао и др. (2019) использовали сигналы отражения тела и рук для реализации системы отслеживания рук в масштабе комнаты на основе RNN (рекуррентной нейронной сети). Система получает информацию о расстоянии распространения и угле прибытия путем ввода данных на основе метода 2D MUSIC (классификация множественных сигналов) в RNN и достигает точности отслеживания 1,2 ~ 3,7 см в диапазоне 4,5 м.

2.3 Улучшение голосового взаимодействия на основе параголосовой информации

В последние годы многие исследователи изучали использование «невербальной информации в речи» для улучшения речевого взаимодействия. Гото и др. (2002) предложили использовать короткую паузу пользователя на гласной во время речевого процесса для автоматического отображения возможных фраз для улучшения памяти пользователя, а также предложили использовать намеренно контролируемый пользователем сдвиг высоты звука для переключения режима речевого ввода и использовать Паузы и высота тона отличают разговоры между людьми и разговоры между людьми в непрерывных разговорах. Китаема и др. (2003) предложили устойчивое к шуму обнаружение конечных точек и использование речевых явлений и пауз без пробуждения в естественном речевом взаимодействии. Кобаяши и Фуджи (2013) изучали паралингвистические протоколы разговоров человека и робота. Маэкава (2004) и Фуджи и др. (2003) обсудили принципы создания и восприятия параъязыка. Фуджи и др. (2004) изучали использование паралингвистической информации для улучшения диалоговых систем. Харада и др. (2006, 2009) изучали управление курсором с использованием таких атрибутов, как качество гласных, громкость и высота звука. Хаус и др. (2009) продолжили эту идею, управляя трехмерной роботизированной рукой с помощью функций непрерывного звука. Игараши и Хьюз (2001) изучали параметры контроля и скорости непрерывной речи с использованием невербальной информации.

2.4 Восприятие и распознавание звука на вездесущих устройствах

В последние годы повсеместное аудиооборудование продолжает становиться все более популярным, и отрасль продолжает инвестировать в повсеместное аудиооборудование. Многие исследователи стремятся изучать восприятие и распознавание звука на повсеместно распространенном оборудовании. Сбор аудиоданных в реальном времени с помощью широко распространенного аудиооборудования дает ему преимущество в классификации звуковых событий в реальном времени. Например, Росси и др. (2013) предложили систему AmbientSense, которая использует микрофоны смартфонов для распознавания звуков окружающей среды в реальном времени. . Восприятие звука широко распространенными аудиоустройствами также часто используется в области здравоохранения и физиологического восприятия для сбора и вывода физиологической информации пользователя. Например, Томаз и др. (2015) предложили метод использования наручных аудиоустройств для улавливания звуков окружающей среды, их идентификации, а затем определения диетической активности пользователя, чтобы помочь пользователям самостоятельно контролировать свой рацион. Амох и Одаме (2015) предложили технологию, которая использует носимые акустические датчики в сочетании со сверточными нейронными сетями для обнаружения кашля. Подобно обнаружению звуков окружающей среды, для поведения пользователей в более широком смысле Лу и др. (2009) исследовали распознавание текущей деятельности людей (вождение автомобиля, поездка в автобусе и т. д.) с помощью микрофонов мобильных телефонов. Коммерческие продукты или приложения также быстро развиваются и совершенствуются, наиболее показательным из которых является распознавание окружающего звука (кашель, будильник и т. д.) на часах мобильного телефона Apple.

03 Физическое взаимодействие в смешанной реальности

Метод взаимодействия с виртуальными объектами через реальные объекты называется «интерфейс физического взаимодействия». В системе физического взаимодействия пользователи взаимодействуют с виртуальной средой, используя физические объекты, существующие в реальной среде. Поскольку пользователь хорошо знаком с различными характеристиками самих физических объектов (такими как форма, вес), процесс взаимодействия может быть осуществлен. стать более точным и эффективным. В последние годы интеграция технологии физического интерактивного интерфейса в виртуальную реальность и дополненную реальность стала основным направлением в этой области, и постепенно сформировалась концепция «физической смешанной реальности», которая также является концептуальной основой пассивной тактильности. В 2017 году Чжао и др. (2017) разделили тактильное ощущение физического взаимодействия на три способа:

1) Статическое пассивное касание; 2) Пассивное прикосновение с обратной связью (т.е. контактное прикосновение); 3) Активное силовое прикосновение.

Поскольку активные тактильные устройства относительно дороги, в настоящее время исследований очень мало, и основными направлениями исследований по-прежнему являются статические пассивные тактильные ощущения и тактильные ощущения контактного типа. Что касается метода пассивного прикосновения взаимодействия смешанной реальности, текущий уровень исследований в различных странах и учреждениях мира не сильно отличается, но есть небольшая направленность.

1.3.1 Статическое пассивное тактильное ощущение

Что касается статического пассивного прикосновения, такие команды, как Университет Торонто в Канаде и Чикагский университет в США, предложили два репрезентативных исследования: Thors Hammer и PHANTOM. Как показано на рисунке 10, физические реквизиты, изготовленные в соотношении 1:1, обеспечивают реалистичную кинестетику и тактильную обратную связь, улучшают ощущение прикосновения и работоспособность пользователя, а виртуальными объектами можно управлять, прикасаясь к реальному объекту. Статическая пассивная тактильность — это раннее исследование достижения тактильного взаимодействия в средах смешанной реальности, но эти жесткие реквизиты часто не соответствуют форме виртуальных реквизитов, или количество реквизитов ограничено и не может удовлетворить потребности взаимодействия. Таким образом, возникло трансформируемое пассивное тактильное ощущение. Араухо и др. (2016) из Университета Торонто в Канаде предложили Snake Charmer, который может динамически изменять характеристики текстуры и информацию о материалах интерактивных объектов, сохраняя при этом тактильную и визуальную согласованность при рендеринге различных объектов в виртуальной среде.

▲ Рисунок 10. Тактильная обратная связь в виртуальной реальности.

1.3.2 Пассивная гаптика контактного типа и три типа тактильных устройств

Еще в 1993 году Макнили (1993) предложил концепцию роботизированной графики. Он считал, что тактильная продукция имеет большое значение, и предложил использовать механические руки или роботов в качестве носителей формы для динамического обеспечения физической обратной связи. Сегодня этот подход используется в средах смешанной реальности и добился значительных успехов. Что касается пассивных тактильных систем с обратной связью, с точки зрения интерактивного реквизита, интерактивные носители пассивных тактильных систем с обратной связью в основном делятся на три категории: носимые, портативные и роботизированные. По сравнению с основными методами взаимодействия, представленными в настоящее время на рынке, такими как интерактивные ручки HTC Vive и Oculus Quest, метод взаимодействия смешанной реальности, основанный на пассивной силовой тактильности, позволяет пользователям более реалистично управлять объектами в сценах смешанной реальности и обеспечивает силовую обратную связь.

1) Носимое устройство тактильной обратной связи

Носимые устройства тактильной обратной связи непосредственно передают силовую обратную связь или электрическую обратную связь, генерируемую механической системой, к рукам или телу пользователя через тактильные перчатки, тактильную одежду и т. д., чтобы интуитивно обеспечить тактильное ощущение пассивной силовой обратной связи. Типичным примером является росомаха, предложенная Чой и др. (2016) из Стэнфордского университета в США. Wolverine — это недорогое и легкое устройство, которое генерирует силу непосредственно между большим и тремя пальцами, имитируя подушечки объектов, таких как чайные чашки и мячи. Он может обеспечивать обратную связь с силой обратной связи более 100 Н при низком энергопотреблении. Однако недостатком этих носимых устройств является то, что пользователи должны постоянно носить устройства обратной связи в среде смешанной реальности, что вызывает определенную степень дискомфорта, и трудно добиться взаимодействия голыми руками.

2) Портативные тактильные устройства

Портативные тактильные устройства позволяют пользователям захватывать определенные объекты одной или обеими руками, обеспечивая обратную связь с пользователем. Типичные исследования включают Transcalibur и JetController Токийского университета, Япония. Transcalibur — это портативный 2D-мобильный VR-контроллер, прототип аппаратного обеспечения, который может изменять свои массовые характеристики в плоском 2D-пространстве и применяет метод, основанный на данных, для получения взаимосвязи между массовыми характеристиками и воспринимаемой формой. Портативный контроллер может эффективно позволить пользователям захватывать объекты и управлять ими, а также может в определенной степени уменьшить головокружение пользователя. Однако портативные тактильные устройства часто требуют дополнительных устройств позиционирования, иначе, как только пользователь положит портативное устройство в виртуальную среду, ему будет сложно снова его поднять.

3) Роботизированное устройство тактильной обратной связи.

Роботизированное оборудование с тактильной обратной связью использует подвижного или деформируемого робота в качестве тактильного агента для достижения подвижных и трансформируемых тактильных режимов. Это можно проследить до 2015 года, когда метод TurkDeck использовал персонал для транспортировки и сборки ряда общих модулей в пассивные объекты, к которым пользователи будут прикасаться, позволяя пользователям не только видеть и слышать, но и прикасаться ко всей виртуальной среде. На этом основании Сузуки и др. (2020) предложили метод Roomshift, который использует управление автомобилем в реальном времени в пространстве взаимодействия смешанной реальности для перемещения физических объектов в окружающей среде и предоставляет несколько методов взаимодействия. Абтахи и др. (2019b) предложили Beyond the Force (P. Abtahi), которая использует летающие дроны в качестве тактильных агентов для обеспечения динамических пассивных тактильных ощущений. 4-осевой летательный аппарат, показанный на рисунке 11, в настоящее время может поддерживать три функции: динамическое позиционирование пассивных тактильных ощущений, наложение текстур и работу в качестве интерактивной пассивной опоры. Более того, дроны могут произвольно перемещаться в интерактивной среде, существенно расширяя пространственную сферу взаимодействия.

▲ Рисунок 11. Пассивное тактильное устройство типа Encounter.

1.3.3 Прогресс в отрасли

В отрасли Facebook и Microsoft являются основой исследований пассивного тактильного взаимодействия в смешанной реальности. В 2019 году Facebook обновил интерактивное устройство Tasbi — браслет с тактильной обратной связью с двумя способами обратной связи: вибрацией и сжатием. В 2020 году Microsoft предложила PIVOT для достижения динамической тактильной обратной связи типа взаимодействия с помощью деформируемых интерактивных устройств. PIVOT — это тактильное устройство, носимое на запястье, которое может по требованию отображать виртуальные объекты в руках пользователя. В 2020 году компания Dexmo выпустила новые тактильные перчатки. Экзоскелетные перчатки Dexmo хорошо сделаны и этот продукт предназначен для корпоративного рынка. Тактильные перчатки Dexmo поддерживают отслеживание жестов с 11 степенями свободы и могут ловко фиксировать все движения рук пользователя, позволяя пользователям реалистично чувствовать пальцы в виртуальной среде. Британская компания TeslaSui производит не только обратную связь по силе рук, но и устройства, обеспечивающие тактильные ощущения пассивной силы по всему телу. Ее продукты могут передавать тактильную обратную связь на любую область тела, от нежного прикосновения до физического напряжения и изменения температуры, а также могут выводить движение. сбор и биометрической информации. Использование TeslaSuit с мониторингом производительности и сенсорной стимуляцией может применяться в таких областях, как общественная безопасность, корпоративное обучение, спорт и медицинская реабилитация.

04 носимое взаимодействие

На международном уровне переносимое взаимодействие в основном делится на исследования взаимодействия жестов и сенсорного взаимодействия, главным образом в форме часов и браслетов, технологий кожной электроники и дизайна взаимодействия.

4.1 Взаимодействие с помощью жестов и сенсорное взаимодействие

Ввод с помощью жестов считается одним из основных компонентов «естественного интерфейса человека и компьютера», а также подходит для изучения методов ввода для носимых устройств. Ключ к реализации ввода жестов лежит в сенсорных технологиях. В настоящее время в области взаимодействия человека и компьютера проводятся углубленные исследования сенсорных технологий распознавания жестов на основе инфракрасного света, датчиков движения, электромагнетизма, емкости, ультразвуковых волн, камер и биосигналов. .

Совместный проект Вашингтонского университета и Microsoft Research продвигает применение электрических мышечных сигналов (ЭМГ) в интерфейсах жестов. ЭМГ определяет мышечную активность путем измерения электрического потенциала между парами электродов, что можно сделать инвазивно (с использованием иглы в мышце) или с поверхности кожи. Команда Криса Харрисона из Университета Карнеги-Меллон в США в последние годы исследовала распознавание непрерывных жестов посредством формирования электромагнитных полей на поверхности кожи. Незаметный и безвредный сигнал переменного тока частотой 80 МГц и напряжением 1,2 В передаётся через кольцо на носящий палец. Когда палец пользователя касается кожи, электрический сигнал распространяется на ткани руки и излучается наружу. Для распространения сигнала требуется время, и, измеряя разность фаз между несколькими парами электродов на руке, можно рассчитать местоположение источника сигнала.

В 2015 году Google выпустила интеллектуальный чип Soli, который использует микрорадар для отслеживания жестов в воздухе и может отслеживать высокоскоростные движения пальцев с точностью до миллиметра. Система использует высокочастотные (1~10 к Гц) радиолокационные импульсы шириной 150°. Система получает суперпозицию отражений нескольких динамических центров рассеяния, может извлекать различные мгновенные и динамические характеристики движущейся руки и использует технологию машинного обучения для получения данных. захваченные наборы обучающих данных сравниваются с распознаванием жестов. Этот специально разработанный радарный датчик одобрен для использования в управлении носимыми и микроустройствами.

Использование растягивающихся и прикрепляющихся к коже электронных устройств открывает новые идеи для реализации кожных интерфейсов, которые можно использовать для создания тонких и легких электронных оболочек, позволяющих пользователям достигать сенсорного управления и обладающих функциями мониторинга физиологических сигналов, визуального отображения и тактильных ощущений. отображать. Реализация тактильной обратной связи станет особенно важной при взаимодействии интерфейса кожи, которое зависит от собственных возможностей тактильного восприятия кожи.

Немецкая команда Патрика Баудиша попыталась реализовать ощущение прикосновения к коже с помощью наручных часов и смогла создать символы и значки, которые будут простыми и легкими для восприятия и запоминания пользователями. Группа по взаимодействию человека и компьютера Корейского передового института науки и технологий исследовала использование тактильных методов с использованием наборов игл для предоставления обобщенной информации на пальцах, а также бесконтактного давления на эпидермис кожи посредством потока воздуха. Университет Торонто в Канаде использует металл с эффектом памяти для достижения тактильной обратной связи при сжатии запястья и создает обратную связь с различными ощущениями, контролируя ширину линии, силу и скорость движения. Команда Шона Фоллмера из Стэнфордского университета в США разработала портативное тактильное устройство для имитации гравитационной обратной связи виртуальных объектов манипуляции. Два привода звуковой катушки в системе генерируют виртуальные силы, касательные к каждой подушечке пальца, за счет асимметричной деформации кожи. Эти силы можно рассматривать как силы гравитации и инерции виртуального объекта.

4.2 Электронное взаимодействие с кожей

Кожа как естественный интерфейс между людьми и внешним миром изначально использовалась для изучения ее роли в информационном взаимодействии и продемонстрировала свои преимущества в нескольких приложениях. В последние годы команда Юргена Штаймле из Саарского университета в Германии использовала проводящие чернила и электроды для изготовления бумаги для татуировок, которую можно использовать в качестве электронной кожи для реализации отображения, распознавания прикосновений и жестов на коже.

По сравнению с сенсорными экранами люди более гибко перемещают пальцы по коже, а метод тату-бумаги делает устройство, прикрепленное к поверхности кожи, легким и тонким, что облегчает пользователям его принятие. Исследование пользователей, проведенное командой, доказало, что сенсорные жесты, выполняемые пользователями на коже, более соответствуют традиционным жестам сенсорного экрана, но в то же время из-за уникальных характеристик кожи пользователи разработали более насыщенные сенсорные жесты, доказывая, что Целесообразность и преимущества скинов в качестве сенсорных интерфейсов. Также исследуя интерфейс кожи, команда Криса Харрисона из Университета Карнеги-Меллона в США применила метод проецирования на кожу посредством проекции на плече или микропроекции на часах, превращая руку и тыльную сторону кисти в экран дисплея. и использование камеры глубины для или инфракрасного и других методов, поддерживающих прикосновение пальцев к поверхности кожи. Этот метод может лучше помочь в изучении опыта использования людьми скин-интерфейсов, но его недостаток также очевиден: он требует более сложной проекции и другого вспомогательного оборудования. В то же время команда систематически изучала возможность и предпочтения пользователей использовать различные части тела в качестве сенсорного интерфейса, что имеет справочную ценность для последующих исследований. Общим для этих проектов является развитие и расширение моделей сенсорного взаимодействия с кожей.

С другой стороны, исследователи также изучают уникальные возможности использования интерфейсов скинов, например, пытаются использовать скины в качестве интерактивной платформы для проектирования и творчества. Канадский исследовательский институт Autodesk исследовал, как использовать кожу человеческой руки для создания платформы для 3D-моделирования и производства, а также продемонстрировал технологию кожно-ориентированного моделирования. Исследователи из Корейского института передовых наук и технологий пытаются позволить пользователям использовать себя при разработке одежды. Команда Чарли С. Л. Ванга из Делфтского технологического университета в Норвегии позволяет пользователям создавать одежду на основе собственной кожи и рук, анализируя комфорт с помощью термодатчиков. Медиа-лаборатория Массачусетского технологического института (MIT) реализовала ряд концептуальных исследовательских проектов, основанных на человеческом теле и коже, демонстрируя людям дизайн, производство и искусство, создаваемое сочетанием биоматериалов, биоактивных материалов и ценности человеческой кожи. .

05 Диалоговое взаимодействие человека и компьютера

Диалоговое взаимодействие человека и компьютерапроцесс включает в себяраспознавание речь, распознавание эмоций, диалоговая системаисинтез речь и другие модули, основной основой которых является картина. показано 12. Сначала голосовой ввод пользователя проходит через распознавание. Модули распознавания речи и эмоций в соответствующие метки текста и эмоций. Тогда диалоговая система использует его, чтобы понять, что говорит пользователь, и генерировать диалоговые ответы. Наконец, синтез Модуль речи преобразует ответы разговора в речь для взаимодействия с пользователями. Диалоговое взаимодействие человека и Производительность компьютера зависит не только от диалоговой качество системы, эффективное и надежное распознавание речи (эмоций) с синтезом Речевые технологии играют жизненно важную роль в повышении лояльности пользователей.

▲ картина 12 Диалоговое взаимодействие человека и компьютерарамкакартина

5.1 Распознавание речи

В настоящее время международные и отечественные исследования систем распознавания речи уже не ограничиваются повышением точности распознавания, но и изучают производительность моделей распознавания речи в более сложных сценариях. В целом, распознавание речи с малой задержкой и распознавание речи с низкими ресурсами стали горячими точками исследований.

В настоящее время международные исследования по распознаванию речи с низкой задержкой в ​​основном проводятся по двум аспектам: с одной стороны, они изучают потоковое распознавание речи для реализации распознавания во время прослушивания, с другой стороны, чтобы уменьшить задержку в идентификации каждой отметки; , он изучает неавторегрессионное распознавание речи. Распознавание языка ускоряет скорость распознавания всей системы за счет избавления от временной зависимости при декодировании.

Существует две основные идеи исследования потокового распознавания речи. Одна из них — улучшить модель RNN-преобразователя и предложить преобразователи-преобразователи и конформеры-преобразователи с более высокой производительностью. Предложение метода двухпроходного декодирования еще больше повышает точность модели распознавания потоковой передачи на основе преобразователя. Другой — это улучшение модели кодирования и декодирования (AED), основанное на механизме внимания. Идея его реализации заключается в основном в улучшении монотонного поблочного внимания (MoChA). Основная проблема, которую оно решает, заключается в адаптации модели MoChA. Трансформатор и ограничения на положение и количество состояний кодирования сегментации модели с помощью вспомогательных средств.

Исследования по неавторегрессивному распознаванию речи также становятся все более популярными в международных исследованиях. Неавторегрессионное распознавание речи позволило значительно повысить скорость, поскольку оно избавило от временной зависимости этапа декодирования модели последовательности, и ему уделялось много внимания как в области обработки естественного языка (NLP), так и в области речи. Улучшение моделей распознавания речи без авторегрессии обычно изучается с двух точек зрения: с одной стороны, кодер сначала прогнозирует исходную метку, а декодер выполняет исправление ошибок или завершение, с другой стороны, декодер извлекает из нее исходную метку; пустая последовательность, начиная с кодера, полная выходная последовательность прогнозируется на основе акустического состояния кодера.

В последние годы во всем мире наблюдается всплеск исследований задач распознавания речи с низким уровнем ресурсов, и широко используются технологии самоконтроля или технологии предварительного обучения. Наиболее репрезентативной из них является серия работ wav2vec, предложенная Facebook (переименованная в Meta), которая напрямую кодирует входной звуковой сигнал в акустическое векторное представление и кластеризует акустическое векторное представление с помощью технологии векторного квантования, которая используется на протяжении всего предварительного обучения. Алгоритмы сравнения выполняют самостоятельное обучение, а затем настраивают небольшой объем помеченных данных.

5.2 Распознавание речевых эмоций

Ранние этапы исследования распознавания речевых эмоций следуют традиционному процессу распознавания образов, то есть сначала извлечение признаков, а затем разработка классификатора. Этап извлечения признаков в основном опирается на созданные вручную акустические характеристики, связанные с эмоциями. Вообще говоря, эти акустические особенности можно разделить на три категории: особенности просодии, особенности, связанные со спектром, и особенности тембра.

Инструмент с открытым исходным кодом openSMILE часто используется для извлечения некоторых классических наборов эмоциональных акустических функций. Воспользуйтесь преимуществами революции глубокого обучения,Парадигма сквозного обучения, которая использует глубокие нейронные сети для непосредственного извлечения признаков из необработанных данных и их классификации, постепенно стала доминирующей. Некоторые из этих исследований начинаются с исходного речевого сигнала во временной области.,Некоторые начинают со спектра частотной области.,Кроме того, есть также некоторые исследования, которые объединяют эти два метода для сквозного Распознавания речевых эмоций. Поскольку база данных Распознавания речевых эмоций обычно меньше,Созданные вручную глубокие нейронные сети часто склонны к переобучению.,Таким образом, выученное представление акустических эмоций может столкнуться с проблемой недостаточной способности к обобщению.

С этой целью в некоторых исследованиях используются глубокие нейронные сети, предварительно обученные на крупномасштабных аудиобазах данных (таких как VGGish, Wavegram-Logmel-CNN и PLSA на основе сверточных нейронных сетей, а также AST на основе Transformer (Трансформатор аудиоспектрограмм) и т. д. ) для анализа функций. Разумеется, вы также можете продолжить тонкую настройку базы данных распознавания речевых эмоций. Благодаря недавнему росту крупномасштабного предварительного обучения без присмотра, многие исследования использовали обучение с самоконтролем для извлечения полезных аудиопредставлений из большого количества неразмеченных речевых данных и использовали их для последующих задач по распознаванию эмоций, таких как MockingJay, Tera, wav2vec 2.0 и т. д. Кроме того, для анализа семантической информации в речевых сигналах проводятся исследования по мультимодальному распознаванию речевых эмоций, которые одновременно сочетают акустическую информацию и текстовую информацию.

5.3 Синтез речи

Текущие исследования синтеза речи в основном сосредоточены на моделировании просодии, акустических моделях и моделях вокодера для улучшения качества звука и стабильности синтезированной речи, а также улучшения обобщения на небольших выборочных наборах данных.

В частности, исследовательская группа Google Deepmind предложила модель генерации речи WavetNet, основанную на глубоком обучении. Эта модель может напрямую моделировать исходные речевые данные, избегая потери качества звука, вызванной параметризацией речи вокодером, и очень эффективна в задачах синтеза и генерации речи. В январе 2017 года Сотело и др. (2017) предложили Char2 Wav — сквозную модель синтеза речи, состоящую из двух компонентов: считывателя и нейронного вокодера. Считыватель используется для построения сопоставления между текстом (фонемами) и акустическими характеристиками вокодера; нейронный вокодер генерирует исходные образцы звуковых волн на основе акустических характеристик вокодера;

По сути, Char2 Wav действительно сквозной речевая система. Ученые Google предлагают новый сквозной синтез Речь СистемаTacotron,Модель принимает ввод символов,Выведите соответствующий исходный спектр изображения.,Затем это передается в алгоритм реконструкции Гриффина-Лима для непосредственной генерации речи. также,Поскольку Tacotron генерирует речь на уровне кадров,Таким образом, это намного быстрее, чем авторегрессионный подход на уровне выборки. Исследователи далее объединяют Tacotron и WaveNet,В некоторых наборах данных он может достигать уровня, сравнимого с человеческой речью. Для повышения эффективности синтеза,Также был достигнут значительный прогресс в некоторых работах по ускорению вокодера.

5.4 Диалоговая система

С точки зрения применения диалоговые системы можно разделить на диалоговые системы, основанные на задачах, и диалоговые системы, основанные на чате. С точки зрения методов их можно разделить на методы, основанные на конвейере, и сквозные методы. Метод, основанный на конвейере, требует реализации трех модулей: понимания естественного языка, управления диалогом и генерации естественного языка соответственно и в конечном итоге образует полную систему. Этот метод каскадирования модулей приведет к проблемам распространения ошибок, поэтому сквозной метод стал основным решением диалоговой системы.

Чтобы преодолеть проблему сложности интеграции знаний в структуру обучения в системе сквозного диалога, Эрик и др. (2017) представили сеть поиска «ключ-значение» для интеграции информации базы знаний. Мадто и др. (2018) предложили модель Mem2Seq, которая использует сети указателей для внедрения базы знаний в диалоговую систему. Ву и др. (2019) улучшили модель Mem2Seq и предложили модель GLMP для фильтрации внешних знаний перед их интеграцией в диалоговую систему, а также добавили скелетный механизм рекуррентной нейронной сети для генерации шаблонов диалогов.

Помимо текстовых диалоговых систем, ученые проделали большую работу над мультимодальными диалоговыми системами. Барбьери и др. (2018) прогнозируют выражения смайликов на основе контекста разговора. Хабер и др. (2019) разработали диалоговую систему, которая позволяет пользователям говорить с машиной о заданном визуальном контенте, используя естественный язык.

06 Мультимодальный синтез

Как эффективно интегрировать различные виды информации в системах взаимодействия человека и компьютера.,Улучшите качество взаимодействия человека и компьютера.,Тоже того стоитсосредоточиться на。Методы мультимодального синтеза можно разделить на три типа: метод объединения слоев признаков, метод объединения слоев решений и метод гибридного объединения.3Метод слияния, такой каккартина Показано в 13.

Метод объединения слоев объектов отображает признаки, извлеченные из нескольких модальностей, в вектор признаков путем некоторого преобразования, а затем отправляет его в модель классификации для получения окончательного решения. Метод объединения слоев принятия решений объединяет решения, полученные на основе различной модальной информации; получить окончательное решение. Метод гибридного объединения использует как метод объединения слоев признаков, так и метод объединения слоев принятия решений. Например, принятие решения, полученное путем объединения слоев признаков двух модальных признаков, и решение, полученное с помощью третьего. модальная функция может быть объединена на уровне принятия решений для получения окончательного решения.

▲ картина 13 3немного другой Мультимодальный синтезметод

boy illustration
Учебное пособие по Jetpack Compose для начинающих, базовые элементы управления и макет
boy illustration
Код js веб-страницы, фон частицы, код спецэффектов
boy illustration
【новый! Суперподробное】Полное руководство по свойствам компонентов Figma.
boy illustration
🎉Обязательно к прочтению новичкам: полное руководство по написанию мини-программ WeChat с использованием программного обеспечения Cursor.
boy illustration
[Забавный проект Docker] VoceChat — еще одно приложение для мгновенного чата (IM)! Может быть встроен в любую веб-страницу!
boy illustration
Как реализовать переход по странице в HTML (html переходит на указанную страницу)
boy illustration
Как решить проблему зависания и низкой скорости при установке зависимостей с помощью npm. Существуют ли доступные источники npm, которые могут решить эту проблему?
boy illustration
Серия From Zero to Fun: Uni-App WeChat Payment Practice WeChat авторизует вход в систему и украшает страницу заказа, создает интерфейс заказа и инициирует запрос заказа
boy illustration
Серия uni-app: uni.navigateЧтобы передать скачок значения
boy illustration
Апплет WeChat настраивает верхнюю панель навигации и адаптируется к различным моделям.
boy illustration
JS-время конвертации
boy illustration
Обеспечьте бесперебойную работу ChromeDriver 125: советы по решению проблемы chromedriver.exe не найдены
boy illustration
Поле комментария, щелчок мышью, специальные эффекты, js-код
boy illustration
Объект массива перемещения объекта JS
boy illustration
Как открыть разрешение на позиционирование апплета WeChat_Как использовать WeChat для определения местонахождения друзей
boy illustration
Я даю вам два набора из 18 простых в использовании фонов холста Power BI, так что вам больше не придется возиться с цветами!
boy illustration
Получить текущее время в js_Как динамически отображать дату и время в js
boy illustration
Вам необходимо изучить сочетания клавиш vsCode для форматирования и организации кода, чтобы вам больше не приходилось настраивать формат вручную.
boy illustration
У ChatGPT большое обновление. Всего за 45 минут пресс-конференция показывает, что OpenAI сделал еще один шаг вперед.
boy illustration
Copilot облачной разработки — упрощение разработки
boy illustration
Микросборка xChatGPT с низким кодом, создание апплета чат-бота с искусственным интеллектом за пять шагов
boy illustration
CUDA Out of Memory: идеальное решение проблемы нехватки памяти CUDA
boy illustration
Анализ кластеризации отдельных ячеек, который должен освоить каждый&MarkerгенетическийВизуализация
boy illustration
vLLM: мощный инструмент для ускорения вывода ИИ
boy illustration
CodeGeeX: мощный инструмент генерации кода искусственного интеллекта, который можно использовать бесплатно в дополнение к второму пилоту.
boy illustration
Машинное обучение Реальный бой LightGBM + настройка параметров случайного поиска: точность 96,67%
boy illustration
Бесшовная интеграция, мгновенный интеллект [1]: платформа больших моделей Dify-LLM, интеграция без кодирования и встраивание в сторонние системы, более 42 тысяч звезд, чтобы стать свидетелями эксклюзивных интеллектуальных решений.
boy illustration
LM Studio для создания локальных больших моделей
boy illustration
Как определить количество слоев и нейронов скрытых слоев нейронной сети?
boy illustration
[Отслеживание целей] Подробное объяснение ByteTrack и детали кода