Мультимодальное слияние — одна из основных задач мультимодального интеллекта. Мотивацией мультимодального слияния является совместное использование эффективной информации из разных модальностей для повышения точности и стабильности последующих задач. Традиционные методы мультимодального слияния часто полагаются на высококачественные данные, и их трудно адаптировать к сложным и низкокачественным мультимодальным данным в реальных приложениях.
Обзор объединения мультимодальных данных низкого качества «Мультимодальное объединение данных низкого качества: комплексное исследование», совместно опубликованный Тяньцзиньским университетом, Китайским университетом Жэньминь, Сингапурским агентством по науке, технологиям и исследованиям, Сычуаньским университетом, Сианьским университетом Электронная наука и технология и Харбинский технологический институт (Шэньчжэнь) 》Представляет проблемы объединения мультимодальных данных с единой точки зрения, а также анализирует существующие методы объединения некачественных мультимодальных данных и потенциальные направления развития в этой области.
Ссылка на arXiv: http://arxiv.org/abs/2404.18947
ссылка на потрясающий список: https://github.com/QingyangZhang/awesome-low-quality-multimodal-learning
1
введение
Люди воспринимают мир, объединяя информацию из разных модальностей. Даже когда сигналы некоторых модальностей ненадежны, люди имеют возможность обрабатывать эти низкокачественные мультимодальные сигналы данных и воспринимать окружающую среду. Хотя мультимодальное обучение добилось большого прогресса, модели мультимодального машинного обучения по-прежнему не способны эффективно объединять мультимодальные данные низкого качества в реальном мире. Практический опыт показывает, что производительность традиционных моделей мультимодального синтеза значительно снизится в следующих сценариях:
1) Зашумленные мультимодальные данные: некоторые особенности некоторых модальностей нарушаются шумом и теряют свою исходную информацию. В реальном мире неизвестные факторы окружающей среды, сбои датчиков и потеря сигнала во время передачи могут создавать шумовые помехи, тем самым нанося ущерб надежности модели мультимодального синтеза.
2) Отсутствуют мультимодальные данные: из-за различных практических факторов некоторые модальности фактически собранных выборок мультимодальных данных могут отсутствовать. Например, в области медицины мультимодальные данные, состоящие из результатов различных физиологических обследований пациентов, могут серьезно отсутствовать, а некоторые пациенты, возможно, никогда не проходили определенное обследование.
3) Несбалансированные мультимодальные данные. Из-за несогласованности гетерогенных атрибутов кодирования и различий в качестве информации между модальностями возникает проблема несбалансированного обучения между модальностями. В процессе мультимодального слияния модель может слишком сильно полагаться на определенные модальности и игнорировать потенциально эффективную информацию, содержащуюся в других модальностях.
4) Динамические мультимодальные данные низкого качества: из-за сложности и изменения среды приложения, разных образцов, разного времени и пространства модальное качество имеет динамически изменяющиеся характеристики. Появление модальных данных низкого качества часто трудно предсказать заранее, что создает проблемы для мультимодального слияния.
Чтобы полностью охарактеризовать природу и методы обработки мультимодальных данных низкого качества, в этой статье обобщены современные методы машинного обучения в области мультимодального слияния низкого качества, систематически рассмотрен процесс развития этой области и далее. ожидает необходимости дальнейших исследований.
Рисунок 1. Схематическая диаграмма классификации мультимодальных данных низкого качества. Желтый и синий представляют два режима. Чем темнее цвет, тем выше качество.
2
Методы шумоподавления в мультимодальном синтезе
Определение проблемы: Шум является одной из наиболее распространенных причин ухудшения качества мультимодальных данных. В этой статье основное внимание уделяется двум типам шума:
1) Мультимодальный шум, связанный с модой. Этот тип шума может быть вызван такими факторами, как ошибки датчиков (например, ошибки приборов при медицинской диагностике), факторы окружающей среды (например, дождь и туман при автономном вождении), а шум ограничен определенными уровнями функций в определенном режиме.
2) Кроссмодальный шум на семантическом уровне. Этот тип шума вызван несовпадением высокоуровневой семантики между модальностями, и его сложнее обрабатывать, чем мультимодальный шум на уровне объектов. К счастью, из-за взаимодополняемости мультимодальных режимов данных и избыточности информации объединение информации из нескольких модальностей для шумоподавления оказалось эффективной стратегией в процессе мультимодального объединения.
Классификация методов: методы мультимодального шумоподавления на уровне функций сильно зависят от конкретных модальностей, задействованных в реальной задаче. В этой статье в качестве примера для иллюстрации в основном используется задача мультимодального слияния изображений. При мультимодальном слиянии изображений основные методы шумоподавления включают взвешенное слияние и совместное изменение. Метод взвешенного слияния учитывает, что шум признаков является случайным, а реальные данные подчиняются определенному распределению, а затем устраняет влияние шума посредством взвешенного суммирования;
Совместный вариационный метод является расширением традиционного вариационного шумоподавления одномодального изображения. Он может преобразовать процесс шумоподавления в процесс решения задач оптимизации и использовать дополнительную информацию из нескольких модальностей для улучшения эффекта шумоподавления. Кроссмодальный шум на семантическом уровне возникает в результате слабо выровненных или смещенных пар мультимодальных выборок.
Например, в мультимодальной задаче обнаружения цели, которая объединяет RGB и тепловые изображения, из-за различий в датчиках, хотя одна и та же цель появляется в обеих модальностях, ее точное положение и положение в разных модальностях могут немного отличаться (слабо совмещены). ), что создает проблемы для точной оценки информации о местоположении.
В задаче понимания контента социальных сетей семантическая информация, содержащаяся в модальностях изображения и текста образца (например, Weibo), может быть очень разной или даже нерелевантной (полностью несогласованной), что дополнительно создает основу для мультимодального слияния. . принести более серьезные проблемы. Способы борьбы с кросс-модальным семантическим шумом включают фильтрацию правил, фильтрацию моделей, устойчивую к шуму регуляризацию модели и другие методы.
Перспективы на будущее: Хотя обработка шума данных уже давно широко изучается в классических задачах машинного обучения, в мультимодальных сценариях, как совместно использовать взаимодополняемость и согласованность между модальностями для ослабления воздействия шума, все еще остается проблемой. вопрос необходимо решить. Кроме того, в отличие от традиционного шумоподавления на уровне функций, решение проблемы шума семантического уровня во время процесса предварительного обучения и вывода мультимодальных больших моделей является интересной и чрезвычайно сложной проблемой.
Таблица 1. Классификация методов мультимодального синтеза по шуму
3
Отсутствует метод мультимодального объединения данных
Определение проблемы: Мультимодальные данные, собранные в реальных сценариях, часто являются неполными из-за различных факторов, таких как повреждение устройств хранения и ненадежные процессы передачи данных, мультимодальные данные часто неизбежно теряют часть модальной информации.
Например, в системе рекомендаций история просмотров и кредитный рейтинг пользователя представляют собой мультимодальные данные. Однако из-за проблем с разрешениями и конфиденциальностью часто невозможно полностью собрать всю модальную информацию пользователя для создания мультимодальной системы обучения. . В медицинской диагностике из-за ограниченности оборудования в некоторых больницах и высокой стоимости конкретных исследований мультимодальные диагностические данные для разных пациентов часто бывают крайне неполными.
Классификация методов: По классификационному принципу «необходимо ли явно дополнять недостающие мультимодальные данные», существующий метод мультимодального объединения данных можно разделить на
1) Метод мультимодального синтеза, основанный на завершении
2) Метод мультимодального синтеза без доработки.
Среди них к методам мультимодального слияния, основанным на дополнении, относятся модельно-независимые методы завершения: например, методы завершения, которые непосредственно заполняют недостающие моды значениями 0 или средним значением остаточных мод;
Методы завершения на основе графика или ядра. Этот тип метода не изучает непосредственно, как заполнить исходные мультимодальные данные, а строит график или ядро для каждой модальности, а затем изучает информацию о сходстве или корреляции между парами выборок. Затем завершается. недостающие данные;
Завершение непосредственно на исходном уровне функций. В некоторых методах используются генеративные модели, такие как генеративно-состязательные сети (GAN) и их варианты, для непосредственного завершения недостающих функций. В отличие от методов, основанных на завершении, методы без завершения фокусируются на том, как использовать полезную информацию, содержащуюся в неотсутствующих модальностях, для объединения наилучшего возможного представления. Такие методы часто добавляют ограничения к единому представлению, которое, как ожидается, будет изучено, так что это представление способно воплощать полную информацию наблюдаемых модальных данных, чтобы обойти процесс завершения мультимодального слияния.
Рисунок 2. На основе завершения метод мультимодального объединения данных Классификация
Перспективы на будущее: Хотя в стране и за рубежом было предложено множество методов для решения проблемы неполного мультимодального объединения данных в классических задачах машинного обучения, таких как кластеризация и классификация, все еще существуют более глубокие проблемы. Например, оценка качества данных о завершении в схемах завершения отсутствующих модальностей часто упускается из виду. Кроме того, стратегия использования априори недостающей информации о местоположении данных для маскировки самой недостающей модальности трудно компенсировать информационный пробел и информационный дисбаланс, вызванный недостающей модальностью.
Таблица 2. Классификация методов объединения для отсутствующих мультимодальных данных
4
Сбалансированный мультимодальный подход к слиянию
Постановка проблемы: при мультимодальном обучении совместное обучение обычно используется для интеграции данных из разных модальностей с целью повышения общей производительности и эффективности обобщения модели. Однако этот тип широко распространенной парадигмы совместного обучения, в которой используется единая цель обучения, игнорирует неоднородность данных в разных модальностях.
С одной стороны, неоднородность различных модальностей в источниках и формах данных приводит к тому, что они имеют разные характеристики с точки зрения скорости сходимости и т. д., что затрудняет одновременную обработку и изучение всех модальностей, что затрудняет для мультимодального совместного обучения вызвало трудности;
С другой стороны, эта разница также отражается на качестве унимодальных данных. Хотя все модальности описывают одну и ту же концепцию, они различаются по объему информации, связанной с целевым событием или целевым объектом. Глубокие нейронные сети, основанные на целях обучения с максимальным правдоподобием, обладают характеристиками жадного обучения, в результате чего создаются мультимодальные модели, которые часто полагаются на высококачественные модальности с высокой различительной информацией и их легче изучать, в то же время недостаточно моделируя другую модальную информацию. Чтобы решить эти проблемы и улучшить качество обучения мультимодальных моделей, в последнее время широкое внимание получили соответствующие исследования по балансированию мультимодального обучения.
Классификация методов: В зависимости от угла баланса родственные методы можно разделить на методы, основанные на характерных различиях, и методы, основанные на различиях в качестве.
1) Широко используемые мультимодальные системы совместного обучения часто игнорируют присущие различия в свойствах обучения одномодальных данных, что может оказать негативное влияние на производительность модели. Метод, основанный на характерных различиях, начинается с различий в характеристиках обучения каждой модальности и пытается решить эту проблему с точки зрения целей обучения, оптимизации и архитектуры.
2) Недавние исследования также показывают, что мультимодальные модели часто в значительной степени полагаются на определенные модальности высококачественной информации, игнорируя при этом другие модальности, что приводит к недостаточному изучению всех модальностей. Методы, основанные на различиях в качестве, начинаются с этой точки зрения и пытаются решить эту проблему и способствовать сбалансированному использованию различных модальностей в мультимодальных моделях с точки зрения целей обучения, методов оптимизации, архитектуры модели и улучшения данных.
Таблица 3. Классификация методов сбалансированного мультимодального объединения данных
Перспективы на будущее: Сбалансированные мультимодальные методы обучения в основном нацелены на различия в характеристиках обучения или качестве данных между различными модальностями, вызванные неоднородностью мультимодальных данных. Эти методы предлагают решения с разных точек зрения, таких как цели обучения, методы оптимизации, архитектура модели и улучшение данных. Сбалансированное мультимодальное обучение в настоящее время является бурно развивающейся областью, в которой многие теоретические и прикладные направления еще не полностью изучены. Например, современные методы в основном ограничиваются типичными мультимодальными задачами, которые в основном представляют собой различительные задачи и несколько генеративных задач. Кроме того, мультимодальные большие модели также должны сочетать модальные данные с разными качествами. На основании этого ожидается расширение существующих исследований или разработка новых в сценариях мультимодальных больших моделей.
5
Метод динамического мультимодального синтеза
Определение проблемы: динамическая мультимодальность означает, что качество модальности динамически меняется в зависимости от входных образцов и сцен. Например, в сценариях автономного вождения.,Система Получите информацию о дорожном покрытии и цели с помощью RGB и инфракрасных датчиков,В лучших условиях освещения,Камеры RGB способны захватывать богатую текстуру и цветовую информацию объектов.,Однако может лучше поддерживать разумное принятие решений ночью, когда недостаточно света;,Информация о восприятии, предоставляемая инфракрасными датчиками, более надежна. Как заставить Модель автоматически воспринимать изменения качества различных модальностей,для точной и стабильной интеграции,да Метод динамического мультимодального Основная миссия синтеза.
Таблица 4. Метод динамического мультимодального синтеза Классификация
Классификация метода: Метод динамического мультимодального синтеза можно условно разделить на три категории:
1) Эвристический метод динамического слияния;
2) Метод динамического слияния, основанный на механизме внимания;
3) метод динамического синтеза с учетом неопределенностей;
Среди них: 1) эвристический метод динамического слияния опирается на понимание разработчиком алгоритма сценариев применения мультимодальной модели и обычно достигается путем целевого введения механизма динамического слияния. Например, в задаче мультимодального обнаружения цели в сочетании RGB/теплового сигнала исследователи эвристически разработали модуль восприятия освещения для динамической оценки условий освещения входного изображения и динамической настройки слияния RGB и тепловых модальностей на основе интенсивность света. Веса адаптируются к окружающей среде. Когда яркость высокая, для принятия решений в основном используется режим RGB, и наоборот, для принятия решений в основном используется тепловой режим.
2) Методы динамического слияния, основанные на механизмах внимания, в основном сосредоточены на слиянии слоев представления. Сам механизм внимания имеет динамические характеристики, поэтому его можно естественным образом использовать в мультимодальных задачах динамического слияния. Различные механизмы, такие как Само-внимание, Пространственное внимание, Канальное внимание и Трансформатор, широко используются при построении мультимодальных моделей слияния. Такие методы автоматически учатся выполнять динамическое объединение в зависимости от целей задачи. Слияние, основанное на механизме внимания, может в определенной степени адаптироваться к динамическим мультимодальным данным низкого качества при отсутствии явного или эвристического руководства.
3) Методы динамического синтеза, учитывающие неопределенность, обычно имеют более ясные и объяснимые механизмы синтеза. В отличие от сложных режимов объединения, основанных на механизмах внимания, методы динамического объединения с учетом неопределенности полагаются на оценки неопределенности модальностей (таких как доказательства, энергия, энтропия и т. д.) для адаптации к мультимодальным данным низкого качества. В частности, восприятие неопределенности можно использовать для характеристики изменений качества каждой модальности входных данных. Когда качество определенной модальности входной выборки становится низким, неопределенность принятия решений моделью на основе этой модальности становится выше, обеспечивая четкое руководство для последующего проектирования механизма слияния. Кроме того, по сравнению с эвристикой и механизмами внимания, методы динамического слияния с учетом неопределенности могут обеспечить хорошие теоретические гарантии.
Перспективы на будущее: Хотя превосходство методов динамического синтеза с учетом неопределенности в традиционных задачах мультимодального синтеза было продемонстрировано экспериментально и теоретически, в мультимодальных моделях SOTA (не ограничиваясь моделями синтеза, такими как CLIP/BLIP и т. д.), динамичные идеи также имеют большой потенциал для исследования и применения. Кроме того, механизмы динамического слияния с теоретическими гарантиями часто ограничиваются уровнем принятия решений. Стоит также подумать и изучить, как заставить их работать на уровне представления.