Модель измерения воспринимаемого качества видео YouTube – UVQ
Модель измерения воспринимаемого качества видео YouTube – UVQ

источник:Google Research тема:UVQ: Measuring YouTube's Perceptual Video Quality автор:Yilin Wang, Feng Yang Исходная ссылка:https://blog.research.google/2022/08/uvq-measuring-youtubes-perceptual-video.html?m=1 Ссылка на модель UVQ:https://github.com/google/uvq Организация контента:Ли Юхан Оценка качества видео пользовательского контента (UGC) — важная тема в промышленности и научных кругах. Большинство существующих методов фокусируются только на одном аспекте оценки качества восприятия, таком как техническое качество или искажение сжатия. В этой статье создается крупномасштабный набор данных для всестороннего изучения. UGC Характеристики качества видео. Помимо субъективных оценок и содержательных меток набора данных, в этой статье также предлагается DNN изоснова для тщательного анализасодержаниеТехническое качествоиуровень сжатиясуществовать Воспринимаемое качествоизважность。Модельспособен датьвидеоиз Показатель качества и три типа показателей качества,Очень хорошо установить связь между восприятием человеком качества продукта и некоторыми количественными показателями самого продукта.

фон

Платформы онлайн-обмена видео, такие как YouTube, должны понимать воспринимаемое качество видео (т. е. субъективное восприятие качества видео пользователями), чтобы лучше оптимизировать и улучшить взаимодействие с пользователем. Оценка качества видео (VQA) пытается установить связь между видеосигналами и воспринимаемым качеством, используя объективные математические модели для моделирования субъективного мнения пользователей. Традиционные показатели качества видео, такие как пиковое соотношение сигнал/шум (PSNR) и объединение многометодной оценки видео (VMAF), основаны на эталонах и ориентированы на относительную разницу между целевым видео и эталонным видео. Эти показатели отлично подходят для профессионально созданного контента (PGC), такого как фильмы и т. д. Они предполагают исходное качество эталонного видео и делают вывод об абсолютном качестве целевого видео на основе относительной разницы.

Однако большая часть видео, загружаемых на YouTube, представляет собой пользовательский контент (UGC), который сталкивается с новыми проблемами из-за высокой степени неопределенности видеоконтента и исходного качества. Большинство загрузок пользовательского контента представляют собой неоригинальные видео, и большая относительная разница может означать совершенно разное воспринимаемое качество. Например, люди более чувствительны к искажениям в загрузках высокого качества, чем к искажениям в загрузках низкого качества. Поэтому в случае пользовательского контента оценка качества на основе эталонов становится неточной и непоследовательной. Более того, несмотря на большое количество пользовательского контента, в настоящее время существует ограниченное количество наборов данных UGC-VQA с метками качества. По сравнению с наборами данных с миллионами образцов для классификации и распознавания (такими как ImageNet и YouTube-8M), существующие наборы данных UGC-VQA либо меньше по размеру (например, LIVE-Qualcomm, который содержит 54 конкретные сцены, снятые из 208 образцов), либо недостаточная вариативность контента (выборка без учета информации о контенте, например LIVE-VQC и KoNViD-1k).

В статье «Богатые возможности для оценки воспринимаемого качества пользовательских видео», опубликованной на CVPR 2021, мы описываем, как мы пытаемся решить проблему оценки качества пользовательского контента путем создания универсальной модели качества видео (UVQ), аналогичной субъективной оценке качества. Модель UVQ использует подсети для анализа качества пользовательского контента, от семантической информации высокого уровня до искажений пикселей низкого уровня, и обеспечивает надежные оценки качества (с использованием комплексных и интерпретируемых меток качества). Кроме того, для продвижения исследований UGC-VQA и сжатия мы расширяем набор данных YouTube-UGC с открытым исходным кодом, который содержит 1500 репрезентативных образцов пользовательского контента из миллионов UGC-видео на YouTube. Обновленный набор данных содержит достоверные метки для исходного видео и соответствующей перекодированной версии, что позволяет нам лучше понять взаимосвязь между видеоконтентом и его воспринимаемым качеством. Наконец, мы выпустили версию модели UVQ с открытым исходным кодом.

Субъективная оценка качества видео

Чтобы понять воспринимаемое качество видео, мы использовали внутреннюю краудсорсинговую платформу для сбора MOS Рейтинг, начиная от 1-5, среди которых 1 самое низкое качество, 5 имеет высочайшее качество. мы начинаем с YouTube-UGC Набор данных собирает реальные этикетки и повлияет на восприятие качества. UGC Факторы разделены на три категории высокого уровня.:содержаниеискажениеисжатие。Например,нет смысласодержаниеизвидеовысокое качество не будет полученоиз мс. Кроме того, искажения, вносимые на этапе производства видео, и искажения сжатия видео, вносимые сторонними платформами (например, перекодирование или передача), также могут снизить общее качество.

Рисунок 1. MOS = 2,052. Бессмысленный контент не получит высокий MOS.

Рисунок 2. MOS = 4,457. Это видео, показывающее напряженные упражнения, показало более высокий MOS.

Рисунок 3. MOS = 1,242. Размытое игровое видео с низким MOS.

Рисунок 4. MOS = 4,522. Профессионально обработанные видео (с высокой контрастностью и четкими краями, обычно достигаемые на этапе производства видео) могут достичь высокого MOS.

Рисунок 5. MOS= 2,372. Сильно сжатое видео получает низкий MOS.

Рисунок 6. MOS= 4,646. Видео без искажений сжатия может получить высокий MOS.

Мы обнаружили, что третье геймплейное видео выше имело самый низкий MOS (1,2), даже ниже, чем видео без какого-либо значимого содержания. Одно из возможных объяснений заключается в том, что зрители могут иметь более высокие ожидания качества видео от видео с четкой повествовательной структурой (например, игровых видеороликов), а артефакты сжатия могут значительно снизить воспринимаемое качество видео.

Структура модели UVQ

Распространенный подход к оценке качества видео заключается в разработке сложных функций, а затем сопоставлении этих функций с мс. Однако разработка полезной функции, созданной вручную, является сложной и трудоемкой задачей даже для экспертов в предметной области. Более того, наиболее полезными из существующих функций, созданных вручную, являются те, которые получены из ограниченных образцов. итогпублично заявитьиз,существоватьширеиз UGC Кейсы могут работать плохо. Напротив, машинное обучение UGC-VQA стал более заметным, поскольку он может автоматически изучать функции на крупномасштабных выборках.

Простой способ — использовать существующий UGC Обучайте модели с нуля на качественных наборах данных. Но из-за качества UGC При ограниченном наборе данных такой подход невозможен. Чтобы преодолеть это ограничение, мы тренируемся UVQ Модельдобавлено в процессесамостоятельное обучениешаг。это позволяет намиз Изучите комплексные функции, связанные с качеством, в миллионах видео без необходимости реального изучения. MOS。

субъективно VQA Подвести Подводя итоги классификации, связанной с качеством, мы разработали новую подсеть с четырьмя UVQ Модель. Первые три подсети мы называем ContentNetDistortionNet и CompressionNet,Используется для извлечения признаков качества (т. е. содержания, извлеченияисжатие).,Четвертая подсеть называется AggregationNet,Используется для сопоставления извлеченных функций с целью получения показателя качества. Контент Нет Используйте контролируемое обучение для обучения и использования YouTube-8M созданная модель UGC Конкретные теги контента. ИскажениеNet Обучен обнаруживать распространенные искажения, такие как необработанные кадры, размытие по Гауссу и белый шум. Компрессионная сеть Ориентируясь на артефакты сжатия видео, его обучающие данные представляют собой видео, сжатые с разными битрейтами. Он обучается с использованием двух вариантов сжатия одного и того же контента, которые вводятся в модель для прогнозирования соответствующего уровня сжатия (чем более очевидное искажение сжатия, тем больше). уровень сжатия).

ContentNet、DistortionNet и CompressionNet Подсеть обучается на большом количестве выборок без реальных показателей качества. Поскольку разрешение видео также является важным фактором качества, подсеть, чувствительная к разрешению (CompressionNet и DistortionNet)даблочныйиз(То есть каждый входной кадр делится на несколько непересекающихсяизблоков и обрабатываются индивидуально),Это позволяет нам запечатлеть все детали в исходном разрешении.,без уменьшения размера. Эти три подсети извлекают качественные характеристики,Затем четвертая подсеть AggregationNet объединить и объединить из YouTube-UGC реальности MOS прогнозировать показатели качества.

Рисунок 7. Структура обучения модели UVQ.

Анализ качества видео с помощью UVQ

хорошо построен UVQ После модели мы используем ее для анализа YouTube-UGC качество видео образцов, извлеченных из набора данных, и продемонстрировал, что оно может предоставлять оценки качества, а также оценки отдельных показателей качества, чтобы помочь нам понять конкретные проблемы с качеством видео. Например, DistortionNet Различные анимации обнаружены под вторым видеоиз, такие как тряска и размытие объектива, при этом CompressionNet Третье видео было обнаружено как сильно сжатое.

На рисунке 8 ContentNet в скобках указаны метки контента и их вероятности, а именно: автомобиль (0,58), транспортное средство (0,42), спортивный автомобиль (0,32), автоспорт (0,18), гонки (0,11).

Рисунок 9. DistortionNet обнаруживает и классифицирует множественные визуальные искажения и в скобках дает соответствующие вероятности, а именно сглаживание (0,112), квантование цвета (0,111), размытие линзы (0,108) и снижение шума (0,107).

Рисунок 10. CompressionNet обнаруживает, что уровень сжатия этого видео равен 0,892.

Кроме того, UVQ может предоставлять обратную связь на основе блоков для выявления проблем с качеством. Что касается видео ниже, UVQ сообщает, что первый фрагмент (время t = 1) имеет хорошее качество и низкий уровень сжатия. Однако модель выявляет серьезные артефакты сжатия в следующем блоке (время t = 2).

Рисунок 11. UVQ обнаруживает внезапное ухудшение качества локальных исправлений (высокий уровень сжатия).

В практических приложениях UVQ Могут быть созданы отчеты о видеодиагностике, которые включают описание содержания (например, стратегические игры), анализ добавок (например, размытие или пикселизация видео), уровень сжатия (например, низкое сжатие или высокое сжатие). В качестве примера возьмем следующее видео: UVQ Согласно отчету, с точки зрения различных характеристик качество содержания хорошее, но качество сжатия искажения низкое. При сочетании этих трех качеств общее качество находится от среднего до низкого. Мы видим эти выводы благодаря собственным экспертам по пользователям. Подвести итоговый результат очень близок, что указывает на то, что UVQ Выводы можно сделать посредством оценки качества, при этом предоставляются показатели качества.

Рисунок 12 UVQ Диагностический отчет. Контент Нет (КТ): Видеоигры, стратегические видеоигры, World of Warcraft и т. д. ИскажениеNet (DT): мультипликативный шум, размытие по Гауссу, насыщенность цвета, пикселизация и т. д. Компрессионная сеть (CP): 0,559 (средне-высокая степень сжатия). [1,5] Показатель качества прогноза на интервале: (CT, DT, CP) = (3.901, 3.216, 3.151),(CT+DT+CP) = 3.149 (качество от низкого до среднего).

Подвести итог

Мы с открытым исходным кодом UVQ Модель. Модель генерирует отчет, содержащий показатели качества и информацию, которую можно использовать для оценки. UGC Воспринимаемое качество видео. УВК из миллионов UGC Изучите комплексные функции, связанные с качеством, в видео и обеспечьте единообразную точку зрения на качество для нереферентных и эталонных случаев. Чтобы узнать больше, прочитайте нашу статью или посетите наш веб-сайт для просмотра. YT-UGC Видео и их субъективные данные о качестве. Мы также надеемся улучшить YouTube-UGC Набор данных может способствовать дальнейшим исследованиям в этой области.

Благодарности

Эта работа осуществляется посредством многократного Google Завершено командной работой. Среди основных участников: от YouTube из Balu Adsumilli、Neil Birkbeck、Joong Gon Yim и из Google Research из Junjie Ke、Hossein Talebi、Peyman Миланфар. благодарный Ross Wolf、Jayaprasanna Jayaraman、Carena Church и Jessie Lin из Вклад.

boy illustration
Учебное пособие по Jetpack Compose для начинающих, базовые элементы управления и макет
boy illustration
Код js веб-страницы, фон частицы, код спецэффектов
boy illustration
【новый! Суперподробное】Полное руководство по свойствам компонентов Figma.
boy illustration
🎉Обязательно к прочтению новичкам: полное руководство по написанию мини-программ WeChat с использованием программного обеспечения Cursor.
boy illustration
[Забавный проект Docker] VoceChat — еще одно приложение для мгновенного чата (IM)! Может быть встроен в любую веб-страницу!
boy illustration
Как реализовать переход по странице в HTML (html переходит на указанную страницу)
boy illustration
Как решить проблему зависания и низкой скорости при установке зависимостей с помощью npm. Существуют ли доступные источники npm, которые могут решить эту проблему?
boy illustration
Серия From Zero to Fun: Uni-App WeChat Payment Practice WeChat авторизует вход в систему и украшает страницу заказа, создает интерфейс заказа и инициирует запрос заказа
boy illustration
Серия uni-app: uni.navigateЧтобы передать скачок значения
boy illustration
Апплет WeChat настраивает верхнюю панель навигации и адаптируется к различным моделям.
boy illustration
JS-время конвертации
boy illustration
Обеспечьте бесперебойную работу ChromeDriver 125: советы по решению проблемы chromedriver.exe не найдены
boy illustration
Поле комментария, щелчок мышью, специальные эффекты, js-код
boy illustration
Объект массива перемещения объекта JS
boy illustration
Как открыть разрешение на позиционирование апплета WeChat_Как использовать WeChat для определения местонахождения друзей
boy illustration
Я даю вам два набора из 18 простых в использовании фонов холста Power BI, так что вам больше не придется возиться с цветами!
boy illustration
Получить текущее время в js_Как динамически отображать дату и время в js
boy illustration
Вам необходимо изучить сочетания клавиш vsCode для форматирования и организации кода, чтобы вам больше не приходилось настраивать формат вручную.
boy illustration
У ChatGPT большое обновление. Всего за 45 минут пресс-конференция показывает, что OpenAI сделал еще один шаг вперед.
boy illustration
Copilot облачной разработки — упрощение разработки
boy illustration
Микросборка xChatGPT с низким кодом, создание апплета чат-бота с искусственным интеллектом за пять шагов
boy illustration
CUDA Out of Memory: идеальное решение проблемы нехватки памяти CUDA
boy illustration
Анализ кластеризации отдельных ячеек, который должен освоить каждый&MarkerгенетическийВизуализация
boy illustration
vLLM: мощный инструмент для ускорения вывода ИИ
boy illustration
CodeGeeX: мощный инструмент генерации кода искусственного интеллекта, который можно использовать бесплатно в дополнение к второму пилоту.
boy illustration
Машинное обучение Реальный бой LightGBM + настройка параметров случайного поиска: точность 96,67%
boy illustration
Бесшовная интеграция, мгновенный интеллект [1]: платформа больших моделей Dify-LLM, интеграция без кодирования и встраивание в сторонние системы, более 42 тысяч звезд, чтобы стать свидетелями эксклюзивных интеллектуальных решений.
boy illustration
LM Studio для создания локальных больших моделей
boy illustration
Как определить количество слоев и нейронов скрытых слоев нейронной сети?
boy illustration
[Отслеживание целей] Подробное объяснение ByteTrack и детали кода