источник:Google Research тема:UVQ: Measuring YouTube's Perceptual Video Quality автор:Yilin Wang, Feng Yang Исходная ссылка:https://blog.research.google/2022/08/uvq-measuring-youtubes-perceptual-video.html?m=1 Ссылка на модель UVQ:https://github.com/google/uvq Организация контента:Ли Юхан Оценка качества видео пользовательского контента (UGC) — важная тема в промышленности и научных кругах. Большинство существующих методов фокусируются только на одном аспекте оценки качества восприятия, таком как техническое качество или искажение сжатия. В этой статье создается крупномасштабный набор данных для всестороннего изучения. UGC Характеристики качества видео. Помимо субъективных оценок и содержательных меток набора данных, в этой статье также предлагается DNN изоснова для тщательного анализасодержание、Техническое качествоиуровень сжатиясуществовать Воспринимаемое качествоизважность。Модельспособен датьвидеоиз Показатель качества и три типа показателей качества,Очень хорошо установить связь между восприятием человеком качества продукта и некоторыми количественными показателями самого продукта.
Платформы онлайн-обмена видео, такие как YouTube, должны понимать воспринимаемое качество видео (т. е. субъективное восприятие качества видео пользователями), чтобы лучше оптимизировать и улучшить взаимодействие с пользователем. Оценка качества видео (VQA) пытается установить связь между видеосигналами и воспринимаемым качеством, используя объективные математические модели для моделирования субъективного мнения пользователей. Традиционные показатели качества видео, такие как пиковое соотношение сигнал/шум (PSNR) и объединение многометодной оценки видео (VMAF), основаны на эталонах и ориентированы на относительную разницу между целевым видео и эталонным видео. Эти показатели отлично подходят для профессионально созданного контента (PGC), такого как фильмы и т. д. Они предполагают исходное качество эталонного видео и делают вывод об абсолютном качестве целевого видео на основе относительной разницы.
Однако большая часть видео, загружаемых на YouTube, представляет собой пользовательский контент (UGC), который сталкивается с новыми проблемами из-за высокой степени неопределенности видеоконтента и исходного качества. Большинство загрузок пользовательского контента представляют собой неоригинальные видео, и большая относительная разница может означать совершенно разное воспринимаемое качество. Например, люди более чувствительны к искажениям в загрузках высокого качества, чем к искажениям в загрузках низкого качества. Поэтому в случае пользовательского контента оценка качества на основе эталонов становится неточной и непоследовательной. Более того, несмотря на большое количество пользовательского контента, в настоящее время существует ограниченное количество наборов данных UGC-VQA с метками качества. По сравнению с наборами данных с миллионами образцов для классификации и распознавания (такими как ImageNet и YouTube-8M), существующие наборы данных UGC-VQA либо меньше по размеру (например, LIVE-Qualcomm, который содержит 54 конкретные сцены, снятые из 208 образцов), либо недостаточная вариативность контента (выборка без учета информации о контенте, например LIVE-VQC и KoNViD-1k).
В статье «Богатые возможности для оценки воспринимаемого качества пользовательских видео», опубликованной на CVPR 2021, мы описываем, как мы пытаемся решить проблему оценки качества пользовательского контента путем создания универсальной модели качества видео (UVQ), аналогичной субъективной оценке качества. Модель UVQ использует подсети для анализа качества пользовательского контента, от семантической информации высокого уровня до искажений пикселей низкого уровня, и обеспечивает надежные оценки качества (с использованием комплексных и интерпретируемых меток качества). Кроме того, для продвижения исследований UGC-VQA и сжатия мы расширяем набор данных YouTube-UGC с открытым исходным кодом, который содержит 1500 репрезентативных образцов пользовательского контента из миллионов UGC-видео на YouTube. Обновленный набор данных содержит достоверные метки для исходного видео и соответствующей перекодированной версии, что позволяет нам лучше понять взаимосвязь между видеоконтентом и его воспринимаемым качеством. Наконец, мы выпустили версию модели UVQ с открытым исходным кодом.
Чтобы понять воспринимаемое качество видео, мы использовали внутреннюю краудсорсинговую платформу для сбора MOS Рейтинг, начиная от 1-5, среди которых 1 самое низкое качество, 5 имеет высочайшее качество. мы начинаем с YouTube-UGC Набор данных собирает реальные этикетки и повлияет на восприятие качества. UGC Факторы разделены на три категории высокого уровня.:содержание、искажениеисжатие。Например,нет смысласодержаниеизвидеовысокое качество не будет полученоиз мс. Кроме того, искажения, вносимые на этапе производства видео, и искажения сжатия видео, вносимые сторонними платформами (например, перекодирование или передача), также могут снизить общее качество.
Рисунок 1. MOS = 2,052. Бессмысленный контент не получит высокий MOS.
Рисунок 2. MOS = 4,457. Это видео, показывающее напряженные упражнения, показало более высокий MOS.
Рисунок 3. MOS = 1,242. Размытое игровое видео с низким MOS.
Рисунок 4. MOS = 4,522. Профессионально обработанные видео (с высокой контрастностью и четкими краями, обычно достигаемые на этапе производства видео) могут достичь высокого MOS.
Рисунок 5. MOS= 2,372. Сильно сжатое видео получает низкий MOS.
Рисунок 6. MOS= 4,646. Видео без искажений сжатия может получить высокий MOS.
Мы обнаружили, что третье геймплейное видео выше имело самый низкий MOS (1,2), даже ниже, чем видео без какого-либо значимого содержания. Одно из возможных объяснений заключается в том, что зрители могут иметь более высокие ожидания качества видео от видео с четкой повествовательной структурой (например, игровых видеороликов), а артефакты сжатия могут значительно снизить воспринимаемое качество видео.
Распространенный подход к оценке качества видео заключается в разработке сложных функций, а затем сопоставлении этих функций с мс. Однако разработка полезной функции, созданной вручную, является сложной и трудоемкой задачей даже для экспертов в предметной области. Более того, наиболее полезными из существующих функций, созданных вручную, являются те, которые получены из ограниченных образцов. итогпублично заявитьиз,существоватьширеиз UGC Кейсы могут работать плохо. Напротив, машинное обучение UGC-VQA стал более заметным, поскольку он может автоматически изучать функции на крупномасштабных выборках.
Простой способ — использовать существующий UGC Обучайте модели с нуля на качественных наборах данных. Но из-за качества UGC При ограниченном наборе данных такой подход невозможен. Чтобы преодолеть это ограничение, мы тренируемся UVQ Модельдобавлено в процессесамостоятельное обучениешаг。это позволяет намиз Изучите комплексные функции, связанные с качеством, в миллионах видео без необходимости реального изучения. MOS。
субъективно VQA Подвести Подводя итоги классификации, связанной с качеством, мы разработали новую подсеть с четырьмя UVQ Модель. Первые три подсети мы называем ContentNet、DistortionNet и CompressionNet,Используется для извлечения признаков качества (т. е. содержания, извлеченияисжатие).,Четвертая подсеть называется AggregationNet,Используется для сопоставления извлеченных функций с целью получения показателя качества. Контент Нет Используйте контролируемое обучение для обучения и использования YouTube-8M созданная модель UGC Конкретные теги контента. ИскажениеNet Обучен обнаруживать распространенные искажения, такие как необработанные кадры, размытие по Гауссу и белый шум. Компрессионная сеть Ориентируясь на артефакты сжатия видео, его обучающие данные представляют собой видео, сжатые с разными битрейтами. Он обучается с использованием двух вариантов сжатия одного и того же контента, которые вводятся в модель для прогнозирования соответствующего уровня сжатия (чем более очевидное искажение сжатия, тем больше). уровень сжатия).
ContentNet、DistortionNet и CompressionNet Подсеть обучается на большом количестве выборок без реальных показателей качества. Поскольку разрешение видео также является важным фактором качества, подсеть, чувствительная к разрешению (CompressionNet и DistortionNet)даблочныйиз(То есть каждый входной кадр делится на несколько непересекающихсяизблоков и обрабатываются индивидуально),Это позволяет нам запечатлеть все детали в исходном разрешении.,без уменьшения размера. Эти три подсети извлекают качественные характеристики,Затем четвертая подсеть AggregationNet объединить и объединить из YouTube-UGC реальности MOS прогнозировать показатели качества.
Рисунок 7. Структура обучения модели UVQ.
хорошо построен UVQ После модели мы используем ее для анализа YouTube-UGC качество видео образцов, извлеченных из набора данных, и продемонстрировал, что оно может предоставлять оценки качества, а также оценки отдельных показателей качества, чтобы помочь нам понять конкретные проблемы с качеством видео. Например, DistortionNet Различные анимации обнаружены под вторым видеоиз, такие как тряска и размытие объектива, при этом CompressionNet Третье видео было обнаружено как сильно сжатое.
На рисунке 8 ContentNet в скобках указаны метки контента и их вероятности, а именно: автомобиль (0,58), транспортное средство (0,42), спортивный автомобиль (0,32), автоспорт (0,18), гонки (0,11).
Рисунок 9. DistortionNet обнаруживает и классифицирует множественные визуальные искажения и в скобках дает соответствующие вероятности, а именно сглаживание (0,112), квантование цвета (0,111), размытие линзы (0,108) и снижение шума (0,107).
Рисунок 10. CompressionNet обнаруживает, что уровень сжатия этого видео равен 0,892.
Кроме того, UVQ может предоставлять обратную связь на основе блоков для выявления проблем с качеством. Что касается видео ниже, UVQ сообщает, что первый фрагмент (время t = 1) имеет хорошее качество и низкий уровень сжатия. Однако модель выявляет серьезные артефакты сжатия в следующем блоке (время t = 2).
Рисунок 11. UVQ обнаруживает внезапное ухудшение качества локальных исправлений (высокий уровень сжатия).
В практических приложениях UVQ Могут быть созданы отчеты о видеодиагностике, которые включают описание содержания (например, стратегические игры), анализ добавок (например, размытие или пикселизация видео), уровень сжатия (например, низкое сжатие или высокое сжатие). В качестве примера возьмем следующее видео: UVQ Согласно отчету, с точки зрения различных характеристик качество содержания хорошее, но качество сжатия искажения низкое. При сочетании этих трех качеств общее качество находится от среднего до низкого. Мы видим эти выводы благодаря собственным экспертам по пользователям. Подвести итоговый результат очень близок, что указывает на то, что UVQ Выводы можно сделать посредством оценки качества, при этом предоставляются показатели качества.
Рисунок 12 UVQ Диагностический отчет. Контент Нет (КТ): Видеоигры, стратегические видеоигры, World of Warcraft и т. д. ИскажениеNet (DT): мультипликативный шум, размытие по Гауссу, насыщенность цвета, пикселизация и т. д. Компрессионная сеть (CP): 0,559 (средне-высокая степень сжатия). [1,5] Показатель качества прогноза на интервале: (CT, DT, CP) = (3.901, 3.216, 3.151),(CT+DT+CP) = 3.149 (качество от низкого до среднего).
Мы с открытым исходным кодом UVQ Модель. Модель генерирует отчет, содержащий показатели качества и информацию, которую можно использовать для оценки. UGC Воспринимаемое качество видео. УВК из миллионов UGC Изучите комплексные функции, связанные с качеством, в видео и обеспечьте единообразную точку зрения на качество для нереферентных и эталонных случаев. Чтобы узнать больше, прочитайте нашу статью или посетите наш веб-сайт для просмотра. YT-UGC Видео и их субъективные данные о качестве. Мы также надеемся улучшить YouTube-UGC Набор данных может способствовать дальнейшим исследованиям в этой области.
Эта работа осуществляется посредством многократного Google Завершено командной работой. Среди основных участников: от YouTube из Balu Adsumilli、Neil Birkbeck、Joong Gon Yim и из Google Research из Junjie Ke、Hossein Talebi、Peyman Миланфар. благодарный Ross Wolf、Jayaprasanna Jayaraman、Carena Church и Jessie Lin из Вклад.