Генерация текста, интерпретация технологии Сора - модели генерации видео как симуляторы мира Модели генерации видео как симуляторы мира
Генерация текста, интерпретация технологии Сора - модели генерации видео как симуляторы мира Модели генерации видео как симуляторы мира

OpenAI недавно запустила новую модель видео для генерации текста: Sora. Пока вы вводите несколько подсказок, описывающих видеоэкран, он может генерировать 60-секундное видео. Качество и точность этих видеороликов поражают, создавая одновременно реалистичные и творческие сцены, которые называются «видеогенеративные модели как симуляторы мира».

Что такое Сора? Насколько классен Сора? Какой технический принцип стоит за этим? Какова ценность приложения? В этой статье будут представлены эффекты, технологии, развитие и понимание Соры на основе технического отчета при его интерпретации.

Адрес предварительного просмотра Sora: https://openai.com/sora Адрес технического отчета: https://openai.com/research/video-generation-models-as-world-simulators

1. Аннотация

Мы исследуем масштабное обучение генеративных моделей на видеоданных. В частности, мы совместно обучаем модель условного распространения текста на видео и изображениях с переменной длительностью, разрешением и соотношением сторон. Мы используем архитектуру Transformer, которая работает с пространственно-временными фрагментами скрытых кодов видео и изображений. Sora способна создавать высококачественные одноминутные видеоролики. Наши результаты показывают, что масштабирование моделей генерации видео (Sora) является многообещающим направлением для создания универсальных симуляторов физического мира.

2. Интерпретация технологии генерации текста Sora для видео генерации текста

2.1. Краткий обзор созданных моделей.

Во многих предыдущих работах изучалось генеративное моделирование видеоданных с использованием различных методов, включая рекуррентную нейронную сеть (RNN), генеративно-состязательную сеть (GAN), авторегрессионный преобразователь (модель авторегрессии) и модель диффузии (модель диффузии), работы которых обычно сосредоточены на небольшом категория визуальных данных, более короткие видеоролики или видеоролики фиксированного размера.

1️⃣, Диффузная модель (Диффузия Model) Диффузионная модель — это тип генеративной модели, которая преобразует гауссовский шум в образцы известного распределения данных посредством итеративного процесса шумоподавления. Сгенерированные изображения обладают хорошим разнообразием и реалистичностью.

Процесс диффузии постепенно добавляет гауссов шум к исходному изображению.,представляет собой фиксированный процесс цепи Маркова,Окончательное изображение также постепенно преобразуется в гауссов шум.。иОбратный процесс шаг за шагом восстанавливает исходное изображение путем шумоподавления.,Это позволяет создавать изображения или видео.

2️⃣, Авторегрессионная модель (Авторегрессивная Model) Модель авторегрессии стала парадигмой для моделирования корреляции последовательностей за счет использования мощного механизма внимания. Вдохновленный успехом модели GPT в моделировании естественного языка, Image GPT (iGPT) использует Transformer, выполняющий авторегрессионную генерацию изображений. Правдоподобность сгенерированных изображений демонстрирует способность модели Transformer моделировать пространственные отношения между пикселями и атрибутами высокого уровня (текстурой, семантикой и масштабом). Трансформатор в целом разделен на две части: кодер и декодер, который использует многоголовочный механизм самообслуживания для кодирования и декодирования.

3️⃣, Модель генеративно-состязательной сети (Генеративная Adversarial Networks)

Генеративно-состязательные сети содержат генеративную и дискриминативную модели. Среди них генеративная модель отвечает за распределение выборочных данных, тогда как дискриминативная модель обычно представляет собой двоичный классификатор, который определяет, являются ли входные данные реальными данными или сгенерированными выборками. Весь тренировочный процесс — это постоянная игра и оптимизация между ними. Распределение сгенерированных генератором изображений постоянно близко к реальному распределению изображений для достижения цели обмана дискриминатора и улучшения дискриминантной способности дискриминатора. Дискриминатор различает реальные изображения и сгенерированные изображения, чтобы улучшить возможности генерации генератора.

Sora — это общая модель визуальных данных, которая может генерировать видео и изображения различной продолжительности, соотношений сторон и разрешений, вплоть до одной минуты видео высокой четкости.

2.2. Предварительная обработка видеоданных.

Сора использует подход к обработке видеоданных,Сначала он сжимает видео в скрытое пространство меньшей размерности, а затем разлагает это сжатое представление на серию пространственно-временных скрытых фрагментов. Эти фрагменты можно рассматривать как небольшие фрагменты видео, и каждый фрагмент захватывает небольшой пространственный период времени. структуру для лучшего понимания и обработки видеоданных, что делает ее пригодной для последующего обучения и генерации модели.

2.2.1 Превращение визуальных данных в патчи: Превращение визуальных данных в патчи.

Большие языковые модели приобретают общие возможности путем обучения на данных масштаба Интернета, отчасти благодаря используемым ими токенам, которые элегантно объединяют разрозненные формы текста, включая код, математику и различные естественные языки. В этой работе исследователи рассмотрели, как эту общую возможность можно применить к моделям, генерирующим визуальные данные.

В отличие от больших языковых моделей, использующих текстовые токены, модель Sora использует визуальные патчи для обработки визуальных данных. Подобно текстовым токенам, визуальные патчи также хорошо масштабируются и эффективны, что делает их особенно подходящими для обучения моделей, генерирующих множество типов видео и изображений.

2.2.2. Сеть сжатия видео: Сеть сжатия видео.

Сора обучает сеть уменьшению размерности визуальных данных. Сеть принимает исходное видео в качестве входных данных и выводит скрытое представление, сжатое в пространстве и времени. Сора обучается работе с этим сжатым скрытым пространством и генерирует в нем видео. Соответствующая модель декодера также обучается отображать сгенерированное скрытое представление обратно в пространство пикселей.

Проще говоря, Sora сжимает содержимое видео в более компактную и эффективную форму (т. е. уменьшает размерность). Таким образом, Сора может более эффективно обрабатывать видео, сохраняя при этом достаточно информации для восстановления исходного видео.

2.2.3. Скрытые патчи пространства-времени: Скрытые патчи пространства-времени.

Учитывая сжатое входное видео, Сора извлекает последовательность пространственно-временных фрагментов, которые служат токенами преобразователя. Эта схема работает и для изображений, поскольку изображения — это просто видеоролики с одним кадром. Представление на основе патчей позволяет Sora обучаться на видео и изображениях различного разрешения, продолжительности и соотношения сторон. Во время вывода размером сгенерированного видео можно управлять, располагая случайно инициализированные фрагменты в сетке соответствующего размера.

Проще говоря, Сора разбивает видео на небольшие фрагменты. Эти небольшие фрагменты содержат небольшую часть пространственной и временной информации в видео, которая представляет собой подробный «список» видеоконтента, помогая Соре нацелить его на объект. последующие шаги творчески обработайте каждую часть видео.

2.3. Генерация видео

2.3.1. Расширение Transformer для генерации видео: диффузионные трансформаторы. Масштабирующие преобразователи для генерации видео.

Sora — это генеративная модель, основанная на модели диффузии. Она работает, получая входные зашумленные участки (например, локальные области изображения) и некоторую информацию о состоянии (например, текстовые сигналы), а затем прогнозирует исходный «чистый» патч посредством обучения. , то есть патч с убранным шумом. Цель этой модели — сделать сгенерированные изображения более четкими и реалистичными.

Стоит отметить, что,Сора использует специальную архитектуру трансформатора — диффузионный трансформатор (DiT).,Структура ее модели следующая:

Диффузионные трансформаторы (DiTs) — это диффузионная модель, основанная на трансформаторах. Они следуют передовому опыту Vision Transformers (ViT) и предназначены для управления процессом распространения изображений.

Диффузионные трансформаторы применяют трансформаторы к диффузионным моделям для достижения более эффективной генерации изображений. В традиционных моделях диффузии для обработки входных данных с зашумленными изображениями обычно требуется дополнительная информация о состоянии. В частности, разработка DiT включает в себя следующие аспекты:

  • Состояние верхнего и нижнего предложения:DiTsВоляtиcвекторные вложения как два дополнительных токена во входной последовательности,и обращаться с ним так же, как с тегами изображений. При этом сохраняются масштабирующие свойства стандартного Трансформера без изменения его архитектуры.
  • смешанный базовый подход:DiTsИспользуйте готовые сверточные вариационные автоэнкодеры.(VAE)ина основе преобразователяDDPMдля генерации непространственных данных,Например, встраивание изображений CLIP.
  • Вариант дизайна:DiTsЧетыре разныхTransformerВарианты,Они по-разному обрабатывают условный ввод,Небольшие, но существенные изменения в конструкции стандартного блока ВИТ.

Если вас интересуют подробности о диффузионных трансформаторах, вы можете оставить сообщение в комментариях. Если желающих много, вы можете опубликовать подробное объяснение архитектуры диффузионных трансформаторов в следующем выпуске.

При этом в ходе исследовательской работы Соры исследователи обнаружили, что диффузионные трансформаторы не только превосходны в генерации изображений, но и очень эффективны при видеомоделировании. Сравнивая образцы видео, созданные по мере увеличения объема обучающих вычислений, они обнаружили, что качество образцов значительно улучшалось по мере продвижения обучения. Это означает, что диффузионные трансформаторы могут эффективно обучаться и генерировать видеоконтент более высокого качества при обработке видеоданных, что имеет большое значение для области генерации видео.

2.4. Оптимизация эффектов.

OpenAI также использует некоторые методы оптимизации, чтобы модель имела переменную продолжительность, разрешение, соотношение сторон и другие характеристики, в том числе: гибкие методы выборки, улучшенную композицию и композицию изображения и т. д. Из-за отсутствия соответствующей информации она недоступна здесь для Развернуть, если вам интересно, вы также можете оставить сообщение в комментариях.

2.5. Понимание естественного языка: Понимание языка.

Что касается понимания естественного языка, OpenAI применяет технологию повторного субтитров, представленную в DALL·E 3. Методы повторного субтитров генерируют текстовые субтитры для всех видео в обучающем наборе путем обучения модели создания высокоописательных субтитров. Преимущество этого заключается в том, что обучение с использованием информативных заголовков видео может повысить точность текста, позволяя модели лучше понимать и генерировать видеоконтент, тем самым улучшая качество и точность создаваемых видео.

Как и в DALL·E 3, автор также использует GPT для преобразования краткой подсказки пользователя в более подробный заголовок, который затем отправляется в видеомодель. Это позволяет Sora создавать высококачественные видеоролики, точно соответствующие подсказкам пользователя.

Эти два метода обогащают подсказки для обучения преобразованию текста в видео, упрощая обучение.

3. Текущие ограничения Соры

В техническом отчете автор также упомянул, что у Sora все еще есть много ограничений. Например, он не может точно моделировать физические явления многих основных взаимодействий, таких как разбитие стекла. Другие взаимодействия, такие как употребление пищи, не всегда корректно меняют состояние объекта. На нашей домашней странице мы перечисляем другие распространенные режимы сбоя моделей, такие как некогерентность при длительных выборках или внезапное появление объектов.

Я участвую в последнем конкурсе эссе для специального учебного лагеря Tencent Technology Creation 2024. Приходите и разделите со мной приз!

boy illustration
Углубленный анализ переполнения памяти CUDA: OutOfMemoryError: CUDA не хватает памяти. Попыталась выделить 3,21 Ги Б (GPU 0; всего 8,00 Ги Б).
boy illustration
[Решено] ошибка установки conda. Среда решения: не удалось выполнить первоначальное зависание. Повторная попытка с помощью файла (графическое руководство).
boy illustration
Прочитайте нейросетевую модель Трансформера в одной статье
boy illustration
.ART Теплые зимние предложения уже открыты
boy illustration
Сравнительная таблица описания кодов ошибок Amap
boy illustration
Уведомление о последних правилах Points Mall в декабре 2022 года.
boy illustration
Даже новички могут быстро приступить к работе с легким сервером приложений.
boy illustration
Взгляд на RSAC 2024|Защита конфиденциальности в эпоху больших моделей
boy illustration
Вы используете ИИ каждый день и до сих пор не знаете, как ИИ дает обратную связь? Одна статья для понимания реализации в коде Python общих функций потерь генеративных моделей + анализ принципов расчета.
boy illustration
Используйте (внутренний) почтовый ящик для образовательных учреждений, чтобы использовать Microsoft Family Bucket (1T дискового пространства на одном диске и версию Office 365 для образовательных учреждений)
boy illustration
Руководство по началу работы с оперативным проектом (7) Практическое сочетание оперативного письма — оперативного письма на основе интеллектуальной системы вопросов и ответов службы поддержки клиентов
boy illustration
[docker] Версия сервера «Чтение 3» — создайте свою собственную программу чтения веб-текста
boy illustration
Обзор Cloud-init и этапы создания в рамках PVE
boy illustration
Корпоративные пользователи используют пакет регистрационных ресурсов для регистрации ICP для веб-сайта и активации оплаты WeChat H5 (с кодом платежного узла версии API V3)
boy illustration
Подробное объяснение таких показателей производительности с высоким уровнем параллелизма, как QPS, TPS, RT и пропускная способность.
boy illustration
Удачи в конкурсе Python Essay Challenge, станьте первым, кто испытает новую функцию сообщества [Запускать блоки кода онлайн] и выиграйте множество изысканных подарков!
boy illustration
[Техническая посадка травы] Кровавая рвота и отделка позволяют вам необычным образом ощипывать гусиные перья! Не распространяйте информацию! ! !
boy illustration
[Официальное ограниченное по времени мероприятие] Сейчас ноябрь, напишите и получите приз
boy illustration
Прочтите это в одной статье: Учебник для няни по созданию сервера Huanshou Parlu на базе CVM-сервера.
boy illustration
Cloud Native | Что такое CRD (настраиваемые определения ресурсов) в K8s?
boy illustration
Как использовать Cloudflare CDN для настройки узла (CF самостоятельно выбирает IP) Гонконг, Китай/Азия узел/сводка и рекомендации внутреннего высокоскоростного IP-сегмента
boy illustration
Дополнительные правила вознаграждения амбассадоров акции в марте 2023 г.
boy illustration
Можно ли открыть частный сервер Phantom Beast Palu одним щелчком мыши? Супер простой урок для начинающих! (Прилагается метод обновления сервера)
boy illustration
[Играйте с Phantom Beast Palu] Обновите игровой сервер Phantom Beast Pallu одним щелчком мыши
boy illustration
Maotouhu делится: последний доступный внутри страны адрес склада исходного образа Docker 2024 года (обновлено 1 декабря)
boy illustration
Кодирование Base64 в MultipartFile
boy illustration
5 точек расширения SpringBoot, супер практично!
boy illustration
Глубокое понимание сопоставления индексов Elasticsearch.
boy illustration
15 рекомендуемых платформ разработки с нулевым кодом корпоративного уровня. Всегда найдется та, которая вам понравится.
boy illustration
Аннотация EasyExcel позволяет экспортировать с сохранением двух десятичных знаков.