Сора = Диффузия + Трансформатор, причина взрыва в том, как сэкономить вычислительные затраты!
Сора = Диффузия + Трансформатор, причина взрыва в том, как сэкономить вычислительные затраты!

Не будет преувеличением сказать, что Sora — самая громкая генеративная модель с 2024 года. Ее возможности и эффект по генерации видео ошеломляют.

image.png
image.png

Во многих статьях представлены прикладной и презентационный уровни Sora, но объяснения лежащих в их основе принципов недостаточно.

В этой статье давайте раскроем тайну Sora и познакомимся с ее основной технологией.

Деконструкция DiT

Грубо говоря, Sora — это диффузная модель, построенная на технологии DiT.

Как мы знаем, ChatGPT основан на модели Transformer — модели глубокого обучения, основанной на механизме самообслуживания.

Расширение DiT Sora: Diffusion Transformer, Sora = Diffusion + Transformer. Эта дополнительная модель диффузии может не только обеспечить качество генерации изображений, сравнимое с GAN, но также имеет лучшую масштабируемость и вычислительную эффективность.

Если вы раньше использовали и понимали стабильную диффузию, у вас должно сложиться впечатление о модели диффузии:

image.png
image.png
image.png
image.png

Модель диффузии — это генеративная модель на основе шума, которая имитирует распределение данных путем постепенного добавления шума, а затем изучает обратный процесс для удаления шума для создания новых данных.

В Sora DiT способен синтезировать высококачественные изображения, легко модифицируется и обеспечивает низкие вычислительные затраты.

Сейчас, когда вычислительная мощность настолько дорога, стоимость вычислений действительно важна~

Картинка стоит тысячи слов:

image.png
image.png

DiT включать кодер VAEViTDDPM и декодер VAE,Эти компоненты:

  1. кодер VAE:VAE да Генеративная модель, используемая для сопоставления входных данных со скрытым пространством существования в низкомерном представлении.
    • Роль в DiT: DiT использовать кодер VAE сжимает изображение в низкоразмерное представление, чтобы его можно было обучать в низкоразмерном пространстве. DDPM Модель, наличие которой помогает снизить вычислительные затраты и повысить эффективность.
  2. ViT:ViT Да, я основе Transformer Модель классификации изображений, которая делит изображение на однородные фрагменты и использует механизм самообслуживания для обработки этих фрагментов.
    • Роль в DiT:DiT Узнал от ViT Идея состоит в том, чтобы разделить изображение на несколько размеров. p × p патч, а затем преобразовать его в длину T последовательность как Transformer вход. Это делает DiT Возможность обработки изображений различного разрешения, продолжительности и соотношения сторон.
image.png
image.png
  1. DDPM:DDPM да Одноклассовая модель глубокой генерации имитирует распределение данных, постепенно добавляя шум, а затем обучается обратному процессу для удаления шума, тем самым генерируя новые изданные данные.
    • Роль в DiT:DiT на основе DDPM Технология создана для моделирования распределения данных изображения путем постепенного добавления шума, а затем обучения обратному процессу для удаления шума, тем самым генерируя изображения высокого качества.
  2. декодер VAE:декодер VAE отображает скрытое пространство существования в низкоразмерном представлении обратно в исходное пространство данных, тем самым создавая реконструированное изображение.
    • Роль в DiT:DiT использовать декодер VAE отображает низкоразмерное представление обратно в пространство изображений для создания окончательного высококачественного изображения.

Вместе эти компоненты составляют модель DiT, позволяющую генерировать реалистичные и творческие сценарии на основе текстовых инструкций.

Patchify

Patchify Технологии также являются ключевым словом, которое невозможно обойти, и они являются ключом к высококачественным видео!

Patchify — это метод, который разбивает изображение на несколько фрагментов размером p × p и преобразует их в последовательность длиной T в качестве входных данных для Transformer.

image.png
image.png

Sora использовать Patchify Разделите изображение на небольшие фрагменты и преобразуйте эти фрагменты в последовательности для ввода в обработку. Transformer в модели. Преимущество этого в том, что Сора Может обрабатывать разные разрешения, продолжительность, соотношение сторон и видеоизображение.

Эксперименты показали, что чем больше обучающая модель, тем лучше патч. size (p) Чем меньше (Прямо сейчас Увеличение глубины/ширины преобразователя или увеличение количества входных токенов) — может значительно улучшить визуальное качество.

image.png
image.png

на основе patch выражено таким образом, что Sora Возможность обучать изображения разного разрешения, длительности и соотношения сторон. Мы можем организовать случайную инициализацию из существования сетки соответствующего размера. patches для управления размером создаваемого видео.

DiT block

После исправления входные токены обрабатываются серией блоков преобразователей. Помимо ввода зашумленного изображения, диффузионные модели иногда обрабатывают дополнительную условную информацию, такую ​​как временной шаг шума t, метка класса c, естественный язык и т. д.

DiT block Содержит уровень самообслуживания, уровень спецификации уровня и сетевой уровень прямой связи. Среди них есть четыре варианта хата, такие как in-context conditioning、cross-attention、adaptive layer norm (adaLN) и adaLN-Zero。

DiT(Diffusion Transformer) Четыре варианта отличаются тем, как они реализуют два дополнительных встраивания:

  1. In-context conditioning: Рассматривайте два внедрения как два токена, объединенные во входные токены. Похоже на: ViT в cls отметка. Реализация проста и практически не требует дополнительных вычислений.
  2. Cross-attention блок: объединить два вложения в длину 2 изпоследовательность,Затемсуществовать Transformer В блок вставляется слой перекрестного внимания. Условные вложения как ключи слоев перекрестного внимания. Этот метод в настоящее время используется для генерации изображений Модели, но требует дополнительного введения около 15% сумма расчета.
  3. Adaptive layer norm (adaLN) : Адаптивный уровень Стандартизации (adaLN) для объединения двух вложений. АХр Параметры стандартизации могут автоматически корректироваться в соответствии с различными входными образцами.
  4. AdaLN-Zero: да adaLN вариант . и adaLN Аналогично, но существует, устанавливает нулевое среднее значение одного из вложений при вычислении параметра Стандартизировать. Такой способ существования обеспечивает производительность при одновременном снижении вычислительных затрат.

Эти варианты имеют разные компромиссы при обработке двух дополнительных вложений, и разработчики могут выбрать вариант, который соответствует потребностям их конкретных задач.

Размер модели

transformer block По структуре (4 структуры) иметь 4 种Размер модели (S,B,L,XL) соответственно DiT-S、DiT-B、DiT-L и DiT-XL。

image.png
image.png

Эти четыре конфигурации отличаются количеством слоев, скрытыми размерами и объемом вычислений.

возможностииз Одноклассники могут на основе Провести обучение выше:

  • существовать ImageNet данные условия обучения на съемочной площадке из DiT Модель в разрешении 256 × 256 и 512 × 512。использовать AdamW Оптимизатор, скорость обучения 1 × 10^-4, вес уменьшается до 0, размер пакета 256。
  • Распространение: использовать предварительное обучение из вариационного самокодера. (VAE) Закодируйте изображение в низкоразмерное представление и затем существуйте. VAE обучение погружению в космос DiT Модель。

краткое содержание

Детали реализации ключевых технологий Sora поразительны! Видно, что при продвижении и развитии технологий затраты должны строго контролироваться. Для больших моделей самая большая стоимость — это экономия вычислительных затрат! 🚀

если ты прав Sora Если вам интересно, вы можете узнать больше о DiT идиффузия Модельиз Знание。🚀

Хорошо, это вышеизложенное, надеюсь, оно вам понравится~ Добро пожаловать, ставьте лайки, собирайте и комментируйте 🤟 Я Энтони 🤠 Популярный технологический блоггер 💥 Продолжайте обновлять статьи в течение тысячи дней ✍ Следуйте за мной, Энтони будет сопровождать вас на протяжении долгих лет программирование

ссылка:

boy illustration
Учебное пособие по Jetpack Compose для начинающих, базовые элементы управления и макет
boy illustration
Код js веб-страницы, фон частицы, код спецэффектов
boy illustration
【новый! Суперподробное】Полное руководство по свойствам компонентов Figma.
boy illustration
🎉Обязательно к прочтению новичкам: полное руководство по написанию мини-программ WeChat с использованием программного обеспечения Cursor.
boy illustration
[Забавный проект Docker] VoceChat — еще одно приложение для мгновенного чата (IM)! Может быть встроен в любую веб-страницу!
boy illustration
Как реализовать переход по странице в HTML (html переходит на указанную страницу)
boy illustration
Как решить проблему зависания и низкой скорости при установке зависимостей с помощью npm. Существуют ли доступные источники npm, которые могут решить эту проблему?
boy illustration
Серия From Zero to Fun: Uni-App WeChat Payment Practice WeChat авторизует вход в систему и украшает страницу заказа, создает интерфейс заказа и инициирует запрос заказа
boy illustration
Серия uni-app: uni.navigateЧтобы передать скачок значения
boy illustration
Апплет WeChat настраивает верхнюю панель навигации и адаптируется к различным моделям.
boy illustration
JS-время конвертации
boy illustration
Обеспечьте бесперебойную работу ChromeDriver 125: советы по решению проблемы chromedriver.exe не найдены
boy illustration
Поле комментария, щелчок мышью, специальные эффекты, js-код
boy illustration
Объект массива перемещения объекта JS
boy illustration
Как открыть разрешение на позиционирование апплета WeChat_Как использовать WeChat для определения местонахождения друзей
boy illustration
Я даю вам два набора из 18 простых в использовании фонов холста Power BI, так что вам больше не придется возиться с цветами!
boy illustration
Получить текущее время в js_Как динамически отображать дату и время в js
boy illustration
Вам необходимо изучить сочетания клавиш vsCode для форматирования и организации кода, чтобы вам больше не приходилось настраивать формат вручную.
boy illustration
У ChatGPT большое обновление. Всего за 45 минут пресс-конференция показывает, что OpenAI сделал еще один шаг вперед.
boy illustration
Copilot облачной разработки — упрощение разработки
boy illustration
Микросборка xChatGPT с низким кодом, создание апплета чат-бота с искусственным интеллектом за пять шагов
boy illustration
CUDA Out of Memory: идеальное решение проблемы нехватки памяти CUDA
boy illustration
Анализ кластеризации отдельных ячеек, который должен освоить каждый&MarkerгенетическийВизуализация
boy illustration
vLLM: мощный инструмент для ускорения вывода ИИ
boy illustration
CodeGeeX: мощный инструмент генерации кода искусственного интеллекта, который можно использовать бесплатно в дополнение к второму пилоту.
boy illustration
Машинное обучение Реальный бой LightGBM + настройка параметров случайного поиска: точность 96,67%
boy illustration
Бесшовная интеграция, мгновенный интеллект [1]: платформа больших моделей Dify-LLM, интеграция без кодирования и встраивание в сторонние системы, более 42 тысяч звезд, чтобы стать свидетелями эксклюзивных интеллектуальных решений.
boy illustration
LM Studio для создания локальных больших моделей
boy illustration
Как определить количество слоев и нейронов скрытых слоев нейронной сети?
boy illustration
[Отслеживание целей] Подробное объяснение ByteTrack и детали кода