Новый SOTA для семантической сегментации: 80,5 млн единиц + 62,8 кадров в секунду! Хуаке и Мейтуан совместно предложили архитектуру сегментации одноветвевого вывода SCTNet, исходный код которой скоро станет открытым!
Новый SOTA для семантической сегментации: 80,5 млн единиц + 62,8 кадров в секунду! Хуаке и Мейтуан совместно предложили архитектуру сегментации одноветвевого вывода SCTNet, исходный код которой скоро станет открытым!

Современные методы семантической сегментации в реальном времени обычноПринятие дополнительных семантических ветвей для реализации богатого контекста на расстоянии.。Однако,Дополнительные ветки приводят к ненужным вычислительным затратам и замедляют вывод.。Чтобы устранить эту дилемму,Мы предлагаем SCTNet, одноветвевую CNN с семантической информацией преобразователя для сегментации в реальном времени.

https://arxiv.org/abs/2312.17071 https://github.com/xzz777/SCTNet

SCTNet сохраняет эффективность облегченной одноветвевой CNN,Он также имеет богатое семантическое представление семантических ветвей. Учитывая превосходную способность преобразователя извлекать контекст на расстоянии,SCTNetВоляtransformerкак смысловая ветвь, используемая только для обучения。С помощью предлагаемого трансформаторного блока CNN CFBlock и модуля выравнивания семантической информации SCTNet может собирать богатую семантическую информацию из ветви трансформатора во время обучения.。в процессе рассуждения,Требуется только развертывание одноветвевого CNN. Мы провели обширные эксперименты с Cityscapes, ADE20K и COCO-Stuff-10K.,Результаты показывают,Наш подход выходит на новый современный уровень.

В этой статье основное внимание уделяется следующим трем пунктам:

  • Мы предлагаем SCTNet, новую одноветвевую сегментацию в реальном времени. Извлекайте богатую семантическую информацию, изучая выравнивание семантической информации от Transformer до CNN.,SCTNet поддерживает высокую скорость вывода легковесной одиночной CNN, в то же время,Высокая точность с трансформатором.
  • Чтобы уменьшить семантический разрыв между функциями CNN и функциями Transformer, мы разработали CFBlock (блок ConvFormer), который может захватывать контекст на большом расстоянии, используя только операции свертки. Кроме того, мы предлагаем SIAM (модуль выравнивания семантической информации) для более эффективного согласования функций.
  • ВГородские пейзажи、Обширные эксперименты с ADE20K и COCO-Stuff-10K. показывают,Предлагаемая SCTNet превосходит существующие современные методы семантической сегментации в реальном времени.. SCTNet открывает новый взгляд на повышение скорости семантической сегментации в реальном времени и производительности.

План этой статьи

Чтобы сократить вычислительные затраты и получить богатую семантическую информацию, мы разбираем две популярные отраслевые архитектуры на:

  • Филиал CNN выполняет логический вывод;
  • Ветка Transformer используется для семантического выравнивания на этапе обучения.

Backbone Чтобы повысить скорость вывода, SCTNet использует типичную иерархическую магистраль CNN. Модуль Stem сети SCTNet состоит из двух свертков 3×3; Первые два этапа состоят из сложенных друг на друга остаточных модулей; последние два этапа состоят из предлагаемого CFBlock. CFBlock использует несколько тщательно разработанных операций свертки для выполнения функций удаленного захвата контекста, аналогичных блокам Transformer. Decoder Head Заголовок декодирования состоит из DAPPM и заголовка сегментации. Для дальнейшего обогащения контекстной информации автор добавил DAPPM после Stage4. Затем автор объединяет выходные данные S2 и S4 и передает их в головку сегментации. Training Phase Хорошо известно,Transformer превосходно улавливает глобальный семантический контекст。 с другой стороны,Было показано, что CNN более подходят, чем преобразователи, для моделирования иерархической локальной информации.。 Вдохновленные преимуществами Transformer и CNN, мы исследуем возможность оснащения сети сегментации в реальном времени преимуществами обоих. Мы предлагаем одноветвевую CNN, которая учится согласовывать свои функции с функциями мощного Трансформера.。 Такое выравнивание функций позволяет одноветвевой CNN извлекать богатый глобальный контекст и подробную пространственную информацию. Конкретно,SCTNet использует преобразователь, который действует только на этапе обучения в качестве семантической ветви для извлечения мощного глобального семантического контекста. Модуль выравнивания семантической информации контролирует ветвь свертки для выравнивания высококачественного глобального контекста из преобразователя.Inference Phase Чтобы избежать огромных вычислительных затрат обеих ветвей,На этапе вывода развертывается только ветвь CNN.。 Используя семантическую информацию, ориентированную на преобразователь, одноветвевая CNN может генерировать точные результаты сегментации без необходимости использования дополнительной семантики или дорогостоящего плотного слияния. Более конкретно,Входное изображение подается в одноветвевую иерархическую сверточную магистраль. Головка декодера улавливает особенности магистрали и выполняет простое сращивание для классификации пикселей..

Эксперимент в этой статье

На приведенном выше рисунке и в таблице показано сравнение производительности различных решений по семантической сегментации Cityscapes. Как видно из них:

  • Предлагаемая SCTNet значительно превосходит другие схемы сегментации в реальном времени и обеспечивает наилучший баланс скорости и точности;
  • Предлагаемый SCTNet-B-Seg100 достиг 80,5% mIoU и скорости 62,8 кадров в секунду.,достигатьСегментация новых SOTA в реальном времени
  • Предлагаемый SCTNet-B-Seg75 достиг 79,8% mIoU, что является более точным, чем RTFormer-B и DDRnet-23, и в два раза быстрее;
  • при всех входных разрешениях,Кроме того, предлагаемая SCTNet-B имеет лучшие показатели, чем другие решения;,SCTNet-S также достиг лучшего баланса производительности, чем STDC2, RTFormer-S, SeaFormer-B и TopFormer-B.

В приведенной выше таблице показано сравнение различных схем сегментации наборов данных ADE20K и COCO-Stuff-10K.,Это очевидно:Предлагаемая сеть SCTNet также обеспечивает лучший баланс скорости и точности.

boy illustration
Основы разработки серверной части FastAPI (4): ошибки документации официального сайта FastAPI, ошибки кодирования и записи важных моментов, на которые следует обратить внимание.
boy illustration
fastadmin нажимает кнопку списка, чтобы перейти на страницу с параметрами и ищет соответствующие данные
boy illustration
Как внедрить/получить bean-компоненты в контейнере Spring в классах, не управляемых контейнером Spring?
boy illustration
Весенние аннотации: подробное объяснение @ResponseBody!
boy illustration
Компания Huawei вступила во второй этап и готова спешить!
boy illustration
Быстро изучите в одной статье — концепцию и технологию реализации NL2SQL для передачи данных с нулевыми затратами.
boy illustration
Как использовать SpringBoot для интеграции EasyExcel 3.x для реализации элегантных функций импорта и экспорта Excel?
boy illustration
Почему транзакция не вступает в силу, когда @Transactional добавляется в частный метод?
boy illustration
Знание создания образов Docker: подробное объяснение команды Dockerfile.
boy illustration
Псевдостатическая конфигурация ThinkPHP
boy illustration
Код изображения для загрузки апплета WeChat: последний доступный (код серверной части + код внешнего интерфейса)
boy illustration
Используйте растровое изображение Redis для реализации эффективной функции статистики регистрации пользователей.
boy illustration
[Nginx29] Обучение Nginx: буфер прокси-модуля (3) и обработка файлов cookie
boy illustration
[Весна] SpringBoot интегрирует ShardingSphere и реализует многопоточную вставку 10 000 фрагментов данных в пакетном режиме (выполнение операций с базой данных и таблицами).
boy illustration
SpringBoot обрабатывает форму данных формы для получения массива объектов
boy illustration
Nginx от новичка до новичка 01 - Установка Nginx через установку исходного кода
boy illustration
Проект flask развертывается на облачном сервере и получает доступ к серверной службе через доменное имя.
boy illustration
Порт запуска проекта Spring Boot часто занят, полное решение
boy illustration
Java вызывает стороннюю платформу для отправки мобильных текстовых сообщений
boy illustration
Практическое руководство по серверной части: как использовать Node.js для разработки интерфейса RESTful API (Node.js + Express + Sequelize + MySQL)
boy illustration
Введение в параметры конфигурации большого экрана мониторинга Grafana (2)
boy illustration
В статье «Научно-популярная статья» подробно объясняется протокол NTP: анализ точной синхронизации времени.
boy illustration
Пример разработки: серверная часть Java и интерфейсная часть vue реализуют функции комментариев и ответов.
boy illustration
Nodejs реализует сжатие и распаковку файлов/каталогов.
boy illustration
SpringBootИнтегрироватьEasyExcelСложно реализоватьExcelлистимпортировать&Функция экспорта
boy illustration
Настройка среды под Mac (используйте Brew для установки go и protoc)
boy illustration
Навыки разрешения конфликтов в Git
boy illustration
Распределенная система журналов: развертывание Plumelog и доступ к системе
boy illustration
Артефакт, который делает код элегантным и лаконичным: программирование на Java8 Stream
boy illustration
Spring Boot(06): Spring Boot в сочетании с MySQL создает минималистскую и эффективную систему управления данными.