Современные методы семантической сегментации в реальном времени обычноПринятие дополнительных семантических ветвей для реализации богатого контекста на расстоянии.。Однако,Дополнительные ветки приводят к ненужным вычислительным затратам и замедляют вывод.。Чтобы устранить эту дилемму,Мы предлагаем SCTNet, одноветвевую CNN с семантической информацией преобразователя для сегментации в реальном времени.。
https://arxiv.org/abs/2312.17071 https://github.com/xzz777/SCTNet
SCTNet сохраняет эффективность облегченной одноветвевой CNN,Он также имеет богатое семантическое представление семантических ветвей. Учитывая превосходную способность преобразователя извлекать контекст на расстоянии,SCTNetВоляtransformerкак смысловая ветвь, используемая только для обучения。С помощью предлагаемого трансформаторного блока CNN CFBlock и модуля выравнивания семантической информации SCTNet может собирать богатую семантическую информацию из ветви трансформатора во время обучения.。в процессе рассуждения,Требуется только развертывание одноветвевого CNN. Мы провели обширные эксперименты с Cityscapes, ADE20K и COCO-Stuff-10K.,Результаты показывают,Наш подход выходит на новый современный уровень.
В этой статье основное внимание уделяется следующим трем пунктам:
Чтобы сократить вычислительные затраты и получить богатую семантическую информацию, мы разбираем две популярные отраслевые архитектуры на:
Backbone Чтобы повысить скорость вывода, SCTNet использует типичную иерархическую магистраль CNN. Модуль Stem сети SCTNet состоит из двух свертков 3×3; Первые два этапа состоят из сложенных друг на друга остаточных модулей; последние два этапа состоят из предлагаемого CFBlock. CFBlock использует несколько тщательно разработанных операций свертки для выполнения функций удаленного захвата контекста, аналогичных блокам Transformer. Decoder Head Заголовок декодирования состоит из DAPPM и заголовка сегментации. Для дальнейшего обогащения контекстной информации автор добавил DAPPM после Stage4. Затем автор объединяет выходные данные S2 и S4 и передает их в головку сегментации. Training Phase Хорошо известно,Transformer превосходно улавливает глобальный семантический контекст。 с другой стороны,Было показано, что CNN более подходят, чем преобразователи, для моделирования иерархической локальной информации.。 Вдохновленные преимуществами Transformer и CNN, мы исследуем возможность оснащения сети сегментации в реальном времени преимуществами обоих. Мы предлагаем одноветвевую CNN, которая учится согласовывать свои функции с функциями мощного Трансформера.。 Такое выравнивание функций позволяет одноветвевой CNN извлекать богатый глобальный контекст и подробную пространственную информацию. Конкретно,SCTNet использует преобразователь, который действует только на этапе обучения в качестве семантической ветви для извлечения мощного глобального семантического контекста. Модуль выравнивания семантической информации контролирует ветвь свертки для выравнивания высококачественного глобального контекста из преобразователя.。 Inference Phase Чтобы избежать огромных вычислительных затрат обеих ветвей,На этапе вывода развертывается только ветвь CNN.。 Используя семантическую информацию, ориентированную на преобразователь, одноветвевая CNN может генерировать точные результаты сегментации без необходимости использования дополнительной семантики или дорогостоящего плотного слияния. Более конкретно,Входное изображение подается в одноветвевую иерархическую сверточную магистраль. Головка декодера улавливает особенности магистрали и выполняет простое сращивание для классификации пикселей..
На приведенном выше рисунке и в таблице показано сравнение производительности различных решений по семантической сегментации Cityscapes. Как видно из них:
В приведенной выше таблице показано сравнение различных схем сегментации наборов данных ADE20K и COCO-Stuff-10K.,Это очевидно:Предлагаемая сеть SCTNet также обеспечивает лучший баланс скорости и точности.。