💡💡💡Аннотация этой статьи: Улучшенное высокоточное обнаружение поверхностных дефектов на основе YOLOv8, Увеличение очевидно в задачах NEU-DET и GC10-DET;
💡💡💡Инновации: 1) DCNv4 в сочетании с SPPF 2) C2f внесен в CSPStage 3) Три головки обнаружения заменены на четыре;
💡💡💡Нововведение: В задаче NEU-DEU mAP увеличено с исходного значения 0,709. Улучшено до 0,737.
Инновации: 1) DCNv4 в сочетании с SPPF 2) C2f внесен в CSPStage 3) Три головки обнаружения заменены на четыре;
Аннотация: Мы представляем Deformable Convolution v4 (DCNv4), эффективный оператор, предназначенный для широкого спектра приложений машинного зрения. DCNv4 устраняет ограничения своего предшественника DCNv3 с помощью двух ключевых улучшений: устранение нормализации softmax при пространственной агрегации, улучшение динамики и выразительности пространственной агрегации и оптимизация доступа к памяти для минимизации избыточных операций для увеличения скорости. Эти улучшения значительно ускоряют конвергенцию и значительно увеличивают скорость обработки по сравнению с DCNv3, при этом скорость пересылки DCNv4 более чем в три раза превышает скорость DCNv3. DCNv4 демонстрирует отличную производительность при выполнении различных задач, включая классификацию изображений, экземплярную и семантическую сегментацию и особенно генерацию изображений. При интеграции с генеративными моделями, такими как U-Net, в модели скрытой диффузии, DCNv4 превосходит свой базовый уровень, подчеркивая свой потенциал для улучшения генеративных моделей. В практических приложениях замена DCNv3 в модели InternImage на DCNv4 для создания FlashInternImage может увеличить скорость на 80 % без дальнейших модификаций и дополнительно повысить производительность. Достижения DCNv4 в скорости и эффективности, а также его высокая производительность в различных задачах машинного зрения демонстрируют его потенциал в качестве фундаментального строительного блока для будущих моделей машинного зрения.
Как показано на рисунке 1. (а) Мы показываем относительное время работы, используя DCNv3 в качестве эталона. DCNv4 имеет значительное ускорение по сравнению с DCNv3 и превосходит других операторов общего машинного зрения. (б) При одинаковой сетевой архитектуре DCNv4 сходится быстрее, чем другие визуальные операторы, тогда как DCNv3 отстает от визуальных операторов на начальном этапе обучения.
бумага:https://arxiv.org/abs/2202.04256
Оригинальная ссылка:
Эта статья представляет собой работу Alibaba в области обнаружения целей (принята ICLR2022). Она предлагает новую архитектуру GiraffeDet, подобную «Giraffe», которая использует парадигму проектирования архитектуры с легкой магистралью и тяжелой шеей. Предлагаемый GiraffeDet достиг более высокой производительности, чем традиционная магистраль CNN, в наборе данных COCO, достигнув индекса mAP 54,1%, и имеет лучшую способность обрабатывать крупномасштабные изменения целей.
Целью FPN является объединение многомасштабных функций различного разрешения, извлеченных из магистральной сети CNN. На рисунке выше показана эволюция FPN: от первоначальной FPN до PANet и BiFPN. Отметим, что эти архитектуры FPN ориентированы только на объединение функций и не имеют внутриблочных связей. Поэтому мы разработали новый GFPN объединения путей: включая слои пропуска и межмасштабные соединения, см. рисунок d выше.
Наш метод обеспечивает лучшую производительность на NEU-DET и GC10-DET.
Миссия НЭУ-ДЭУ
Оригинальный yolov8n
Высокоточные улучшения YOLOv8
Исходная ссылка