Автор: Чжао Цзида, Чжэнь Гоюн, Чу Чэнцюнь
Источник: «Компьютерная инженерия»
Редактор: Восточное побережье, потому что @ немного искусственного интеллекта, немного
В задаче обнаружения целей с беспилотных летательных аппаратов (БПЛА) возникают проблемы промаха обнаружения и ложного обнаружения из-за малого масштаба цели обнаружения и сложного фона изображения обнаружения. В ответ на вышеуказанные проблемы предложен улучшенный алгоритм обнаружения целей изображения БПЛА YOLOv8s.
Прежде всего, для сценариев применения, где цели стрельбы дронами обычно представляют собой небольшие цели, количество уровней магистральной сети алгоритма уменьшается, а размер обнаруживаемой карты объектов увеличивается, чтобы сетевая модель могла больше сосредоточиться на во-вторых, для часто используемых наборов данных определенное количество примеров низкого качества влияет на эффект обучения. Функция потерь Wise-IoU введена для усиления эффекта обучения набора данных. Результат, в-третьих, за счет введения модуля улучшения контекста получается характерная информация о небольших целях в различных рецептивных полях, а также улучшается эффект позиционирования и классификации малых целей в сложных средах, наконец, модуль фильтрации пространственных каналов; предназначен для улучшения информации о характеристиках цели в процессе свертки, фильтрации бесполезной информации о помехах и улучшения явления, когда некоторая небольшая информация о целевых характеристиках погружается и теряется во время процесса свертки.
Результаты экспериментов на наборе данных VisDrone2019 показывают, что средняя точность обнаружения (mAP@0,5) этого алгоритма достигает 45,4%, что на 7,3 процентных пункта выше, чем у исходного алгоритма YOLOv8s, а количество параметров уменьшено на 26,13%. В тех же экспериментальных условиях, по сравнению с другими распространенными алгоритмами обнаружения небольших целей, точность и скорость обнаружения также в определенной степени улучшаются.
В последние годы в области обнаружения целей постепенно стали использоваться технологии беспилотных летательных аппаратов (БПЛА) из-за их преимуществ, заключающихся в широком поле зрения и высокой скорости полета. Однако обнаружение целей БПЛА имеет такие проблемы, как малый размер цели и уязвимость к ним. вмешательство окружающей среды, которое ограничивает производительность алгоритма по обнаружению объектов. Поэтому повышение точности обнаружения малоразмерных целей стало актуальным вопросом в последние годы.
В области обнаружения целей существует два алгоритма: традиционные алгоритмы обнаружения целей и алгоритмы обнаружения целей, основанные на глубоком обучении. Традиционный алгоритм обнаружения целей имеет низкую надежность, низкую эффективность и точность обнаружения и не рассматривается в данной статье.
Алгоритмы обнаружения целей, основанные на глубоком обучении, делятся на два типа: двухэтапные алгоритмы обнаружения целей (например, алгоритмы серии R-CNN) и одноэтапные алгоритмы обнаружения целей (например, алгоритмы серии YOLO, алгоритмы серии SSD). Хотя двухступенчатый алгоритм обнаружения целей имеет относительно высокую точность обнаружения, алгоритм весьма сложен и не подходит для условий эксплуатации с быстрым движением и быстрым обнаружением БПЛА. Среди одноступенчатых алгоритмов обнаружения целей с более высокой скоростью обнаружения высокоразвитые алгоритмы серии YOLO имеют хороший баланс между точностью обнаружения и скоростью обнаружения. Среди них алгоритм YOLOv8 с открытым исходным кодом, выпущенный в январе 2023 года, является последним членом семейства YOLO, который может лучше сбалансировать скорость обнаружения и точность обнаружения алгоритма. Поэтому в данной статье алгоритм YOLOv8 используется в качестве базового алгоритма обнаружения целей БПЛА и совершенствуется [1].
Основное внимание и сложность исследования в этой статье в основном сосредоточены на следующих аспектах: информацию о характеристиках нелегко извлечь [2]; общие модели подходят для целей среднего и большого размера, но плохо работают для небольших выборок; качество небольших целевых наборов данных не так хорошо, как общий набор данных [3].
В ответ на вышеуказанные проблемы исследователи сначала оптимизировали алгоритм обнаружения малых целей на основе механизма привязки (Anchor). Например, ZHANG и др. [4] предложили добавить параметр плотности привязки кадров, что улучшило скорость обнаружения малых целей. при этом разные опорные кадры имеют одинаковую плотность обнаружения.
Хотя якорные ящики играют большую роль, большое количество экспериментов последних лет показало, что алгоритмы обнаружения целей на основе якорных блоков также имеют недостатки: заранее заданные якорные ящики приведут к дисбалансу положительных и отрицательных выборок, а также размера, количества и необходимо рассчитать долю ячеек привязки. Это увеличивает сложность алгоритма.
Таким образом, в последние годы постепенно появился механизм без привязки благодаря его превосходным характеристикам. Например, LAW и др. [5] предложили сетевую модель CornerNet для достижения позиционирования на основе верхних левых и нижних правых угловых точек, избегая этого. необходимость в исходном блоке привязки фиксированного размера, который не подходит для обнаружения небольших целей; DUAN и др. [6] предложили сетевую модель CenterNet, в которой добавлены параметры центральной точки на основе CornerNet и достигнуты лучшие результаты, чем CenterNet. Во-вторых, исследователи провели оптимизацию на основе структуры модели сети. Например, Се Синсин и др. [7] предложили динамическую сеть объединения функций, которая может динамически регулировать вес объединения функций и эффективно уменьшать потерю мелких целевых функций во время выполнения функции. процесс слияния.
В последние годы, с точки зрения оптимизации обнаружения целей, внедрение механизмов внимания также стало горячей точкой исследований. Например, LIM и др. [8] предложили механизм внимания, который объединяет информацию о целевом контексте, позволяя сети сосредоточиться на. необходимые детали и тем самым уменьшая фоновую информацию. Помехи косвенно увеличивают необходимую информацию о характеристиках небольших целей.
Кроме того, существуют методы оптимизации, которые напрямую улучшают характеристики небольших целей, в основном включая следующие категории: Проектирование генеративно-состязательных сетей (GAN) [9], такие как SOD-MTGAN, предложенный BAI et al. [10] и EESRG. предложено RABBI и др. [11] AN и другие представляют собой усовершенствования метода GAN; улучшение данных выполняется на наборе обучающих данных, например, метод копирования и увеличения малых целей, предложенный KISANTAL и др. [12], который увеличивает объем обучения сети для небольших целей. ZOPH и др. [13] выдвинули сильные мнения. Метод химического обучения сначала проверяет, а затем обучает данные хорошего качества, что эффективно повышает эффективность обнаружения; поскольку карты объектов разных масштабов содержат разную информацию о признаках, точность обнаружения также можно эффективно повысить за счет объединения многомасштабных карт признаков. Многие методы основаны на усовершенствовании классической сети слияния функций - пирамидальной сети функций (FPN), такой как сбалансированная пирамидальная сеть с объединением функций в пространстве дыр (ABFPN), предложенная ZENG и др. [14], которая новаторски использует пропущенные соединения и значительно улучшает многомасштабные функции Fusion.
Чтобы повысить точность измерений при обнаружении небольших целей, в этой статье предлагается модель YOLOv8-smr. По сравнению с YOLOv8s основные улучшения заключаются в следующих четырех моментах:
1) Для сценариев применения, где цели стрельбы дронами обычно являются небольшими целями, уменьшите количество слоев базовой сети алгоритма YOLOv8s (магистральная сеть), увеличьте размер карты объектов, которая должна быть обнаружена в головке обнаружения (головка), и сохраните больше небольшая информация о целевых функциях;
2) Ввиду проблемы, заключающейся в том, что набор данных имеет определенное количество примеров низкого качества, вводится функция потерь Wise-IoU для оптимизации обучающего эффекта набора данных;
3) Внедрение модуля улучшения контекста (CAM), который объединяет саму цель и информацию об окружающих ее объектах посредством свертки расширения с различными скоростями расширения для улучшения позиционирования модели и классификации небольших целей в сложных средах;
4) Разработать модуль фильтрации пространственного канала (SCFM), чтобы облегчить проблему поглощения информации о небольших целевых объектах в процессе свертки путем фильтрации информации о помехах и улучшения информации о небольших целевых функциях.
Общая структура YOLOv8 состоит из трех частей: позвоночника, шеи и головы. В соответствии с конкретными потребностями модель делится на пять моделей: YOLOv8n, YOLOv8s, YOLOv8m, YOLOv8l и YOLOv8x в зависимости от размера сетевой модели [15].
В Backbone-части используется структура Darknet53, которая включает в себя базовый блок свертки (Conv), модуль объединения пространственных пирамид (SPPF), который реализует объединение локальных и глобальных объектов на уровне FeatherMap, а также увеличивает глубину и поле восприятия сеть и улучшает функции модуля C2f для извлечения возможностей. Структура модуля C2f показана на рисунке 1.
Часть Neck использует структуру PAN-FPN для объединения нескольких карт объектов разных размеров, в которых модуль C2f также используется в качестве основного модуля для извлечения признаков.
Головная часть использует несвязанную головную структуру для разделения классификации и обнаружения и в то же время использует лучший механизм без привязки в процессе обнаружения. Структура модели развязывающей головки представлена на рисунке 2.
Что касается расчета функции потерь, принята стратегия распределения положительной выборки Task Aligned Assigner, которая представляет собой взвешенную комбинацию трех функций потерь: потери классификации (VFL) и потери регрессии (CIoU + DFL).
После оптимизации структуры модели, оптимизации функции потерь, добавления модуля улучшения контекста и добавления модуля SCFM на основе YOLOv8 окончательная сетевая модель алгоритма обнаружения целей БПЛА в этой статье показана на рисунке 3. В следующих разделах представлены конкретная структура и алгоритм каждого модуля оптимизации соответственно.
Размер входного изображения модели YOLOv8s будет изменен до 640×640×3 пикселей, а размеры трех окончательных обнаруженных карт признаков составят 80×80×128 пикселей, 40×40×256 пикселей и 20×20×512 пикселей. пикселей. Когда обнаруживаемые цели, как правило, представляют собой небольшие цели, минимальный размер карты объектов сжимается до 20×20×512 пикселей, что приведет к большой потере информации о признаках небольших целей, а глубокая свертка приведет к потере информации о признаках. мелких целей, находящихся под водой, что влияет на точность обнаружения.
Поэтому в этой статье удаляется уровень Stage Layer3 магистральной части, чтобы сетевая модель не выполняла слишком глубокую свертку. В то же время размер обнаруживаемой карты объектов увеличивается до 160×160×64 пикселей, 80×. 80×128 пикселей и 40×40 пикселей ×256 пикселей.
Благодаря улучшениям модель может сохранять больше информации о характеристиках небольших целей. На наборе данных VisDrone2019 в этой статье проводится экспериментальное сравнение оптимизированной структуры модели с моделью YOLOv8-large [16], в которую непосредственно добавляется слой обнаружения малых целей, и исходной моделью YOLOv8s. Результаты эксперимента показаны в таблице 1. использование 10 операций в секунду. Миллиарды операций с плавающей запятой (GFLOP) измеряют сложность алгоритма.
По сравнению с обычной моделью, которая напрямую добавляет слой обнаружения небольших целей, сложность алгоритма структуры модели в этой статье значительно снижается, но точность обнаружения не сильно отличается по сравнению с исходным алгоритмом YOLOv8s, количество оптимизаций. параметры значительно уменьшаются, а точность значительно повышается. Доказано, что снижение уровня свертки сети может значительно повысить производительность обнаружения небольших целей без дополнительных затрат на сложный алгоритм и может обеспечить лучший баланс между сложностью модели и точностью.
Вычисление функции потерь является важной частью алгоритма обнаружения цели. Функция потерь алгоритма YOLOv8s представляет собой взвешенную комбинацию трех функций потерь VFL и CIoU+DFL. Среди них CIoU вычисляет потерю ограничивающей рамки. Он добавляет расчет потери соотношения сторон, но не учитывает проблему баланса самой выборки набора данных.
Большинство предыдущих функций потерь редко учитывают качество помеченных примеров самого набора данных, но постоянно стремятся улучшить способность подгонки потерь ограничивающей рамки, что приводит к появлению некоторых аннотаций низкого качества, которые оказывают большое влияние на производительность обнаружения. [17]. Поэтому в этой статье Wise-IoU представляет собой новую функцию потерь ограничивающего прямоугольника. Wise-IoU определяется как:
в:(x,y)и(x_{gt},y_{gt})— это координаты центральной точки поля привязки и целевого поля соответственно.;W_gиH_gразмер минимальной ограничивающей рамки;R_{IoU}Представляет соотношение пересечения и объединения.(IoU),— это общая величина, которая измеряет степень перекрытия между предсказанным и реальным блоком. α и β используются в качестве гиперпараметров;,Обычно устанавливаются значения 1,9 и 3,0 [17].
Параметр выброса вводится для описания качества поля привязки, а β отрицательно связан с качеством поля привязки. Формула расчета степени выброса:
в,L^*_{IoU}- градиентный коэффициент монотонного коэффициента фокусировки,иL_{IoU}То же определение,Вот*Указывает, что изменения будут постоянно рассчитываться на основе каждого обнаружения цели во время процесса обучения.;\bar{L}_{IoU}для импульсаmскользящее среднее,представлять\bar{L}_{IoU}Это означает, что максимальный коэффициент усиления градиента можно динамически регулировать в соответствии с процессом обучения.。импульсmФормула расчета:
Среди них: t — значение эпохи; n — значение размера пакета. Значение введения импульса m заключается в том, что после t раундов обучения WIoU распределяет небольшие приросты градиента на некачественные якорные коробки, чтобы уменьшить вредные градиенты.
Повышенные вычислительные затраты WIoU в основном заключаются в расчете коэффициента фокусировки и средней статистики потерь IoU. В тех же условиях эксперимента WIoU работает быстрее, поскольку не рассчитывает соотношение сторон. Таким образом, после замены функции потерь время обучения также эффективно сокращается за счет повышения точности.
Путем наблюдения и анализа набора данных можно обнаружить, что в процессе обнаружения целей БПЛА обнаруживаемые цели являются небольшими и плотными, а обнаружение небольших целей может использовать контекстную информацию как часть функций. Поэтому в этой статье представлен модуль улучшения контекста для увеличения восприимчивого поля обнаружения посредством расширенной свертки со скоростями расширения 1, 3 и 5. В то же время он объединяет информацию о характеристиках цели, подлежащей обнаружению, и ее окружения для улучшения информация о характеристиках небольших замаскированных целей. Способность алгоритма понять цель.
Структура CAM показана на рисунке 4. Выходное изображение базовой части обрабатывается путем свертки расширения со степенью расширения 1, 3 и 5 с учетом характеристик самой цели и относительных характеристик окружающей среды цели, а затем сращивания трех обработанных карт объектов. через функцию Concat. Затем данные передаются на следующий уровень сетевой структуры для обработки.
В структуре модели YOLOv8s часть шеи использует структуру PAN-FPN, которая позволяет добиться объединения нескольких карт объектов разных размеров. Однако во время процесса свертки в картах объектов каждого уровня сети будет большое количество информации о помехах. Эта информация о помехах приведет к серьезной потере информации о признаках некоторых особенно мелких целей во время непрерывного процесса свертки. влияющие на точность обнаружения. Поэтому в этой статье разрабатывается модуль фильтрации пространственных каналов. Эта структура может эффективно фильтровать информацию о помехах карт объектов из каналов и пространств и улучшать информацию о функциях небольших целей. Структура SCFM показана на рисунке 5.
Сначала входная карта признаков сжимается в направлении канала, а затем вводится в модуль пространственной фильтрации (SPM) и модуль канальной фильтрации (CPM) соответственно.
Модуль пространственной фильтрации использует функцию активации Log_Softmax для обработки сжатой карты объектов и пространственно фильтрует карту объектов для улучшения информации об объектах. Алгоритм Log_Softmax выполняет операцию Log над результатами на основе алгоритма Softmax для генерации относительных весов всех позиций относительно канала.
Формула алгоритма Softmax:
Log_Формула алгоритма Softmax:
в:Zвходной вектор,Z_jиZ_iвыражатьвэлемент。
Из формул этих двух алгоритмов видно, что, хотя Log_Softmax и Softmax оба монотонны, они по-разному влияют на относительное значение функции потерь. Использование функции Log_Softmax может еще больше наказать за ошибку в пространстве правдоподобия, что усложнит алгоритм. сходятся быстрее.
Структура модуля канального фильтра показана на рисунке 6. После ввода карты объектов в CPM она подвергается объединению по среднему и максимальному значениям соответственно. Комбинация этих двух методов позволяет получить более подробные глобальные функции. Для улучшения мелких целевых функций вводятся два слоя сверточных слоев и функция активации Hardswish. используется ближайший сосед. Операция повышения дискретизации восстанавливает размер карты объектов, а затем добавляет две отфильтрованные карты объектов для получения окончательного результата модуля CPM.
Метод расчета функции активации Hardswish показан в уравнении (8) [18]:
Hardswish представлен здесь как функция активации, поскольку Hardswish не только обладает преимуществами функции Swish, то есть помогает предотвратить постепенное приближение градиента к 0 во время медленного обучения и возникновение насыщения. Плавность играет важную роль в оптимизации и обобщении, поскольку а также производная. Она всегда больше 0 и состоит из общих операторов, основанных на функции Swish, что значительно уменьшает объем вычислений модели алгоритма, одновременно достигая аналогичных эффектов.
Все эксперименты в этой статье основаны на наборе данных VisDrone2019. Набор данных VisDrone2019 содержит 6471 изображение для обучения и 548 изображений для проверки, которые были сняты дронами, оснащенными камерами, в разных местах и на разных высотах, включая пешехода, человека, автомобиля, фургона, автобуса, грузовика, автомобиля, велосипеда, тент-трехколесного велосипеда, а также 10 предопределенных категорий трехколесных велосипедов охватывают почти все распространенные типы целей при транспортировке и представляют собой общий набор данных для обучения и оценки для обнаружения небольших целей.
Экспериментальная программная среда — Python 3.8.13, PyTorch 1.7.1, cuda 10.1, а аппаратная среда — видеокарта NVIDIA GeForce RTX 2080 Ti. Все эксперименты проводились при одних и тех же гиперпараметрах. Показатели оценки производительности включают mAP@0,5, mAP@0,5:0,95, GFLOP и частоту кадров обнаружения (FPS). Среди них: mAP@0,5 представляет собой среднюю точность обнаружения всех категорий (всего 10 категорий) целей, которые должны быть обнаружены, когда порог равен 0,5; mAP@0,5:0,95 представляет собой среднюю точность обнаружения всех категорий целей, которые должны быть обнаружены, когда пороговое значение составляет 0,5–0,95; используется GFLOP. Измеряется сложность алгоритма; FPS используется для измерения скорости обнаружения алгоритма.
Чтобы доказать эффективность модулей, предложенных в этой статье, проводятся эксперименты по абляции для проверки влияния различных модулей на производительность алгоритмов обнаружения малых целей. В то же время эта разница визуализируется путем отображения результатов обработки. та же картина. Посредством сравнительных экспериментов с другими классическими алгоритмами обнаружения целей и репрезентативными алгоритмами обнаружения малых целей, проведенных в последние годы, было продемонстрировано превосходство общей модели алгоритма, предложенной в этой статье, в области обнаружения небольших целей.
Чтобы доказать превосходство каждого улучшенного модуля, предложенного в этой статье, был проведен эксперимент по абляции. Результаты эксперимента представлены в таблице 2, где жирным шрифтом указано оптимальное значение.
Структура YOLOv8s-smr, полученная в результате оптимизации структуры модели YOLOv8s, на 5,5 процентных пункта выше исходной модели mAP@0,5, mAP@0,5:0,95 выше на 3,8 процентных пункта, а количество параметров уменьшено на 70,3%. по сути то же самое, и FPS здесь падает больше. Это связано с тем, что время постобработки увеличивается с 5,5 мс до 9,3 мс после увеличения размера обнаруживаемой карты объектов.
Заменив исходную функцию потерь YOLOv8 с CIoU на WIoU, mAP@0,5 увеличился на 1,0 процентного пункта, а FPS увеличился на 9,1 кадра/с. Это связано с тем, что замененная функция потерь снижает влияние примеров низкого качества в наборе данных. и по сравнению с CIoU. Поскольку WIoU не рассчитывает соотношение сторон, скорость расчета у него выше, а остальные параметры изменяются меньше.
Как показано на рисунке 7, в той же модели функция потерь была заменена на CIoU, SIoU и WIoU для сравнительных экспериментов. Когда значение терпения было установлено равным 30, CIoU и SIoU полностью сошлись за 138 эпох обучения. Точность при oU, SIoU и WIoU составляет 43,67%, 43,64% и 44,67% соответственно. Хотя WIoU сходится медленно, очевидно, что достигается более высокая точность, что указывает на то, что добавление WIoU эффективно повышает точность обнаружения небольших целей. Путем интуитивного сравнения мы также можем обнаружить, что WIoU имеет наименьшее количество пропущенных и ложных обнаружений.
После добавления CAM на основе YOLOv8s-smr-WIoU значения mAP@0,5 и mAP@0,5:0,95 увеличились на 0,3 процентных пункта, доказывая, что действие CAM по расширению рецептивного поля действительно значительно улучшило обнаружение мелких целей. После добавления SCFM на этой основе путем улучшения мелких целевых объектов в векторном слое mAP@0,5 увеличивается на 0,5 процентных пункта, а mAP@0,5:0,95 увеличивается на 0,2 процентных пункта.
Результаты экспериментов окончательной модели алгоритма показывают, что по сравнению с базовой моделью алгоритма YOLOv8s модель алгоритма, предложенная в данной статье, увеличивает mAP@0,5 на 7,3 процентных пункта, mAP@0,5:0,95 на 4,8 процентных пункта, количество параметров уменьшается на 26,13%, а сложность алгоритма увеличивается на 45,26 %, FPS упал на 24,1 кадра/с. Хотя сложность алгоритма возросла, частота кадров в секунду может достигать 62,1 кадра/с, что указывает на то, что алгоритм обнаружения целей в этой статье может соответствовать требованиям реального времени.
Визуальное сравнение эффектов обнаружения целей показано на рисунке 8. Видно, что благодаря улучшениям количество пропущенных обнаружений в местах, отмеченных красным прямоугольником, значительно сократилось по сравнению с предыдущей картинкой, а также снизился процент ложных обнаружений в местах, отмеченных синим прямоугольником. моделей алгоритмов сопоставимы с точки зрения ложных обнаружений и пропущенных обнаружений. Имеются определенные улучшения по сравнению с предыдущим поколением, а окончательная модель алгоритма также обеспечивает лучшие результаты обнаружения целей, чем модели предыдущих поколений.
Путем интуитивного сравнения результатов обнаружения можно увидеть, что точность обнаружения небольших целей постоянно улучшается. Однако ясно видно, что, хотя алгоритм прошел множество улучшений, все еще существуют неизбежные проблемы пропущенных и ложных обнаружений. Это также интуитивное отражение того, что mAP@0,5 окончательного алгоритма составляет всего 45,4%.
Чтобы отразить превосходство и сбалансированность алгоритма, предложенного в этой статье, с точки зрения точности и скорости обнаружения, алгоритм в этой статье сравнивается с современными основными классическими алгоритмами обнаружения малых целей, включая RetinaNet [19], Faster-RCNN. [20], CornerNet[5], YOLOv5s[21], Деформируемый DETR[22], TPH-YOLOv5[23], YOLOv7[24], а также недавно опубликованный алгоритм оптимизации точности обнаружения малых целей YOLO-DCTI[25] и алгоритм оптимальной скорости YOLO-PWCA[26] на тех же данных Сравнения проводились в заданных, программных и аппаратных условиях, чтобы проверить эффективность и превосходство улучшений, внесенных в эту модель алгоритма.
В таблице 3 приведено сравнение показателей разных алгоритмов, а на рисунке 9 — визуальное сравнение эффектов обнаружения целей некоторых алгоритмов.
При визуальном сравнении результатов обнаружения, наблюдая явления пропущенного обнаружения и ложного обнаружения, в красной рамке отмечена часть результатов обнаружения каждого алгоритма, видно, что по сравнению с методом YOLO-DCTI с наибольшей точностью алгоритм в В этом документе уровень обнаружения немного ниже, но в правой части изображения количество ложных обнаружений уменьшено. По сравнению с другими алгоритмами уровень обнаружения крошечного автомобиля в верхнем левом углу, а также мотоцикла и велосипеда в левом. центр изображения выше.
При сравнении показателей, хотя точность обнаружения алгоритма в этой статье не самая высокая, метод YOLO-DCTI с наибольшей точностью основан на жертвовании скоростью обнаружения. Скорость обнаружения 11 кадров/с не может соответствовать заявленной. производительность в реальном времени, в то время как алгоритм YOLO-PWCA работает быстро. Он очень быстрый, достигает 181 кадра в секунду, но точность обнаружения явно недостаточна.
Сравнивая приведенные выше несколько алгоритмов, хотя алгоритм в этой статье не имеет высочайшей точности и не является самым быстрым, он может достичь высочайшей точности при условии обнаружения целей в реальном времени со скоростью 62 кадра/с, достигая лучшего баланса между точность и скорость, более подходящие для условий применения БПЛА. Приведенные выше результаты сравнения могут доказать, что предложенный в статье алгоритм более сбалансирован по точности и скорости обнаружения малых целей и имеет превосходство.
В этой статье предлагается улучшенный алгоритм обнаружения небольших целей YOLOv8 для повышения точности обнаружения целей БПЛА. Он оптимизирован по нескольким текущим основным направлениям, включая структуру сети, набор данных и механизм внимания, что делает улучшенную сетевую модель более применимой. для обнаружения мелких целей.
В этой статье увеличивается размер карты объектов, подлежащей обнаружению, вместо простого добавления слоя обнаружения небольших целей. Благодаря таким улучшениям сеть может сосредоточиться на информации о характеристиках небольших целей, не требуя больших вычислительных затрат, что делает ее более подходящей для БПЛА. Сценарии приложений обнаружения; замена функции потерь на WIoU может преобразовать сам набор данных. Качество аннотированных примеров добавляется к параметрам обучения; добавление CAM для связи цели с информацией об окружающих ее объектах может улучшить эффект классификации и распознавания цели. Разработка SCFM может улучшить процесс свертки за счет фильтрации информации о помехах и улучшения мелких деталей; Информация о характеристиках цели. Проблема части информации о характеристиках небольших целей, находящихся под водой. Из результатов абляционного эксперимента видно, что вышеуказанные улучшения оказывают определенное влияние на точность обнаружения.
Хотя алгоритм, предложенный в этой статье, имеет повышенную сложность по сравнению с алгоритмом YOLOv8s, скорость обнаружения окончательной модели может удовлетворить потребности приложения. По сравнению с современными классическими алгоритмами обнаружения целей и репрезентативными алгоритмами обнаружения небольших целей, опубликованными в последние годы, улучшенный алгоритм, предложенный в этой статье, может обеспечить баланс между точностью обнаружения небольших целей и скоростью обнаружения и имеет определенные преимущества. модели алгоритма достигла 45,4%, что привело к значительному повышению точности.
Чтобы позволить БПЛА поддерживать высокоточное обнаружение целей в условиях плохой освещенности, следующим шагом будет добавление модуля предварительной обработки изображения, включая улучшение изображения и коррекцию экспозиции. Кроме того, алгоритм будет дополнительно упрощен, включая, помимо прочего, замену магистральной сети и т. д., и будет развернут на встроенном графическом процессоре устройства Nvidia Jetson AGX Xavier для достижения производительности в реальном времени при ограниченной вычислительной мощности и энергопотреблении. Ресурсы дрона Обнаружение целей.