Инструмент глубокого обучения audioFlux — библиотека систематического извлечения аудио-функций.
Инструмент глубокого обучения audioFlux — библиотека систематического извлечения аудио-функций.

Оглавление

  • частотно-временное преобразование
  • перестройка спектра
  • кепстральный коэффициент
  • деконволюция
  • Спектральные характеристики
  • Поиск музыкальной информации

audioFluxэтоPythonиCРеализованные библиотеки,Обеспечить систематическое, комплексное, многомерное извлечение и комбинирование функций в аудиополе.,Объединение различных сетевых моделей глубокого обучения,Проведение бизнес-исследований и разработок в сфере аудио.,Ниже изчастотно-временное преобразование、перестройка спектра、кепстральный коэффициент、деконволюция、Спектральные характеристики、Поиск музыкальной информацииКратко опишите связанные с ним функции в шести аспектах.。

частотно-временное преобразование

audioFluxВ области частотно-временного анализа,Содержит следующие алгоритмы общего преобразования (поддерживает все последующие типы шкалы частот):

  • BFT - На основе преобразования Фурье.

Эквивалентное кратковременное преобразование Фурье (STFT) обычно основано на реализации хорошо известного мел-спектра. Преобразование Фурье перекрывающейся трансляции и оконного преобразования во временной области. Длина перекрывающегося преобразования обычно составляет 1/4. Окно Гаусса также называется преобразованием Габора. Длина оконной функции может быть отрегулирована для удобного моделирования характеристик частотно-временного анализа. Помимо предоставления стандартных спектров mel/bark/erb и других, алгоритм BFT также поддерживает сложные спектры. из этих типов гамм, таких как mel, а также поддерживает перестановку спектров гамм, таких как mel.

  • NSGT - нестационарный Gabor Преобразовать.

Это похоже на STFT (кратковременное преобразование Фурье) с гауссовым окном. Разница в том, что длина оконной функции и t устанавливают нестационарную связь. По сравнению с STFT, он позволяет лучше анализировать нестационарные состояния. сигналы состояния и лучшие конечные точки начала. Эффект обнаружения часто основан на этом типе расчета спектра, и его также можно использовать в качестве эффективного способа реализации CQT. Тип преобразования NSGT с октавной частотой в этом алгоритме является эффективной реализацией. ККТ.

  • CWT - непрерывный вейвлет Преобразовать.

Частотно-временной анализ с различным разрешением, математически говоря, основой преобразования Фурье является бесконечная функция sin/cos, тогда как основой вейвлет-преобразования является конечная и очень маленькая волновая функция. Общая форма выражения волновой функции такова.

\psi_{a,b}(t)=\frac{1}{\sqrt{a}}\psi(\frac{t-b}{a})

Среди них a определяет масштаб масштабирования в частотной области, а шкала временного перевода b устанавливает адаптивный время-частотный анализ. По сравнению с фиксированным частотно-временным разрешением STFT он обладает характеристиками высокого частотного разрешения в низкочастотном диапазоне и высокого времени. разрешение в высокочастотном диапазоне, что очень подходит для анализа нестационарных сигналов, поддерживает часто используемые типы волновых функций, такие как Морзе, Морле, Бамп, Пуал, Мейер и т. д.

  • PWT - псевдовейвлет Преобразовать.

Основываясь на аналогичном эффекте вейвлет-преобразования, достигаемом преобразованием Фурье, эффективный алгоритм CWT вычисляет filterBank для вейвлет-функции частотной области и выполняет точечную операцию над данными в частотной области. Если вейвлет-функция рассматривается как специальная оконная функция, она может создавать подобную CWT функцию. эффект, то есть псевдовейвлет-преобразование, если оконная функция устанавливает параметры регулируемой полосы частот (еще не реализованной в библиотеке), может быть эквивалентен вейвлет-преобразованию.

Вышеупомянутая функция преобразования поддерживает все следующие типы частотных масштабов:

  • linear - Стандартная спектрограмма линейного диапазона частот, половина результата кратковременного преобразования Фурье представляет собой спектрограмму линейного масштаба, а масштаб представляет собой частоту дискретизации/выборку выборки, что является минимальным разрешением в частотной области.
  • linsapce - Спектрограмма пользовательского диапазона частот. Полоса частот может быть больше, чем линейная полоса частот, что эквивалентно понижающей дискретизации во временной области.
  • mel - Спектрограмма шкалы Мела, один из наиболее часто используемых типов спектрограмм в аудио, основана на низкочастотной чувствительности и высокочастотной нечувствительности человеческого слуха и аналогична линейной шкале логарифмического сжатия.
  • bark - Спектрограмма шкалы Бака более соответствует человеческому слуху, чем шкала Мела.
  • erb - Эквивалентная прямоугольная спектрограмма полосы пропускания более соответствует человеческому слуху, чем шкала Бака.
  • octave - Спектрограмма октавного масштаба - спектрограмма, соответствующая логарифмической шкале музыкальных звуков.
  • log - Спектрограмма логарифмического масштаба.

Ниже приведена простая сравнительная таблица различных частотных шкал при преобразовании BFT.

bi2.png
bi2.png

Ниже приведена простая таблица сравнения различных волновых функций CWT.

bi5.png
bi5.png

Следующие алгоритмы доступны как независимые преобразования (несколько типов частотных масштабов не поддерживаются):

  • CQT - Преобразование постоянной добротности, преобразование, при котором соотношение полос частот является константой, обычно используется в музыке и часто используется для расчета характеристик цветности для анализа гармонии.
  • VQT - Переменная QПреобразовать.
  • ST - S-преобразование/преобразование Стоквелла, аналогичное вейвлет-преобразованию, представляет собой крайний частный случай идеи вейвлет-преобразования. Его можно использовать для обнаружения и анализа некоторых экстремальных сигналов мутации, таких как землетрясения и цунами. По сравнению с NSGT, оно также добавляет окно Гаусса. но устанавливает f и соотношение масштабирования t.
  • FST - Быстрое S-преобразование, дискретная реализация S-преобразования по базису 2.
  • DWT - дискретное вейвлет-преобразование,По сравнению с CWT,Частота на основе 2 Преобразовать.
  • WPT - Вейвлет-преобразование пакетов, также известное как вейвлет-разложение пакетов, может выполнять подробное и приблизительное разложение сигналов. Это метод разделения и синтеза сигналов, который может использоваться для таких услуг, как снижение шума и анализ модальной структуры.
  • SWT - Устойчивое вейвлет-преобразование похоже на вейвлет-пакетное преобразование, и разложенный сигнал имеет ту же длину, что и исходный сигнал.

Ниже приведена простая сравнительная таблица различных масштабов трансформации CQT и NSGT.

bi3.png
bi3.png

Очевидно, что NSGT-Octave более четкий и целенаправленный, чем CQT.

Цветность — это более продвинутая функция, основанная на спектре и принадлежащая системе музыкальных гамм. Масштаб немузыкальных тонов хуже, чем музыкальная гамма. В настоящее время функцию цветности поддерживают следующие типы спектра.

  • CQT
  • BFT-linear
  • BFT-octave

Ниже приведена простая сравнительная таблица Chroma.

bi4.png
bi4.png

Очевидно, что CQT-Chroma превосходит цветность других типов спектра.

Примечание:

Спектры в разных масштабах частот имеют свою собственную прикладную ценность. В определенных бизнес-ситуациях эти диаграммы спектра разных масштабов можно объединить в большой набор функций для участия в обучении сети. Спектрограммы называются амплитудным спектром, спектром мощности, логарифмическим спектром/спектром д Б в соответствии с типом значений abs, квадратом, log и другими нелинейными операциями. В глубоком обучении обычно чаще используется логарифмический спектр.

перестройка спектра

Метод синхронного сжатия или перераспределения — это метод, используемый для повышения резкости спектрограмм высокой четкости.,Может улучшить четкость и точность спектра,audioFluxСодержит следующие алгоритмы:

  • reassign - Для переупорядочения преобразования STFT также можно переупорядочить данные спектра, такие как mel/bark/erb, на основе BFT.
  • synsq - Перестановка данных спектра CWT.
  • wsst - Перегруппировка преобразования CWT.

Ниже представлена ​​диаграмма спектра и соответствующая диаграмма перестроенного эффекта.

bi6.png
bi6.png

Это очевидно,Эффект после перегруппировки лучше, чем эффект до перегруппировки. undefinedКто-то может спросить,Поскольку эффект перестановки настолько хорош,Можно ли переупорядочить цикл несколько раз на основе последнего результата??Каков эффект от этого??audioFluxАлгоритмы, связанные с перестановкой, предоставляют несколько механизмов перестановки.,Чтобы узнать о конкретных эффектах, вы можете обратиться к документации, чтобы попробовать и сравнить.

кепстральный коэффициент

Аналогично mfcc для мел-спектра (мел-частота кепстральный коэффициент),В бизнесе эта функция называется уменьшением шага.,Характеристика, отражающая физическую структуру произношения.,Обычно используется для предприятий, связанных с распознаванием речи.,Может использоваться для различных категорий музыкальных инструментов.,Обучение бизнес-моделям, например уточнение структуры.

весьaudioFluxВ системе спектра проекта,За исключением mfcc и соответствующей delta/deltaDelta.,Поддерживает все типы кепстрального коэффициента спектра, т.е. xxcc:

  • lfcc
  • gtcc
  • bfcc
  • cqcc
  • ......

кепстральный в разных спектрах коэффициент,Все они представляют разные спектральные типы корреляции понижения высоты тона.,Все имеют свою собственную прикладную ценность,Например, у gtcc есть статья, в которой говорится, что эффект фонем в распознавании речи лучше, чем у mfcc.,Классификация музыкальных инструментов CQCC и некоторые услуги по структурной доработке намного превосходят классификации MFCC и так далее.

Ниже приводится сравнительная таблица различных спектров кепстрального коэффициента гитарного звука.

xxcc.png
xxcc.png

Очевидно, что cqcc работает лучше всего, когда звук гитары начинает вибрировать, а gtcc работает лучше на последующей продолжительной и стабильной стадии.

деконволюция

по математике,деконволюция — это операция, обратная свертке,Может использоваться как алгоритм разложения сигнала.,Для спектра,Два разложенных данных могут быть выражены в виде диаграммы формантного спектра и диаграммы спектра основного тона.,По сравнению с МФЦК,Форманта — это более общая физическая структура, характерная для произношения.

существоватьaudioFluxсередина,Поддерживает деконволюционную работу всех типов спектра.,Ценность заключается в,Для бизнеса, связанного с питчами,Вывод модели может быть более точным после устранения формантного вмешательства, ориентированного на структурно связанные функции;,Высота тона может быть удалена, чтобы предотвратить вмешательство в обучение модели.

Ниже приведен деконволюционный рендеринг мел-спектрограммы звука гитары с частотой 880 Гц.

bi7.png
bi7.png

Вы можете увидеть очевидный эффект разделения между формантной частью (звуком) и основной частью гитары.

Спектральные характеристики

существоватьaudioFluxсередина,Включает в себя десятки спектральных функций.,Включая функции, связанные с тембром,На основе статистически значимых характеристик,На основе корреляционных характеристик спектрального потока,На основе особенностей, связанных с единственным значением,и т. д.

нравиться:

  • flatness
  • skewness
  • crest
  • slop
  • rolloff
  • ......
  • centroid
  • spread
  • kurtosis
  • ......
  • flux
  • hfc
  • mkl
  • ......
  • ......

Подожди немного,оaudioFluxвсе предусмотрено Спектральные характеристики,Более конкретное описание функции、пример、Пожалуйста, обратитесь к формулам и т. д.Официальная документация

Ниже приведены сравнительные изображения спектральных характеристик.

bi8.png
bi8.png

Поиск музыкальной информации

audioFluxпоставлятьmirСвязанные поляpitchоценивать、обнаружение начала、HPSS (разделение ударных гармоник) и другие связанные бизнес-алгоритмы.

Оценка высоты звука включает в себя соответствующие алгоритмы, основанные на YIN, STFT и т. д. Ниже приведена диаграмма эффекта обнаружения высоты звука для практики вокала.

pitch.png
pitch.png

Красный — фактический эталонный шаг, синий — расчетный шаг.

Обнаружение начала включает в себя связанные алгоритмы, основанные на спектральном потоке, новизне и т. д. Ниже приводится эффект обнаружения конечной точки аккомпанемента при игре на гитаре.

onset.png
onset.png

Красная пунктирная линия на изображении в средней временной области представляет собой наложенную позицию обнаружения конечной точки.

hpss включает такие алгоритмы, как медианная фильтрация и факторизация неотрицательной матрицы (NMF). Ниже приведен эффект разделения, содержащий игру гитары и звук метронома. Верхняя часть представляет собой эффект временной области, а нижняя часть соответствует эффекту частотной области.

hpss.png
hpss.png

наконец,audioFluxда2023Проект с открытым исходным кодом в начале года,Друзья, которым это интересно или интересно, могут активно участвовать в этом проекте.

boy illustration
Учебное пособие по Jetpack Compose для начинающих, базовые элементы управления и макет
boy illustration
Код js веб-страницы, фон частицы, код спецэффектов
boy illustration
【новый! Суперподробное】Полное руководство по свойствам компонентов Figma.
boy illustration
🎉Обязательно к прочтению новичкам: полное руководство по написанию мини-программ WeChat с использованием программного обеспечения Cursor.
boy illustration
[Забавный проект Docker] VoceChat — еще одно приложение для мгновенного чата (IM)! Может быть встроен в любую веб-страницу!
boy illustration
Как реализовать переход по странице в HTML (html переходит на указанную страницу)
boy illustration
Как решить проблему зависания и низкой скорости при установке зависимостей с помощью npm. Существуют ли доступные источники npm, которые могут решить эту проблему?
boy illustration
Серия From Zero to Fun: Uni-App WeChat Payment Practice WeChat авторизует вход в систему и украшает страницу заказа, создает интерфейс заказа и инициирует запрос заказа
boy illustration
Серия uni-app: uni.navigateЧтобы передать скачок значения
boy illustration
Апплет WeChat настраивает верхнюю панель навигации и адаптируется к различным моделям.
boy illustration
JS-время конвертации
boy illustration
Обеспечьте бесперебойную работу ChromeDriver 125: советы по решению проблемы chromedriver.exe не найдены
boy illustration
Поле комментария, щелчок мышью, специальные эффекты, js-код
boy illustration
Объект массива перемещения объекта JS
boy illustration
Как открыть разрешение на позиционирование апплета WeChat_Как использовать WeChat для определения местонахождения друзей
boy illustration
Я даю вам два набора из 18 простых в использовании фонов холста Power BI, так что вам больше не придется возиться с цветами!
boy illustration
Получить текущее время в js_Как динамически отображать дату и время в js
boy illustration
Вам необходимо изучить сочетания клавиш vsCode для форматирования и организации кода, чтобы вам больше не приходилось настраивать формат вручную.
boy illustration
У ChatGPT большое обновление. Всего за 45 минут пресс-конференция показывает, что OpenAI сделал еще один шаг вперед.
boy illustration
Copilot облачной разработки — упрощение разработки
boy illustration
Микросборка xChatGPT с низким кодом, создание апплета чат-бота с искусственным интеллектом за пять шагов
boy illustration
CUDA Out of Memory: идеальное решение проблемы нехватки памяти CUDA
boy illustration
Анализ кластеризации отдельных ячеек, который должен освоить каждый&MarkerгенетическийВизуализация
boy illustration
vLLM: мощный инструмент для ускорения вывода ИИ
boy illustration
CodeGeeX: мощный инструмент генерации кода искусственного интеллекта, который можно использовать бесплатно в дополнение к второму пилоту.
boy illustration
Машинное обучение Реальный бой LightGBM + настройка параметров случайного поиска: точность 96,67%
boy illustration
Бесшовная интеграция, мгновенный интеллект [1]: платформа больших моделей Dify-LLM, интеграция без кодирования и встраивание в сторонние системы, более 42 тысяч звезд, чтобы стать свидетелями эксклюзивных интеллектуальных решений.
boy illustration
LM Studio для создания локальных больших моделей
boy illustration
Как определить количество слоев и нейронов скрытых слоев нейронной сети?
boy illustration
[Отслеживание целей] Подробное объяснение ByteTrack и детали кода