audioFluxэтоPythonиCРеализованные библиотеки,Обеспечить систематическое, комплексное, многомерное извлечение и комбинирование функций в аудиополе.,Объединение различных сетевых моделей глубокого обучения,Проведение бизнес-исследований и разработок в сфере аудио.,Ниже изчастотно-временное преобразование、перестройка спектра、кепстральный коэффициент、деконволюция、Спектральные характеристики、Поиск музыкальной информацииКратко опишите связанные с ним функции в шести аспектах.。
audioFluxВ области частотно-временного анализа,Содержит следующие алгоритмы общего преобразования (поддерживает все последующие типы шкалы частот):
Эквивалентное кратковременное преобразование Фурье (STFT) обычно основано на реализации хорошо известного мел-спектра. Преобразование Фурье перекрывающейся трансляции и оконного преобразования во временной области. Длина перекрывающегося преобразования обычно составляет 1/4. Окно Гаусса также называется преобразованием Габора. Длина оконной функции может быть отрегулирована для удобного моделирования характеристик частотно-временного анализа. Помимо предоставления стандартных спектров mel/bark/erb и других, алгоритм BFT также поддерживает сложные спектры. из этих типов гамм, таких как mel, а также поддерживает перестановку спектров гамм, таких как mel.
Это похоже на STFT (кратковременное преобразование Фурье) с гауссовым окном. Разница в том, что длина оконной функции и t устанавливают нестационарную связь. По сравнению с STFT, он позволяет лучше анализировать нестационарные состояния. сигналы состояния и лучшие конечные точки начала. Эффект обнаружения часто основан на этом типе расчета спектра, и его также можно использовать в качестве эффективного способа реализации CQT. Тип преобразования NSGT с октавной частотой в этом алгоритме является эффективной реализацией. ККТ.
Частотно-временной анализ с различным разрешением, математически говоря, основой преобразования Фурье является бесконечная функция sin/cos, тогда как основой вейвлет-преобразования является конечная и очень маленькая волновая функция. Общая форма выражения волновой функции такова.
Среди них a определяет масштаб масштабирования в частотной области, а шкала временного перевода b устанавливает адаптивный время-частотный анализ. По сравнению с фиксированным частотно-временным разрешением STFT он обладает характеристиками высокого частотного разрешения в низкочастотном диапазоне и высокого времени. разрешение в высокочастотном диапазоне, что очень подходит для анализа нестационарных сигналов, поддерживает часто используемые типы волновых функций, такие как Морзе, Морле, Бамп, Пуал, Мейер и т. д.
Основываясь на аналогичном эффекте вейвлет-преобразования, достигаемом преобразованием Фурье, эффективный алгоритм CWT вычисляет filterBank для вейвлет-функции частотной области и выполняет точечную операцию над данными в частотной области. Если вейвлет-функция рассматривается как специальная оконная функция, она может создавать подобную CWT функцию. эффект, то есть псевдовейвлет-преобразование, если оконная функция устанавливает параметры регулируемой полосы частот (еще не реализованной в библиотеке), может быть эквивалентен вейвлет-преобразованию.
Вышеупомянутая функция преобразования поддерживает все следующие типы частотных масштабов:
Ниже приведена простая сравнительная таблица различных частотных шкал при преобразовании BFT.
Ниже приведена простая таблица сравнения различных волновых функций CWT.
Следующие алгоритмы доступны как независимые преобразования (несколько типов частотных масштабов не поддерживаются):
Ниже приведена простая сравнительная таблица различных масштабов трансформации CQT и NSGT.
Очевидно, что NSGT-Octave более четкий и целенаправленный, чем CQT.
Цветность — это более продвинутая функция, основанная на спектре и принадлежащая системе музыкальных гамм. Масштаб немузыкальных тонов хуже, чем музыкальная гамма. В настоящее время функцию цветности поддерживают следующие типы спектра.
Ниже приведена простая сравнительная таблица Chroma.
Очевидно, что CQT-Chroma превосходит цветность других типов спектра.
Примечание:
Спектры в разных масштабах частот имеют свою собственную прикладную ценность. В определенных бизнес-ситуациях эти диаграммы спектра разных масштабов можно объединить в большой набор функций для участия в обучении сети. Спектрограммы называются амплитудным спектром, спектром мощности, логарифмическим спектром/спектром д Б в соответствии с типом значений abs, квадратом, log и другими нелинейными операциями. В глубоком обучении обычно чаще используется логарифмический спектр.
Метод синхронного сжатия или перераспределения — это метод, используемый для повышения резкости спектрограмм высокой четкости.,Может улучшить четкость и точность спектра,audioFluxСодержит следующие алгоритмы:
Ниже представлена диаграмма спектра и соответствующая диаграмма перестроенного эффекта.
Это очевидно,Эффект после перегруппировки лучше, чем эффект до перегруппировки. undefinedКто-то может спросить,Поскольку эффект перестановки настолько хорош,Можно ли переупорядочить цикл несколько раз на основе последнего результата??Каков эффект от этого??audioFluxАлгоритмы, связанные с перестановкой, предоставляют несколько механизмов перестановки.,Чтобы узнать о конкретных эффектах, вы можете обратиться к документации, чтобы попробовать и сравнить.
Аналогично mfcc для мел-спектра (мел-частота кепстральный коэффициент),В бизнесе эта функция называется уменьшением шага.,Характеристика, отражающая физическую структуру произношения.,Обычно используется для предприятий, связанных с распознаванием речи.,Может использоваться для различных категорий музыкальных инструментов.,Обучение бизнес-моделям, например уточнение структуры.
весьaudioFluxВ системе спектра проекта,За исключением mfcc и соответствующей delta/deltaDelta.,Поддерживает все типы кепстрального коэффициента спектра, т.е. xxcc:
кепстральный в разных спектрах коэффициент,Все они представляют разные спектральные типы корреляции понижения высоты тона.,Все имеют свою собственную прикладную ценность,Например, у gtcc есть статья, в которой говорится, что эффект фонем в распознавании речи лучше, чем у mfcc.,Классификация музыкальных инструментов CQCC и некоторые услуги по структурной доработке намного превосходят классификации MFCC и так далее.
Ниже приводится сравнительная таблица различных спектров кепстрального коэффициента гитарного звука.
Очевидно, что cqcc работает лучше всего, когда звук гитары начинает вибрировать, а gtcc работает лучше на последующей продолжительной и стабильной стадии.
по математике,деконволюция — это операция, обратная свертке,Может использоваться как алгоритм разложения сигнала.,Для спектра,Два разложенных данных могут быть выражены в виде диаграммы формантного спектра и диаграммы спектра основного тона.,По сравнению с МФЦК,Форманта — это более общая физическая структура, характерная для произношения.
существоватьaudioFluxсередина,Поддерживает деконволюционную работу всех типов спектра.,Ценность заключается в,Для бизнеса, связанного с питчами,Вывод модели может быть более точным после устранения формантного вмешательства, ориентированного на структурно связанные функции;,Высота тона может быть удалена, чтобы предотвратить вмешательство в обучение модели.
Ниже приведен деконволюционный рендеринг мел-спектрограммы звука гитары с частотой 880 Гц.
Вы можете увидеть очевидный эффект разделения между формантной частью (звуком) и основной частью гитары.
существоватьaudioFluxсередина,Включает в себя десятки спектральных функций.,Включая функции, связанные с тембром,На основе статистически значимых характеристик,На основе корреляционных характеристик спектрального потока,На основе особенностей, связанных с единственным значением,и т. д.
нравиться:
Подожди немного,оaudioFluxвсе предусмотрено Спектральные характеристики,Более конкретное описание функции、пример、Пожалуйста, обратитесь к формулам и т. д.Официальная документация。
Ниже приведены сравнительные изображения спектральных характеристик.
audioFluxпоставлятьmirСвязанные поляpitchоценивать、обнаружение начала、HPSS (разделение ударных гармоник) и другие связанные бизнес-алгоритмы.
Оценка высоты звука включает в себя соответствующие алгоритмы, основанные на YIN, STFT и т. д. Ниже приведена диаграмма эффекта обнаружения высоты звука для практики вокала.
Красный — фактический эталонный шаг, синий — расчетный шаг.
Обнаружение начала включает в себя связанные алгоритмы, основанные на спектральном потоке, новизне и т. д. Ниже приводится эффект обнаружения конечной точки аккомпанемента при игре на гитаре.
Красная пунктирная линия на изображении в средней временной области представляет собой наложенную позицию обнаружения конечной точки.
hpss включает такие алгоритмы, как медианная фильтрация и факторизация неотрицательной матрицы (NMF). Ниже приведен эффект разделения, содержащий игру гитары и звук метронома. Верхняя часть представляет собой эффект временной области, а нижняя часть соответствует эффекту частотной области.
наконец,audioFluxда2023Проект с открытым исходным кодом в начале года,Друзья, которым это интересно или интересно, могут активно участвовать в этом проекте.