Whisper Это общее распознавание с открытым исходным кодом openai. речи Модель,В то же время он поддерживает перевод на различные языки.Аудиопереводитьстать англичанином(Аудио->текст)。
apt install ffmpeg
pip install -U openai-whisper
инструкция
whisper video.mp4
whisper audio.flac audio.mp3 audio.wav --model medium
whisper japanese.wav --language Japanese
whisper chinese.mp4 --language Chinese --task translate
whisper --help
В коде use ниже приведен пример Python.
import whisper
model = whisper.load_model("base")
result = model.transcribe("audio.mp3")
print(result["text"])
шепот поддерживает только вызовы кода на стороне сервера,Если клиентская часть хочет использовать интерфейс,Whisper ASR Webservice
Помогите нам предоставить такой интерфейс,В настоящее время предоставляются два интерфейса,Распознавание языка аудио и преобразование аудио в текст (поддерживает перевод и транскрипцию)
Whisper ASR Webservice
Помимо поддержкиWhisper
,Также поддерживаетfaster-whisper
;faster-whisper
Говорят, что он может достичь большего, чем Whisper
Возможности более быстрой транскрипции,В то же время использование памяти относительно невелико.
Whisper ASR Webservice
的 git склад 下的docker-compose.gpu.yml
может быть напрямуюиспользовать
в,Аудио-текстовый интерфейс
,Распознанный текст может быть упрощен,Традиционный китайский смешанный,Можно передавать параметрыinitial_prompt
регулировать,Например, установите значение параметраНиже приведены предложения на китайском языке.,Это запись встречи.
,источник: https://blog.csdn.net/gootyking/article/details/134475995
https://zhuanlan.zhihu.com/p/617770448