Привет всем, я Xiaomai. Сегодня я поделюсь с вами бесплатным инструментом преобразования текста в речь, который можно использовать в сценариях разговора.
Не знаю, бывает ли у вас такая ситуация в повседневной учебе и работе. Когда мы заканчиваем читать статью, мы можем закончить ее быстро, но впечатление будет не очень глубоким или во многих случаях перед компьютером; или мобильный телефон. После долгого чтения у меня очень устают глаза. Надеюсь, я смогу воспринять содержание нашей статьи посредством слуха. Я часто читаю статьи в публичных аккаунтах и предпочитаю их слушать, а не читать. Постепенно мы обнаружили, что прослушивание контента легче воспринимается, чем чтение, и это может значительно снизить усталость глаз.
Преобразование зрения в слух значительно улучшает наш пользовательский опыт, а также может помочь нам лучше понять содержание статьи. Например, нам неудобно читать замечательные статьи за рулём. В это время мы можем понять содержание статьи, преобразуя зрение в слух.
Упомянутая выше проблема также очень проста. Это не что иное, как преобразование текстового контента в аудиоконтент. На рынке существует множество таких технологий, которые могут конвертировать текст в аудио. Многие крупные компании также предоставляют такие возможности разработки для преобразования контента наших собственных продуктов в аудиоконтент путем стыковки с платформой. С развитием технологий аудиорежимов становится все больше и больше. Например, он поддерживает настройки пола аудиочеловека, тембра, звукового фона и т. д.
Хотя функции этих продуктов очень мощные, они требуют определенных возможностей разработки программ и не очень удобны для пользователей, которые не разбираются в разработке программ. Самая важная проблема заключается в том, что когда мы хотим создать много аудиофайлов, нам нужно за это платить, и стоимость не низкая.
Сегодня я хочу поделитьсяChatTTS
,Что такое Чат А что насчет ТТС? Какие преимущества он имеет перед другими статьями, преобразованными в аудио?
ChatTTS — это разговорный,Оптимизированный,Подходит для естественного разговорного преобразования текста в речь.,и естьБесплатный и с открытым исходным кодом
поддерживатьмногоязычный
инструменты。Вы можете встроить его в свои собственные программы,Вы также можете использовать официальные онлайн-инструменты.,Используйте напрямую.
Используйте официальное описание,ChatTTS
что такое。ChatTTSЭто модель генерации речи, специально разработанная для сценариев диалога.,Особенно подходит для диалоговых задач с помощниками по большой языковой модели (LLM).,и такие приложения, как диалоговые аудио- и видеопрезентации. Он поддерживает китайский и английский языки.,Обучение проводилось с использованием примерно 100 000 часов данных на китайском и английском языках.,ChatTTSсуществоватьсинтез Демонстрация высокого качества и естественности речи.
Если вы не программист, вы можете напрямую использовать онлайн-инструмент для генерации речи на официальном сайте. Вставьте текст, который необходимо преобразовать в речь, непосредственно в поле содержимого, а также вы можете внести некоторые изменения в сгенерированную речь, например, скорость звука, тембр и т. д. После его создания нажмите кнопку загрузки на странице, чтобы сохранить аудиофайл локально и использовать его в другом месте.
Если вы программист и хотите иметь возможность наследовать это в своих собственных продуктах, для достижения этой цели вам потребуется запрограммировать соответствующий код. Но это очень просто. Официал также предоставляет примеры кода, и вы можете сделать это всего с помощью нескольких строк кода.
1. Загрузите код с GitHub.
git clone https://github.com/2noise/ChatTTS
2. Установите зависимости кода
Прежде чем начать, убедитесь, что у вас установлены необходимые пакеты. Вам понадобится фонарик и ChatTTS. Если он еще не установлен, вы можете установить его с помощью pip.
pip install torch ChatTTS
3. Импортируйте необходимые библиотеки.
Импортируйте необходимые библиотеки в файлы кода. Вам понадобится фонарик, ChatTTS и аудио из IPython.display.
import torch
import ChatTTS
from IPython.display import Audio
4. Инициализируйте ChatTTS
Создайте экземпляр класса ChatTTS и загрузите предварительно обученную модель.
chat = ChatTTS.Chat()
chat.load_models()
5. Подготовьте текстовый контент
Определите текст, который будет преобразован в речь。ВоляYOUR TEXT HERE
Замените желаемым текстом。
texts = ["Привет, добро пожаловать в ChatTTS!"]
6. Генерация речи
Используйте метод вывода для генерации речи из текста. Установите use_decoder=True, чтобы включить декодер.
wavs = chat.infer(texts, use_decoder=True)
7. Воспроизвести аудио
Воспроизведите сгенерированный звук, используя класс Audio из IPython.display. Установите частоту дискретизации 24 000 Гц и включите автозапуск.
Audio(wavs[0], rate=24_000, autoplay=True)
На данный момент функция всей программы реализована. Из полного кода, приведенного ниже, нетрудно увидеть, что всего несколько строк кода могут преобразовать нужный нам текстовый контент в голосовой файл.
import torch
import ChatTTS
from IPython.display import Audio
# Инициализировать ChatTTS
chat = ChatTTS.Chat()
chat.load_models()
# Определите текст, который будет преобразован в речь
texts = ["Привет, добро пожаловать в ChatTTS!"]
# Генерировать речь
wavs = chat.infer(texts, use_decoder=True)
# Воспроизвести сгенерированный звук
Audio(wavs[0], rate=24_000, autoplay=True)
Возможно у вас возникнет вопрос,На рынке так много инструментов преобразования текста в речь.,ЧтоChatTTS
Каковы преимущества,Или каковы его характеристики? Как упоминалось ранее,Инструмент бесплатный и с открытым исходным кодом.,и поддерживает доступ к программе,Он также поддерживает онлайн-использование.
Что касается конкретных функций, давайте посмотрим, что говорит официальный сайт.
1. Многоязычная поддержка
Ключевой особенностью ChatTTS является поддержка нескольких языков, включая английский и китайский. Это позволяет ему обслуживать широкую базу пользователей и преодолевать языковые барьеры.
2. Масштабное обучение данным.
ChatTTS использует для обучения большой объем данных, около 10 миллионов часов данных на китайском и английском языках. Результатом такой масштабной тренировки является высококачественный синтез звука, который звучит естественно.
3. Совместимость диалоговых задач
ChatTTS хорошо подходит для решения диалоговых задач, которые обычно назначаются LLM с большой языковой моделью. Он может генерировать ответы на разговоры и обеспечивать более естественный и плавный интерактивный опыт при интеграции в различные приложения и службы.
4. План с открытым исходным кодом
Команда проекта планирует открыть исходный код обученной базовой модели. Это позволит академическим исследователям и разработчикам сообщества продолжать исследования и развивать эту технологию.
5. Контроль и безопасность
Команда работает над тем, чтобы сделать модель более управляемой, добавить водяные знаки и интегрировать ее с LLM. Эти усилия обеспечивают безопасность и надежность модели.
6. Простота использования
ChatTTS предоставляет пользователям простой в использовании интерфейс. Для создания соответствующих голосовых файлов в качестве входных данных требуется только текстовая информация. Эта простота делает его удобным для пользователей, нуждающихся в синтезе речи.
Будь то онлайн-инструмент или доступ через программу, это общий опыт. Эффект относительно хороший, и его могут принять во внимание те, кто генерирует много контента и беспокоится о стоимости. Еще одним важным моментом является то, что он может генерировать соответствующие языковые функции на основе описания вашего текста.
Например, в сгенерированном тексте я упомянул использование сычуаньского диалекта. Окончательный звуковой эффект будет иметь характеристики сычуаньского диалекта.
На этом распространение этого инструмента заканчивается. Надеюсь, что распространение этого инструмента также будет вам полезно.