Поделитесь бесплатным инструментом преобразования текста в речь, который можно использовать в сценариях разговора
Поделитесь бесплатным инструментом преобразования текста в речь, который можно использовать в сценариях разговора

Привет всем, я Xiaomai. Сегодня я поделюсь с вами бесплатным инструментом преобразования текста в речь, который можно использовать в сценариях разговора.

Чтение статистики

Не знаю, бывает ли у вас такая ситуация в повседневной учебе и работе. Когда мы заканчиваем читать статью, мы можем закончить ее быстро, но впечатление будет не очень глубоким или во многих случаях перед компьютером; или мобильный телефон. После долгого чтения у меня очень устают глаза. Надеюсь, я смогу воспринять содержание нашей статьи посредством слуха. Я часто читаю статьи в публичных аккаунтах и ​​предпочитаю их слушать, а не читать. Постепенно мы обнаружили, что прослушивание контента легче воспринимается, чем чтение, и это может значительно снизить усталость глаз.

Аудиочтение содержания статьи
Аудиочтение содержания статьи

Преобразование зрения в слух значительно улучшает наш пользовательский опыт, а также может помочь нам лучше понять содержание статьи. Например, нам неудобно читать замечательные статьи за рулём. В это время мы можем понять содержание статьи, преобразуя зрение в слух.

Упомянутая выше проблема также очень проста. Это не что иное, как преобразование текстового контента в аудиоконтент. На рынке существует множество таких технологий, которые могут конвертировать текст в аудио. Многие крупные компании также предоставляют такие возможности разработки для преобразования контента наших собственных продуктов в аудиоконтент путем стыковки с платформой. С развитием технологий аудиорежимов становится все больше и больше. Например, он поддерживает настройки пола аудиочеловека, тембра, звукового фона и т. д.

Хотя функции этих продуктов очень мощные, они требуют определенных возможностей разработки программ и не очень удобны для пользователей, которые не разбираются в разработке программ. Самая важная проблема заключается в том, что когда мы хотим создать много аудиофайлов, нам нужно за это платить, и стоимость не низкая.

Цена на текст в аудио
Цена на текст в аудио

Что такое Чат ТТС

Сегодня я хочу поделитьсяChatTTS,Что такое Чат А что насчет ТТС? Какие преимущества он имеет перед другими статьями, преобразованными в аудио?

ChatTTS — это разговорный,Оптимизированный,Подходит для естественного разговорного преобразования текста в речь.,и естьБесплатный и с открытым исходным кодомподдерживатьмногоязычныйинструменты。Вы можете встроить его в свои собственные программы,Вы также можете использовать официальные онлайн-инструменты.,Используйте напрямую.

Инструмент преобразования текста в речь ChatTTS
Инструмент преобразования текста в речь ChatTTS

Используйте официальное описание,ChatTTSчто такое。ChatTTSЭто модель генерации речи, специально разработанная для сценариев диалога.,Особенно подходит для диалоговых задач с помощниками по большой языковой модели (LLM).,и такие приложения, как диалоговые аудио- и видеопрезентации. Он поддерживает китайский и английский языки.,Обучение проводилось с использованием примерно 100 000 часов данных на китайском и английском языках.,ChatTTSсуществоватьсинтез Демонстрация высокого качества и естественности речи.

Как использовать

Если вы не программист, вы можете напрямую использовать онлайн-инструмент для генерации речи на официальном сайте. Вставьте текст, который необходимо преобразовать в речь, непосредственно в поле содержимого, а также вы можете внести некоторые изменения в сгенерированную речь, например, скорость звука, тембр и т. д. После его создания нажмите кнопку загрузки на странице, чтобы сохранить аудиофайл локально и использовать его в другом месте.

Настройка параметров ChatTTS
Настройка параметров ChatTTS

Если вы программист и хотите иметь возможность наследовать это в своих собственных продуктах, для достижения этой цели вам потребуется запрограммировать соответствующий код. Но это очень просто. Официал также предоставляет примеры кода, и вы можете сделать это всего с помощью нескольких строк кода.

1. Загрузите код с GitHub.

Язык кода:shell
копировать
git clone https://github.com/2noise/ChatTTS

2. Установите зависимости кода

Прежде чем начать, убедитесь, что у вас установлены необходимые пакеты. Вам понадобится фонарик и ChatTTS. Если он еще не установлен, вы можете установить его с помощью pip.

Язык кода:shell
копировать
pip install torch ChatTTS

3. Импортируйте необходимые библиотеки.

Импортируйте необходимые библиотеки в файлы кода. Вам понадобится фонарик, ChatTTS и аудио из IPython.display.

Язык кода:python
кодКоличество запусков:0
копировать
import torch
import ChatTTS
from IPython.display import Audio

4. Инициализируйте ChatTTS

Создайте экземпляр класса ChatTTS и загрузите предварительно обученную модель.

Язык кода:python
кодКоличество запусков:0
копировать
chat = ChatTTS.Chat()
chat.load_models()

5. Подготовьте текстовый контент

Определите текст, который будет преобразован в речь。ВоляYOUR TEXT HEREЗамените желаемым текстом。

Язык кода:python
кодКоличество запусков:0
копировать
texts = ["Привет, добро пожаловать в ChatTTS!"]

6. Генерация речи

Используйте метод вывода для генерации речи из текста. Установите use_decoder=True, чтобы включить декодер.

Язык кода:python
кодКоличество запусков:0
копировать
wavs = chat.infer(texts, use_decoder=True)

7. Воспроизвести аудио

Воспроизведите сгенерированный звук, используя класс Audio из IPython.display. Установите частоту дискретизации 24 000 Гц и включите автозапуск.

Язык кода:python
кодКоличество запусков:0
копировать
Audio(wavs[0], rate=24_000, autoplay=True)

На данный момент функция всей программы реализована. Из полного кода, приведенного ниже, нетрудно увидеть, что всего несколько строк кода могут преобразовать нужный нам текстовый контент в голосовой файл.

Язык кода:python
кодКоличество запусков:0
копировать
import torch
import ChatTTS
from IPython.display import Audio

# Инициализировать ChatTTS
chat = ChatTTS.Chat()
chat.load_models()

# Определите текст, который будет преобразован в речь
texts = ["Привет, добро пожаловать в ChatTTS!"]

# Генерировать речь
wavs = chat.infer(texts, use_decoder=True)

# Воспроизвести сгенерированный звук
Audio(wavs[0], rate=24_000, autoplay=True)

ChatTTS

Возможно у вас возникнет вопрос,На рынке так много инструментов преобразования текста в речь.,ЧтоChatTTSКаковы преимущества,Или каковы его характеристики? Как упоминалось ранее,Инструмент бесплатный и с открытым исходным кодом.,и поддерживает доступ к программе,Он также поддерживает онлайн-использование.

Что касается конкретных функций, давайте посмотрим, что говорит официальный сайт.

1. Многоязычная поддержка

Ключевой особенностью ChatTTS является поддержка нескольких языков, включая английский и китайский. Это позволяет ему обслуживать широкую базу пользователей и преодолевать языковые барьеры.

2. Масштабное обучение данным.

ChatTTS использует для обучения большой объем данных, около 10 миллионов часов данных на китайском и английском языках. Результатом такой масштабной тренировки является высококачественный синтез звука, который звучит естественно.

3. Совместимость диалоговых задач

ChatTTS хорошо подходит для решения диалоговых задач, которые обычно назначаются LLM с большой языковой моделью. Он может генерировать ответы на разговоры и обеспечивать более естественный и плавный интерактивный опыт при интеграции в различные приложения и службы.

4. План с открытым исходным кодом

Команда проекта планирует открыть исходный код обученной базовой модели. Это позволит академическим исследователям и разработчикам сообщества продолжать исследования и развивать эту технологию.

5. Контроль и безопасность

Команда работает над тем, чтобы сделать модель более управляемой, добавить водяные знаки и интегрировать ее с LLM. Эти усилия обеспечивают безопасность и надежность модели.

6. Простота использования

ChatTTS предоставляет пользователям простой в использовании интерфейс. Для создания соответствующих голосовых файлов в качестве входных данных требуется только текстовая информация. Эта простота делает его удобным для пользователей, нуждающихся в синтезе речи.

Используйте опыт

Будь то онлайн-инструмент или доступ через программу, это общий опыт. Эффект относительно хороший, и его могут принять во внимание те, кто генерирует много контента и беспокоится о стоимости. Еще одним важным моментом является то, что он может генерировать соответствующие языковые функции на основе описания вашего текста.

Например, в сгенерированном тексте я упомянул использование сычуаньского диалекта. Окончательный звуковой эффект будет иметь характеристики сычуаньского диалекта.

На этом распространение этого инструмента заканчивается. Надеюсь, что распространение этого инструмента также будет вам полезно.

boy illustration
Учебное пособие по Jetpack Compose для начинающих, базовые элементы управления и макет
boy illustration
Код js веб-страницы, фон частицы, код спецэффектов
boy illustration
【новый! Суперподробное】Полное руководство по свойствам компонентов Figma.
boy illustration
🎉Обязательно к прочтению новичкам: полное руководство по написанию мини-программ WeChat с использованием программного обеспечения Cursor.
boy illustration
[Забавный проект Docker] VoceChat — еще одно приложение для мгновенного чата (IM)! Может быть встроен в любую веб-страницу!
boy illustration
Как реализовать переход по странице в HTML (html переходит на указанную страницу)
boy illustration
Как решить проблему зависания и низкой скорости при установке зависимостей с помощью npm. Существуют ли доступные источники npm, которые могут решить эту проблему?
boy illustration
Серия From Zero to Fun: Uni-App WeChat Payment Practice WeChat авторизует вход в систему и украшает страницу заказа, создает интерфейс заказа и инициирует запрос заказа
boy illustration
Серия uni-app: uni.navigateЧтобы передать скачок значения
boy illustration
Апплет WeChat настраивает верхнюю панель навигации и адаптируется к различным моделям.
boy illustration
JS-время конвертации
boy illustration
Обеспечьте бесперебойную работу ChromeDriver 125: советы по решению проблемы chromedriver.exe не найдены
boy illustration
Поле комментария, щелчок мышью, специальные эффекты, js-код
boy illustration
Объект массива перемещения объекта JS
boy illustration
Как открыть разрешение на позиционирование апплета WeChat_Как использовать WeChat для определения местонахождения друзей
boy illustration
Я даю вам два набора из 18 простых в использовании фонов холста Power BI, так что вам больше не придется возиться с цветами!
boy illustration
Получить текущее время в js_Как динамически отображать дату и время в js
boy illustration
Вам необходимо изучить сочетания клавиш vsCode для форматирования и организации кода, чтобы вам больше не приходилось настраивать формат вручную.
boy illustration
У ChatGPT большое обновление. Всего за 45 минут пресс-конференция показывает, что OpenAI сделал еще один шаг вперед.
boy illustration
Copilot облачной разработки — упрощение разработки
boy illustration
Микросборка xChatGPT с низким кодом, создание апплета чат-бота с искусственным интеллектом за пять шагов
boy illustration
CUDA Out of Memory: идеальное решение проблемы нехватки памяти CUDA
boy illustration
Анализ кластеризации отдельных ячеек, который должен освоить каждый&MarkerгенетическийВизуализация
boy illustration
vLLM: мощный инструмент для ускорения вывода ИИ
boy illustration
CodeGeeX: мощный инструмент генерации кода искусственного интеллекта, который можно использовать бесплатно в дополнение к второму пилоту.
boy illustration
Машинное обучение Реальный бой LightGBM + настройка параметров случайного поиска: точность 96,67%
boy illustration
Бесшовная интеграция, мгновенный интеллект [1]: платформа больших моделей Dify-LLM, интеграция без кодирования и встраивание в сторонние системы, более 42 тысяч звезд, чтобы стать свидетелями эксклюзивных интеллектуальных решений.
boy illustration
LM Studio для создания локальных больших моделей
boy illustration
Как определить количество слоев и нейронов скрытых слоев нейронной сети?
boy illustration
[Отслеживание целей] Подробное объяснение ByteTrack и детали кода