ToucanTTS - Набор инструментов для современного синтеза речи
массовая многоязычная модель, охватывающая более 7 000 языков
Онлайн-чат с синтезом речи
Попробуйте ToucanTTS с помощью следующих примеров.
Что такое ToucanTTS?
ToucanTTS - модель генерации речи, разработанная для разговорных сценариев, специально для задач диалогов крупных языковых моделей (LLM) ассистентов, а также приложений, таких как разговорные аудио- и видеовведения. Она поддерживает как китайский, так и английский язык, и благодаря использованию примерно 100 000 часов данных на китайском и английском языках для обучения, ToucanTTS демонстрирует высокое качество и естественность синтеза речи.
Особенности ToucanTTS
Поддержка многоязычности и многоаудио
Поддерживает синтез речи на более чем 7 000 языках благодаря массово многоязычной предварительно обученной модели. Позволяет синтез речи для нескольких дикторов и клонирование просодии (ритм, ударение, интонация) между дикторами
Редактирование с человеком в цикле
Позволяет редактирование синтезированной речи в ходе взаимодействия с человеком, например, для чтения поэзии и литературных исследований
Интерактивные демонстрации
Предоставляет интерактивные демонстрации для массово многоязычного синтеза речи, клонирования стиля между дикторами, создания голоса и чтения поэзии с участием человека
Архитектура и компоненты
Основана в первую очередь на архитектуре FastSpeech 2 с модификациями, например, нормализующим потоковым PostNet, вдохновленным PortaSpeech. Включает автономный выравнивающий узел, обученный методом CTC (Connectionist Temporal Classification), и восстановление спектрограмм для различных приложений. Предлагает предварительно обученные модели для многоязычной модели, выравнивающего узла, функции встраивания, вокодера и внедрения GAN
Простота использования
Построен полностью на Python и PyTorch, нацелен на простоту в использовании для начинающих, сохраняя при этом мощность
Артикуляционные представления
Система IMS Toucan включает артикуляционные представления фонем в качестве входных данных, что позволяет многоязычным данным быть полезными для языков с недостаточными ресурсами
Как использовать ToucanTTS?
Давайте начнем работу с ToucanTTS всего за несколько простых шагов.
Скачать с GitHub
Скачайте код с GitHub.
git clone https://github.com/2noise/ToucanTTS
Скачать ToucanTTSУстановить зависимости
Прежде чем начать, убедитесь, что у вас установлены необходимые пакеты. Вам понадобятся torch и ToucanTTS. Если вы еще не установили их, вы можете сделать это с помощью pip:
pip install torch ToucanTTS
Импорт необходимых библиотек
Импортируйте необходимые библиотеки для вашего скрипта. Вам понадобятся torch, ToucanTTS и Audio из IPython.display
import torch
import ToucanTTS
from IPython.display import Audio
Инициализация ToucanTTS
Создайте экземпляр класса ToucanTTS и загрузите предварительно обученные модели.
chat = ToucanTTS.Chat()
chat.load_models()
Подготовьте ваш текст
Определите текст, который вы хотите преобразовать в речь. Замените <YOUR TEXT HERE> на ваш желаемый текст.
texts = ["Привет, добро пожаловать в ToucanTTS!",]
Генерация речи
Используйте метод infer для генерации речи из текста. Установите use_decoder=True, чтобы включить декодер.
wavs = chat.infer(texts, use_decoder=True)
Воспроизведение аудио
Используйте класс Audio из IPython.display для воспроизведения сгенерированного аудио. Установите частоту дискретизации на 24 000 Гц и включите автоматическое воспроизведение.
Audio(wavs[0], rate=24_000, autoplay=True)
Полный скрипт
Вот полный скрипт для справки:
import torch
import ToucanTTS
from IPython.display import Audio
# Инициализация ToucanTTS
chat = ToucanTTS.Chat()
chat.load_models()
# Определение текста для преобразования в речь
texts = ["Привет, добро пожаловать в ToucanTTS!",]
# Генерация речи
wavs = chat.infer(texts, use_decoder=True)
# Воспроизведение сгенерированного аудио
Audio(wavs[0], rate=24_000, autoplay=True)
Часто задаваемые вопросы
У вас есть вопрос? Посмотрите некоторые из распространенных запросов ниже.
Какая основная архитектура используется в ToucanTTS?
ToucanTTS в основном основан на архитектуре FastSpeech 2 с модификациями, такими как нормализующий потоковый PostNet, вдохновленный PortaSpeech.
Как ToucanTTS поддерживает языки с низкими ресурсами?
ToucanTTS включает артикуляционное представление фонем в качестве входных данных, что позволяет многоязычным данным помогать языкам с низкими ресурсами.
Можно ли использовать ToucanTTS для синтеза речи с несколькими дикторами?
Да, ToucanTTS позволяет синтезировать речь с несколькими дикторами и клонировать прозодию (ритм, ударение, интонация) среди дикторов.
Какие виды демонстраций доступны в ToucanTTS?
ToucanTTS предоставляет интерактивные демонстрации для массового многоязычного синтеза речи, стилевого клонирования среди дикторов, создания голоса и чтения поэзии с участием человека.
Сколькими языками охвачена массовая многоязычная предварительная модель в ToucanTTS?
Массовая многоязычная предварительная модель в ToucanTTS охватывает более 7,000 языков.
ToucanTTS легок в использовании?
Да, ToucanTTS полностью построен на Python и PyTorch, стремясь быть простым и дружественным для начинающих, сохраняя при этом высокую мощность.