ToucanTTS - Набор инструментов для современного синтеза речи

массовая многоязычная модель, охватывающая более 7 000 языков

Онлайн-чат с синтезом речи

Попробуйте ToucanTTS с помощью следующих примеров.

Что такое ToucanTTS?

ToucanTTS - модель генерации речи, разработанная для разговорных сценариев, специально для задач диалогов крупных языковых моделей (LLM) ассистентов, а также приложений, таких как разговорные аудио- и видеовведения. Она поддерживает как китайский, так и английский язык, и благодаря использованию примерно 100 000 часов данных на китайском и английском языках для обучения, ToucanTTS демонстрирует высокое качество и естественность синтеза речи.

Особенности ToucanTTS

Поддержка многоязычности и многоаудио

Поддерживает синтез речи на более чем 7 000 языках благодаря массово многоязычной предварительно обученной модели. Позволяет синтез речи для нескольких дикторов и клонирование просодии (ритм, ударение, интонация) между дикторами

Редактирование с человеком в цикле

Позволяет редактирование синтезированной речи в ходе взаимодействия с человеком, например, для чтения поэзии и литературных исследований

Интерактивные демонстрации

Предоставляет интерактивные демонстрации для массово многоязычного синтеза речи, клонирования стиля между дикторами, создания голоса и чтения поэзии с участием человека

Архитектура и компоненты

Основана в первую очередь на архитектуре FastSpeech 2 с модификациями, например, нормализующим потоковым PostNet, вдохновленным PortaSpeech. Включает автономный выравнивающий узел, обученный методом CTC (Connectionist Temporal Classification), и восстановление спектрограмм для различных приложений. Предлагает предварительно обученные модели для многоязычной модели, выравнивающего узла, функции встраивания, вокодера и внедрения GAN

Простота использования

Построен полностью на Python и PyTorch, нацелен на простоту в использовании для начинающих, сохраняя при этом мощность

Артикуляционные представления

Система IMS Toucan включает артикуляционные представления фонем в качестве входных данных, что позволяет многоязычным данным быть полезными для языков с недостаточными ресурсами

Как использовать ToucanTTS?

Давайте начнем работу с ToucanTTS всего за несколько простых шагов.

1

Скачать с GitHub

Скачайте код с GitHub.

git clone https://github.com/2noise/ToucanTTS
Скачать ToucanTTS
2

Установить зависимости

Прежде чем начать, убедитесь, что у вас установлены необходимые пакеты. Вам понадобятся torch и ToucanTTS. Если вы еще не установили их, вы можете сделать это с помощью pip:

pip install torch ToucanTTS
3

Импорт необходимых библиотек

Импортируйте необходимые библиотеки для вашего скрипта. Вам понадобятся torch, ToucanTTS и Audio из IPython.display

import torch
import ToucanTTS
from IPython.display import Audio
4

Инициализация ToucanTTS

Создайте экземпляр класса ToucanTTS и загрузите предварительно обученные модели.

chat = ToucanTTS.Chat()
chat.load_models()
5

Подготовьте ваш текст

Определите текст, который вы хотите преобразовать в речь. Замените <YOUR TEXT HERE> на ваш желаемый текст.

texts = ["Привет, добро пожаловать в ToucanTTS!",]
6

Генерация речи

Используйте метод infer для генерации речи из текста. Установите use_decoder=True, чтобы включить декодер.

wavs = chat.infer(texts, use_decoder=True)
7

Воспроизведение аудио

Используйте класс Audio из IPython.display для воспроизведения сгенерированного аудио. Установите частоту дискретизации на 24 000 Гц и включите автоматическое воспроизведение.

Audio(wavs[0], rate=24_000, autoplay=True)
8

Полный скрипт

Вот полный скрипт для справки:

import torch
import ToucanTTS
from IPython.display import Audio

# Инициализация ToucanTTS
chat = ToucanTTS.Chat()
chat.load_models()

# Определение текста для преобразования в речь
texts = ["Привет, добро пожаловать в ToucanTTS!",]

# Генерация речи
wavs = chat.infer(texts, use_decoder=True)

# Воспроизведение сгенерированного аудио
Audio(wavs[0], rate=24_000, autoplay=True)

Часто задаваемые вопросы

У вас есть вопрос? Посмотрите некоторые из распространенных запросов ниже.

Какая основная архитектура используется в ToucanTTS?

ToucanTTS в основном основан на архитектуре FastSpeech 2 с модификациями, такими как нормализующий потоковый PostNet, вдохновленный PortaSpeech.

Как ToucanTTS поддерживает языки с низкими ресурсами?

ToucanTTS включает артикуляционное представление фонем в качестве входных данных, что позволяет многоязычным данным помогать языкам с низкими ресурсами.

Можно ли использовать ToucanTTS для синтеза речи с несколькими дикторами?

Да, ToucanTTS позволяет синтезировать речь с несколькими дикторами и клонировать прозодию (ритм, ударение, интонация) среди дикторов.

Какие виды демонстраций доступны в ToucanTTS?

ToucanTTS предоставляет интерактивные демонстрации для массового многоязычного синтеза речи, стилевого клонирования среди дикторов, создания голоса и чтения поэзии с участием человека.

Сколькими языками охвачена массовая многоязычная предварительная модель в ToucanTTS?

Массовая многоязычная предварительная модель в ToucanTTS охватывает более 7,000 языков.

ToucanTTS легок в использовании?

Да, ToucanTTS полностью построен на Python и PyTorch, стремясь быть простым и дружественным для начинающих, сохраняя при этом высокую мощность.