ToucanTTS - Un conjunto de herramientas para la síntesis del habla de última generación

un modelo masivamente multilingüe que cubre más de 7,000 idiomas

ToucanTTS en línea y gratuito

Prueba ToucanTTS con los siguientes ejemplos.

¿Qué es ToucanTTS?

ToucanTTS es un modelo de generación de voz diseñado para escenarios conversacionales, específicamente para las tareas de diálogo de asistentes de modelos de lenguaje grandes (LLM), así como aplicaciones como introducciones de audio y video conversacionales. Admite tanto el chino como el inglés, y a través del uso de aproximadamente 100,000 horas de datos de entrenamiento en chino e inglés, ToucanTTS demuestra alta calidad y naturalidad en la síntesis del habla.

Funciones de ToucanTTS

Soporte multilingüe y multi-locutor

Admite síntesis de voz multilingüe que cubre más de 7,000 idiomas a través de un modelo preentrenado masivamente multilingüe. Permite la síntesis de voz multi-locutor y la clonación de prosodia (ritmo, énfasis, entonación) entre locutores

Edición con intervención humana

Permite la edición con intervención humana de la síntesis de voz, por ejemplo, para la lectura de poesía y estudios literarios

Demos interactivos

Proporciona demos interactivos para la síntesis de voz masivamente multilingüe, clonación de estilo entre locutores, diseño de voz y lectura de poesía editada por humanos

Arquitectura y componentes

Basado principalmente en la arquitectura FastSpeech 2 con modificaciones como un PostNet basado en un flujo de normalización inspirado en PortaSpeech. Incluye un alineador independiente entrenado con la clasificación temporal connectionista (CTC) y la reconstrucción del espectrograma para diversas aplicaciones. Ofrece modelos preentrenados para el modelo multilingüe, alineador, función de incrustación, vocoder y GAN de incrustación

Facilidad de uso

Construido completamente en Python y PyTorch, con el objetivo de ser simple y amigable para principiantes pero a la vez potente

Representaciones articulatorias

El sistema IMS Toucan incorpora representaciones articulatorias de fonemas como entrada, lo que permite que los datos multilingües beneficien a los idiomas de recursos limitados

Cómo usar ToucanTTS

Comencemos con ToucanTTS en solo unos simples pasos.

1

Descargar desde GitHub

Descarga el código desde GitHub.

git clone https://github.com/2noise/ToucanTTS
Descargar ToucanTTS
2

Instalar Dependencias

Antes de comenzar, asegúrate de tener instalados los paquetes necesarios. Necesitarás torch y ToucanTTS. Si aún no los has instalado, puedes hacerlo usando pip:

pip install torch ToucanTTS
3

Importar Bibliotecas Requeridas

Importa las bibliotecas necesarias para tu script. Necesitarás torch, ToucanTTS y Audio de IPython.display

import torch
import ToucanTTS
from IPython.display import Audio
4

Inicializar ToucanTTS

Crea una instancia de la clase ToucanTTS y carga los modelos pre-entrenados.

chat = ToucanTTS.Chat()
chat.load_models()
5

Preparar Tu Texto

Define el texto que deseas convertir en voz. Reemplaza <YOUR TEXT HERE> con tu texto deseado.

texts = ["¡Hola, bienvenido a ToucanTTS!",]
6

Generar Voz

Utiliza el método infer para generar voz a partir del texto. Establece use_decoder=True para habilitar el decodificador.

wavs = chat.infer(texts, use_decoder=True)
7

Reproducir el Audio

Utiliza la clase Audio de IPython.display para reproducir el audio generado. Establece la tasa de muestreo en 24,000 Hz y habilita la reproducción automática.

Audio(wavs[0], rate=24_000, autoplay=True)
8

Script Completo

Aquí tienes el script completo como referencia:

import torch
import ToucanTTS
from IPython.display import Audio

# Inicializar ToucanTTS
chat = ToucanTTS.Chat()
chat.load_models()

# Definir el texto a convertir en voz
texts = ["¡Hola, bienvenido a ToucanTTS!",]

# Generar voz
wavs = chat.infer(texts, use_decoder=True)

# Reproducir el audio generado
Audio(wavs[0], rate=24_000, autoplay=True)

Preguntas Frecuentes

¿Tienes una pregunta? Consulta algunas de las preguntas comunes a continuación.

¿Cuál es la arquitectura principal utilizada en ToucanTTS?

ToucanTTS se basa principalmente en la arquitectura FastSpeech 2 con modificaciones como un PostNet basado en flujos de normalización inspirado en PortaSpeech.

¿Cómo apoya ToucanTTS a los idiomas de recursos limitados?

ToucanTTS incorpora representaciones articulatorias de fonemas como entrada, permitiendo que los datos multilingües beneficien a los idiomas de recursos limitados.

¿Se puede utilizar ToucanTTS para la síntesis de voz de varios hablantes?

Sí, ToucanTTS permite la síntesis de voz de varios hablantes y la clonación de la prosodia (ritmo, énfasis, entonación) entre hablantes.

¿Qué tipo de demos están disponibles en ToucanTTS?

ToucanTTS ofrece demos interactivos para la síntesis de voz masivamente multilingüe, clonación de estilo entre hablantes, diseño de voz y lectura de poesía editada por humanos.

¿Cuántos idiomas cubre el modelo preentrenado masivamente multilingüe en ToucanTTS?

El modelo preentrenado masivamente multilingüe en ToucanTTS cubre más de 7,000 idiomas.

¿Es fácil de usar ToucanTTS?

Sí, ToucanTTS está construido completamente en Python y PyTorch, con el objetivo de ser simple y amigable para principiantes pero a la vez potente.