ToucanTTS - Un conjunto de herramientas para la síntesis del habla de última generación
un modelo masivamente multilingüe que cubre más de 7,000 idiomas
ToucanTTS en línea y gratuito
Prueba ToucanTTS con los siguientes ejemplos.
¿Qué es ToucanTTS?
ToucanTTS es un modelo de generación de voz diseñado para escenarios conversacionales, específicamente para las tareas de diálogo de asistentes de modelos de lenguaje grandes (LLM), así como aplicaciones como introducciones de audio y video conversacionales. Admite tanto el chino como el inglés, y a través del uso de aproximadamente 100,000 horas de datos de entrenamiento en chino e inglés, ToucanTTS demuestra alta calidad y naturalidad en la síntesis del habla.
Funciones de ToucanTTS
Soporte multilingüe y multi-locutor
Admite síntesis de voz multilingüe que cubre más de 7,000 idiomas a través de un modelo preentrenado masivamente multilingüe. Permite la síntesis de voz multi-locutor y la clonación de prosodia (ritmo, énfasis, entonación) entre locutores
Edición con intervención humana
Permite la edición con intervención humana de la síntesis de voz, por ejemplo, para la lectura de poesía y estudios literarios
Demos interactivos
Proporciona demos interactivos para la síntesis de voz masivamente multilingüe, clonación de estilo entre locutores, diseño de voz y lectura de poesía editada por humanos
Arquitectura y componentes
Basado principalmente en la arquitectura FastSpeech 2 con modificaciones como un PostNet basado en un flujo de normalización inspirado en PortaSpeech. Incluye un alineador independiente entrenado con la clasificación temporal connectionista (CTC) y la reconstrucción del espectrograma para diversas aplicaciones. Ofrece modelos preentrenados para el modelo multilingüe, alineador, función de incrustación, vocoder y GAN de incrustación
Facilidad de uso
Construido completamente en Python y PyTorch, con el objetivo de ser simple y amigable para principiantes pero a la vez potente
Representaciones articulatorias
El sistema IMS Toucan incorpora representaciones articulatorias de fonemas como entrada, lo que permite que los datos multilingües beneficien a los idiomas de recursos limitados
Cómo usar ToucanTTS
Comencemos con ToucanTTS en solo unos simples pasos.
Descargar desde GitHub
Descarga el código desde GitHub.
git clone https://github.com/2noise/ToucanTTS
Descargar ToucanTTSInstalar Dependencias
Antes de comenzar, asegúrate de tener instalados los paquetes necesarios. Necesitarás torch y ToucanTTS. Si aún no los has instalado, puedes hacerlo usando pip:
pip install torch ToucanTTS
Importar Bibliotecas Requeridas
Importa las bibliotecas necesarias para tu script. Necesitarás torch, ToucanTTS y Audio de IPython.display
import torch
import ToucanTTS
from IPython.display import Audio
Inicializar ToucanTTS
Crea una instancia de la clase ToucanTTS y carga los modelos pre-entrenados.
chat = ToucanTTS.Chat()
chat.load_models()
Preparar Tu Texto
Define el texto que deseas convertir en voz. Reemplaza <YOUR TEXT HERE> con tu texto deseado.
texts = ["¡Hola, bienvenido a ToucanTTS!",]
Generar Voz
Utiliza el método infer para generar voz a partir del texto. Establece use_decoder=True para habilitar el decodificador.
wavs = chat.infer(texts, use_decoder=True)
Reproducir el Audio
Utiliza la clase Audio de IPython.display para reproducir el audio generado. Establece la tasa de muestreo en 24,000 Hz y habilita la reproducción automática.
Audio(wavs[0], rate=24_000, autoplay=True)
Script Completo
Aquí tienes el script completo como referencia:
import torch
import ToucanTTS
from IPython.display import Audio
# Inicializar ToucanTTS
chat = ToucanTTS.Chat()
chat.load_models()
# Definir el texto a convertir en voz
texts = ["¡Hola, bienvenido a ToucanTTS!",]
# Generar voz
wavs = chat.infer(texts, use_decoder=True)
# Reproducir el audio generado
Audio(wavs[0], rate=24_000, autoplay=True)
Preguntas Frecuentes
¿Tienes una pregunta? Consulta algunas de las preguntas comunes a continuación.
¿Cuál es la arquitectura principal utilizada en ToucanTTS?
ToucanTTS se basa principalmente en la arquitectura FastSpeech 2 con modificaciones como un PostNet basado en flujos de normalización inspirado en PortaSpeech.
¿Cómo apoya ToucanTTS a los idiomas de recursos limitados?
ToucanTTS incorpora representaciones articulatorias de fonemas como entrada, permitiendo que los datos multilingües beneficien a los idiomas de recursos limitados.
¿Se puede utilizar ToucanTTS para la síntesis de voz de varios hablantes?
Sí, ToucanTTS permite la síntesis de voz de varios hablantes y la clonación de la prosodia (ritmo, énfasis, entonación) entre hablantes.
¿Qué tipo de demos están disponibles en ToucanTTS?
ToucanTTS ofrece demos interactivos para la síntesis de voz masivamente multilingüe, clonación de estilo entre hablantes, diseño de voz y lectura de poesía editada por humanos.
¿Cuántos idiomas cubre el modelo preentrenado masivamente multilingüe en ToucanTTS?
El modelo preentrenado masivamente multilingüe en ToucanTTS cubre más de 7,000 idiomas.
¿Es fácil de usar ToucanTTS?
Sí, ToucanTTS está construido completamente en Python y PyTorch, con el objetivo de ser simple y amigable para principiantes pero a la vez potente.