ToucanTTS - 一套用于最先进语音合成的工具包
一个覆盖超过7,000种语言的大型多语言模型
在线免费使用ToucanTTS
通过以下示例尝试ToucanTTS。
ToucanTTS是什么?
ToucanTTS是专为对话场景设计的语音生成模型,特别适用于大型语言模型(LLM)助手的对话任务,以及诸如对话式音频和视频介绍等应用。它支持中文和英文,通过使用大约100,000小时的中文和英文数据进行训练,ToucanTTS在语音合成中表现出高质量和自然度。
ToucanTTS特点
多语言和多说话者支持
通过大规模的多语言预训练模型,支持涵盖超过7,000种语言的多语言语音合成。实现多说话者语音合成,并克隆节奏、重音和语调等韵律跨说话者
人机协同编辑
允许对合成语音进行人机协同编辑,例如用于诗歌朗诵和文学研究
交互式演示
提供大规模多语言语音合成、跨说话者风格克隆、语音设计和人工编辑的诗歌朗诵的交互式演示
架构和组件
主要基于FastSpeech 2架构,具有一些修改,例如受PortaSpeech启发的基于正规化流的PostNet。包括经CTC训练的自包含对齐器和各种应用的谱图重建。提供多语言模型、对齐器、嵌入函数、声码器和嵌入GAN的预训练模型
易用性
完全采用Python和PyTorch构建,旨在简单且适合初学者,同时功能强大
口腔表征
IMS Toucan系统将音素的口腔表征作为输入,使多语言数据可以惠及低资源语言
如何使用ToucanTTS?
只需简单几步,即可开始使用ToucanTTS。
安装依赖项
在开始之前,请确保已安装所需的软件包。您将需要torch和ToucanTTS。如果尚未安装,可以使用pip安装:
pip install torch ToucanTTS
导入所需库
为您的脚本导入必要的库。您将需要torch、ToucanTTS和IPython.display中的Audio。
import torch
import ToucanTTS
from IPython.display import Audio
初始化ToucanTTS
创建ToucanTTS类的实例并加载预训练模型。
chat = ToucanTTS.Chat()
chat.load_models()
准备文本
定义要转换为语音的文本。将<YOUR TEXT HERE>替换为您想要的文本。
texts = ["你好,欢迎使用ToucanTTS!"]
生成语音
使用infer方法从文本生成语音。设置use_decoder=True以启用解码器。
wavs = chat.infer(texts, use_decoder=True)
播放音频
使用IPython.display中的Audio类播放生成的音频。将采样率设置为24,000 Hz并启用自动播放。
Audio(wavs[0], rate=24_000, autoplay=True)
完成脚本
这是供参考的完整脚本:
import torch
import ToucanTTS
from IPython.display import Audio
# 初始化ToucanTTS
chat = ToucanTTS.Chat()
chat.load_models()
# 定义要转换为语音的文本
texts = ["你好,欢迎使用ToucanTTS!"]
# 生成语音
wavs = chat.infer(texts, use_decoder=True)
# 播放生成的音频
Audio(wavs[0], rate=24_000, autoplay=True)
常见问题
有问题吗?查看下面的一些常见疑问。
ToucanTTS使用的主要架构是什么?
ToucanTTS主要基于FastSpeech 2架构,其中包括受PortaSpeech启发的基于正则流的PostNet等修改。
ToucanTTS如何支持资源匮乏的语言?
ToucanTTS将音素的发音特征表示作为输入,使多语言数据有助于资源匮乏的语言。
ToucanTTS可以用于多说话人语音合成吗?
是的,ToucanTTS支持多说话人语音合成,可以跨说话人克隆语调(节奏、重音、语调)。
ToucanTTS提供哪些演示?
ToucanTTS提供互动演示,用于大规模多语言语音合成、跨说话人风格克隆、语音设计以及人工编辑的诗歌朗诵。
ToucanTTS的大规模多语言预训练模型涵盖了多少种语言?
ToucanTTS的大规模多语言预训练模型涵盖超过7,000种语言。
ToucanTTS易于使用吗?
是的,ToucanTTS完全基于Python和PyTorch构建,旨在简单且适合初学者使用,同时仍具有强大功能。