ToucanTTS - 最先端音声合成のためのツールキット
7,000以上の言語をカバーする大規模な多言語モデル
オンライン無料チャットTTS
以下の例を使用してToucanTTSを試してください。
ToucanTTSとは?
ToucanTTSは、大規模言語モデル(LLM)アシスタントの対話タスクや会話オーディオ・ビデオの導入などのアプリケーション向けに設計された音声生成モデルです。中国語と英語の両方をサポートし、約100,000時間の中国語と英語のデータを使用してトレーニングされたToucanTTSは、スピーチ合成において高い品質と自然さを示しています。
ToucanTTSの特徴
多言語とマルチスピーカーサポート
大規模なマルチリンガル事前トレーニングモデルを介して7,000以上の言語をカバーしたマルチリンガル音声合成をサポートします。マルチスピーカー音声合成を可能にし、話者間でのリズム、強勢、抑揚などのポロージー(韻律)のクローニングを実現します
ヒューマン・イン・ザ・ループ編集
生成された音声の詩の朗読や文学研究などに人間が介入する編集を可能にします
インタラクティブデモ
大規模なマルチリンガル音声合成、話者間のスタイルクローニング、音声設計、ヒューマン編集された詩の朗読のためのインタラクティブデモを提供します
アーキテクチャとコンポーネント
主にFastSpeech 2アーキテクチャに基づき、PortaSpeechに触発された正規化フローに基づくPostNetなどの変更を含みます。Connectionist Temporal Classification(CTC)でトレーニングされた独立したアライナーとさまざまなアプリケーションのためのスペクトログラム再構成を含んでいます。マルチリンガルモデル、アライナー、埋め込み関数、ボコーダー、および埋め込みGAN用の事前トレーニング済みモデルを提供します
使いやすさ
PythonとPyTorchで完全に構築され、シンプルで初心者でも使いやすくなることを目指していますが、パワフルな機能も提供しています
発音表現
IMS Toucanシステムは、音素の発音表現を入力として取り入れ、低リソース言語にメリットを提供します
ToucanTTSの使い方
数ステップでToucanTTSを始めましょう。
GitHubからダウンロード
GitHubからコードをダウンロードしてください。
git clone https://github.com/2noise/ToucanTTS
ToucanTTSをダウンロード依存関係のインストール
開始する前に、必要なパッケージがインストールされていることを確認してください。torchとToucanTTSが必要です。まだインストールしていない場合は、pipを使用してインストールできます。
pip install torch ToucanTTS
必要なライブラリのインポート
スクリプトに必要なライブラリをインポートします。torch、ToucanTTS、およびIPython.displayからのAudioが必要です。
import torch
import ToucanTTS
from IPython.display import Audio
ToucanTTSの初期化
ToucanTTSクラスのインスタンスを作成し、事前にトレーニングされたモデルを読み込みます。
chat = ToucanTTS.Chat()
chat.load_models()
テキストの準備
音声に変換したいテキストを定義します。 <YOUR TEXT HERE>をお好みのテキストに置き換えます。
texts = ["こんにちは、ToucanTTSへようこそ!",]
音声の生成
テキストから音声を生成するためにinferメソッドを使用します。デコーダーを有効にするには、use_decoder=Trueを設定します。
wavs = chat.infer(texts, use_decoder=True)
オーディオの再生
生成されたオーディオを再生するには、IPython.displayからのAudioクラスを使用します。サンプルレートを24,000 Hzに設定し、自動再生を有効にします。
Audio(wavs[0], rate=24_000, autoplay=True)
完全なスクリプト
参考のために、こちらが完全なスクリプトです:
import torch
import ToucanTTS
from IPython.display import Audio
# ToucanTTSの初期化
chat = ToucanTTS.Chat()
chat.load_models()
# 音声に変換するテキストの定義
texts = ["こんにちは、ToucanTTSへようこそ!",]
# 音声の生成
wavs = chat.infer(texts, use_decoder=True)
# 生成されたオーディオの再生
Audio(wavs[0], rate=24_000, autoplay=True)
よくある質問
質問がありますか?一般的な疑問を以下で確認してください。
ToucanTTSで使用されている主要なアーキテクチャは何ですか?
ToucanTTSは、FastSpeech 2アーキテクチャをベースにし、PortaSpeechに触発された正規化フローベースのPostNetなどの修正を加えています。
ToucanTTSは低リソース言語をどのようにサポートしていますか?
ToucanTTSは、音素の形容形を入力として取り込み、多言語データを低リソース言語に活用することができます。
ToucanTTSはマルチスピーカー音声合成に使用できますか?
はい、ToucanTTSはマルチスピーカー音声合成を可能にし、話者間での韻律、強勢、イントネーションのクローンを実現します。
ToucanTTSにはどのようなデモが利用可能ですか?
ToucanTTSには、大規模多言語音声合成、話者間のスタイルクローニング、音声設計、および人間が編集した詩の朗読のためのインタラクティブなデモが提供されています。
ToucanTTSの大規模多言語事前学習モデルでカバーされている言語はいくつですか?
ToucanTTSの大規模多言語事前学習モデルは7,000以上の言語をカバーしています。
ToucanTTSは使いやすいですか?
はい、ToucanTTSは完全にPythonとPyTorchで構築されており、シンプルで初心者向けでもありながら強力な機能を備えています。