ToucanTTS - دليل لتقنية توليد الكلام الحديثة

نموذج متعدد اللغات بشكل هائل يغطي أكثر من ٧,٠٠٠ لغة

دردشة صوتية عبر الإنترنت مجانًا

جرب ToucanTTS مع الأمثلة التالية.

ما هو ToucanTTS؟

ToucanTTS هو نموذج لتوليد الأصوات مصمم لسيناريوهات الحوار، على وجه الخصوص لمهام الحوار لمساعدي النموذج اللغوي الكبير (LLM)، بالإضافة إلى التطبيقات مثل التقديمات الصوتية والمرئية الحوارية. يدعم كلاً من اللغتين الصينية والإنجليزية، ومن خلال استخدام حوالي 100،000 ساعة من البيانات باللغتين الصينية والإنجليزية للتدريب، يظهر ToucanTTS جودة عالية وطبيعية في توليد الكلام.

ميزات ToucanTTS

الدعم متعدد اللغات ومتعدد المتكلمين

يدعم توليد الكلام متعدد اللغات الذي يغطي أكثر من 7,000 لغة من خلال نموذج معتمد مسبقًا متعدد اللغات بشكل كبير. يتيح توليد الكلام متعدد المتكلمين واستنساخ النغمة (الإيقاع، التوتر، التنغيم) عبر المتكلمين

تحرير الإنسان في الحلقة

يسمح بتحرير الإنسان في الحلقة للكلام المولَّد، على سبيل المثال، لقراءة الشعر والدراسات الأدبية

عروض تفاعلية

يوفر عروضاً تفاعلية لتوليد الكلام متعدد اللغات بشكل كبير، واستنساخ النمط عبر المتكلمين، وتصميم الصوت، وقراءة الشعر المحرر عن طريق الإنسان

الهيكل والمكونات

مستند بشكل أساسي إلى هيكل FastSpeech 2 مع تعديلات مثل PostNet القائم على تدفق التطبيع المستوحى من PortaSpeech. يشمل مُحَاملًا مُعزولة مدربة بالتصنيف الزمني المشتق الاتصالي (CTC) وإعادة بناء الطيف لتطبيقات متنوعة. يقدم نماذج معتمدة مسبقًا للنموذج متعدد اللغات، والمُحامِل، ووظيفة التضمين، ومُحول الصوت، ومولّد التضمين

سهولة الاستخدام

مبني بالكامل بلغة Python وPyTorch، بهدف أن يكون بسيطًا ومناسبًا للمبتدئين وفي نفس الوقت قويًا

تمثيلات النُطق

يضمَّن نظام IMS Toucan تضمينات تمثيلات النُطق للصوامت كإدخال، مما يسمح للبيانات متعددة اللغات الاستفادة من اللغات ذات الموارد المنخفضة

كيفية استخدام ToucanTTS؟

لنبدأ استخدام ToucanTTS في خطوات بسيطة قليلة.

1

تحميل من GitHub

قم بتنزيل الكود من GitHub.

git clone https://github.com/2noise/ToucanTTS
تحميل ToucanTTS
2

تثبيت الاعتماديات

قبل البدء، تأكد من تثبيت الحزم الضرورية. ستحتاج إلى torch و ToucanTTS. إذا لم تقم بتثبيتهما بعد، يمكنك القيام بذلك باستخدام pip:

pip install torch ToucanTTS
3

استيراد المكتبات المطلوبة

استورد المكتبات اللازمة لنصيبك. ستحتاج إلى torch و ToucanTTS و Audio من IPython.display

import torch
import ToucanTTS
from IPython.display import Audio
4

تهيئة ToucanTTS

قم بإنشاء نسخة من صنف ToucanTTS وقم بتحميل النماذج المدربة مسبقًا.

chat = ToucanTTS.Chat()
chat.load_models()
5

إعداد النص الخاص بك

حدد النص الذي تريد تحويله إلى كلام. قم بتبديل <YOUR TEXT HERE> بالنص الذي ترغب فيه.

texts = ["مرحبًا، مرحبًا بك في ToucanTTS!",]
6

إنشاء الكلام

استخدم الطريقة infer لإنشاء الكلام من النص. ضع use_decoder=True لتمكين المفك الرمزي.

wavs = chat.infer(texts, use_decoder=True)
7

تشغيل الصوت

استخدم فئة Audio من IPython.display لتشغيل الصوت المُنشأ. ضبط معدل العينة على 24,000 هرتز وتمكين التشغيل التلقائي.

Audio(wavs[0], rate=24_000, autoplay=True)
8

نص كامل

فيما يلي النص الكامل للإشارة:

import torch
import ToucanTTS
from IPython.display import Audio

# تهيئة ToucanTTS
chat = ToucanTTS.Chat()
chat.load_models()

# تعريف النص الذي سيتم تحويله إلى كلام
texts = ["مرحبًا، مرحبًا بك في ToucanTTS!",]

# إنشاء الكلام
wavs = chat.infer(texts, use_decoder=True)

# تشغيل الصوت المولد
Audio(wavs[0], rate=24_000, autoplay=True)

الأسئلة الشائعة

هل لديك سؤال؟ تحقق من بعض الاستفسارات الشائعة أدناه.

ما هي الهندسة المعمارية الأساسية المستخدمة في ToucanTTS؟

يعتمد ToucanTTS بشكل أساسي على هندسة FastSpeech 2 مع تعديلات مثل PostNet المستوحاة من PortaSpeech المعتمدة على تدفق التطبيع.

كيف يدعم ToucanTTS اللغات ذات الموارد المنخفضة؟

يدمج ToucanTTS تمثيلات التحدث للصوامت كإدخال، مما يسمح بتعميم البيانات متعددة اللغات على اللغات ذات الموارد المنخفضة.

هل يمكن استخدام ToucanTTS لتوليد الكلام لعدة متحدثين؟

نعم، يمكن لـ ToucanTTS تمكين توليد الكلام لعدة متحدثين ونسخ النبرة (الإيقاع، الإجهاد، التنغيم) عبر المتحدثين.

أي نوع من العروض التوضيحية متاح في ToucanTTS؟

يوفر ToucanTTS عروض توضيحية تفاعلية لتوليد الكلام متعدد اللغات بشكل هائل، ونسخ الأسلوب عبر المتحدثين، وتصميم الصوت، وقراءة الشعر المحرر بشكل إنساني.

كم عدد اللغات التي تغطيها النموذج المحمل مسبقًا متعدد اللغات بشكل هائل في ToucanTTS؟

يغطي النموذج المحمل مسبقًا متعدد اللغات بشكل هائل في ToucanTTS أكثر من 7,000 لغة.

هل يسهل استخدام ToucanTTS؟

نعم، يتم بناء ToucanTTS بالكامل باستخدام Python و PyTorch، بهدف أن يكون بسيطًا وصديقًا للمبتدئين مع الاحتفاظ بالقوة.