قوقل تُطلق نموذج Gemini 3.1 Flash TTS لتحويل النص إلى صوت بجودة فائقة مع أدوات تحكم متقدمة

نموذج Gemini 3.1 Flash TTS

أعلنت شركة قوقل عن إطلاق نموذجها الجديد Gemini 3.1 Flash TTS، والذي يأتي ضمن عائلة Gemini 3.1 Flash Audio، مع تركيز واضح على تحسين جودة الصوت، وتعزيز التحكم، وتوفير أداء قابل للتوسع لتلبية احتياجات المطورين والشركات.

ويُعد هذا النموذج خطوة جديدة في تطوير تقنيات تحويل النص إلى صوت، خاصة في ظل الاعتماد المتزايد على الذكاء الاصطناعي في تطبيقات الصوت التفاعلي.

ما هو Gemini 3.1 Flash TTS؟

يعتمد النموذج الجديد على بنية Gemini 3 Pro، وتم تصميمه خصيصًا لتحويل النصوص إلى صوت طبيعي، مع دعم إدخالات نصية تصل إلى 16 ألف رمز (Token)، وإخراج صوتي يصل إلى 32 ألف رمز.

كما يأتي إلى جانبه إصدار أكثر تقدمًا باسم Flash Live، يدعم:

إدخال الصوت، الصور، الفيديو، والنصوص حتى 128 ألف رمز
إخراج صوت ونص حتى 64 ألف رمز

ما يجعله مناسبًا للتطبيقات متعددة الوسائط والتفاعلات الحية.

أبرز الميزات والتحسينات في نموذج Gemini 3.1 Flash TTS

يقدم Gemini 3.1 Flash TTS مجموعة واسعة من الميزات التي ترفع من جودة التجربة الصوتية:

1. جودة صوت محسّنة

إنتاج صوت أكثر طبيعية وتعبيرًا
تحقيق تقييم 1,211 على مقياس Elo في منصة Artificial Analysis

2. توازن بين الأداء والتكلفة

مصنف ضمن أفضل النماذج من حيث التوازن بين جودة الصوت وتكلفة التشغيل

3. التحكم عبر “Audio Tags”

إمكانية التحكم في نبرة الصوت وسرعته وأسلوب الإلقاء
يتم ذلك باستخدام أوامر نصية مدمجة داخل المحتوى

4. دعم تعدد المتحدثين

إنشاء حوارات بين عدة أصوات
تخصيص خصائص صوتية مختلفة لكل متحدث

5. توجيه المشاهد (Scene Direction)

تحديد سياق الحوار وأسلوب التفاعل
الحفاظ على اتساق الشخصية الصوتية عبر المحادثة

6. تحكم دقيق على مستوى الصوت

تعديل النبرة، اللهجة، وسرعة الكلام لكل صوت بشكل مستقل

7. تغييرات صوتية داخل الجملة

إمكانية تغيير أسلوب الصوت داخل نفس الجملة باستخدام أوامر مدمجة

أدوات متقدمة للمطورين

توفر قوقل أدوات قوية للمطورين عبر:

منصة Google AI Studio للتحكم الكامل في مخرجات الصوت
إمكانية تصدير الإعدادات كأكواد عبر Gemini API لاستخدامها في تطبيقات مختلفة

2026-04-16_11-37-58-1024x596 قوقل تُطلق نموذج Gemini 3.1 Flash TTS لتحويل النص إلى صوت بجودة فائقة مع أدوات تحكم متقدمة

دعم لغات واسع وانتشار عالمي

يدعم النموذج أكثر من 70 لغة منها العربية.
يوفر تحكمًا محليًا يناسب كل لغة
مصمم للعمل على نطاق عالمي في مختلف الاستخدامات

حماية المحتوى عبر SynthID

يعتمد النموذج على تقنية SynthID، وهي علامة مائية رقمية مدمجة داخل الصوت:

تساعد في التعرف على المحتوى المُنشأ بالذكاء الاصطناعي
تقلل من مخاطر إساءة الاستخدام

الأمان والخصوصية

التزاماً بمعايير الأمان الرقمي، يتم وسم جميع المقاطع الصوتية التي يتم إنشاؤها عبر Gemini 3.1 Flash TTS بعلامة SynthID المائية. وهي تقنية تشفير غير مرئية تتيح الكشف عن المحتوى المولّد بواسطة الذكاء الاصطناعي، مما يساهم في مكافحة التزييف وسوء الاستخدام.

التوفر وطرق الاستخدام

بدأ طرح Gemini 3.1 Flash TTS بنسخة تجريبية (Preview)، وهو متاح عبر:

للمطورين: من خلال Gemini API وGoogle AI Studio
للشركات: عبر منصة Vertex AI
للمستخدمين: ضمن خدمات Google Workspace عبر Google Vids

الخلاصة باختصار في الآتي:

يمثل Gemini 3.1 Flash TTS نقلة كبيرة في مجال تحويل النص إلى صوت، حيث يجمع بين جودة صوت عالية، وتحكم متقدم، ودعم واسع للغات، إلى جانب أدوات قوية للمطورين. ويؤكد هذا الإطلاق استمرار قوقل في تعزيز حضورها في مجال الذكاء الاصطناعي الصوتي وتقديم حلول أكثر واقعية ومرونة للاستخدامات المختلفة.

المصدر

Source link