در رویداد I/O خود، گوگل Gemini 2.5 را معرفی کرد، یک مدل هوش مصنوعی با قابلیتهای پیشرفته گفتوگو و تولید صوتی. این بهبودها به منظور ارائه تعاملات صوتی بدون درز در محصولات و زبانهای مختلف در سطح جهانی طراحی شدهاند.
گوگل Gemini 2.5 را با ابزارهای صوتی و TTS بومی
گوگل Gemini 2.5 را در برنامههایی مانند Audio Overviews NotebookLM و Project Astra ادغام کرده است. این مدل بر روی مکالمات صوتی در زمان واقعی تمرکز دارد و به هوش مصنوعی اجازه میدهد تا گفتار را با لحن، سبک و آگاهی از زمینه طبیعی تفسیر و تولید کند.
ویژگیهای گفتوگوی صوتی بومی Gemini 2.5
- تعامل روان و طبیعی: تبادلهای صوتی با تأخیر کم و ریتم طبیعی و بیان احساسی مناسب را فراهم میکند.
- شخصیسازی گفتار: کاربران میتوانند با استفاده از دستورات زبان طبیعی، تحویل گفتار را تغییر دهند و لهجهها، لحنها یا حتی خروجی whispered را فعال کنند.
- ادغام ابزارهای خارجی: در طول مکالمات، دادههای زمان واقعی از ابزارهایی مانند جستجوی گوگل یا راهحلهای سفارشی توسعهدهندگان را شامل میشود.
- فیلتر کردن محیطی: گفتار مرتبط را از نویز پسزمینه یا صدای نامربوط تفکیک میکند و تنها زمانی که مناسب باشد، پاسخ میدهد.
- درک چندرسانهای: محتوای ویدیوهای زنده یا صفحات اشتراکی را تحلیل و بحث میکند.
- انعطافپذیری زبانی: از بیش از 24 زبان پشتیبانی میکند و اجازه ترکیب بیدردسر چندین زبان در یک تعامل واحد را میدهد.
- گفتوگوی پاسخگو به احساسات: پاسخها را بر اساس لحن صدای کاربر تطبیق میدهد و ظرافتهای تحویل گفتار را شناسایی میکند.
- استدلال بهبود یافته: از قابلیتهای منطقی بهبود یافته برای مکالمات منسجمتر و هوشمندانهتر، به ویژه در وظایف پیچیده، بهره میبرد.
شخصیسازی متن به گفتار (TTS)
Gemini 2.5 کنترل پیشرفتهای بر تولید صوتی ارائه میدهد و به کاربران اجازه میدهد خروجی گفتار را با دقت تنظیم کنند:
- نریشن جذاب برای شعر، پخشها یا داستانها، با گزینههایی برای احساسات و لهجههای مختلف.
- تنظیم سرعت گفتار و اصلاحات دقیق تلفظ برای بهبود وضوح صوتی.
- ایجاد گفتوگوهای دوگانه، مانند خلاصهسازیهای گفتاری برای افزایش تعامل.
- تولید بدون درز صوتی به بیش از 24 زبان برای محتوای چندزبانه.
گزینههای توسعهدهنده
گوگل دو پیکربندی Gemini 2.5 را برای توسعه صوتی ارائه میدهد:
- پیشنمایش حرفهای Gemini 2.5: طراحیشده برای خروجی صوتی دقیق و با کیفیت بالا، ایدهآل برای پروژههای پیچیده.
- پیشنمایش فلش Gemini 2.5: برای تولید سریع و مقرونبهصرفه صوتی برای برنامههای روزمره طراحی شده است.
این پیکربندیها تولید صوتی برای برنامههایی مانند پادکستها، بازیهای ویدیویی و اعلامیههای عمومی را تسهیل میکنند.
ایمنی و شفافیت
گوگل ارزیابیهای ریسک جامعی را در طول توسعه ویژگیهای صوتی Gemini 2.5 انجام داد. تدابیر ایمنی از طریق آزمایشهای داخلی و خارجی، از جمله تیمهای قرمز، اصلاح شدهاند. تمام صوتهای تولید شده توسط هوش مصنوعی شامل SynthID، فناوری واترمارکینگ گوگل، برای شناسایی واضح محتوای تولید شده توسط هوش مصنوعی است.
دسترسی برای توسعهدهندگان
گوگل به توسعهدهندگان این امکان را میدهد که از قابلیتهای صوتی Gemini 2.5 از طریق API Gemini استفاده کنند که از طریق Google AI Studio و محیطهای Vertex AI قابل دسترسی است.
- آزمایش گفتار تعاملی: توسعهدهندگان میتوانند با استفاده از Gemini 2.5 Flash در تب استریم Google AI Studio، در مکالمات صوتی زمان واقعی آزمایش کنند.
- ابزارهای ایجاد گفتار: هر دو نسخه Gemini 2.5 Pro و Flash از تولید صوتی پشتیبانی میکنند که از طریق تب تولید رسانه در Google AI Studio در دسترس است.
انتهای خبر گوگل Gemini 2.5 از دایان