گوگل Gemini 2.5 را با ابزارهای صوتی و TTS بومی گسترش می‌دهد

صفحه نخست
دنیای ai
گوگل Gemini 2.5 را با ابزارهای صوتی و TTS بومی گسترش می‌دهد

در رویداد I/O خود، گوگل Gemini 2.5 را معرفی کرد، یک مدل هوش مصنوعی با قابلیت‌های پیشرفته گفت‌وگو و تولید صوتی. این بهبودها به منظور ارائه تعاملات صوتی بدون درز در محصولات و زبان‌های مختلف در سطح جهانی طراحی شده‌اند.

گوگل Gemini 2.5 را با ابزارهای صوتی و TTS بومی

گوگل Gemini 2.5 را در برنامه‌هایی مانند Audio Overviews NotebookLM و Project Astra ادغام کرده است. این مدل بر روی مکالمات صوتی در زمان واقعی تمرکز دارد و به هوش مصنوعی اجازه می‌دهد تا گفتار را با لحن، سبک و آگاهی از زمینه طبیعی تفسیر و تولید کند.

ویژگی‌های گفت‌وگوی صوتی بومی Gemini 2.5

تعامل روان و طبیعی: تبادل‌های صوتی با تأخیر کم و ریتم طبیعی و بیان احساسی مناسب را فراهم می‌کند.
شخصی‌سازی گفتار: کاربران می‌توانند با استفاده از دستورات زبان طبیعی، تحویل گفتار را تغییر دهند و لهجه‌ها، لحن‌ها یا حتی خروجی whispered را فعال کنند.
ادغام ابزارهای خارجی: در طول مکالمات، داده‌های زمان واقعی از ابزارهایی مانند جستجوی گوگل یا راه‌حل‌های سفارشی توسعه‌دهندگان را شامل می‌شود.
فیلتر کردن محیطی: گفتار مرتبط را از نویز پس‌زمینه یا صدای نامربوط تفکیک می‌کند و تنها زمانی که مناسب باشد، پاسخ می‌دهد.
درک چندرسانه‌ای: محتوای ویدیوهای زنده یا صفحات اشتراکی را تحلیل و بحث می‌کند.
انعطاف‌پذیری زبانی: از بیش از 24 زبان پشتیبانی می‌کند و اجازه ترکیب بی‌دردسر چندین زبان در یک تعامل واحد را می‌دهد.
گفت‌وگوی پاسخگو به احساسات: پاسخ‌ها را بر اساس لحن صدای کاربر تطبیق می‌دهد و ظرافت‌های تحویل گفتار را شناسایی می‌کند.
استدلال بهبود یافته: از قابلیت‌های منطقی بهبود یافته برای مکالمات منسجم‌تر و هوشمندانه‌تر، به ویژه در وظایف پیچیده، بهره می‌برد.

شخصی‌سازی متن به گفتار (TTS)

Gemini 2.5 کنترل پیشرفته‌ای بر تولید صوتی ارائه می‌دهد و به کاربران اجازه می‌دهد خروجی گفتار را با دقت تنظیم کنند:

نریشن جذاب برای شعر، پخش‌ها یا داستان‌ها، با گزینه‌هایی برای احساسات و لهجه‌های مختلف.
تنظیم سرعت گفتار و اصلاحات دقیق تلفظ برای بهبود وضوح صوتی.
ایجاد گفت‌وگوهای دوگانه، مانند خلاصه‌سازی‌های گفتاری برای افزایش تعامل.
تولید بدون درز صوتی به بیش از 24 زبان برای محتوای چندزبانه.

گزینه‌های توسعه‌دهنده

گوگل دو پیکربندی Gemini 2.5 را برای توسعه صوتی ارائه می‌دهد:

پیش‌نمایش حرفه‌ای Gemini 2.5: طراحی‌شده برای خروجی صوتی دقیق و با کیفیت بالا، ایده‌آل برای پروژه‌های پیچیده.
پیش‌نمایش فلش Gemini 2.5: برای تولید سریع و مقرون‌به‌صرفه صوتی برای برنامه‌های روزمره طراحی شده است.

این پیکربندی‌ها تولید صوتی برای برنامه‌هایی مانند پادکست‌ها، بازی‌های ویدیویی و اعلامیه‌های عمومی را تسهیل می‌کنند.

ایمنی و شفافیت

گوگل ارزیابی‌های ریسک جامعی را در طول توسعه ویژگی‌های صوتی Gemini 2.5 انجام داد. تدابیر ایمنی از طریق آزمایش‌های داخلی و خارجی، از جمله تیم‌های قرمز، اصلاح شده‌اند. تمام صوت‌های تولید شده توسط هوش مصنوعی شامل SynthID، فناوری واترمارکینگ گوگل، برای شناسایی واضح محتوای تولید شده توسط هوش مصنوعی است.

دسترسی برای توسعه‌دهندگان

گوگل به توسعه‌دهندگان این امکان را می‌دهد که از قابلیت‌های صوتی Gemini 2.5 از طریق API Gemini استفاده کنند که از طریق Google AI Studio و محیط‌های Vertex AI قابل دسترسی است.

آزمایش گفتار تعاملی: توسعه‌دهندگان می‌توانند با استفاده از Gemini 2.5 Flash در تب استریم Google AI Studio، در مکالمات صوتی زمان واقعی آزمایش کنند.
ابزارهای ایجاد گفتار: هر دو نسخه Gemini 2.5 Pro و Flash از تولید صوتی پشتیبانی می‌کنند که از طریق تب تولید رسانه در Google AI Studio در دسترس است.

انتهای خبر گوگل Gemini 2.5 از دایان