ابزارهای هوش مصنوعی جدید گوگل در Google I/O 2025 – از جمنای 2.5 تا Veo 3 ،Imagen 4 و Flow

تاریخ : 1404/2/31 نویسنده: آرش افراسیابی
برچسب‌ها :	هوش مصنوعی Artificial Intelligence ، جمنای Gemini ، گوگل Google

واحد خبر mobile.ir : جدیدترین رویداد توسعه‌دهندگان نرم‌افزاری گوگل موسوم به Google I/O 2025 که در روزهای 20 و 21 ماه می سال جاری میلادی (30 و 31 اردیبهشت 1404) در حال برگزاری‌ست یکی از پر سر و صداترین رویدادهای این شرکت در طی سال‌های اخیر است و در روز نخست آن مجموعه‌ای از قابلیت‌های جدید هوش مصنوعی به معرض نمایش گذاشته شده است؛ از جمله این موارد باید به ویژگی‌های جدید مدل‌های هوش مصنوعی Gemini 2.5 و ابزارهای قدرتمند تولید تصویر Imagen 4 و تولید ویدئوی Veo 3 اشاره کرد. گوگل همچنین از Flow به‌عنوان یک سازوکار هوش مصنوعی ساخت فیلم رونمایی کرده که ترکیبی از Veo، Imagen و Gemini را برای ایجاد صحنه‌های سینمایی تنها با پرامپت‌های نوشتاری به‌کار می‌گیرد.

Gemini 2.5

گوگل که در فوریه گذشته از مدل هوش مصنوعی Gemini 2.0 برای کاربران Google Gemini Advanced و توسعه‌دهندگان Google AI Studio و Vertex AI رونمایی کرده بود در این نوبت قابلیت‌های جدید Gemini 2.5 را به‌نمایش گذاشته است. در این نسخه از 24 زبان مختلف پشتیبانی شده و قابلیت‌‌های تبدیل متن به صدا (text-to-speech) و صداهای توصیفی با توناژ‌های گوناگون در آن تقویت شده است. از جمله دیگر قسمت‌های بهبود یافته در این نسخه جدید به‌گفته گوگل باید به استدلال بهتر، چند وجهی بودن (کارکرد با ورودی‌های مختلف از جمله متن، تصویر، صدا،‌ ویدئو، کد و...)، کدینگ بهتر و توانایی درک مفاهیم طولانی در هر دو مدل Flash و Pro اشاره کرد.

مشاهده در آپارات مشاهده در YouTube

بزرگ‌ترین به‌روزرسانی در مدل Pro به افزوده شدن حالت استدلال فکر عمیق یا Deep Think مرتبط است که از آن برای مسائل کاملاً پیچیده ریاضی و وظایف کدنویسی استفاده می‌شود. در این حالت به‌گفته گوگل قبل از پاسخگویی چندین فرضیه مختلف مد نظر قرار می‌گیرد. Deep Think هنوز در مرحله آزمایشی قرار داشته و به‌زودی در اختیار آزمایشگرهای مورد اعتماد گوگل قرار می‌گیرد. Gemini 2.5 در حال حاضر با ارائه ساختار کدنویسی بهبود یافته، ابزارهای ساخت اپلیکیشن‌های مبتنی بر وب (طراحی، کدنویسی و بهینه‌سازی) و امکان خواندن، به‌یاد آوردن و تحلیل 1 میلیون توکن در یک تعامل (چیزی معادل 750 هزار کلمه یا 3 تا 4 هزار صفحه متن!) در بنچ‌مارک‌های هوش مصنوعی WebDev Arena و LMArena جلودار سایر رقباست. قابلیت‌های امنیتی این نسخه از هوش مصنوعی گوگل همچنین در مقابل پرامپت‌های مخرب غیر مستقیم تقویت شده است.

Gemini 2.5 Flash‌ در حال حاضر برای پیش‌نمایش در اختیار تمامی کاربران اپلیکیشن این هوش مصنوعی قرار دارد اما عرضه عمومی آن به اواخر ماه زوئن موکول شده است. ارائه نسخه تجاری Gemini 2.5 Pro نیز اندکی پس از ورژن فلش صورت می‌پذیرد.

Imagen 4

هوش مصنوعی تبدیل متن به عکس Imagen گوگل که محصولی از واحد DeepMind این شرکت است در ابتدا در ماه می سال 2022 به‌عنوان نخستین ابزار تولید عکس مبتنی بر مدل diffusion گوگل عرضه شد و سپس در دسامبر 2023 نسخه دوم آن با بهبود ویژگی‌های نسخه اول ارائه شد. Imagen 3 به‌عنوان گام بلندی رو به جلو با واقع‌گرایی بیش‌تر، نزدیکی بیش‌تر با پرامپت و پشتیبانی از استایل‌ها و نسبت تصویرهای مختلف در آگوست 2024 در دسترس قرار گرفت و حالا در Google I/O 2025 نسخه چهارم ابزار تبدیل متن به عکس گوگل با نام Imagen 4 در مقابل کاربران قرار دارد.

Imagen 4 امکان ایجاد عکس‌هایی با وضوح حداکثر 2K را فراهم آورده و دقت آن در ساخت تصاویر کوچک، پوسترها و کمیک‌ها افزایش یافته است. این نسخه در رندر جزییات کوچک مثل بافت پارچه و قطرات آب موفق عمل می‌کند و سرعت بالاتری نیز نسبت به نسل قبلی دارد. Imagen 4 از روز رونمایی در Gemini، ورک‌ اسپیس گوگل، Whisk و Vertex AI در دسترس قرار دارد.

Veo 3

مدل تبدیل متن به ویدئوی گوگل که بار دیگر در مجموعه DeepMind این شرکت توسعه یافته است در پله نخست با Veo 1 در می 2024 متولد شد. وضوح تصویر در این نسخه به 1080p محدود بوده و تولید صدا در لیست امکانات آن جای نداشت. Veo 2 در دسامبر 2024 وضوح تصویر را به 4K ارتقاء داده و درک بهتری از فیزیک و دینامیک حرکت در آن ایجاد شد. کنترل حرکت دوربین و امکان انتقال استایل از طریق یک عکس مرجع دیگر گزینه‌های جدید Veo 2 را تشکیل می‌دادند. این نسخه نیز البته همچنان از تولید صدا پشتیبانی نمی‌کرد. Veo 3‌ به‌عنوان نسخه جدید این مدل جدا از بهبودهای صورت گرفته در زمینه تبدیل متن به ویدئو حالا از تولید صدا (اعم دیالوگ کاراکترها، صدای پس‌زمینه و یا افکت‌های صوتی) نیز پشتیبانی می‌کند.

مشاهده در آپارات مشاهده در YouTube

Veo 3 از روز رونمایی برای مشترکان سرویس Google AI Ultra (با پرداخت 249.99 دلار به‌صورت ماهیانه!) و کاربران enterprise سرویس Vertex AI در ایالات متحده در دسترس قرار گرفته است.

Flow

Flow‌ ابزار جدید تولید فیلم شرکت گوگل است که توانایی مدل‌های Imagen، ‌Veo و Lyria (مجموعه‌ای از ابزارهای پیشرفته هوش مصنوعی گوگل برای تولید موسیقی) را برای ایجاد صحنه‌های سینمای با جزییات بیش‌تر به‌کار می‌گیرد. این ابزار به‌گفته گوگل تولیدکنندگان سبک‌های مختلف تولید محتوا را قادر به ایجاد کلیپ‌های سینمایی خارق‌العاده با ظاهر و کارکردی منطبق با دنیای واقعی و کاملاً باور پذیر خواهد کرد.

مشاهده در آپارات مشاهده در YouTube

با کمک این ابزار کاربران ضمن کنترل حرکت‌های دوربین و زوایا و پرسپکتیوهای آن، امکان ادیت و ایجاد تغییر در ویدئوهای قبلاً ساخته شده را نیز خواهند داشت. ابزار Flow گوگل در حال حاضر در اختیار کاربران Google AI Pro و AI Ultra در آمریکا قرار دارد.

منبع : Google