ابزارهای هوش مصنوعی جدید گوگل در Google I/O 2025 – از جمنای 2.5 تا Veo 3 ،Imagen 4 و Flow
نمایش خبر
تاریخ : 1404/2/31 نویسنده: آرش افراسیابی | ||
برچسبها : | هوش مصنوعی Artificial Intelligence ، جمنای Gemini ، گوگل Google |


Gemini 2.5
گوگل که در فوریه گذشته از مدل هوش مصنوعی Gemini 2.0 برای کاربران Google Gemini Advanced و توسعهدهندگان Google AI Studio و Vertex AI رونمایی کرده بود در این نوبت قابلیتهای جدید Gemini 2.5 را بهنمایش گذاشته است. در این نسخه از 24 زبان مختلف پشتیبانی شده و قابلیتهای تبدیل متن به صدا (text-to-speech) و صداهای توصیفی با توناژهای گوناگون در آن تقویت شده است. از جمله دیگر قسمتهای بهبود یافته در این نسخه جدید بهگفته گوگل باید به استدلال بهتر، چند وجهی بودن (کارکرد با ورودیهای مختلف از جمله متن، تصویر، صدا، ویدئو، کد و...)، کدینگ بهتر و توانایی درک مفاهیم طولانی در هر دو مدل Flash و Pro اشاره کرد.
بزرگترین بهروزرسانی در مدل Pro به افزوده شدن حالت استدلال فکر عمیق یا Deep Think مرتبط است که از آن برای مسائل کاملاً پیچیده ریاضی و وظایف کدنویسی استفاده میشود. در این حالت بهگفته گوگل قبل از پاسخگویی چندین فرضیه مختلف مد نظر قرار میگیرد. Deep Think هنوز در مرحله آزمایشی قرار داشته و بهزودی در اختیار آزمایشگرهای مورد اعتماد گوگل قرار میگیرد. Gemini 2.5 در حال حاضر با ارائه ساختار کدنویسی بهبود یافته، ابزارهای ساخت اپلیکیشنهای مبتنی بر وب (طراحی، کدنویسی و بهینهسازی) و امکان خواندن، بهیاد آوردن و تحلیل 1 میلیون توکن در یک تعامل (چیزی معادل 750 هزار کلمه یا 3 تا 4 هزار صفحه متن!) در بنچمارکهای هوش مصنوعی WebDev Arena و LMArena جلودار سایر رقباست. قابلیتهای امنیتی این نسخه از هوش مصنوعی گوگل همچنین در مقابل پرامپتهای مخرب غیر مستقیم تقویت شده است.

Gemini 2.5 Flash در حال حاضر برای پیشنمایش در اختیار تمامی کاربران اپلیکیشن این هوش مصنوعی قرار دارد اما عرضه عمومی آن به اواخر ماه زوئن موکول شده است. ارائه نسخه تجاری Gemini 2.5 Pro نیز اندکی پس از ورژن فلش صورت میپذیرد.
Imagen 4
هوش مصنوعی تبدیل متن به عکس Imagen گوگل که محصولی از واحد DeepMind این شرکت است در ابتدا در ماه می سال 2022 بهعنوان نخستین ابزار تولید عکس مبتنی بر مدل diffusion گوگل عرضه شد و سپس در دسامبر 2023 نسخه دوم آن با بهبود ویژگیهای نسخه اول ارائه شد. Imagen 3 بهعنوان گام بلندی رو به جلو با واقعگرایی بیشتر، نزدیکی بیشتر با پرامپت و پشتیبانی از استایلها و نسبت تصویرهای مختلف در آگوست 2024 در دسترس قرار گرفت و حالا در Google I/O 2025 نسخه چهارم ابزار تبدیل متن به عکس گوگل با نام Imagen 4 در مقابل کاربران قرار دارد.

Imagen 4 امکان ایجاد عکسهایی با وضوح حداکثر 2K را فراهم آورده و دقت آن در ساخت تصاویر کوچک، پوسترها و کمیکها افزایش یافته است. این نسخه در رندر جزییات کوچک مثل بافت پارچه و قطرات آب موفق عمل میکند و سرعت بالاتری نیز نسبت به نسل قبلی دارد. Imagen 4 از روز رونمایی در Gemini، ورک اسپیس گوگل، Whisk و Vertex AI در دسترس قرار دارد.
Veo 3
مدل تبدیل متن به ویدئوی گوگل که بار دیگر در مجموعه DeepMind این شرکت توسعه یافته است در پله نخست با Veo 1 در می 2024 متولد شد. وضوح تصویر در این نسخه به 1080p محدود بوده و تولید صدا در لیست امکانات آن جای نداشت. Veo 2 در دسامبر 2024 وضوح تصویر را به 4K ارتقاء داده و درک بهتری از فیزیک و دینامیک حرکت در آن ایجاد شد. کنترل حرکت دوربین و امکان انتقال استایل از طریق یک عکس مرجع دیگر گزینههای جدید Veo 2 را تشکیل میدادند. این نسخه نیز البته همچنان از تولید صدا پشتیبانی نمیکرد. Veo 3 بهعنوان نسخه جدید این مدل جدا از بهبودهای صورت گرفته در زمینه تبدیل متن به ویدئو حالا از تولید صدا (اعم دیالوگ کاراکترها، صدای پسزمینه و یا افکتهای صوتی) نیز پشتیبانی میکند.
Veo 3 از روز رونمایی برای مشترکان سرویس Google AI Ultra (با پرداخت 249.99 دلار بهصورت ماهیانه!) و کاربران enterprise سرویس Vertex AI در ایالات متحده در دسترس قرار گرفته است.
Flow
Flow ابزار جدید تولید فیلم شرکت گوگل است که توانایی مدلهای Imagen، Veo و Lyria (مجموعهای از ابزارهای پیشرفته هوش مصنوعی گوگل برای تولید موسیقی) را برای ایجاد صحنههای سینمای با جزییات بیشتر بهکار میگیرد. این ابزار بهگفته گوگل تولیدکنندگان سبکهای مختلف تولید محتوا را قادر به ایجاد کلیپهای سینمایی خارقالعاده با ظاهر و کارکردی منطبق با دنیای واقعی و کاملاً باور پذیر خواهد کرد.
با کمک این ابزار کاربران ضمن کنترل حرکتهای دوربین و زوایا و پرسپکتیوهای آن، امکان ادیت و ایجاد تغییر در ویدئوهای قبلاً ساخته شده را نیز خواهند داشت. ابزار Flow گوگل در حال حاضر در اختیار کاربران Google AI Pro و AI Ultra در آمریکا قرار دارد.
-
ابزارهای هوش مصنوعی جدید گوگل در Google I/O 2025 – از جمنای 2.5 تا Veo 3 ،Imagen 4 و Flow
-
دیدار با سامسونگ Galaxy S25 Edge در تهران - گزارش تصویری و ویدئویی از پرچمدار
-
معرفی چیپ Snapdragon 7 Gen 4 با 27، 30 و 65 درصد ارتقاء در پردازنده، گرافیک و پردازش عصبی
-
آشنایی با ساعت Huawei Watch 5 – بازتعریف اندازهگیری کمیتهای پزشکی با سنسور جدید X-TAP
-
معرفی A5 ،Oppo A5 5G و A5x – پایینردههای اوپو با السیدی +HD و باتری 6,000 میلیآمپر ساعتی
-
معرفی Huawei MatePad Pro 12.2 (2025) با دوربین اصلی 50 مگاپیکسلی و نمایشگر دولایه OLED
-
معرفی Reno14 و Reno14 Pro با چهار دوربین مجهز به فوکوس خودکار و باتریهای 6,000mAh و 6,200mAh