معرفی Gemini 2.5 Flash Image گوگل - تحولی در ویرایش عکس به کمک هوش مصنوعی
نمایش خبر
تاریخ : 1404/6/7 نویسنده: مریم رشنو | ||
برچسبها : | هوش مصنوعی Artificial Intelligence ، جمنای Gemini ، گوگل Google |


ویرایش تصویر به کمک هوش مصنوعی به کاربر اجازه میدهد تصاویر را نه با فتوشاپ، بلکه با نوشتن یک پرامپت تغییر دهند. گوگل ابتدا در اوایل سال جاری میلادی قابلیتهای مرتبط با ویرایش عکس را به اپلیکیشن Gemini افزوده بود که از همان ابتدا بسیار کارآمد از آب درآمد. البته این ابزار مانند تمام سیستمهای هوش مصنوعی مولد، عناصر تصویر را به روشهای غیر قابل پیشبینی تغییر میداد؛ به این معنا که ظاهر یک شخصیت یا شیء در مراحل ویرایش حفظ نمیشد. حال اما گوگل مدعی است که Nano Banana (از نظر فنی همان Gemini 2.5 Flash Image) هنگام ویرایش ثبات قابل توجهی را برای شخصیتها و شیءهای حاضر در تصویر ارائه میدهد و در واقع میتواند جزئیات را به خاطر بسپارد، بدون آنکه هر بار تغییرات تصادفی در عکس ایجاد کند.

Nano Banana که توسط بخش DeepMind گوگل توسعه یافته و در اپلیکیشن Gemini و برای توسعهدهندگان از طریق Gemini API ،Google AI Studio و پلتفرمهای Vertex AI در دسترس قرار گرفته است، یکی از بزرگترین مشکلات تولید تصویر هوش مصنوعی یعنی تغییر ظاهر یک شخصیت یا شیء در مراحل ویرایش را رفع میکند.
اگر عکس محبوبی دارید، اما میخواهید جزئیاتی را در آن تغییر دهید، احتمالاً هنگام کار با ChatGPT یا Grok با این مسئله روبهرو شدهاید که درخواست یک ویرایش کوچک در عکس، به تغییر کل تصویر میانجامد. اما گوگل با افزودن امکان ویرایشهای دقیق، تنظیمات چندمرحلهای (multi-turn) و ترکیب یکپارچه سبکها، فقط به دنبال بهبود فنی ابزار هوش مصنوعی نیست بلکه میکوشد سبک فرهنگی خاص خود را پدید آورد و از این طریق به نوعی پذیرش گسترده دست یابد.
گوگل مدعی است که در آپدیت جدید کاربران میتوانند، بهعنوان مثال، پس از آپلود عکسی از یک شخص او را در لباسهای مختلف قرار دهند یا مدل مو را تغییر دهند یا در شرایط محیطی دیگری به تصویر بکشند؛ بدون اینکه سوژه به شکل کامل دگرگون شود. به گفته غول آمریکایی «اکنون میتوانید یک شخصیت را، ضمن حفظ سوژه، در محیطهای مختلف قرار دهید و محصولی واحد را از زوایای مختلف در چیدمانهای جدید به نمایش بگذارید.»

همچنین کاربران میتوانند پس از بارگذاری عکسی از یک شخص و حیوان خانگی محبوب او، آنها را در یک صحنه جدید با هم ترکیب کنند. همچنین ویرایش چند مرحلهای نیز به کاربر امکان میدهد بارها تصاویر را ویرایش کند. یکی دیگر از نمونههایی که گوگل از آن یاد کرده، امکان اضافه کردن مبلمان و تزئینات به عکس یک اتاق است تا کاربر بتواند از تغییرات در نماهای مختلف برای ارائه دکوراسیون تازه استفاده کند. از دیگر ویژگیهای جالبی که اضافه شدن این قابلیت ارائه میدهد، امکان ترکیب طرحهاست؛ به این معنی که میتوان سبک یک تصویر را روی شیئی در تصویر دیگر اِعمال کرد. به طور مثال، این امکان وجود دارد که طرح لباس یکی از سوژههای عکس به الگوی روی بالهای پروانه تغییر یابد.

نکته مهم در این میان آن است که همزمان با پیشرفت اپلیکیشنهای تصویری هوش مصنوعی مولد، تشخیص جعلی بودن آنها نیز دشوارتر میشود. از این رو نگرانیها درباره استفاده از این ابزارها برای اهداف نادرست افزایش یافته است. راهکار گوگل برای رفع این مسئله ارائه خروجی تصویر Gemini 2.5 Flash همراه با یک واترمارک قابل مشاهده AI است. علاوه بر آن، به تصویر تولیدشده توسط این ابزار یک واترمارک دیجیتال و نامرئی SynthID نیز افزوده میشود که میتواند حتی پس از چند تغییر محدود نیز شناسایی شود.
Gemini 2.5 Flash Image از همان روز معرفی و از طریق Gemini API، Google AI Studio در اختیار توسعهدهندگان قرار گرفته است و قیمت آن به ازای هر یک میلیون توکن خروجی 30 دلار و با احتساب 1,290 توکن خروجی برای هر عکس (معادل 0.39 دلار برای هر تصویر) تعیین شده است.

در پایان گفتنی است که تواناییهای تولید تصویر ChatGPT به افزایش تعداد کاربران این مدل هوش مصنوعی به تقریباً یک میلیارد نفر در ماه آوریل کمک کرده است؛ امری که عمدتاً به لطف تعداد عظیم تصاویری است که به سبک استودیو جیبلی (Studio Ghibli) ایجاد شدهاند. در همین حال، Meta نیز اعلام کرده است که بهزودی مدلهای تصویری هوش مصنوعی را برای Midjourney ارائه خواهد کرد.
-
آشنایی با HyperOS 3 – پوسته جدید شیائومی با عملکرد سریعتر و ارتباط با دیوایسهای اپل
-
معرفی Gemini 2.5 Flash Image گوگل - تحولی در ویرایش عکس به کمک هوش مصنوعی
-
رونمایی از vivo T4 Pro – میانرده ویوو با Snapdragon 7 Gen 4 و دوربین تلهفتوی 50 مگاپیکسلی
-
معرفی Galaxy Tab S10 Lite با پنل 10.9 اینچی، تراشه Exynos 1380، باتری 8,000mAh و 7 آپدیت اندروید
-
آشنایی با Honor X7d – پایینرده 4G آنر با باتری 6,500 میلیآمپر ساعتی و دوربین 108 مگاپیکسلی
-
معرفی Galaxy A07 4G فوق ارزانقیمت سامسونگ با پردازنده 6 نانومتری Helio G99 و 6 سال آپدیت اندروید
-
معرفی هدست واقعیت ترکیبی vivo Vision Discovery Edition با طراحی ظریف و وزن 398 گرمی