معرفی فناوری Imagen - راهکار گوگل برای حضور در عرصه تبدیل متن به عکس با هوش مصنوعی

تاریخ : 1401/8/18 نویسنده: مریم رشنو
برچسب‌ها :	هوش مصنوعی Artificial Intelligence ، گوگل Google

واحد خبر mobile.ir : رقابت تولیدکنندگان محصولات هنری مبتنی بر هوش مصنوعی، با ورود غول‌های بزرگ فناوری داغ‌تر شده شده است. در واقع با آن که این عرصه در حال حاضر تحت سلطه سامانه‌هایی همچون Stable Diffusion ،DALL-E 2 و Midjourney است، ابرشرکت‌هایی مانند مایکروسافت با ابزار Microsoft Designer، متا با فناوری Make-a-Video و گوگل با ابزارهای تبدیل متن به تصویر (یا متن به ویدئو) خود، با قدرت وارد این عرصه شده‌اند. در همین راستا، گوگل به تازگی Imagen، پلتفرم تولید تصاویر با کمک هوش مصنوعی خود را به فعالان و دوستداران این حوزه معرفی کرده است.

کمپانی بزرگ آمریکایی برای نخستین بار در ماه می امسال با انتشار مقاله معرفی و راه اندازی وب‌سایتی برای نمایش برخی نتایج کاربرد Imagen، به طور رسمی از چارچوب هوش مصنوعی جدید خود رونمایی کرد. به علاوه اخیرا برخی ویژگی‌های این ابزار گوگل به طور محدود برای استفاده عموم ارائه شده که به طرز عجیبی خاص و شاید دور از ذهن به نظر می‌رسند. به طور مثال، گوگل در ارائه مبدل متن به تصویر خود، تصویری فانتزی از سگ کوچک از نژاد کورگی (corgi) که در خانه‌ای ساخته‌شده از سوشی زندگی می‌کند یا سگی از نژاد پامرانین (Pomeranian) که تاجی بر سر دارد و روی تخت پادشاهی نشسته را به نمایش گذاشته است.

مولد تصویر هوش مصنوعی ابزاری است که از یادگیری ماشینی برای خلق آثار و تصاویر هنری استفاده می‌کند. در این چارچوب و در ساده‌ترین شیوه اجرای آن، Imagen از پیام‌های متنی برای توصیف نوع اثر هنری مورد نظر استفاده کرده و سپس آن را تولید می‌کند. بر اساس اعلام کمپانی گوگل، ابزار جدید «مدلی ترکیبی برای تبدیل متن به تصویر با درجه بی‌نظیری از فوتورئالیسم و سطح عمیقی از درک زبانی عمل می‌کند.»

با آن که نسخه کامل Imagen هنوز به طور عمومی در دسترس قرار نگرفته، غول جست‌وجوی آمریکایی از افزوده شدن محدود برخی قابلیت‌های آن به اپلیکیشن AI Test Kitchen، به عنوان راهی برای جمع‌آوری بازخوردهای اولیه کاربران این فناوری خبر داده است. AI Test Kitchen یا به عبارتی آشپزخانه هوش مصنوعی گوگل، در اوایل سال جاری میلادی برای تست بتای سیستم‌های گوناگون هوش مصنوعی گوگل راه‌اندازی شد و حال امکانات Imagen را می‌توان به‌روزرسانی یا «فصل دوم» این اپ به شمار آورد. استفاده از قابلیت‌های Imagen در این اپ به دو شیوه «City Dreamer» و «Wobble» امکان‌پذیر خواهد بود.

در حالت City Dreamer، کاربران می‌توانند از هوش مصنوعی بخواهند تا عناصری را از شهری طراحی‌شده بر اساس موضوع دلخواه، مثلا شیرینی کوکی، کدو تنبل یا پارچه جین، تولید کند. در این مسیر Imagen نمونه ساختمان‌ها و فضاها (از جمله میدان شهر، بلوک آپارتمانی، فرودگاه و موارد دیگر) را با طرح‌هایی به صورت مدل‌های ایزومتریک مشابه با تصاویر بازی SimCity ایجاد می‌کند.

از سوی دیگر در Wobble، کاربران می‌تواند هیولایی کوچک را خلق کنند و به آن لباس بپوشانند. در این فرایند امکان انتخاب ماده سازنده این هیولا مثلا خاک رس، نمد یا لاستیک و سپس پوشاندن لباس مورد نظر به آن وجود خواهد داشت. به این ترتیب جانور مورد نظر کاربر تولید می‌شود، نام مشخصی پیدا می‌کند و می‌توان آن را به حرکت درآورد.

برخی از ابزارهای کنونی تولیدکننده تصویر از طریق هوش مصنوعی رایگان هستند و به بعضی دیگر از طریق پرداخت پول می‌توان دسترسی داشت؛ هرچند از این موارد نیز می‌توان به صورت آزمایشی استفاده کرد. به علاوه شیوه‌های هنری متنوعی نیز برای تولید تصویر در اختیار کاربر قرار می‌گیرد.

از مولدهای تصویر هوش مصنوعی می‌توان برای ایجاد مواردی مانند شخصیت‌ها‌ در بازی‌های کامپیوتری یا طراحی پس‌زمینه دسکتاپ استفاده کرد. با این حال، همه کاربران هوادار استفاده از آن‌ها نیستند و به گزارش منابع خبری بعضی از وب‌سایت‌های هنری و سایت‌های تصویری استفاده از این ابزارها را ممنوع کرده‌اند.

برای ایجاد یک تصویر جدید، هوش مصنوعی با یک عنوان و مقدار ثابت کار خود را آغاز و در ادامه فرآیند را به صورت عقب‌گرد اجرا می‌کند و با حذف موارد نامتناسب، به تدریج به تصویری دست می‌یابد که کم و بیش با عنوان مورد نظر مطابقت داشته باشد. البته این ابزار برای هنرمندان احساس ناخوشایندی دارد؛ چرا که نشانگر روندی است که احتمالا به فراموشی آرشیو تصاویر تولیدشده توسط هنرمندان خواهد انجامید.

ظهور سریع فناوری هوش مصنوعی در حوزه خلق تصویر همچنین نگرانی بسیاری را درباره حقوق مالکیت آثار هنری ایجاد کرده است. به ویژه فرایندهای تبدیل متن به تصویر معمولاً تصاویر موجود را بدون پرداخت حق مالکیت یا جبران خسارت خالقان اثر به کار می‌گیرد. بر همین اساس شرکت Getty Images در ماه سپتامبر این نوع تصاویر را در پلتفرم خود ممنوع کرد. البته در مقابل، برخی نیز با این شیوه مخالف نیستند. به عنوان نمونه، شرکت Shutterstock نیز با OpenAI برای ایجاد فرایندهای ترکیبی مبتنی بر هوش مصنوعی به توافق رسیده‌ است.

در مجموع به نظر می‌رسد گوگل تمایلی چندان برای ورود به این زمینه‌های پرچالش ندارد. با این حال تا زمانی که Imagen به سرویسی کاملا ایمن و معقول بدل شود، به نظر می‌رسد شرکت‌هایی همچون متا و OpenAI (که زیر نظر ایلان ماسک فعالیت می‌کند) توسعه این گونه ابزارها را در بازار رهبری خواهند کرد.

منبع : Google