آشنایی با Sora 2 – جدیدترین مدل هوش مصنوعی OpenAI برای تولید ویدئو

تاریخ : 1404/7/10 نویسنده: مسعود بهرامی شرق
برچسب‌ها :	هوش مصنوعی Artificial Intelligence ، اوپن ا آی OpenAI

واحد خبر mobile.ir : اواسط فوریه 2024، شرکت OpenAI از نخستین مدل هوش مصنوعی خود برای تولید ویدئو از متن، تحت عنوان Sora رونمایی کرد. حال پس از گذشت بیش از یک سال و نیم، این کمپانی آمریکایی روز سه‌شنبه 30 سپتامبر 2025 (8 مهر 1404) از طراحی نسل جدید این مدل با نام Sora 2 خبر داد. به عبارت دیگر Sora 2 جدیدترین مدل تولید صوت و ویدئوی OpenAI است که قابلیت‌های ارتقاءیافته‌ای در حوزه تولید ویدئوهای واقع‌گرایانه ارائه می‌کند. نکته جالب اینکه OpenAI با توسعه اپلیکیشنی به نام Sora، اقدام به راه‌اندازی یک شبکه اجتماعی کرده تا کاربران بتوانند از طریق آن، ویدئوهای ساخت خود را با دیگران به اشتراک گذاشته و یا ریمیکس کنند.

مدل هوش مصنوعی Sora 2 بر مبنای مدل پیشین Sora (عرضه‌ شده در فوریه 2024) توسعه یافته است. Sora 2 در بسیاری از موارد نسبت به نسل قبلی پیشرفت کرده است، از جمله پیروی بهتر از قوانین فیزیک. برخلاف نسل پیشین که در نمایش حرکات واقع‌گرایانه – مثل بازگشت توپ بسکتبال پس از برخورد به تخته پشتی – با چالش‌هایی مواجه بود، طبق ادعای OpenAI، مدل جدید Sora 2 در پیروی از قوانین فیزیک عملکرد بهتری دارد.

کمپانی OpenAI با انتشار پیش‌نمایش‌هایی از ویدئوهای ساخته شده با Sora 2 در وب‌سایت خود، سعی کرد توان این مدل را به همگان ثابت کند. از جمله این ویدئوها می‌توان به حرکات آکروباتیک مثل پشتک زدن در ژیمناستیک یا حرکات نمایشی با اسکیت‌بورد اشاره کرد که بسیار واقعی جلوه می‌کردند. البته در یک نمونه، ویدئویی از حرکات یک رزمی‌کار به همراه چوب‌دستی‌اش هم دیده می‌شد که در آن، چوب‌دستی نمی‌توانست شکل معمول خود را حفظ کند.

وجه دیگر برتری Sora 2 نسبت به مدل قبلی، توانایی آن در تولید کلام است. همچنین، Sora 2 این اجازه را به کاربران می‌دهد که بتوانند خود یا افراد دیگر را در قالب «حضور افتخاری» یا میهمان (در اصطلاح تخصصی cameo) در ویدئوهای دیگر وارد کنند. البته این کار مستلزم تأیید هویت بوده که برای این منظور باید یک بار از خودتان صدا و ویدئو ضبط کنید. جالب است بدانید، گابریل پترسون (Gabriel Petersson)، دانشمند پژوهشگر OpenAI، این قابلیت را با انتشار ویدئویی در X به نمایش گذاشت. در این ویدئو، شخصی شبیه به خود پترسون را می‌بینید که سوار بر یک اژدها از یک کشتی باری شیرجه زده و با شخصی که چهره سم آلتمن (Sam Altman)، مدیرعامل OpenAI، را دارد در دفتر OpenAI در حال دویدن است.

مدل تولید ویدئوی Sora 2، از خروجی صدای بهبودیافته به همراه گفت‌وگوهای هماهنگ و افکت‌های صوتی بهره می‌برد. همچنین، مشکلات مدل‌های مشابه قبلی – از جمله تغییر شکل اشیاء و به‌هم‌ریختگی واقعیت فیزیکی – در آن دیده نمی‌شود. جالب است بدانید، Sora 2 از چندین سبک تولید ویدئو – از جمله سینمایی، واقع‌گرا و انیمه – پشتیبانی می‌کند. با تمام این اوصاف، Sora 2 هنوز جای کار دارد. به اذعان خود OpenAI، «این مدل با ایده‌آل فاصله داشته و خطاهای فراوانی را مرتکب می‌شود، اما مؤید این نکته است که توسعه شبکه‌های عصبی روی داده‌های ویدئویی، ما را به شبیه‌سازی واقعیت نزدیک‌تر خواهد کرد.»

همان طور که گفته شد، اپلیکیشن Sora – قدرت‌گرفته از مدل Sora 2 – نیز توسط OpenAI توسعه یافته و هم‌اکنون برای دیوایس‌های مجهز به iOS قابل دانلود است. البته دسترسی به سیستم همچنان با دعوتنامه امکان‌پذیر بوده و کاربران در صورت تمایل می‌توانند از طریق اپلیکیشن درخواست دسترسی دهند. گفتنی‌ست، مثل بسیاری از پلتفرم‌های رسانه‌‌های اجتماعی، اپلیکیشن Sora نیز شامل یک فید الگوریتمی است که در آن ویدئوهایی متناسب با علاقه‌مندی‌های کاربر به نمایش درمی‌آیند. طبق جزییات منتشرشده از سوی OpenAI، این فید شامل یک سیستم «رتبه‌بندی قابل‌هدایت» است تا کاربران بتوانند آنچه می‌خواهند ببینند را بیشتر شخصی‌سازی کنند.

به احتمال زیاد، Sora به‌تدریج در سرتاسر آمریکا و کانادا در دسترس قرار خواهد گرفت. در ابتدای امر، کاربران محدودیت‌هایی برای تولید ویدئو خواهند داشت. سیستم‌های هوش مصنوعی نظیر Sora 2 به توان پردازشی بالایی نیاز دارند، از این رو کمپانی‌ها برای اینکه بتوانند به همه سرویس‌دهی کنند، معمولاً مجبور می‌شوند دسترسی کاربران را تا حدی محدود کنند. به گفته OpenAI، چنان‌چه تقاضا برای تولید ویدئو (به نسبت توان پردازشی کنونی) زیاد باشد، راه چاره آن است که نهایتاً این گزینه پیش روی کاربران گذاشه شود که برای تولید ویدئوهای بیشتر، هزینه بپردازند.

کمپانی OpenAI به این حقیقت معترف است که استفاده از مدل هوش مصنوعی Sora می‌تواند خطراتی را در پی داشته باشد. لذا با انتشار مطلبی جداگانه در وبلاگ خود، اصول ایمنی در رابطه با استفاده از آن را تشریح کرده است. به منظور کاهش خطرات احتمالی، تمام ویدئوهای تولیدشده توسط Sora 2، دارای واترمارک و فراداده‌های با استاندارد صنعتی هستند تا مشخص شود این ویدئوها ساخته هوش مصنوعی بوده و واقعی نیستند.

حساب‌های کاربری نوجوانان در Sora نیز مشمول کنترل والدین و محدودیت زمانی در استفاده از اپلیکیشن خواهد بود. همچنین، به گفته OpenAI، به موجب ملاحظات امنیتی در اپلیکیشن Sora، چنانچه کاربری بخواهد ویدئوی پرخطر – شامل محتوای جنسی، تبلیغات تروریستی، ترویج خودآزاری و یا زورگویی – تولیدکند، این محتوا قبل از تولید مسدود خواهد شد. ناگفته نماند، استفاده از چهره‌های شناخته‌شده در تولید ویدئو نیز با محدودیت همراه خواهد بود.

بد نیست بدانید، به جز Sora، مدل‌های هوش مصنوعی دیگری نیز برای تولید ویدئو در دسترس هستند که از جمله آنها می‌توان به پلتفرم Vibes و نرم‌افزار Meta Movie Gen اشاره کرد که هر دو محصول کمپانی متا بوده و استفاده از هر دو رایگان است. کمپانی xAi نیز محصول مشابهی تحت عنوان Grok Imagine دارد که با دریافت متن، می‌تواند ویدئوهای کوتاه 6 ثانیه‌ای تولید کند. این مدل نیز رایگان در اختیار کاربران قرار گرفته، ولی برای تولید ویدئوهای طولانی‌تر و با رزولوشن بالاتر، پرداخت هزینه لازم است. مدل تولید ویدئوی گوگل نیز Veo 3 نام دارد که ماه می عرضه شد و علاوه بر تبدیل متن به ویدئو، توانایی تولید ویدئو از عکس را هم دارد.

منبع : OpenAI