سورا (مدل متن به ویدئو)
توسعهدهنده(ها) | اوپنایآی |
---|---|
پلتفرم | OpenAI |
نوع | مدل متن به ویدئو |
بخشی از مقالهها درباره |
هوش مصنوعی |
---|
سورا (انگلیسی: Sora) یک مدل متن به ویدئو است که توسط سازمان تحقیقاتی هوش مصنوعی مستقر در ایالات متحده به نام اوپنایآی توسعه یافتهاست. این نرمافزار بر اساس توصیفات ارائهشده میتواند ویدئو تولید کند و همچنین ویدئوهای موجود را به جلو یا عقب در زمان گسترش دهد.[۱][۲] [۳] تا فوریه ۲۰۲۴، هنوز این برنامه منتشر نشده و هنوز در دسترس عموم نیست.[۳]
پیشینه
[ویرایش]چندین مدل دیگر تولید متن به ویدئو پیش از سورا ایجاد شده بود، از جمله میک-ا-ویدیوی (Make-A-Video) متا، جن-۲ (Gen-2) محصول رانوی (Runway) و لومیر گوگل، که آخرین مورد، از فوریه ۲۰۲۴، همچنان در مرحله تحقیقاتی خود قرار دارد.[۴][۵] اوپنایآی، شرکت پشت پروژه سورا، در سپتامبر ۲۰۲۳ مدل سوم دال-ئی (DALL·E 3)، از برنامه متن به تصویر خود (DALL-E) را منتشر کرده بود.[۶]
تیمی که سورا را توسعه داد، آن را به نام واژه ژاپنی そら به معنی آسمان نامگذاری کرد تا نشاندهنده «قابلیتهای خلاقانه نامحدود» آن باشد.[۱] در ۱۵ فوریه ۲۰۲۴، اوپنایآی برای اولین بار با انتشار چندین نماهنگ از ویدئوهای اچدی (با کیفیت بالا) که ایجاد کرده بود، از سورا رونمایی نمود. این ویدئوها شامل یک خودروی شاسیبلند بود که در یک جاده کوهستانی حرکت میکرد، یک پویانمایی از یک «هیولای پشمالو کوتاه» در کنار یک شمع، دو نفر که در میان برف در توکیو قدم میزدند، و فیلم ساختگی تاریخی از تب طلا در کالیفرنیا. همچنین اعلام شد که سورا قادر به تولید ویدیوهایی تا یک دقیقه است.[۵][۴] این شرکت سپس یک گزارش فنی به اشتراک گذاشت که روشهای مورد استفاده برای آموزش این مدل را مورد توجه قرار داد.[۲][۷] سم آلتمن، مدیر عامل اوپنایآی، همچنین مجموعهای از توئیتها را به اشتراک گذاشت، که در آنها به درخواستهای کاربران توئیتر با ویدیوهای تولیدشده از آن درخواستها توسط سورا، پاسخ میداد.
اوپنایآی اعلام کردهاست که قصد دارد سورا را در دسترس عموم قرار دهد اما تأکید کرده که این اتفاق به زودی نخواهد افتاد. زمان خاصی برای این انتشار عمومی مشخص نشدهاست.[۵][۳] این شرکت، دسترسی محدودی به گروه کوچکی به نام «تیم قرمز»، از جمله کارشناسان مسائل دروغرسانی و سوگیری، فراهم کردهاست تا یادگیری ماشین خصمانه را بر روی مدل انجام دهند.[۶] این شرکت همچنین سورا را با گروه کوچکی از متخصصان خلاق، از جمله فیلمسازان و هنرمندان، به اشتراک گذاشتهاست تا در مورد کاربرد آن در حوزههای خلاقانه بازخورد دریافت کند.[۸]
تواناییها و محدودیتها
[ویرایش]فناوری بهکاررفته در سورا بر اساس فناوری مورد استفاده دال-ئی شکل گرفتهاست. طبق اعلام اوپنایآی، سورا یک ترنسفورمر انتشاری است[۹]؛ نوعی از مدلهای انتشاری پنهان نوفهگیر (denoiser) دارای یک ترنسفورمر بهعنوان نوفهگیر. ویدئوها در فضای پنهان (latent space) با نوفهگیری «تکههای» سهبعدی ایجاد میشود، سپس توسط یک مبدل ویدیویی به فضای استاندارد تغییر شکل مییابد. بازنویسی توصیفات متنی برای افزایش دادههای آموزشی مورد استفاده قرار میگیرد. در این روش یک مدل ویدیو به متن برای ایجاد شرح دقیقی از ویدیوها مورد استفاده قرار میگیرد.[۷]
اوپنایآی این مدل را با استفاده از ویدیوهای عمومی در دسترس، و همچنین ویدیوهایی که بهطور اختصاصی برای این منظور پروانه بهرهبرداری دریافت کرده بودند، آموزش دادهاست. اما تعداد یا منبع دقیق ویدیوها را فاش نکردهاست.[۱] اوپنایآی پس از انتشار مدل، برخی از کاستیهای سورا را تأیید کرد. از جمله مشکلات آن در شبیهسازی اجسام پیچیده، درک مفهوم علیت و تشخیص چپ از راست.[۱۰] یک مثال نشان میدهد که گروه از تولههای گرگ ظاهراً تکثیر میشوند و جمع میشوند و سناریویی پیچیده و گنگ ایجاد میکنند. همچنین طبق رویههای ایمنی موجود در شرکت، اوپنایآی اعلام کرد که سورا درخواستهای متنی برای تصاویر جنسی، خشونتآمیز، نفرتانگیز، یا سوءاستفاده از چهره افراد مشهور، و همچنین محتوای دارای مالکیت فکری موجود را محدود میکند.[۶]
تیم بروکس، یکی از محققان پروژه سورا، اظهار داشت که این مدل به تنهایی، نحوه ایجاد گرافیک کامپیوتری سهبعدی از مجموعه دادههای خود را کشف کردهاست. بیل پیبلز، یکی دیگر از محققان سورا، میگوید که این مدل بهطور خودکار زوایای مختلف ویدیو را بدون درخواست انجام میدهد. طبق اعلام اوپنایآی، ویدیوهای تولیدشده توسط سورا با فرادادههای سی۲پیاِی[۱۱] برچسبگذاری میشوند تا نشان دهند که توسط هوش مصنوعی ساخته شدهاند.[۱]
بازخوردها
[ویرایش]ویل داگلاس هون از امآیتی تکنالجی ریویو ویدئوهای آزمایشی را «تأثیرگذار» نامید، اما خاطرنشان کرد که احتمالاً به دقت انتخاب شدهاند و ممکن است نماینده خروجی معمول سورا نباشند. اُرِن اتزیونی، پژوهشگر آکادمیک آمریکایی، نگرانیهایی را در مورد توانایی این فناوری برای دروغرسانی آنلاین در کارزارهای سیاسی ابراز کرد. استیون لوی برای وایرد بهطور مشابه نوشت که این فناوری قابلیت تبدیل شدن به «یک فاجعه پخش اطلاعات نادرست» را دارد و معتقد است که نماهنگهای آن «تأثیرگذار» اما «نه کامل» هستند. همچنین این مدل به دلیل تغییرات فیلمبرداری بدون درخواست، حاکی از «درک در حال ظهور از دستور زبان سینمایی» است. لوی اضافه کرد: «اگر هم روزی امکانپذیر باشد، زمان بسیاری نیاز خواهد بود تا تولید محتوای ویدیویی از متن، جایگاه فیلمسازی واقعی را تهدید کند.» لیزا لیسی از سینت ویدئوهای نمونه را «بهطور چشمگیری واقعی - شاید به جز هنگامی که چهره انسان از نزدیک نمایش داده میشود یا موجودات دریایی در حال شنا هستند» نامید.[۶]
منابع
[ویرایش]- ↑ ۱٫۰ ۱٫۱ ۱٫۲ ۱٫۳ Metz, Cade (February 15, 2024). "OpenAI Unveils A.I. That Instantly Generates Eye-Popping Videos". The New York Times. Archived from the original on February 15, 2024. Retrieved February 15, 2024.
- ↑ ۲٫۰ ۲٫۱ Brooks, Tim; Peebles, Bill; Holmes, Connor; DePue, Will; Guo, Yufei; Jing, Li; Schnurr, David; Taylor, Joe; Luhman, Troy; Luhman, Eric; Ng, Clarence Wing Yin; Wang, Ricky; Ramesh, Aditya (February 15, 2024). "Video generation models as world simulators". OpenAI. Archived from the original on February 16, 2024. Retrieved February 16, 2024.
- ↑ ۳٫۰ ۳٫۱ ۳٫۲ Yang, Angela (February 15, 2024). "OpenAI teases 'Sora,' its new text-to-video AI model". NBC News. Archived from the original on February 15, 2024. Retrieved February 16, 2024.
- ↑ ۴٫۰ ۴٫۱ Shankar Das (February 15, 2024). "Sora AI Can Generate Realistic Video based on Text Prompts: OpenAI". Epi Express. Archived from the original on February 15, 2024. Retrieved February 16, 2024.
- ↑ ۵٫۰ ۵٫۱ ۵٫۲ Levy, Steven (February 15, 2024). "OpenAI's Sora Turns AI Prompts Into Photorealistic Videos". Wired. Archived from the original on February 15, 2024. Retrieved February 16, 2024.
- ↑ ۶٫۰ ۶٫۱ ۶٫۲ ۶٫۳ Lacy, Lisa (February 15, 2024). "Meet Sora, OpenAI's Text-to-Video Generator". CNET. Archived from the original on February 16, 2024. Retrieved February 16, 2024.
- ↑ ۷٫۰ ۷٫۱ Edwards, Benj (February 16, 2024). "OpenAI collapses media reality with Sora, a photorealistic AI video generator". Ars Technica (به انگلیسی). Archived from the original on February 17, 2024. Retrieved February 17, 2024.
- ↑ Heaven, Will Douglas (February 15, 2024). "OpenAI teases an amazing new generative video model called Sora". MIT Technology Review. Archived from the original on February 15, 2024. Retrieved February 15, 2024.
- ↑ Peebles, William; Xie, Saining (2023). "Scalable Diffusion Models with Transformers". 2023 IEEE/CVF International Conference on Computer Vision (ICCV). pp. 4172–4182. arXiv:2212.09748. doi:10.1109/ICCV51070.2023.00387. ISBN 979-8-3503-0718-4. ISSN 2380-7504. S2CID 254854389.
- ↑ Pequeño IV, Antonio (February 15, 2024). "OpenAI Reveals 'Sora': AI Video Model Capable Of Realistic Text-To-Video Prompts". Forbes. Archived from the original on February 15, 2024. Retrieved February 15, 2024.
- ↑ C2PA metadata
- مشارکتکنندگان ویکیپدیا. «Sora (text-to-video model)». در دانشنامهٔ ویکیپدیای انگلیسی، بازبینیشده در ۲۰ فوریه ۲۰۲۴.