سورا (مدل متن به ویدئو)

سورا
	ویدئویی تولیدی سورا از زنی که در خیابان‌های توکیو قدم می‌زند
توسعه‌دهنده(ها)	اوپن‌ای‌آی
پلت‌فرم	OpenAI
نوع	مدل متن به ویدئو

سورا (انگلیسی: Sora) یک مدل متن به ویدئو است که توسط سازمان تحقیقاتی هوش مصنوعی مستقر در ایالات متحده به نام اوپن‌ای‌آی توسعه یافته‌است. این نرم‌افزار بر اساس توصیفات ارائه‌شده می‌تواند ویدئو تولید کند و همچنین ویدئوهای موجود را به جلو یا عقب در زمان گسترش دهد.^[۱]^[۲] ^[۳] تا فوریه ۲۰۲۴، هنوز این برنامه منتشر نشده و هنوز در دسترس عموم نیست.^[۳]

پیشینه

چندین مدل دیگر تولید متن به ویدئو پیش از سورا ایجاد شده بود، از جمله میک-ا-ویدیوی (Make-A-Video) متا، جن-۲ (Gen-2) محصول رانوی (Runway) و لومیر گوگل، که آخرین مورد، از فوریه ۲۰۲۴، همچنان در مرحله تحقیقاتی خود قرار دارد.^[۴]^[۵] اوپن‌ای‌آی، شرکت پشت پروژه سورا، در سپتامبر ۲۰۲۳ مدل سوم دال-ئی (DALL·E 3)، از برنامه متن به تصویر خود (DALL-E) را منتشر کرده بود.^[۶]

تیمی که سورا را توسعه داد، آن را به نام واژه ژاپنی そら به معنی آسمان نامگذاری کرد تا نشان‌دهنده «قابلیت‌های خلاقانه نامحدود» آن باشد.^[۱] در ۱۵ فوریه ۲۰۲۴، اوپن‌ای‌آی برای اولین بار با انتشار چندین نماهنگ از ویدئوهای اچ‌دی (با کیفیت بالا) که ایجاد کرده بود، از سورا رونمایی نمود. این ویدئوها شامل یک خودروی شاسی‌بلند بود که در یک جاده کوهستانی حرکت می‌کرد، یک پویانمایی از یک «هیولای پشمالو کوتاه» در کنار یک شمع، دو نفر که در میان برف در توکیو قدم می‌زدند، و فیلم ساختگی تاریخی از تب طلا در کالیفرنیا. همچنین اعلام شد که سورا قادر به تولید ویدیوهایی تا یک دقیقه است.^[۵]^[۴] این شرکت سپس یک گزارش فنی به اشتراک گذاشت که روش‌های مورد استفاده برای آموزش این مدل را مورد توجه قرار داد.^[۲]^[۷] سم آلتمن، مدیر عامل اوپن‌ای‌آی، همچنین مجموعه‌ای از توئیت‌ها را به اشتراک گذاشت، که در آنها به درخواست‌های کاربران توئیتر با ویدیوهای تولیدشده از آن درخواست‌ها توسط سورا، پاسخ می‌داد.

اوپن‌ای‌آی اعلام کرده‌است که قصد دارد سورا را در دسترس عموم قرار دهد اما تأکید کرده که این اتفاق به زودی نخواهد افتاد. زمان خاصی برای این انتشار عمومی مشخص نشده‌است.^[۵]^[۳] این شرکت، دسترسی محدودی به گروه کوچکی به نام «تیم قرمز»، از جمله کارشناسان مسائل دروغ‌رسانی و سوگیری، فراهم کرده‌است تا یادگیری ماشین خصمانه را بر روی مدل انجام دهند.^[۶] این شرکت همچنین سورا را با گروه کوچکی از متخصصان خلاق، از جمله فیلمسازان و هنرمندان، به اشتراک گذاشته‌است تا در مورد کاربرد آن در حوزه‌های خلاقانه بازخورد دریافت کند.^[۸]

توانایی‌ها و محدودیت‌ها

فناوری به‌کاررفته در سورا بر اساس فناوری مورد استفاده دال-ئی شکل گرفته‌است. طبق اعلام اوپن‌ای‌آی، سورا یک ترنسفورمر انتشاری است^[۹]؛ نوعی از مدل‌های انتشاری پنهان نوفه‌گیر (denoiser) دارای یک ترنسفورمر به‌عنوان نوفه‌گیر. ویدئوها در فضای پنهان (latent space) با نوفه‌گیری «تکه‌های» سه‌بعدی ایجاد می‌شود، سپس توسط یک مبدل ویدیویی به فضای استاندارد تغییر شکل می‌یابد. بازنویسی توصیفات متنی برای افزایش داده‌های آموزشی مورد استفاده قرار می‌گیرد. در این روش یک مدل ویدیو به متن برای ایجاد شرح دقیقی از ویدیوها مورد استفاده قرار می‌گیرد.^[۷]

اوپن‌ای‌آی این مدل را با استفاده از ویدیوهای عمومی در دسترس، و همچنین ویدیوهایی که به‌طور اختصاصی برای این منظور پروانه بهره‌برداری دریافت کرده بودند، آموزش داده‌است. اما تعداد یا منبع دقیق ویدیوها را فاش نکرده‌است.^[۱] اوپن‌ای‌آی پس از انتشار مدل، برخی از کاستی‌های سورا را تأیید کرد. از جمله مشکلات آن در شبیه‌سازی اجسام پیچیده، درک مفهوم علیت و تشخیص چپ از راست.^[۱۰] یک مثال نشان می‌دهد که گروه از توله‌های گرگ ظاهراً تکثیر می‌شوند و جمع می‌شوند و سناریویی پیچیده و گنگ ایجاد می‌کنند. همچنین طبق رویه‌های ایمنی موجود در شرکت، اوپن‌ای‌آی اعلام کرد که سورا درخواست‌های متنی برای تصاویر جنسی، خشونت‌آمیز، نفرت‌انگیز، یا سوءاستفاده از چهره افراد مشهور، و همچنین محتوای دارای مالکیت فکری موجود را محدود می‌کند.^[۶]

تیم بروکس، یکی از محققان پروژه سورا، اظهار داشت که این مدل به تنهایی، نحوه ایجاد گرافیک کامپیوتری سه‌بعدی از مجموعه داده‌های خود را کشف کرده‌است. بیل پیبلز، یکی دیگر از محققان سورا، می‌گوید که این مدل به‌طور خودکار زوایای مختلف ویدیو را بدون درخواست انجام می‌دهد. طبق اعلام اوپن‌ای‌آی، ویدیوهای تولیدشده توسط سورا با فراداده‌های سی۲پی‌اِی^[۱۱] برچسب‌گذاری می‌شوند تا نشان دهند که توسط هوش مصنوعی ساخته شده‌اند.^[۱]

بازخوردها

ویل داگلاس هون از ام‌آی‌تی تکنالجی ریویو ویدئوهای آزمایشی را «تأثیرگذار» نامید، اما خاطرنشان کرد که احتمالاً به دقت انتخاب شده‌اند و ممکن است نماینده خروجی معمول سورا نباشند. اُرِن اتزیونی، پژوهشگر آکادمیک آمریکایی، نگرانی‌هایی را در مورد توانایی این فناوری برای دروغ‌رسانی آنلاین در کارزارهای سیاسی ابراز کرد. استیون لوی برای وایرد به‌طور مشابه نوشت که این فناوری قابلیت تبدیل شدن به «یک فاجعه پخش اطلاعات نادرست» را دارد و معتقد است که نماهنگ‌های آن «تأثیرگذار» اما «نه کامل» هستند. همچنین این مدل به دلیل تغییرات فیلم‌برداری بدون درخواست، حاکی از «درک در حال ظهور از دستور زبان سینمایی» است. لوی اضافه کرد: «اگر هم روزی امکان‌پذیر باشد، زمان بسیاری نیاز خواهد بود تا تولید محتوای ویدیویی از متن، جایگاه فیلمسازی واقعی را تهدید کند.» لیزا لیسی از سی‌نت ویدئوهای نمونه را «به‌طور چشمگیری واقعی - شاید به جز هنگامی که چهره انسان از نزدیک نمایش داده می‌شود یا موجودات دریایی در حال شنا هستند» نامید.^[۶]

منابع

↑ ^۱٫۰ ^۱٫۱ ^۱٫۲ ^۱٫۳ Metz, Cade (February 15, 2024). "OpenAI Unveils A.I. That Instantly Generates Eye-Popping Videos". The New York Times. Archived from the original on February 15, 2024. Retrieved February 15, 2024.
↑ ^۲٫۰ ^۲٫۱ Brooks, Tim; Peebles, Bill; Holmes, Connor; DePue, Will; Guo, Yufei; Jing, Li; Schnurr, David; Taylor, Joe; Luhman, Troy; Luhman, Eric; Ng, Clarence Wing Yin; Wang, Ricky; Ramesh, Aditya (February 15, 2024). "Video generation models as world simulators". OpenAI. Archived from the original on February 16, 2024. Retrieved February 16, 2024.
↑ ^۳٫۰ ^۳٫۱ ^۳٫۲ Yang, Angela (February 15, 2024). "OpenAI teases 'Sora,' its new text-to-video AI model". NBC News. Archived from the original on February 15, 2024. Retrieved February 16, 2024.
↑ ^۴٫۰ ^۴٫۱ Shankar Das (February 15, 2024). "Sora AI Can Generate Realistic Video based on Text Prompts: OpenAI". Epi Express. Archived from the original on February 15, 2024. Retrieved February 16, 2024.
↑ ^۵٫۰ ^۵٫۱ ^۵٫۲ Levy, Steven (February 15, 2024). "OpenAI's Sora Turns AI Prompts Into Photorealistic Videos". Wired. Archived from the original on February 15, 2024. Retrieved February 16, 2024.
↑ ^۶٫۰ ^۶٫۱ ^۶٫۲ ^۶٫۳ Lacy, Lisa (February 15, 2024). "Meet Sora, OpenAI's Text-to-Video Generator". CNET. Archived from the original on February 16, 2024. Retrieved February 16, 2024.
↑ ^۷٫۰ ^۷٫۱ Edwards, Benj (February 16, 2024). "OpenAI collapses media reality with Sora, a photorealistic AI video generator". Ars Technica (به انگلیسی). Archived from the original on February 17, 2024. Retrieved February 17, 2024.
↑ Heaven, Will Douglas (February 15, 2024). "OpenAI teases an amazing new generative video model called Sora". MIT Technology Review. Archived from the original on February 15, 2024. Retrieved February 15, 2024.
↑ Peebles, William; Xie, Saining (2023). "Scalable Diffusion Models with Transformers". 2023 IEEE/CVF International Conference on Computer Vision (ICCV). pp. 4172–4182. arXiv:2212.09748. doi:10.1109/ICCV51070.2023.00387. ISBN 979-8-3503-0718-4. ISSN 2380-7504. S2CID 254854389.
↑ Pequeño IV, Antonio (February 15, 2024). "OpenAI Reveals 'Sora': AI Video Model Capable Of Realistic Text-To-Video Prompts". Forbes. Archived from the original on February 15, 2024. Retrieved February 15, 2024.
↑ C2PA metadata

مشارکت‌کنندگان ویکی‌پدیا. «Sora (text-to-video model)». در دانشنامهٔ ویکی‌پدیای انگلیسی، بازبینی‌شده در ۲۰ فوریه ۲۰۲۴.

پیوند به بیرون

وبگاه رسمی

[NYT_CM_2024_02_15-1] ۱٫۰ ^۱٫۱ ^۱٫۲ ^۱٫۳ Metz, Cade (February 15, 2024). "OpenAI Unveils A.I. That Instantly Generates Eye-Popping Videos". The New York Times. Archived from the original on February 15, 2024. Retrieved February 15, 2024.

[OAI_research-2] ۲٫۰ ^۲٫۱ Brooks, Tim; Peebles, Bill; Holmes, Connor; DePue, Will; Guo, Yufei; Jing, Li; Schnurr, David; Taylor, Joe; Luhman, Troy; Luhman, Eric; Ng, Clarence Wing Yin; Wang, Ricky; Ramesh, Aditya (February 15, 2024). "Video generation models as world simulators". OpenAI. Archived from the original on February 16, 2024. Retrieved February 16, 2024.

[NBC-3] ۳٫۰ ^۳٫۱ ^۳٫۲ Yang, Angela (February 15, 2024). "OpenAI teases 'Sora,' its new text-to-video AI model". NBC News. Archived from the original on February 15, 2024. Retrieved February 16, 2024.

[Mash-4] ۴٫۰ ^۴٫۱ Shankar Das (February 15, 2024). "Sora AI Can Generate Realistic Video based on Text Prompts: OpenAI". Epi Express. Archived from the original on February 15, 2024. Retrieved February 16, 2024.

[Wired-5] ۵٫۰ ^۵٫۱ ^۵٫۲ Levy, Steven (February 15, 2024). "OpenAI's Sora Turns AI Prompts Into Photorealistic Videos". Wired. Archived from the original on February 15, 2024. Retrieved February 16, 2024.

[CNET-6] ۶٫۰ ^۶٫۱ ^۶٫۲ ^۶٫۳ Lacy, Lisa (February 15, 2024). "Meet Sora, OpenAI's Text-to-Video Generator". CNET. Archived from the original on February 16, 2024. Retrieved February 16, 2024.

[ars-7] ۷٫۰ ^۷٫۱ Edwards, Benj (February 16, 2024). "OpenAI collapses media reality with Sora, a photorealistic AI video generator". Ars Technica (به انگلیسی). Archived from the original on February 17, 2024. Retrieved February 17, 2024.

[WDH_MIT_2024_02_15-8] Heaven, Will Douglas (February 15, 2024). "OpenAI teases an amazing new generative video model called Sora". MIT Technology Review. Archived from the original on February 15, 2024. Retrieved February 15, 2024.

[9] Peebles, William; Xie, Saining (2023). "Scalable Diffusion Models with Transformers". 2023 IEEE/CVF International Conference on Computer Vision (ICCV). pp. 4172–4182. arXiv:2212.09748. doi:10.1109/ICCV51070.2023.00387. ISBN 979-8-3503-0718-4. ISSN 2380-7504. S2CID 254854389.

[10] Pequeño IV, Antonio (February 15, 2024). "OpenAI Reveals 'Sora': AI Video Model Capable Of Realistic Text-To-Video Prompts". Forbes. Archived from the original on February 15, 2024. Retrieved February 15, 2024.

[11] C2PA metadata

[۱]

[۲]

[۳]

[۴]

[۵]

[۶]

[۷]

[۸]

[۹]

[۱۰]

[۱۱]