مدلهای انتشاری (به انگلیسی: Diffusion Models) در یادگیری ماشینی، دستهای از مدلهای متغیر پنهان (به انگلیسی: Latent Variable Models) هستند. این مدلها نوعی زنجیره مارکوف هستند که با استفاده از استنباط بیزی تغییراتی آموزش داده میشوند.[۱]
هدف مدلهای انتشاری، یادگیری ساختار پنهان یک مجموعه داده با مدلسازی روشی است که در آن نقاط داده در فضای پنهان (به انگلیسی: latent space) منتشر میشوند. در بینایی ماشین، این یعنی یک شبکه عصبی آموزش داده میشود تا با یادگیری معکوس فرایند انتشاری، با شروع از نویز گاوسی به تصاویر اصلی برسد.[۲][۳]
مدلهای انتشاری خانوادهای از مدلهای مولد احتمالی هستند که به تدریج دادهها را با اضافهکردن نویز تخریب میکنند، سپس یادمیگیرند که این فرایند را برای تولید نمونه معکوس کنند. یک مدل انتشاری از دو زنجیره مارکوف استفاده میکند: یک زنجیره مستقیم که دادهها را بهتدریج به نویز تبدیل میکند و یک زنجیره معکوس که نویز را به داده تبدیل میکند. اولی معمولاً با هدف تبدیل هر توزیع دادهای به یک توزیع پیشین ساده (مثلاً گاوسی استاندارد) به صورت دستی طراحی میشود، در حالی که زنجیره مارکوف دوم با یادگیری هستههای انتقال توسط شبکههای عصبی عمیق، اولی را معکوس میکند.[۴]
با داشتن یک نقطه داده نمونهبرداریشده از یک توزیع داده واقعی ، فرایند انتشار مستقیم (به انگلیسی: forward diffusion process) را اینگونه تعریف میکنیم که در آن مقدار کمی نویز گاوسی را در گام به نمونه ورودی اضافه میکنیم تا نمونههای نویزدار تولید شود. اندازه گامها توسط یک برنامه واریانس کنترل میشود.
نمونه داده به تدریج ویژگیهای قابل مشاهده خود را با بزرگتر شدن گام از دست میدهد. درنهایت وقتی ، معادل یک توزیع گاوسی همسانگرد خواهد شد.
یک ویژگی خوب فرایند فوق این است که میتوانیم را در هر گام دلخواه به صورت فرم بسته زیر با فرض و محاسبه کنیم:[۵]
توجه کنید که وقتی دو توزیع نرمال با واریانسهای مختلف، و ادغام میکنیم، توزیع جدید خواهد بود. در رابطه بالا انحراف معیار برابر خواهد بود با:
اگر بتوانیم فرایند بالا را معکوس کنیم و از نمونهبرداری کنیم، میتوانیم نمونه واقعی را از ورودی نویز گاوسی دوباره ایجاد کنیم. توجه کنید که اگر به اندازه کافی کوچک باشد، نیز گوسی خواهد بود. متأسفانه، ما نمیتوانیم را به راحتی تخمین بزنیم زیرا برای این کار باید از کل مجموعهداده استفاده کنیم، بنابراین باید مدلِ را برای تقریب این احتمالات شرطی به منظور اجرای فرایند انتشار معکوس یاد بگیریم.
احتمال شرطی معکوس زمانی قابل حل است که روی شرط شود:
با اعمال قاعده بیز داریم:
با توجه به تابع چگالی توزیع گاوسی، میانگین و واریانس را میتوان به صورت زیر بهدستآورد:
میدانیم که و با جایگذاری در عبارات بالا خواهیم داشت:
برای تقریب توزیع احتمال شرطی در فرایند انتشار معکوس نیاز به یادگیری یک شبکه عصبی داریم. درواقع میخواهیم را آموزش دهیم که را پیشبینی کند. از آنجایی که بهعنوان ورودی مدل هنگام آموزش داده میشود، میتوانیم با تغییر عبارت نویز گاوسی را از ورودی در گام پیشبینی کنیم:
پس تابع هزینه برای کمینه کردن اختلاف از به صورت زیر خواهد بود:
در مقاله[۱] نشان داده شدهاست که آموزش مدل انتشاری با تابع هزینه زیر بهتر انجام میشود:
و تابع هزینه نهایی به صورت خواهد بود ( یک مقدار ثابت مستقل از است).
فرایند نمونهگیری از DDPM با دنبالکردن زنجیره مارکوف فرایند انتشار معکوس بسیار کند است، زیرا تعداد گامها میتواند تا یک یا چند هزار مرحله باشد. در[۶] گفته شده «به عنوان مثال، نمونهگیری ۵۰ هزار عکس با اندازه ۳۲ × ۳۲ از یک DDPM حدود ۲۰ ساعت طول میکشد، اما انجام این کار با یک GAN روی یک پردازنده گرافیکی Nvidia 2080 Ti کمتر از یک دقیقه زمان میبرد.»
↑ ۱٫۰۱٫۱Ho, Jonathan; Jain, Ajay; Abbeel, Pieter (19 June 2020). "Denoising Diffusion Probabilistic Models". Advances in Neural Information Processing Systems. arXiv:2006.11239.
↑Song, Yang; Ermon, Stefano (2020). "Improved Techniques for Training Score-Based Generative Models". Advances in Neural Information Processing Systems. arXiv:2006.09011.
↑Gu, Shuyang; Chen, Dong; Bao, Jianmin; Wen, Fang; Zhang, Bo; Chen, Dongdong; Yuan, Lu; Guo, Baining (2021). "Vector Quantized Diffusion Model for Text-to-Image Synthesis". Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. arXiv:2111.14822.
↑Yang, Ling; Zhang, Zhilong (2022). "Diffusion models: A comprehensive survey of methods and applications". arXiv.
↑Nichol, Alexander Quinn; Dhariwal, Prafulla (2021). "Improved denoising diffusion probabilistic models". International Conference on Machine Learning Systems.
↑Prafulla, Dhariwal; Nichol, Alexander (2021). "Diffusion models beat gans on image synthesisDiffusion models beat gans on image synthesis". Advances in Neural Information Processing Systems.
↑Saharia, Chitwan; Ho, Jonathan (2022). "Image super-resolution via iterative refinement". IEEE Transactions on Pattern Analysis and Machine Intelligence.
↑ ۱۲٫۰۱۲٫۱Batzolis, Georgios; Stanczuk, Jan (2021). "Conditional image generation with score-based diffusion models". arXiv. arXiv:2111.13606.
↑Kawar, Bahjat; Elad, Michael (2022). "Denoising Diffusion Restoration Models". ICLR Workshop on Deep Generative Models for Highly Structured Data.
↑Kim, Gwanghyun; Kwon, Taesung (2022). "DiffusionCLIP: Text-Guided Diffusion Models for Robust Image Manipulation". Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition.
↑Avrahami, Omri; Lischinski, Dani (2021). "Improved denoising diffusion probabilistic models". Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition.
↑Lugmayr, Andreas; Danelljan, Martin (2022). "Repaint: Inpainting using denoising diffusion probabilistic models". Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition.
↑He, Yingqing; Yang, Tianyu (2022). "Latent Video Diffusion Models for High-Fidelity Video Generation with Arbitrary Lengths". arXiv.
↑Wolleb, Julia; Bieder, Florentin (2022). "Diffusion Models for Medical Anomaly Detection". arXiv. arXiv:2203.04306.
↑Saadatnejad, Saeed; Rasekh, Ali; Mofayezi, Mohammadreza; Medghalchi, Yasamin; Rajabzadeh, Sara; Mordan, Taylor; Alahi, Alexandre (2022). "A generic diffusion-based approach for 3D human pose prediction in the wild". arXiv. arXiv:2210.05669.