مدل مبتنی بر انرژی
مدل مبتنی بر انرژی (به انگلیسی: Energy based model) شکلی از مدل مولد (GM) است که مستقیماً از فیزیک آماری وارد مباحث یادگیری شدهاست. مدل مولد با تجزیه و تحلیل مجموعهٔ دادههای نمونه، نحوهٔ توزیع دادهها را فرا میگیرد. پس از آموزش، مدل مولد میتواند مجموعه دادههای دیگری را تولید کند که با توزیع دادهها نیز مطابقت داشته باشد.[۱] مدلهای مبتنی بر انرژی یک چارچوب یکپارچه ارائه میکند که برای بسیاری از رویکردهای احتمالی و غیر احتمالی برای چنین نوع یادگیری، به ویژه برای آموزش مدلهای گرافیکی و سایر مدلهای ساختار یافته مؤثر هستند.[۲]
یک مدل مبتنی بر انرژی ویژگیهای یک مجموعهٔ داده را میآموزد و یک مجموعهٔ دادهٔ مشابه اما بزرگتر تولید میکند. اینگونه مدلها، متغیرهای پنهان یک مجموعهٔ داده را شناسایی کرده و مجموعه دادههای جدیدی با توزیع مشابه تولید میکنند.[۲]
کاربردهای این مدل شامل پردازش زبان طبیعی، روباتیک و بینایی رایانهای میباشد.[۲]
تاریخچه
[ویرایش]تحقیقات اولیه بر روی مدلهای مبتنی بر انرژی، مدلهایی را پیشنهاد داد که انرژی را به عنوان ترکیبی از متغیرهای پنهان و قابل مشاهده نشان میداد. مدلهای مبتنی بر انرژی در سال ۲۰۰۳ مورد توجه واقع شدند.[۳]
رویکرد
[ویرایش]مدلهای مبتنی بر انرژی با اختصاص دادن یک اسکالر احتمالی نرمالنشده (انرژی) به هر پیکربندی ترکیبی از متغیرهای مشاهدهشده، وابستگیها را پنهان پیدا میکنند. این عمل شامل یافتن (مقادیر) متغیرهای پنهانی میباشد که انرژی را با توجه به مجموعه ای از (مقادیر) متغیرهای مشاهده شده به حداقل میرساند. بهطور مشابه، مدل، تابعی را میآموزد که انرژیهای کم را به مقادیر متغیرهای پنهان اصلاح و انرژیهای بالاتر را به مقادیر نادرست، مرتبط میکند.[۲]
مدلهای مبتنی بر انرژی قدیمی به روشهای بهینهسازی گرادیان-نزولی تصادفی (SGD) تکیه میکنند که معمولاً به سختی میتوان آنها را بر مجموعه دادههایی با ابعاد بالا اعمال کرد. در سال ۲۰۱۹، OpenAI نسخهای را منتشر کرد که از دینامیک لانگوین (LD) استفاده میکرد. دینامیک لانگوین یک الگوریتم بهینهسازی تکراری است که نویز را به عنوان بخشی از یادگیری یک تابع هدف به تخمینگر میدهد که میتوان از آن برای سناریوهای یادگیری بیزی با تولید نمونههایی از توزیع پسین استفاده کرد.[۲]
مدلهای مبتنی بر انرژی نیازی به نرمالکردن انرژیها به عنوان احتمال ندارند. به عبارت دیگر، انرژیها نیازی ندارند که مجموعشان ۱ شود. از آنجایی که نیازی به تخمین ثابت نرمال سازی مانند مدلهای احتمالی نداریم، حالتهای خاصی از استنباط و یادگیری با مدلهای مبتنی بر انرژی قابل اجرا و انعطاف پذیرتر هستند.[۲]
نمونهها بهطور ضمنی از طریق رویکرد مونت کارلو زنجیره مارکوف تولید میشوند.[۴] یک بافر پخش مجدد تصاویر گذشته، برای مقداردهی اولیه ماژول بهینهسازی با استفاده از با روش دینامیک لانگوین استفاده میشود.[۲]
مشخصات
[ویرایش]از مزایای این مدل موارد زیر را میشود نام برد:[۲]
- سادگی و پایداری – مدل مبتنی بر انرژی، تنها مدلی است که نیاز به طراحی و آموزش دارد. شبکههای جدا از هم برای اطمینان از تعادل نیازی به آموزش مجزا ندارند.
- زمان محاسبات تطبیقی – یک مدل مبتنی بر انرژی میتواند نمونههای دقیق، متنوع یا (سریعتر) درشت و نمونههای کمتنوع تولید کند. با توجه به زمان بینهایت، این روش میتواند نمونههای واقعی را تولید کند.[۱]
- انعطافپذیری – در رمزگذارهای خودکار متغیر (VAE) و مدلهای مبتنی بر جریان، مولد یک نقشهای را از یک فضای پیوسته به یک فضای ناپیوسته (احتمالاً) حاوی حالتهای مختلف داده میآموزد. مدلهای مبتنی بر انرژی میتوانند یاد بگیرند که انرژیهای کم را به مناطق مجزا اختصاص دهند (حالتهای چندگانه).
- تولید تطبیقی – مولدهای مدل مبتنی به انرژی بهطور ضمنی با توزیع احتمال تعریف میشوند و بهطور خودکار با تغییر توزیع (بدون هیچ آموزشی) سازگار میشوند، این کار به مدلهای مبتنی بر انرژی اجازه میدهد تا حوزههایی را که آموزش مولد در آنها غیرعملی است شناسایی کنند، حالت فروپاشی را به حداقل برسانند و از حالتهای جعلی خارج از نمونههای توزیع جلوگیری کنند.[۴]
- ترکیبپذیری- هرکدام از مدلهای مجزا، توزیعهای احتمال غیرنرمالی هستند که به مدلها اجازه میدهند از طریق محصول متخصصان یا سایر تکنیکهای سلسله مراتبی ترکیب شوند.
نتایج تجربی
[ویرایش]در مجموعهٔ دادههای تصویری مانند CIFAR-10 و ImageNet 32x32، یک مدل مبتنی بر انرژی تصاویر با کیفیت را با سرعت نسبتاً زیادی ایجاد میکند. این مدل از ترکیب ویژگیهای یادگرفته شده از یک تصویر مشخص، برای تولید انواع دیگر تصاویر پشتیبانی میکند. این مدل قادر است عملکردی بهتر از مدلهای مبتنی بر جریان و اتورگرسیو با تعمیم مجموعهٔ دادههای خارج از توزیع داشته باشد. مدل مبتنی بر انرژی نسبتاً در برابر آشفتگیهای متخاصم، مقاوم بوده و نسبت به مدلهایی که به صراحت در برابر آموزش مبتنی، عملکرد بهتری دارد.[۲]
جایگزین
[ویرایش]مدلهای مبتنی بر انرژی با تکنیکهایی مانند رمزگذارهای خودکار متغیر (VAE) یا شبکههای عصبی متخاصم مولد (GAN) رقابت میکنند.[۲]
پانویس
[ویرایش]- ↑ ۱٫۰ ۱٫۱ "Implicit Generation and Generalization Methods for Energy-Based Models". OpenAI (به انگلیسی). 2019-03-21. Retrieved 2019-12-27.
- ↑ ۲٫۰۰ ۲٫۰۱ ۲٫۰۲ ۲٫۰۳ ۲٫۰۴ ۲٫۰۵ ۲٫۰۶ ۲٫۰۷ ۲٫۰۸ ۲٫۰۹ Rodriguez, Jesus (2019-04-01). "Generating Training Datasets Using Energy Based Models that Actually Scale". Medium (به انگلیسی). Archived from the original on 1 April 2019. Retrieved 2019-12-27.
- ↑ LeCun, Yann (September 2003). "CBLL, Research Projects, Computational and Biological Learning Lab, Courant Institute, NYU". cs.nyu.edu. Retrieved 2019-12-27.
- ↑ ۴٫۰ ۴٫۱ A bot will complete this citation soon. Click here to jump the queue arXiv:[۱].
منابع
[ویرایش]- "CIAR NCAP Summer School". www.cs.toronto.edu. Retrieved 2019-12-27.
- Dayan, Peter; Hinton, Geoffrey; Neal, Radford; Zemel, Richard S. (1999), "Helmholtz Machine", Unsupervised Learning, The MIT Press, doi:10.7551/mitpress/7011.003.0017, ISBN 978-0-262-28803-3
- Hinton, Geoffrey E. (August 2002). "Training Products of Experts by Minimizing Contrastive Divergence". Neural Computation. 14 (8): 1771–1800. doi:10.1162/089976602760128018. ISSN 0899-7667. PMID 12180402.
- Salakhutdinov, Ruslan; Hinton, Geoffrey (2009-04-15). "Deep Boltzmann Machines". Artificial Intelligence and Statistics (به انگلیسی): 448–455.