فرآیند گاوسی شبکه عصبی
این مقاله دقیق، کامل و صحیح ترجمه نشده و نیازمند ترجمه به فارسی است. کل یا بخشی از این مقاله به زبانی بهجز زبان فارسی نوشته شدهاست. اگر مقصود ارائهٔ مقاله برای مخاطبان آن زبان است، باید در نسخهای از ویکیپدیا به همان زبان نوشته شود (فهرست ویکیپدیاها را ببینید). در غیر این صورت، خواهشمند است ترجمهٔ این مقاله را با توجه به متن اصلی و با رعایت سیاست ویرایش، دستور خط فارسی و برابر سازی به زبان فارسی بهبود دهید و سپس این الگو را از بالای صفحه بردارید. همچنین برای بحثهای مرتبط، مدخل این مقاله در فهرست صفحههای نیازمند ترجمه به فارسی را ببینید. اگر این مقاله به زبان فارسی بازنویسی نشود، تا دو هفتهٔ دیگر نامزد حذف میشود و/یا به نسخهٔ زبانی مرتبط ویکیپدیا منتقل خواهد شد. اگر شما اخیراً این مقاله را بهعنوان صفحهٔ نیازمند ترجمه برچسب زدهاید، لطفاً عبارت {{جا:هبک-ترجمه به فارسی|1=فرآیند گاوسی شبکه عصبی}} ~~~~ را نیز در صفحهٔ بحث نگارنده قرار دهید. |
این مقاله نیازمند ویکیسازی است. لطفاً با توجه به راهنمای ویرایش و شیوهنامه، محتوای آن را بهبود بخشید. |
شبکههای بیزی ابزار مدلسازی برای تخصیص احتمالات به رویدادها و در نتیجه مشخص کردن احتمال درستی یا نادرستی در پیشبینیهای یک مدل هستند. یادگیری عمیق و شبکههای عصبی رویکردهایی هستند که در یادگیری ماشین برای ساخت مدلهای محاسباتی استفاده میشوند که از دادههای آموزشی یادمیگیرند و با دادههای تست ارزیابی میشوند. شبکههای عصبی بیزی این دو رشته را ادغام میکنند. آنها نوعی شبکه عصبی هستند که پارامترها و پیشبینیهای آنها هر دو احتمالاتی هستند.[۱] در حالی که شبکههای عصبی معمولی اغلب پیشبینیهای قطعی بعنی صفر و یک دارند،[۲] شبکههای عصبی بیزی میتوانند با دقت بیشتری و به صورت غیر قطعی احتمال درست بودن پیشبینیهایشان را ارزیابی کنند.
فرآیندهای گاوسی شبکه عصبی (NNGPs) تا حدی معادل شبکههای عصبی بیزی هستند،[۳][۴][۵][۶][۷][۸][۹] و یک شکل بسته ارائه میکنند. روشی برای ارزیابی شبکههای عصبی بیزی آنها یک توزیع احتمال فرایند گاوسی هستند که توزیع بر روی پیشبینیهای انجام شده توسط شبکه عصبی بیزی مربوطه را توصیف میکند. محاسبات در شبکههای عصبی مصنوعی معمولاً در لایههای متوالی نورونهای مصنوعی سازماندهی میشوند. به تعداد نورونهای یک لایه، عرض لایه میگویند. همارزی بین NNGPها و شبکههای عصبی بیزی زمانی اتفاق میافتد که لایهها در شبکه عصبی بیزی بینهایت گسترده شوند (شکل را ببینید). این محدودیت عرض بزرگ مورد توجه عملی است، زیرا شبکههای عصبی با عرض محدود معمولاً با افزایش عرض لایه عملکرد بهتری دارند.[۱۰][۱۱][۷][۱۲]
NNGP همچنین در زمینههای دیگر ظاهر میشود: توزیع را بر روی پیشبینیهای انجام شده توسط شبکههای غیر بیزی پس از مقداردهی اولیه رندوم پارامترهای این شبکهها، توصیف میکند، اما این اتفاق قبل از یادگیری شبکه رخ میدهد. به عنوان یک اصطلاح در هسته مماس عصبی معادلات پیشبینی ظاهر میشود. از شبکه گاوسی در انتشار اطلاعات عمیق استفاده میشود تا مشخص شود که آیا هایپرپارامترها و معماریها قابلیت بادگیری دارند یا خیر.[۱۳] این به محدودیتهای تعداد نورونهای شبکههای عصبی مربوط میشود.
یک تصویر کارتونی
[ویرایش]هر تنظیم پارامترهای یک شبکه عصبی مربوط به یک تابع خاص است که توسط شبکه عصبی محاسبه میشود. توزیع ابتدایی روی پارامترهای شبکه عصبی مربوط به یک توزیع بر روی توابع محاسبه شده توسط شبکه است. از آنجایی که شبکههای عصبی بینهایت گسترده هستند، این توزیع بر روی توابع برای بسیاری از معماریها به یک فرایند گاوسی همگرا میشود.
شکل سمت راست خروجیهای یک بعدی را ترسیم میکند یک شبکه عصبی برای دو ورودی و در برابر یکدیگر نقاط سیاه تابع محاسبه شده توسط شبکه عصبی روی این ورودیها را برای ترسیم تصادفی پارامترها از . خطوط قرمز، خطوط همسان احتمال برای توزیع مشترک بر روی خروجیهای شبکه یعنی و هستند که از توزیع القا شدهاست. . این توزیع در فضای تابع مربوط به توزیع در فضای پارامتر است، و نقاط سیاه نمونههایی از این توزیع هستند. برای شبکههای عصبی بینهایت گسترده، از آنجایی که توزیع روی توابع محاسبه شده توسط شبکه عصبی یک فرایند گاوسی است، توزیع مشترک بر روی خروجیهای یک شبکه گاوسی چند متغیره برای هر مجموعه متناهی از ورودیهای شبکه است.
نماد استفاده شده در این بخش مانند نماد استفاده شده در زیر برای به دست آوردن مطابقت بین NNGPها و شبکههای کاملاً همبند است و جزئیات بیشتر نیز قابل مشاهده است..
معماریهایی که با NNGP مطابقت دارند
[ویرایش]نشان داده شدهاست که همارزی بین شبکههای عصبی بیزینی با پهنای بینهایت و NNGP برای: شبکههای کاملاً متصل[۳] و عمیق[۵][۶] برقرار است، زیرا تعداد واحدها در هر لایه به بینهایت میرسد. شبکههای عصبی کانولوشن به عنوان تعداد کانالها تا بینهایت گرفته میشود.[۷][۸] شبکههای ترانسفورماتور به عنوان تعداد سر توجه به بینهایت گرفته میشود.[۱۴] شبکههای تکراری به عنوان تعداد واحدها تا بینهایت گرفته میشود.[۹] در واقع، این تناظر NNGP تقریباً برای هر معماری صادق است: بهطور کلی، اگر یک معماری را بتوان صرفاً از طریق ضرب ماتریس و غیرخطیهای هماهنگی بیان کرد (یعنی یک برنامه تانسور)، آنگاه دارای یک GP با عرض نامحدود است.[۹] این بهطور خاص شامل تمام شبکههای عصبی پیشخور یا بازگشتی متشکل از پرسپترون چندلایه، شبکههای عصبی بازگشتی (مثلاً LSTMs، درنا)، (دوم یا نمودار) پیچیدگی، تجمع، جست و خیز اتصال، توجه، عادی دسته ای، و / یا لایه عادی.
معماریهای خاصی را میتوان طوری تغییر داد که به شبکههای عصبی بیزی نامتناهی اجازه دهد که NNGP با هستههای ترکیب شده از طریق عملیات افزایشی و ضربی تولید کنند.[۱۵]
مکاتبات بین یک شبکه کاملاً متصل بینهایت گسترده و یک فرایند گاوسی
[ویرایش]این بخش در مورد تطابق بین شبکههای عصبی گسترده و فرآیندهای گاوسی برای مورد خاص یک معماری کاملاً متصل گسترش مییابد. این یک طرح اثباتی ارائه میدهد که نشان میدهد چرا مکاتبات برقرار است، و شکل عملکرد خاص NNGP را برای شبکههای کاملاً متصل معرفی میکند. طرح اثبات نزدیک به رویکرد نواک و همکاران است..[۷]
یک شبکه عصبی مصنوعی کاملاً متصل با ورودیها را در نظر بگیرید ، مولفههای متشکل از وزنهها و تعصبات برای هر لایه در شبکه، پیش فعال سازی (پیش غیرخطی) ، فعال سازی (پس از غیرخطی بودن) ، غیرخطی نقطه ای و عرض لایهها . برای سادگی، عرض از بردار بازخوانی 1 در نظر گرفته شدهاست. پارامترهای این شبکه دارای توزیع قبلی هستند ، که از یک گاوسی همسانگرد برای هر وزن و بایاس تشکیل شدهاست، با واریانس وزنها به صورت معکوس با عرض لایه. این شبکه در شکل سمت راست نشان داده شدهاست و با مجموعه معادلات زیر توضیح داده شدهاست:
یک فرایند گاوسی است
[ویرایش]ابتدا مشاهده میکنیم که پیش فعال سازیها توسط یک فرایند گاوسی مشروط به فعال سازیهای قبلی توصیف میشوند . این نتیجه حتی در عرض محدود نیز برقرار است. هر پیش فعال سازی یک مجموع وزنی از متغیرهای تصادفی گاوسی است که مربوط به اوزان است و تعصبات ، که در آن ضرایب هر یک از آن متغیرهای گاوسی، فعال سازیهای قبلی هستند . از آنجایی که آنها مجموع وزنی از گاوسیان با میانگین صفر هستند خودشان گاوسیان صفر میانگین هستند (مشروط به ضرایب ). از آنجا که بهطور مشترک برای هر مجموعه ای از گاوسی هستند ، آنها توسط یک فرایند گاوسی مشروط به فعال سازیهای قبلی توصیف میشوند . کوواریانس یا هسته این فرایند گاوسی به وزن و واریانس بایاس بستگی دارد و و همچنین ماتریس لحظه دوم از فعال سازیهای قبلی .
تأثیر ترازو وزن این است که سهم به ماتریس کوواریانس را مجدداً مقیاس بندی کنیم ، در حالی که سوگیری برای همه ورودیها مشترک است و غیره را میسازد برای نقاط داده مختلف شبیه تر است و ماتریس کوواریانس را بیشتر شبیه به یک ماتریس ثابت میکند.
یک فرایند گاوسی است
[ویرایش]پیش فعال سازیها فقط به از طریق ماتریس لحظه دوم آن وابسته است. به همین دلیل میتوان گفت که یک فرایند گاوسی شرطی روی است، نه روی .
به عنوان عرض لایه ، قطعی میشود
[ویرایش]همانطور که قبلاً تعریف شد، ماتریس لحظه دوم از . از آنجا که بردار فعال سازی پس از اعمال غیرخطی است ، میتوان آن را جایگزین کرد ، و در نتیجه یک معادله اصلاح شده بیان میکند برای به لحاظ ،
ما قبلاً تعیین کردهایم که یک فرایند گاوسی است. این یعنی مجموعی که را تعریف میکند، میانگین نمونه ای از یک فرایند گاوسی است که خود تابعی از است.
به عنوان عرض لایه به بینهایت میرود، این میانگین به پایان میرسد نمونههایی از فرایند گاوسی را میتوان با یک انتگرال بر روی فرایند گاوسی جایگزین کرد:
بنابراین، در محدوده عرض نامحدود ماتریس لحظه دوم برای هر جفت ورودی و را میتوان به عنوان یک انتگرال بر روی یک گاوسی ۲ بعدی، از حاصل ضرب بیان کرد و . تعدادی از موقعیتها وجود دارد که در آن این به صورت تحلیلی حل شدهاست، مانند زمانی که یک تابع غیرخطی ReLU ,[۱۶] ELU, GELU، یا خطا.[۴] حتی زمانی که نمیتوان آن را به صورت تحلیلی حل کرد، از آنجایی که یک انتگرال ۲ بعدی است، بهطور کلی میتوان آن را به صورت عددی بهطور مؤثر محاسبه کرد.[۵] این انتگرال قطعی است، بنابراین قطعی است. برای کوتاه نویسی یک تابع تعریف میکنیم ، که مربوط به محاسبه این انتگرال ۲ بعدی برای همه جفت ورودیها و نقشهها است به ،
یک NNGP است
[ویرایش]با اعمال این مشاهده به صورت بازگشتی که وقتی ، قطعی است، را میتوان به عنوان یک تابع قطعی در نظر گرفت،
جایی که نشان دهنده اعمال تابعی است به صورت متوالی بار. با ترکیب این عبارت با مشاهدات بعدی که لایه ورودی ماتریس گشتاور دوم است تابع قطعی ورودی است ، و آن یک فرایند گاوسی است، خروجی شبکه عصبی را میتوان به عنوان یک فرایند گاوسی بر حسب ورودی آن بیان کرد،
کتابخانههای نرمافزاری
[ویرایش]Neural Tangents یک کتابخانه رایگان و منبع باز پایتون است که برای محاسبه و انجام استنتاج با NNGP و هسته مماس عصبی مربوط به معماریهای مختلف ANN رایج استفاده میشود.[۱۷]
منابع
[ویرایش]- ↑ MacKay, David J. C. (1992). "A Practical Bayesian Framework for Backpropagation Networks". Neural Computation. 4 (3): 448–472. doi:10.1162/neco.1992.4.3.448. ISSN 0899-7667.
- ↑ Guo, Chuan; Pleiss, Geoff; Sun, Yu; Weinberger, Kilian Q. (2017). "On calibration of modern neural networks". Proceedings of the 34th International Conference on Machine Learning-Volume 70. arXiv:1706.04599.
- ↑ ۳٫۰ ۳٫۱ Neal, Radford M. (1996), "Priors for Infinite Networks", Bayesian Learning for Neural Networks, Lecture Notes in Statistics, vol. 118, Springer New York, pp. 29–53, doi:10.1007/978-1-4612-0745-0_2, ISBN 978-0-387-94724-2
- ↑ ۴٫۰ ۴٫۱ Williams, Christopher K. I. (1997). "Computing with infinite networks". Neural Information Processing Systems.
- ↑ ۵٫۰ ۵٫۱ ۵٫۲ Lee, Jaehoon; Bahri, Yasaman; Novak, Roman; Schoenholz, Samuel S.; Pennington, Jeffrey; Sohl-Dickstein, Jascha (2017). "Deep Neural Networks as Gaussian Processes". International Conference on Learning Representations. arXiv:1711.00165. Bibcode:2017arXiv171100165L.
- ↑ ۶٫۰ ۶٫۱ G. de G. Matthews, Alexander; Rowland, Mark; Hron, Jiri; Turner, Richard E.; Ghahramani, Zoubin (2017). "Gaussian Process Behaviour in Wide Deep Neural Networks". International Conference on Learning Representations. arXiv:1804.11271. Bibcode:2018arXiv180411271M.
- ↑ ۷٫۰ ۷٫۱ ۷٫۲ ۷٫۳ Novak, Roman; Xiao, Lechao; Lee, Jaehoon; Bahri, Yasaman; Yang, Greg; Abolafia, Dan; Pennington, Jeffrey; Sohl-Dickstein, Jascha (2018). "Bayesian Deep Convolutional Networks with Many Channels are Gaussian Processes". International Conference on Learning Representations. arXiv:1810.05148. Bibcode:2018arXiv181005148N.
- ↑ ۸٫۰ ۸٫۱ Garriga-Alonso, Adrià; Aitchison, Laurence; Rasmussen, Carl Edward (2018). "Deep Convolutional Networks as shallow Gaussian Processes". International Conference on Learning Representations. arXiv:1808.05587. Bibcode:2018arXiv180805587G.
- ↑ ۹٫۰ ۹٫۱ ۹٫۲ Yang, Greg (2019). "Tensor Programs I: Wide Feedforward or Recurrent Neural Networks of Any Architecture are Gaussian Processes" (PDF). Advances in Neural Information Processing Systems. arXiv:1910.12478. Bibcode:2019arXiv191012478Y.
- ↑ Novak, Roman; Bahri, Yasaman; Abolafia, Daniel A.; Pennington, Jeffrey; Sohl-Dickstein, Jascha (2018-02-15). "Sensitivity and Generalization in Neural Networks: an Empirical Study". International Conference on Learning Representations. arXiv:1802.08760. Bibcode:2018arXiv180208760N.
- ↑ Canziani, Alfredo; Paszke, Adam; Culurciello, Eugenio (2016-11-04). "An Analysis of Deep Neural Network Models for Practical Applications". arXiv:1605.07678. Bibcode:2016arXiv160507678C.
{{cite journal}}
: Cite journal requires|journal=
(help) - ↑ Neyshabur, Behnam; Li, Zhiyuan; Bhojanapalli, Srinadh; LeCun, Yann; Srebro, Nathan (2019). "Towards understanding the role of over-parametrization in generalization of neural networks". International Conference on Learning Representations. arXiv:1805.12076. Bibcode:2018arXiv180512076N.
- ↑ Schoenholz, Samuel S.; Gilmer, Justin; Ganguli, Surya; Sohl-Dickstein, Jascha (2016). "Deep information propagation". International Conference on Learning Representations. arXiv:1611.01232.
- ↑ Hron, Jiri; Bahri, Yasaman; Sohl-Dickstein, Jascha; Novak, Roman (2020-06-18). "Infinite attention: NNGP and NTK for deep attention networks". International Conference on Machine Learning. 2020. arXiv:2006.10540. Bibcode:2020arXiv200610540H.
- ↑ Pearce, Tim; Tsuchida, Russell; Brintrup, Alexandra (2019). "Expressive Priors in Bayesian Neural Networks: Kernel Combinations and Periodic Functions" (PDF). UAI.
- ↑ Cho, Youngmin; Saul, Lawrence K. (2009). "Kernel Methods for Deep Learning". Neural Information Processing Systems: 342–350.
- ↑ Novak, Roman; Xiao, Lechao; Hron, Jiri; Lee, Jaehoon; Alemi, Alexander A.; Sohl-Dickstein, Jascha; Schoenholz, Samuel S. (2019-12-05), "Neural Tangents: Fast and Easy Infinite Neural Networks in Python", International Conference on Learning Representations (ICLR), 2020, arXiv:1912.02803, Bibcode:2019arXiv191202803N