پرش به محتوا

فرآیند گاوسی شبکه عصبی

از ویکی‌پدیا، دانشنامهٔ آزاد
سمت چپ: یک شبکه عصبی بیزی با دو لایه پنهان، که یک ورودی سه بعدی (پایین) را به یک خروجی دو بعدی تبدیل می‌کند.(بالا). سمت راست: تابع چگالی احتمال خروجی ناشی از وزن‌های تصادفی شبکه است. ویدئو: با افزایش عرض شبکه، توزیع خروجی ساده می‌شود و در نهایت به یک نرمال چند متغیره در حد عرض نامحدود همگرا می‌شود.

شبکه‌های بیزی ابزار مدل‌سازی برای تخصیص احتمالات به رویدادها و در نتیجه مشخص کردن احتمال درستی یا نادرستی در پیش‌بینی‌های یک مدل هستند. یادگیری عمیق و شبکه‌های عصبی رویکردهایی هستند که در یادگیری ماشین برای ساخت مدل‌های محاسباتی استفاده می‌شوند که از داده‌های آموزشی یادمی‌گیرند و با داده‌های تست ارزیابی می‌شوند. شبکه‌های عصبی بیزی این دو رشته را ادغام می‌کنند. آنها نوعی شبکه عصبی هستند که پارامترها و پیش‌بینی‌های آنها هر دو احتمالاتی هستند.[۱] در حالی که شبکه‌های عصبی معمولی اغلب پیش‌بینی‌های قطعی بعنی صفر و یک دارند،[۲] شبکه‌های عصبی بیزی می‌توانند با دقت بیشتری و به صورت غیر قطعی احتمال درست بودن پیش‌بینی‌هایشان را ارزیابی کنند.

فرآیندهای گاوسی شبکه عصبی (NNGPs) تا حدی معادل شبکه‌های عصبی بیزی هستند،[۳][۴][۵][۶][۷][۸][۹] و یک شکل بسته ارائه می‌کنند. روشی برای ارزیابی شبکه‌های عصبی بیزی آنها یک توزیع احتمال فرایند گاوسی هستند که توزیع بر روی پیش‌بینی‌های انجام شده توسط شبکه عصبی بیزی مربوطه را توصیف می‌کند. محاسبات در شبکه‌های عصبی مصنوعی معمولاً در لایه‌های متوالی نورون‌های مصنوعی سازماندهی می‌شوند. به تعداد نورون‌های یک لایه، عرض لایه می‌گویند. هم‌ارزی بین NNGPها و شبکه‌های عصبی بیزی زمانی اتفاق می‌افتد که لایه‌ها در شبکه عصبی بیزی بی‌نهایت گسترده شوند (شکل را ببینید). این محدودیت عرض بزرگ مورد توجه عملی است، زیرا شبکه‌های عصبی با عرض محدود معمولاً با افزایش عرض لایه عملکرد بهتری دارند.[۱۰][۱۱][۷][۱۲]

NNGP همچنین در زمینه‌های دیگر ظاهر می‌شود: توزیع را بر روی پیش‌بینی‌های انجام شده توسط شبکه‌های غیر بیزی پس از مقداردهی اولیه رندوم پارامترهای این شبکه‌ها، توصیف می‌کند، اما این اتفاق قبل از یادگیری شبکه رخ می‌دهد. به عنوان یک اصطلاح در هسته مماس عصبی معادلات پیش‌بینی ظاهر می‌شود. از شبکه گاوسی در انتشار اطلاعات عمیق استفاده می‌شود تا مشخص شود که آیا هایپرپارامترها و معماری‌ها قابلیت بادگیری دارند یا خیر.[۱۳] این به محدودیت‌های تعداد نورون‌های شبکه‌های عصبی مربوط می‌شود.

یک تصویر کارتونی

[ویرایش]
وقتی پارامترها یک شبکه با عرض نامحدود به‌طور مکرر از شبکه قبلی خود نمونه برداری می‌شود ، توزیع حاصل بر روی خروجی‌های شبکه توسط یک فرایند گاوسی توصیف می‌شود.

هر تنظیم پارامترهای یک شبکه عصبی مربوط به یک تابع خاص است که توسط شبکه عصبی محاسبه می‌شود. توزیع ابتدایی روی پارامترهای شبکه عصبی مربوط به یک توزیع بر روی توابع محاسبه شده توسط شبکه است. از آنجایی که شبکه‌های عصبی بی‌نهایت گسترده هستند، این توزیع بر روی توابع برای بسیاری از معماری‌ها به یک فرایند گاوسی همگرا می‌شود.

شکل سمت راست خروجی‌های یک بعدی را ترسیم می‌کند یک شبکه عصبی برای دو ورودی و در برابر یکدیگر نقاط سیاه تابع محاسبه شده توسط شبکه عصبی روی این ورودی‌ها را برای ترسیم تصادفی پارامترها از . خطوط قرمز، خطوط همسان احتمال برای توزیع مشترک بر روی خروجی‌های شبکه یعنی و هستند که از توزیع القا شده‌است. . این توزیع در فضای تابع مربوط به توزیع در فضای پارامتر است، و نقاط سیاه نمونه‌هایی از این توزیع هستند. برای شبکه‌های عصبی بی‌نهایت گسترده، از آنجایی که توزیع روی توابع محاسبه شده توسط شبکه عصبی یک فرایند گاوسی است، توزیع مشترک بر روی خروجی‌های یک شبکه گاوسی چند متغیره برای هر مجموعه متناهی از ورودی‌های شبکه است.

نماد استفاده شده در این بخش مانند نماد استفاده شده در زیر برای به دست آوردن مطابقت بین NNGPها و شبکه‌های کاملاً همبند است و جزئیات بیشتر نیز قابل مشاهده است..

معماری‌هایی که با NNGP مطابقت دارند

[ویرایش]

نشان داده شده‌است که هم‌ارزی بین شبکه‌های عصبی بیزینی با پهنای بی‌نهایت و NNGP برای: شبکه‌های کاملاً متصل[۳] و عمیق[۵][۶] برقرار است، زیرا تعداد واحدها در هر لایه به بی‌نهایت می‌رسد. شبکه‌های عصبی کانولوشن به عنوان تعداد کانال‌ها تا بی‌نهایت گرفته می‌شود.[۷][۸] شبکه‌های ترانسفورماتور به عنوان تعداد سر توجه به بی‌نهایت گرفته می‌شود.[۱۴] شبکه‌های تکراری به عنوان تعداد واحدها تا بی‌نهایت گرفته می‌شود.[۹] در واقع، این تناظر NNGP تقریباً برای هر معماری صادق است: به‌طور کلی، اگر یک معماری را بتوان صرفاً از طریق ضرب ماتریس و غیرخطی‌های هماهنگی بیان کرد (یعنی یک برنامه تانسور)، آنگاه دارای یک GP با عرض نامحدود است.[۹] این به‌طور خاص شامل تمام شبکه‌های عصبی پیش‌خور یا بازگشتی متشکل از پرسپترون چندلایه، شبکه‌های عصبی بازگشتی (مثلاً LSTMs، درنا)، (دوم یا نمودار) پیچیدگی، تجمع، جست و خیز اتصال، توجه، عادی دسته ای، و / یا لایه عادی.

معماری‌های خاصی را می‌توان طوری تغییر داد که به شبکه‌های عصبی بیزی نامتناهی اجازه دهد که NNGP با هسته‌های ترکیب شده از طریق عملیات افزایشی و ضربی تولید کنند.[۱۵]

مکاتبات بین یک شبکه کاملاً متصل بی‌نهایت گسترده و یک فرایند گاوسی

[ویرایش]

این بخش در مورد تطابق بین شبکه‌های عصبی گسترده و فرآیندهای گاوسی برای مورد خاص یک معماری کاملاً متصل گسترش می‌یابد. این یک طرح اثباتی ارائه می‌دهد که نشان می‌دهد چرا مکاتبات برقرار است، و شکل عملکرد خاص NNGP را برای شبکه‌های کاملاً متصل معرفی می‌کند. طرح اثبات نزدیک به رویکرد نواک و همکاران است..[۷]

یک NNGP مشتق شده‌است که معادل یک شبکه عصبی بیزی با این معماری کاملاً متصل است.

یک شبکه عصبی مصنوعی کاملاً متصل با ورودی‌ها را در نظر بگیرید ، مولفه‌های متشکل از وزنه‌ها و تعصبات برای هر لایه در شبکه، پیش فعال سازی (پیش غیرخطی) ، فعال سازی (پس از غیرخطی بودن) ، غیرخطی نقطه ای و عرض لایه‌ها . برای سادگی، عرض از بردار بازخوانی 1 در نظر گرفته شده‌است. پارامترهای این شبکه دارای توزیع قبلی هستند ، که از یک گاوسی همسانگرد برای هر وزن و بایاس تشکیل شده‌است، با واریانس وزن‌ها به صورت معکوس با عرض لایه. این شبکه در شکل سمت راست نشان داده شده‌است و با مجموعه معادلات زیر توضیح داده شده‌است:

یک فرایند گاوسی است

[ویرایش]

ابتدا مشاهده می‌کنیم که پیش فعال سازی‌ها توسط یک فرایند گاوسی مشروط به فعال سازی‌های قبلی توصیف می‌شوند . این نتیجه حتی در عرض محدود نیز برقرار است. هر پیش فعال سازی یک مجموع وزنی از متغیرهای تصادفی گاوسی است که مربوط به اوزان است و تعصبات ، که در آن ضرایب هر یک از آن متغیرهای گاوسی، فعال سازی‌های قبلی هستند . از آنجایی که آنها مجموع وزنی از گاوسیان با میانگین صفر هستند خودشان گاوسیان صفر میانگین هستند (مشروط به ضرایب ). از آنجا که به‌طور مشترک برای هر مجموعه ای از گاوسی هستند ، آنها توسط یک فرایند گاوسی مشروط به فعال سازی‌های قبلی توصیف می‌شوند . کوواریانس یا هسته این فرایند گاوسی به وزن و واریانس بایاس بستگی دارد و و همچنین ماتریس لحظه دوم از فعال سازی‌های قبلی .

تأثیر ترازو وزن این است که سهم به ماتریس کوواریانس را مجدداً مقیاس بندی کنیم ، در حالی که سوگیری برای همه ورودی‌ها مشترک است و غیره را می‌سازد برای نقاط داده مختلف شبیه تر است و ماتریس کوواریانس را بیشتر شبیه به یک ماتریس ثابت می‌کند.

یک فرایند گاوسی است

[ویرایش]

پیش فعال سازی‌ها فقط به از طریق ماتریس لحظه دوم آن وابسته است. به همین دلیل می‌توان گفت که یک فرایند گاوسی شرطی روی است، نه روی .

به عنوان عرض لایه ، قطعی می‌شود

[ویرایش]

همان‌طور که قبلاً تعریف شد، ماتریس لحظه دوم از . از آنجا که بردار فعال سازی پس از اعمال غیرخطی است ، می‌توان آن را جایگزین کرد ، و در نتیجه یک معادله اصلاح شده بیان می‌کند برای به لحاظ ،

ما قبلاً تعیین کرده‌ایم که یک فرایند گاوسی است. این یعنی مجموعی که را تعریف می‌کند، میانگین نمونه ای از یک فرایند گاوسی است که خود تابعی از است.

به عنوان عرض لایه به بی‌نهایت می‌رود، این میانگین به پایان می‌رسد نمونه‌هایی از فرایند گاوسی را می‌توان با یک انتگرال بر روی فرایند گاوسی جایگزین کرد:

بنابراین، در محدوده عرض نامحدود ماتریس لحظه دوم برای هر جفت ورودی و را می‌توان به عنوان یک انتگرال بر روی یک گاوسی ۲ بعدی، از حاصل ضرب بیان کرد و . تعدادی از موقعیت‌ها وجود دارد که در آن این به صورت تحلیلی حل شده‌است، مانند زمانی که یک تابع غیرخطی ReLU ,[۱۶] ELU, GELU، یا خطا.[۴] حتی زمانی که نمی‌توان آن را به صورت تحلیلی حل کرد، از آنجایی که یک انتگرال ۲ بعدی است، به‌طور کلی می‌توان آن را به صورت عددی به‌طور مؤثر محاسبه کرد.[۵] این انتگرال قطعی است، بنابراین قطعی است. برای کوتاه نویسی یک تابع تعریف می‌کنیم ، که مربوط به محاسبه این انتگرال ۲ بعدی برای همه جفت ورودی‌ها و نقشه‌ها است به ،

یک NNGP است

[ویرایش]

با اعمال این مشاهده به صورت بازگشتی که وقتی ، قطعی است، را می‌توان به عنوان یک تابع قطعی در نظر گرفت،

جایی که نشان دهنده اعمال تابعی است به صورت متوالی بار. با ترکیب این عبارت با مشاهدات بعدی که لایه ورودی ماتریس گشتاور دوم است تابع قطعی ورودی است ، و آن یک فرایند گاوسی است، خروجی شبکه عصبی را می‌توان به عنوان یک فرایند گاوسی بر حسب ورودی آن بیان کرد،

کتابخانه‌های نرم‌افزاری

[ویرایش]

Neural Tangents یک کتابخانه رایگان و منبع باز پایتون است که برای محاسبه و انجام استنتاج با NNGP و هسته مماس عصبی مربوط به معماری‌های مختلف ANN رایج استفاده می‌شود.[۱۷]

منابع

[ویرایش]
  1. MacKay, David J. C. (1992). "A Practical Bayesian Framework for Backpropagation Networks". Neural Computation. 4 (3): 448–472. doi:10.1162/neco.1992.4.3.448. ISSN 0899-7667.
  2. Guo, Chuan; Pleiss, Geoff; Sun, Yu; Weinberger, Kilian Q. (2017). "On calibration of modern neural networks". Proceedings of the 34th International Conference on Machine Learning-Volume 70. arXiv:1706.04599.
  3. ۳٫۰ ۳٫۱ Neal, Radford M. (1996), "Priors for Infinite Networks", Bayesian Learning for Neural Networks, Lecture Notes in Statistics, vol. 118, Springer New York, pp. 29–53, doi:10.1007/978-1-4612-0745-0_2, ISBN 978-0-387-94724-2
  4. ۴٫۰ ۴٫۱ Williams, Christopher K. I. (1997). "Computing with infinite networks". Neural Information Processing Systems.
  5. ۵٫۰ ۵٫۱ ۵٫۲ Lee, Jaehoon; Bahri, Yasaman; Novak, Roman; Schoenholz, Samuel S.; Pennington, Jeffrey; Sohl-Dickstein, Jascha (2017). "Deep Neural Networks as Gaussian Processes". International Conference on Learning Representations. arXiv:1711.00165. Bibcode:2017arXiv171100165L.
  6. ۶٫۰ ۶٫۱ G. de G. Matthews, Alexander; Rowland, Mark; Hron, Jiri; Turner, Richard E.; Ghahramani, Zoubin (2017). "Gaussian Process Behaviour in Wide Deep Neural Networks". International Conference on Learning Representations. arXiv:1804.11271. Bibcode:2018arXiv180411271M.
  7. ۷٫۰ ۷٫۱ ۷٫۲ ۷٫۳ Novak, Roman; Xiao, Lechao; Lee, Jaehoon; Bahri, Yasaman; Yang, Greg; Abolafia, Dan; Pennington, Jeffrey; Sohl-Dickstein, Jascha (2018). "Bayesian Deep Convolutional Networks with Many Channels are Gaussian Processes". International Conference on Learning Representations. arXiv:1810.05148. Bibcode:2018arXiv181005148N.
  8. ۸٫۰ ۸٫۱ Garriga-Alonso, Adrià; Aitchison, Laurence; Rasmussen, Carl Edward (2018). "Deep Convolutional Networks as shallow Gaussian Processes". International Conference on Learning Representations. arXiv:1808.05587. Bibcode:2018arXiv180805587G.
  9. ۹٫۰ ۹٫۱ ۹٫۲ Yang, Greg (2019). "Tensor Programs I: Wide Feedforward or Recurrent Neural Networks of Any Architecture are Gaussian Processes" (PDF). Advances in Neural Information Processing Systems. arXiv:1910.12478. Bibcode:2019arXiv191012478Y.
  10. Novak, Roman; Bahri, Yasaman; Abolafia, Daniel A.; Pennington, Jeffrey; Sohl-Dickstein, Jascha (2018-02-15). "Sensitivity and Generalization in Neural Networks: an Empirical Study". International Conference on Learning Representations. arXiv:1802.08760. Bibcode:2018arXiv180208760N.
  11. Canziani, Alfredo; Paszke, Adam; Culurciello, Eugenio (2016-11-04). "An Analysis of Deep Neural Network Models for Practical Applications". arXiv:1605.07678. Bibcode:2016arXiv160507678C. {{cite journal}}: Cite journal requires |journal= (help)
  12. Neyshabur, Behnam; Li, Zhiyuan; Bhojanapalli, Srinadh; LeCun, Yann; Srebro, Nathan (2019). "Towards understanding the role of over-parametrization in generalization of neural networks". International Conference on Learning Representations. arXiv:1805.12076. Bibcode:2018arXiv180512076N.
  13. Schoenholz, Samuel S.; Gilmer, Justin; Ganguli, Surya; Sohl-Dickstein, Jascha (2016). "Deep information propagation". International Conference on Learning Representations. arXiv:1611.01232.
  14. Hron, Jiri; Bahri, Yasaman; Sohl-Dickstein, Jascha; Novak, Roman (2020-06-18). "Infinite attention: NNGP and NTK for deep attention networks". International Conference on Machine Learning. 2020. arXiv:2006.10540. Bibcode:2020arXiv200610540H.
  15. Pearce, Tim; Tsuchida, Russell; Brintrup, Alexandra (2019). "Expressive Priors in Bayesian Neural Networks: Kernel Combinations and Periodic Functions" (PDF). UAI.
  16. Cho, Youngmin; Saul, Lawrence K. (2009). "Kernel Methods for Deep Learning". Neural Information Processing Systems: 342–350.
  17. Novak, Roman; Xiao, Lechao; Hron, Jiri; Lee, Jaehoon; Alemi, Alexander A.; Sohl-Dickstein, Jascha; Schoenholz, Samuel S. (2019-12-05), "Neural Tangents: Fast and Easy Infinite Neural Networks in Python", International Conference on Learning Representations (ICLR), 2020, arXiv:1912.02803, Bibcode:2019arXiv191202803N