پرش به محتوا

هسته چندجمله‌ای

از ویکی‌پدیا، دانشنامهٔ آزاد

در یادگیری ماشینی، هسته چندجمله‌ای یک تابع هسته است که معمولاً با ماشین‌های بردار پشتیبان (SVM) و سایر مدل‌های مبتنی بر هسته استفاده می‌شود.

نگاشت . در سمت چپ مجموعه‌ای از نمونه‌ها در فضای ورودی، در سمت راست همان نمونه‌ها در فضای ویژگی که هسته چندجمله‌ای (برای برخی از مقادیر پارامترها و ) محصول درونی است. ابرصفحه‌ای که در فضای ویژگی توسط یک ماشین بردار پشتیبان یادگرفته می‌شود، یک بیضی در فضای ورودی است.

این هسته شباهت بردارها (ورودی‌های آموزش) را در فضای ویژگی جدید که یک چندجمله‌ای ساخته‌شده از ورودی هاست نشان می‌دهد. با این کار ما امکان یادگیری مدل‌های غیرخطی را به‌دست می‌آوریم.

به‌طور شهودی، هسته چندجمله‌ای تنها از ویژگی‌های داده شده در نمونه‌های ورودی برای تعیین شباهت آنها استفاده نمی‌کند، بلکه ترکیبی از آنها را نیز در نظر می‌گیرد.[۱]

تعریف

[ویرایش]

برای چندجمله‌ای‌های درجه d، هستهٔ چندجمله‌ای به صورت زیر تعریف می‌شود.[۲]

که در آن x و y بردارهایی در فضای ورودی هستند، یعنی نمونه‌هایی که در دادگان آموزش یا تست وجود دارند.

c ≥ ۰ یک پارامتر آزاد است که تأثیر عبارات درجه بالاتر یا پایین‌تر را مشخص می‌کند. وقتی c = ۰ باشد، هسته همگن نامیده می‌شود.[۳] (یک هستهٔ تعمیم‌یافته‌تر این است که xTy را بر یک پارامتر اسکالر مانند a که توسط کاربر مشخص می‌شود تقسیم کنیم.[۴])

به عنوان یک هسته، K نتیجهٔ یک ضرب داخلی در یک فضای ویژگی جدید است. برای رفتن به فضای جدید از نگاشت φ استفاده می‌شود:

کارکرد φ را می‌توان در یک مثال بررسی کرد. d = ۲ را در نظر بگیرید، بنابراین ما یک حالت خاص از هسته یعنی هستهٔ درجه دوم را داریم.

بنابراین نگاشت φ به صورت زیر خواهد بود.

حالت کلی ، زمانی که ، است برابر خواهد بود با:

که آخرین عبارت به صورت است. و همچنین:

کاربرد

[ویرایش]

اگرچه هسته تابع پایه شعاعی (RBF) در طبقه‌بندی به کمک ماشین بردار پشتیبانی از هسته چندجمله‌ای محبوب‌تر است، ولی هستهٔ چندجمله‌ای در پردازش زبان طبیعی بسیار محبوب‌تر است.[۱][۵]

رایج‌ترین درجه d = ۲ است، زیرا در مسائل پردازش زبان طبیعی درجات بزرگ‌تر تمایل به بیش‌برازش دارند.

مشکل

[ویرایش]

یکی از مشکلات هسته چندجمله‌ای این است که ممکن است پایداری عددی[۶] نداشته باشید به این معنا که وقتی xTy + c < 1 باشد آنگاه K(x, y) = (xTy + c)d با افزایش d به صفر میل می‌کند در حالی که وقتی که داشته باشیم xTy + c > 1 آنگاه K(x, y) به بی‌نهایت تمایل دارد.[۴]

منابع

[ویرایش]
  1. ۱٫۰ ۱٫۱ Yoav Goldberg and Michael Elhadad (2008). splitSVM: Fast, Space-Efficient, non-Heuristic, Polynomial Kernel Computation for NLP Applications. Proc. ACL-08: HLT.
  2. "Archived copy" (PDF). Archived from the original (PDF) on 2013-04-15. Retrieved 2012-11-12.{{cite web}}: نگهداری یادکرد:عنوان آرشیو به جای عنوان (link)
  3. Shashua, Amnon (2009). "Introduction to Machine Learning: Class Notes 67577". arXiv:0904.3664v1 [cs.LG].
  4. ۴٫۰ ۴٫۱ Lin, Chih-Jen (2012). Machine learning software: design and practical use (PDF). Machine Learning Summer School. Kyoto.
  5. Chang, Yin-Wen; Hsieh, Cho-Jui; Chang, Kai-Wei; Ringgaard, Michael; Lin, Chih-Jen (2010). "Training and testing low-degree polynomial data mappings via linear SVM". Journal of Machine Learning Research. 11: 1471–1490.
  6. "Numerical stability". Wikipedia (به انگلیسی). 2022-08-30.