کم برازش
یادگیری ماشین و دادهکاوی |
---|
کم برازش (به انگلیسی: Underfitting)[۱] به پدیدهٔ نامطلوبی در آمار گفته میشود که در آن درجه آزادی مدل بسیار کمتر از درجه آزادی واقعی انتخاب شده و در نتیجه اگرچه مدل روی داده استفاده شده برای یادگیری بسیار خوب نتیجه میدهد، اما بر روی داده جدید دارای خطای زیاد است. این مشکل معمولاً زمانی به وقوع میپیوندد که تعداد نمونههایی که برای آموزش مدل به کار گرفته شدهاند کم باشند یا نسبت طول بردارهای ویژگی هر نمونه به تعداد نمونهها بسیار بالا باشد. این مشکلات را معمولاً با روشهای کاهش ابعاد بردارهای ویژگی یا با استفاده از روشهای مبتنی بر نگاشت به فضاهایی با ابعاد دیگر مرتفع مینمایند.
کم برازش در یادگیری ماشین
[ویرایش]کم برازش (Underfitting) زمانی اتفاق میافتد که مدل انتخاب شده برای یادگرفتن ساختار و الگوی دادهها بیش از حد ساده باشد. یک مدل کم برازش، مدلی است که در آن برخی از پارامترها که میتوانند در یک مدل به درستی ظاهر شوند، وجود ندارند.[۲] برای مثال، هنگام برازش یک مدل خطی به دادههای غیرخطی، کم برازش اتفاق میافتد. چنین مدلی پیشبینی ضعیفی دارد. برای مثال، هنگام برازش یک مدل خطی به دادههای غیرخطی، کم برازش اتفاق میافتد. چنین مدلی پیشبینی ضعیفی دارد. در این مدل خطا روی مجموعه آموزش و تست زیاد است. این مشکلات را میتوان با استفاده از مدلهای پیچیده تر، مهندسی ویژگیها و ویژگیهای بهتر و کاهش قیود محدودکننده مدل برطرف کرد. محدودکننده مدل برطرف کرد.
مقایسه کم برازش و بیش برازش
[ویرایش]بیش برازش (Overfitting) معکوس کم برازش (Underfitting) است، به این معنی که مدل آماری یا الگوریتم یادگیری ماشین برای نمایش دقیق دادهها بسیار پیچیدهاست. نشانه بیش برازش این است که در مدل یا الگوریتم فعلی مورد استفاده، بایاس کم و واریانس زیاد است در صورتی که در کم برازش بایاس زیاد و واریانس کم است. این را میتوان از مبادله بایاس-واریانس که روشی برای تجزیه و تحلیل یک مدل یا الگوریتم برای خطای بایاس، خطای واریانس و خطای غیرقابل کاهش است، جمعآوری کرد. با بایاس زیاد و واریانس کم، نتیجه مدل این است که نقاط داده را بهطور نادرست نشان میدهد و بنابراین به اندازه کافی قادر به پیشبینی نتایج دادههای آینده نیست (به خطای تعمیم مراجعه کنید). در شکل ۲ نشان داده شدهاست، یک خط نمیتواند برازش خوبی از تمام نقاط داده شده باشد. ما انتظار داریم یک منحنی سهمی شکل را همانطور که در شکل ۳ و شکل ۱ نشان داده شدهاست ببینیم. همانطور که قبلاً ذکر شد، اگر از شکل ۲ برای آموزش استفاده کنیم (مدلی خطی را برازش کنیم)، و بخواهیم که بر روی شکل ۳ با توجه به آن پیشبینی انجام دهیم، نتایج پیشبینی نادرست بر خلاف نتایج حقیقی بدست میآوریم.
رفع کم برازش
[ویرایش]کم برازش را میتوان به روشهای مختلفی انجام داد، یک روش میتواند افزایش پارامترهای مدل یا افزودن دادههای آموزشی بیشتر باشد. افزودن دادههای آموزشی بیشتر را میتوان از دریافت ویژگیهای جدید از ویژگیهای فعلی (معروف به مهندسی ویژگی) به دست آورد.
یکی دیگر از روشهای ممکن دور شدن از مدل آماری فعلی یا الگوریتم یادگیری ماشین به مدل پیچیدهتر است که میتواند دادهها را بهتر نشان دهد و از قیدهای محدود کننده کمتری برخوردار است.
جستارهای وابسته
[ویرایش]- درجه آزادی
- بیشبرازش
- Overfitting: when accuracy measure goes wrong – introductory video tutorial
- The Problem of Overfitting Data – Stony Brook University
- Underfitting and Overfitting in machine learning and how to deal with it !!! – Towards Data Science
- What is Underfitting – IBM
- ML | Underfitting and Overfitting – Geeks for Geeks article - Dewang Nautiyal
منابع
[ویرایش]- ↑ معادل فارسی برگرفته از van der Aalst, W. , Rubin, V. , Verbeek, H. , van Dongen, B. , Kindler, E. , and Günther, C. 2010. Process mining: A two-step approach to balance between underfitting and overfitting. Softw. Syst. Model. 9, 1, 87--111.
- ↑ Everitt B.S. , Skrondal A. (2010), Cambridge Dictionary of Statistics, Cambridge University Press.