کم برازش

کم برازش (به انگلیسی: Underfitting)^[۱] به پدیدهٔ نامطلوبی در آمار گفته می‌شود که در آن درجه آزادی مدل بسیار کمتر از درجه آزادی واقعی انتخاب شده و در نتیجه اگرچه مدل روی داده استفاده شده برای یادگیری بسیار خوب نتیجه می‌دهد، اما بر روی داده جدید دارای خطای زیاد است. این مشکل معمولاً زمانی به وقوع می‌پیوندد که تعداد نمونه‌هایی که برای آموزش مدل به کار گرفته شده‌اند کم باشند یا نسبت طول بردارهای ویژگی هر نمونه به تعداد نمونه‌ها بسیار بالا باشد. این مشکلات را معمولاً با روش‌های کاهش ابعاد بردارهای ویژگی یا با استفاده از روش‌های مبتنی بر نگاشت به فضاهایی با ابعاد دیگر مرتفع می‌نمایند.

کم برازش در یادگیری ماشین

شکل ۱. خط چین آبی نشان دهنده مدلی کم برازش است. یک خط مستقیم هرگز نمی‌تواند با سهمی مطابقت داشته باشد. این مدل خیلی ساده است.

کم برازش (Underfitting) زمانی اتفاق می‌افتد که مدل انتخاب شده برای یادگرفتن ساختار و الگوی داده‌ها بیش از حد ساده باشد. یک مدل کم برازش، مدلی است که در آن برخی از پارامترها که می‌توانند در یک مدل به درستی ظاهر شوند، وجود ندارند.^[۲] برای مثال، هنگام برازش یک مدل خطی به داده‌های غیرخطی، کم برازش اتفاق می‌افتد. چنین مدلی پیش‌بینی ضعیفی دارد. برای مثال، هنگام برازش یک مدل خطی به داده‌های غیرخطی، کم برازش اتفاق می‌افتد. چنین مدلی پیش‌بینی ضعیفی دارد. در این مدل خطا روی مجموعه آموزش و تست زیاد است. این مشکلات را می‌توان با استفاده از مدل‌های پیچیده تر، مهندسی ویژگی‌ها و ویژگی‌های بهتر و کاهش قیود محدودکننده مدل برطرف کرد. محدودکننده مدل برطرف کرد.

مقایسه کم برازش و بیش برازش

بیش برازش (Overfitting) معکوس کم برازش (Underfitting) است، به این معنی که مدل آماری یا الگوریتم یادگیری ماشین برای نمایش دقیق داده‌ها بسیار پیچیده‌است. نشانه بیش برازش این است که در مدل یا الگوریتم فعلی مورد استفاده، بایاس کم و واریانس زیاد است در صورتی که در کم برازش بایاس زیاد و واریانس کم است. این را می‌توان از مبادله بایاس-واریانس که روشی برای تجزیه و تحلیل یک مدل یا الگوریتم برای خطای بایاس، خطای واریانس و خطای غیرقابل کاهش است، جمع‌آوری کرد. با بایاس زیاد و واریانس کم، نتیجه مدل این است که نقاط داده را به‌طور نادرست نشان می‌دهد و بنابراین به اندازه کافی قادر به پیش‌بینی نتایج داده‌های آینده نیست (به خطای تعمیم مراجعه کنید). در شکل ۲ نشان داده شده‌است، یک خط نمی‌تواند برازش خوبی از تمام نقاط داده شده باشد. ما انتظار داریم یک منحنی سهمی شکل را همان‌طور که در شکل ۳ و شکل ۱ نشان داده شده‌است ببینیم. همان‌طور که قبلاً ذکر شد، اگر از شکل ۲ برای آموزش استفاده کنیم (مدلی خطی را برازش کنیم)، و بخواهیم که بر روی شکل ۳ با توجه به آن پیش‌بینی انجام دهیم، نتایج پیش‌بینی نادرست بر خلاف نتایج حقیقی بدست می‌آوریم.

رفع کم برازش

کم برازش را می‌توان به روش‌های مختلفی انجام داد، یک روش می‌تواند افزایش پارامترهای مدل یا افزودن داده‌های آموزشی بیشتر باشد. افزودن داده‌های آموزشی بیشتر را می‌توان از دریافت ویژگی‌های جدید از ویژگی‌های فعلی (معروف به مهندسی ویژگی) به دست آورد.

یکی دیگر از روش‌های ممکن دور شدن از مدل آماری فعلی یا الگوریتم یادگیری ماشین به مدل پیچیده‌تر است که می‌تواند داده‌ها را بهتر نشان دهد و از قیدهای محدود کننده کمتری برخوردار است.

جستارهای وابسته

درجه آزادی
بیش‌برازش
Overfitting: when accuracy measure goes wrong – introductory video tutorial
The Problem of Overfitting Data – Stony Brook University
Underfitting and Overfitting in machine learning and how to deal with it !!! – Towards Data Science
What is Underfitting – IBM
ML | Underfitting and Overfitting – Geeks for Geeks article - Dewang Nautiyal

منابع

↑ معادل فارسی برگرفته از van der Aalst, W. , Rubin, V. , Verbeek, H. , van Dongen, B. , Kindler, E. , and Günther, C. 2010. Process mining: A two-step approach to balance between underfitting and overfitting. Softw. Syst. Model. 9, 1, 87--111.
↑ Everitt B.S. , Skrondal A. (2010), Cambridge Dictionary of Statistics, Cambridge University Press.

[1] معادل فارسی برگرفته از van der Aalst, W. , Rubin, V. , Verbeek, H. , van Dongen, B. , Kindler, E. , and Günther, C. 2010. Process mining: A two-step approach to balance between underfitting and overfitting. Softw. Syst. Model. 9, 1, 87--111.

[CDS-2] Everitt B.S. , Skrondal A. (2010), Cambridge Dictionary of Statistics, Cambridge University Press.

[۱]

[۲]