پیشنویس:خطای خارج از کیسه
یادگیری ماشین و دادهکاوی |
---|
خطای خارج از کیسه (Out-of bag error)، یا تخمین خارج از کیسه روشی است برای اندازهگیری خطای پیشبینی مدلهای یادگیری ماشین مانند جنگل تصادفی، تقویت گرادیان و بقیه مدلهایی که از روش بگینگ(bagging or bootstrap aggregating) برای استفاده از نمونههای ورودی بهره میبرند. در این مدلهای یادگیری ماشین که عموما مدلهای گروهی هستند، از مجموعهای از مدلهای یادگیرنده ضعیف(weak learners) به جهت یادگیری مسئله استفاده میشود و نتیجه نهایی بر اساس تجمیع نتیجه همه این مدلهای یادگیرنده ضعیف مانند استفاده از روش رایگیری اکثریت(majority voting) بدست میآید. به جهت جلوگیری از افزایش بیش از حد واریانس مدل و رخ دادن پدیده بیشبرازش، نمونههای مورد نیاز(bootstrap samples) برای استفاده در فرایند آموزش هر یادگیرنده ضعیف، با زیرنمونهگیری(subsampling) با امکان جایگذاری از دادههای ورودی و به صورت تصادفی انتخاب میشوند. در این فرایند نمونهگیری، در فرایند آموزش هر یادگیرنده ضعیف ممکن است بعضی نمونههای ورودی ظاهر نشوند که میتوان از این نمونهها برای محاسبه خطای پیشبینی مدل نهایی استفاده کرد. خطای خارج از کیسه میانگین خطای پیشبینی هر نمونه آموزش است به این صورت که تنها از مدلهای یادگیرنده ضعیفی که در دادههای نمونهگیری شده(bootstrap sample) آنها وجود ندارد، برای تخمین این خطا استفاده میکنیم.[۱]
مجموعه داده خارج از کیسه
[ویرایش]هنگام نمونهگیری در هر یادگیرنده ضعیف دادهها به دو دسته تقسیم خواهند شد. به دستهای از نمونهها که در فرایند آموزش یادگیرنده ضعیف استفاده شدهاند، دادههای داخل کیسه و دسته دیگر نمونهها که در فرایند آموزش یادگیرنده ضعیف استفاده نشدهاند دادههای خارج کیسه گفته میشود. در تصویر زیر میتوانید دو دسته شدن نمونهها برای هر بار زیرنمونهگیری از مجموعهای از دادههای ورودی مربوط به ۴ بیمار را مشاهده کنید.
مثال بالا به خوبی نشان میدهد که چگونه روش بگینگ میتواند در مسئله تشخیص یک بیماری استفاده شود به این صورت که یک مجموعه اولیه از بیماران در اختیار داریم و قصد داریم با استفاده از مجموعهای از مدلهای یادگیرنده ضعیف و با در نظر گرفتن بیماران داخل کیسه در فرایند آموزش هرکدام، وجود بیماری موردنظر را در یک شخص تشخیص دهیم. همچنین بیماران خارج کیسه در هر یادگیرنده ضعیف برای برآورد عملکرد مدل نهایی قابل استفاده خواهد بود. میتوان اثبات کرد که در فرایند آموزش هر یادگیرنده ضعیف چیزی نزدیک به ۳۶ درصد نمونهها خارج کیسه قرار خواهند گرفت. به این منظور اگر تعداد نمونههای اولیه را N در نظر بگیریم و فرض کنیم اندازه نمونههای موردنیاز در فرایند زیرنمونهگیری برای هر یادگیرنده ضعیف m باشد در این صورت احتمال اینکه یک نمونه خاص از N نمونه اولیه موجود جزو هیچکدام از m نمونه هر کیسه نباشد برابر عبارت زیر است:
به جهت مطمئن شدن از دقت مدل نهایی اندازه نمونههای گرفته شده برای هر یادگیرنده ضعیف باید نزدیک اندازه نمونههای اولیه ورودی باشد.[۲] در این حالت که m به اندازه کافی بزرگ باشد و نزدیک N باشد عبارت فوق به صورت زیر ساده میشود:
محاسبه خطای خارج از کیسه
[ویرایش]مدل یادگیری ماشین جنگل تصادفی، یکی از مدلهای گروهی است که از چندین مدل یادگیری درخت تصمیم با عمق محدود به عنوان یادگیرندههای ضعیف استفاده میکند. در ادامه برای محاسبه خطای خارج از کیسه فرض میکنیم مدل یادگیری ماشین استفاده شده جنگل تصادفی است. برای محاسبه خطای خارج از کیسه به ترتیب مراحل زیر را طی میکنیم:
به ازای همه نمونههای خارج از کیسه در درختهای تصمیم
- همه درختهای تصمیمی که در آنها آن نمونه خارج از کیسه خاص وجود ندارد و در فرایند آموزش استفاده نشده را پیدا میکنیم.
- نتیجه پیشبینی شده این مدلها روی این نمونه خارج از کیسه را بدست میآوریم و با استفاده از رایگیری اکثریت یک نتیجه نهایی برای مقدار پیشبینی شده این نمونه در نظر میگیریم.
- در نهایت با مقایسه این مقدار با مقدار واقعی نمونه در صورت وجود اختلاف بین دو مقدار به مقدار خطای خارج از کیسه مدل اضافه میکنیم.
در شکل زیر مثالی از نحوه محاسبه خطای خارج از کیسه برای یک مجموعه داده ۵ تایی و با اعمال مدل یادگیری ماشین جنگل تصادفی نشان داده شده است.
مقایسه با روش اعتبارسنجی متقابل
[ویرایش]خطای خارج از کیسه و روش اعتبارسنجی متقابل هردو روشی برای محاسبه خطای تخمین مدل یادگیری ماشین هستند. در روش اعتبارسنجی متقابل معمولا قسمتی از دادهها کنار گذاشته میشوند و در فرایند آموزش از آنها استفاده نمیشود و عملکرد مدل با استفاده از این دادههای کنار گذاشته شده سنجیده میشود به این صورت که در حالت استفاده از جنگل تصادفی دادههای کنار گذاشته شده به عنوان ورودی به مدل داده شده و تمام درختهای تصمیم مقدار هدف هرکدام را پیشبینی میکنند و مقدار هدف نهایی این مدل به ازای این داده با روش رایگیری اکثریتی بدست میآید. لذا برای محاسبه خطای مدل در روش اعتبارسنجی متقابل نیاز به استفاده از همه درختهای تصمیم خواهد بود و این در صورتی است که در روش خارج از کیسه تنهای زیرمجموعهای از درختهای تصمیم برای تخمین مقدار هدف هر نمونه خارج از کیسه استفاده می شود. لذا روش خارج از کیسه محاسبات کامپیوتری کمتری نیاز دارد و همچنین امکان تست همزمان مدل هنگام آموزش مدل نیز وجود دارد.
دقت و پایداری
[ویرایش]برای سنجش خطا در جنگلهای تصادفی معمولا از خطای خارج از کیسه استفاده میشود، ولی طبق یک تحقیق انجام شده توسط Silke Janitza و Roman Hornung، این معیار ارزیابی خطا در شرایطی که نمونههای دستههای مختلف تعداد تقریبا یکسانی دارند، یا تعداد نمونهها بسیار کم یا بسیار زیاد باشد، یا بین تخمینگرها همبستگی وجود داشته باشد، خطای موجود را بیش از اندازه گزارش میکند.[۳]
جستارهای وابسته
[ویرایش]- جنگل تصادفیبوستینگ
- جنگل تصادفیدرخت تصمیم
- جنگل تصادفیتقویت گرادیان
- جنگل تصادفیبیشبرازش
- مدلهای گروهی
- بگینگ(bagging or bootstrap aggregating)
- جنگل تصادفیزیرنمونهگیری(subsampling)
منابع
[ویرایش]- ↑ Chandrasekaran, Deepa; Tellis, Gerard J.; James, Gareth M. (2020-12-17). "Leapfrogging, Cannibalization, and Survival During Disruptive Technological Change: The Critical Role of Rate of Disengagement". Journal of Marketing. 86 (1): 149–166. doi:10.1177/0022242920967912. ISSN 0022-2429.
- ↑ Ng, Alaina; Ong, Desmond; Goh, Phillip (2022-11). "Management of a patient with a severely infraoccluded primary molar and hypodontia". Clinical Case Reports. 10 (11). doi:10.1002/ccr3.6482. ISSN 2050-0904.
{{cite journal}}
: Check date values in:|date=
(help) - ↑ Janitza, Silke; Hornung, Roman (2018-08-06). "On the overestimation of random forest's out-of-bag error". PLOS ONE (به انگلیسی). 13 (8): e0201904. doi:10.1371/journal.pone.0201904. ISSN 1932-6203. PMC 6078316. PMID 30080866.