پیش‌نویس:خطای خارج از کیسه

خطای خارج از کیسه (Out-of bag error)، یا تخمین خارج از کیسه روشی است برای اندازه‌گیری خطای پیشبینی مدل‌های یادگیری ماشین مانند جنگل تصادفی، تقویت گرادیان و بقیه مدل‌هایی که از روش‌ بگینگ(bagging or bootstrap aggregating) برای استفاده از نمونه‌های ورودی بهره می‌برند. در این مدل‌های یادگیری ماشین که عموما مدل‌های گروهی هستند، از مجموعه‌ای از مدل‌های یادگیرنده ضعیف(weak learners) به جهت یادگیری مسئله استفاده می‌شود و نتیجه نهایی بر اساس تجمیع نتیجه همه این مدل‌های یادگیرنده ضعیف مانند استفاده از روش رای‌گیری اکثریت(majority voting) بدست می‌آید. به جهت جلوگیری از افزایش بیش از حد واریانس مدل و رخ دادن پدیده بیش‌برازش، نمونه‌های مورد نیاز(bootstrap samples) برای استفاده در فرایند آموزش هر یادگیرنده ضعیف، با زیرنمونه‌گیری(subsampling) با امکان جایگذاری از داده‌های ورودی و به صورت تصادفی انتخاب می‌شوند. در این فرایند نمونه‌گیری، در فرایند آموزش هر یادگیرنده ضعیف ممکن است بعضی نمونه‌های ورودی ظاهر نشوند که می‌توان از این نمونه‌ها برای محاسبه خطای پیشبینی مدل نهایی استفاده کرد. خطای خارج از کیسه میانگین خطای پیشبینی هر نمونه آموزش است به این صورت که تنها از مدل‌های یادگیرنده ضعیفی که در داده‌های نمونه‌گیری شده(bootstrap sample) آن‌ها وجود ندارد، برای تخمین این خطا استفاده می‌کنیم.^[۱]

مجموعه داده خارج از کیسه

هنگام نمونه‌گیری در هر یادگیرنده ضعیف داده‌ها به دو دسته تقسیم‌ خواهند شد. به دسته‌ای از نمونه‌ها که در فرایند آموزش یادگیرنده ضعیف استفاده شده‌اند، داده‌های داخل کیسه و دسته دیگر نمونه‌ها که در فرایند آموزش یادگیرنده ضعیف استفاده نشده‌اند داده‌های خارج کیسه گفته می‌شود. در تصویر زیر می‌توانید دو دسته شدن نمونه‌ها برای هر بار زیرنمونه‌گیری از مجموعه‌ای از داده‌های ورودی مربوط به ۴ بیمار را مشاهده کنید.

مثال بالا به خوبی نشان می‌دهد که چگونه روش بگینگ می‌تواند در مسئله تشخیص یک بیماری استفاده شود به این صورت که یک مجموعه‌ اولیه از بیماران در اختیار داریم و قصد داریم با استفاده از مجموعه‌ای از مدل‌های یادگیرنده ضعیف و با در نظر گرفتن بیماران داخل کیسه در فرایند آموزش هرکدام، وجود بیماری موردنظر را در یک شخص تشخیص دهیم. همچنین بیماران خارج کیسه در هر یادگیرنده ضعیف برای برآورد عملکرد مدل نهایی قابل استفاده خواهد بود. می‌توان اثبات کرد که در فرایند آموزش هر یادگیرنده ضعیف چیزی نزدیک به ۳۶ درصد نمونه‌ها خارج کیسه قرار خواهند گرفت. به این منظور اگر تعداد نمونه‌های اولیه را N در نظر بگیریم و فرض کنیم اندازه نمونه‌های موردنیاز در فرایند زیرنمونه‌گیری برای هر یادگیرنده ضعیف m باشد در این صورت احتمال اینکه یک نمونه خاص از N نمونه اولیه موجود جزو هیچکدام از m نمونه هر کیسه نباشد برابر عبارت زیر است:

$({\frac {N-1}{N}})^{m}$

به جهت مطمئن شدن از دقت مدل نهایی اندازه نمونه‌های گرفته شده برای هر یادگیرنده ضعیف باید نزدیک اندازه نمونه‌های اولیه ورودی باشد.^[۲] در این حالت که m به اندازه کافی بزرگ باشد و نزدیک N باشد عبارت فوق به صورت زیر ساده می‌شود:

$\lim _{N\rightarrow \infty }({\frac {N-1}{N}})^{N}=e^{-1}\sim 0.368$

محاسبه خطای خارج از کیسه

مدل یادگیری ماشین جنگل تصادفی، یکی از مدل‌های گروهی است که از چندین مدل یادگیری درخت تصمیم با عمق محدود به عنوان یادگیرنده‌های ضعیف استفاده می‌کند. در ادامه برای محاسبه خطای خارج از کیسه فرض می‌کنیم مدل یادگیری ماشین استفاده شده جنگل تصادفی است. برای محاسبه خطای خارج از کیسه به ترتیب مراحل زیر را طی می‌کنیم:

به ازای همه نمونه‌های خارج از کیسه در درخت‌های تصمیم

همه درخت‌های تصمیمی که در آن‌ها آن نمونه خارج از کیسه خاص وجود ندارد و در فرایند آموزش استفاده نشده را پیدا می‌کنیم.
نتیجه پیشبینی شده این مدل‌ها روی این نمونه خارج از کیسه را بدست می‌آوریم و با استفاده از رای‌گیری اکثریت یک نتیجه نهایی برای مقدار پیشبینی شده این نمونه در نظر می‌گیریم.
در نهایت با مقایسه این مقدار با مقدار واقعی نمونه در صورت وجود اختلاف بین دو مقدار به مقدار خطای خارج از کیسه مدل اضافه می‌کنیم.

در شکل زیر مثالی از نحوه محاسبه خطای خارج از کیسه برای یک مجموعه داده ۵ تایی و با اعمال مدل یادگیری ماشین جنگل تصادفی نشان داده شده است.

مقایسه با روش اعتبارسنجی متقابل

خطای خارج از کیسه و روش اعتبارسنجی متقابل هردو روشی برای محاسبه خطای تخمین مدل یادگیری ماشین هستند. در روش اعتبارسنجی متقابل معمولا قسمتی از داده‌ها کنار گذاشته می‌شوند و در فرایند آموزش از آن‌ها استفاده نمی‌شود و عملکرد مدل با استفاده از این داده‌های کنار گذاشته شده سنجیده می‌شود به این صورت که در حالت استفاده از جنگل تصادفی داده‌های کنار گذاشته شده به عنوان ورودی به مدل داده شده و تمام درخت‌های تصمیم مقدار هدف هرکدام را پیشبینی می‌کنند و مقدار هدف نهایی این مدل به ازای این داده با روش رای‌گیری اکثریتی بدست می‌‌آید. لذا برای محاسبه خطای مدل در روش اعتبارسنجی متقابل نیاز به استفاده از همه درخت‌های تصمیم خواهد بود و این در صورتی است که در روش خارج از کیسه تنهای زیرمجموعه‌ای از درخت‌های تصمیم برای تخمین مقدار هدف هر نمونه خارج از کیسه استفاده می شود. لذا روش خارج از کیسه محاسبات کامپیوتری کمتری نیاز دارد و همچنین امکان تست همزمان مدل هنگام آموزش مدل نیز وجود دارد.

دقت و پایداری

برای سنجش خطا در جنگل‌های تصادفی معمولا از خطای خارج از کیسه استفاده می‌شود، ولی طبق یک تحقیق انجام شده توسط Silke Janitza و Roman Hornung، این معیار ارزیابی خطا در شرایطی که نمونه‌های دسته‌های مختلف تعداد تقریبا یکسانی دارند، یا تعداد نمونه‌ها بسیار کم یا بسیار زیاد باشد، یا بین تخمین‌گر‌ها همبستگی وجود داشته باشد، خطای موجود را بیش از اندازه گزارش می‌کند.^[۳]

جستار‌های وابسته

منابع

↑ Chandrasekaran, Deepa; Tellis, Gerard J.; James, Gareth M. (2020-12-17). "Leapfrogging, Cannibalization, and Survival During Disruptive Technological Change: The Critical Role of Rate of Disengagement". Journal of Marketing. 86 (1): 149–166. doi:10.1177/0022242920967912. ISSN 0022-2429.
↑ Ng, Alaina; Ong, Desmond; Goh, Phillip (2022-11). "Management of a patient with a severely infraoccluded primary molar and hypodontia". Clinical Case Reports. 10 (11). doi:10.1002/ccr3.6482. ISSN 2050-0904. {{cite journal}}: Check date values in: |date= (help)
↑ Janitza, Silke; Hornung, Roman (2018-08-06). "On the overestimation of random forest's out-of-bag error". PLOS ONE (به انگلیسی). 13 (8): e0201904. doi:10.1371/journal.pone.0201904. ISSN 1932-6203. PMC 6078316. PMID 30080866.

[1] Chandrasekaran, Deepa; Tellis, Gerard J.; James, Gareth M. (2020-12-17). "Leapfrogging, Cannibalization, and Survival During Disruptive Technological Change: The Critical Role of Rate of Disengagement". Journal of Marketing. 86 (1): 149–166. doi:10.1177/0022242920967912. ISSN 0022-2429.

[2] Ng, Alaina; Ong, Desmond; Goh, Phillip (2022-11). "Management of a patient with a severely infraoccluded primary molar and hypodontia". Clinical Case Reports. 10 (11). doi:10.1002/ccr3.6482. ISSN 2050-0904. {{cite journal}}: Check date values in: |date= (help)

[3] Janitza, Silke; Hornung, Roman (2018-08-06). "On the overestimation of random forest's out-of-bag error". PLOS ONE (به انگلیسی). 13 (8): e0201904. doi:10.1371/journal.pone.0201904. ISSN 1932-6203. PMC 6078316. PMID 30080866.

[۱]

[۲]

[۳]