Leakage (machine learning)
در آمار و یادگیری ماشین ، نشت داده استفاده از اطلاعاتی در فرآیند آموزش مدل است که انتظار نمیرود در زمان پیشبینی در دسترس باشد، و باعث می شود نمرات پیش بینی کننده (معیارها) بیش از حد ابزار مدل هنگام اجرا در یک محیط تولید را ارزیابی کند. [۱]
نشت اغلب ظریف و غیرمستقیم است و تشخیص و از بین بردن آن دشوار است. نشت می تواند باعث شود یک آمارگر یا مدلساز مدلی کمتر از حد بهینه را انتخاب کند، که می تواند از یک مدل بدون نشت بهتر عمل کند [۱]
حالت های نشتی
[ویرایش]نشت می تواند در بسیاری از مراحل در فرآیند یادگیری ماشین رخ دهد. علل نشت می تواند به دو منبع ممکن نشت برای یک مدل طبقه بندی شود: ویژگی ها و نمونه های آموزش. [۱]
نشتی ویژگی
[ویرایش]ویژگی یا ستون نشت عاقلانه ناشی از درج ستون هایی است که یکی از موارد زیر است: یک برچسب تکراری ، یک پروکسی برای برچسب یا خود برچسب. این ویژگیها که به نام آناکرونیسم شناخته میشوند، زمانی که مدل برای پیشبینی استفاده میشود، در دسترس نخواهند بود، و در صورتی که مدل آموزش داده شود ، نشت نتیجه میدهد
نشت نمونه آموزشی
[ویرایش]نشت عاقلانه ردیف ناشی از به اشتراک گذاری نادرست اطلاعات بین ردیف داده ها است.
برای مجموعه داده های وابسته به زمان ، ساختار سیستم مورد مطالعه با گذشت زمان تکامل می یابد (یعنی 'غیر ثابت' است). این می تواند تفاوت های سیستماتیک بین مجموعه های آموزش و اعتبار سنجی را ایجاد کند.
به عنوان مثال ، اگر مدلی برای پیش بینی مقادیر سهام برای یک دوره پنج ساله خاص در داده ها آموزش داده شود ، درمان دوره 5 ساله بعدی به عنوان یک قرعه کشی از همان جمعیت غیر واقعی است.
به عنوان نمونه دیگر ، فرض کنید یک مدل برای پیش بینی خطر فرد برای تشخیص بیماری خاص در سال آینده تهیه شده است.
- ↑ ۱٫۰ ۱٫۱ ۱٫۲ Shachar Kaufman; Saharon Rosset; Claudia Perlich (January 2011). "Leakage in Data Mining: Formulation, Detection, and Avoidance". Proceedings of the ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. 6: 556–563. doi:10.1145/2020408.2020496. Retrieved 13 January 2020. خطای یادکرد: برچسب
<ref>
نامعتبر؛ نام «KaufmanKDD11» چندین بار با محتوای متفاوت تعریف شده است. (صفحهٔ راهنما را مطالعه کنید.).