الگوریتم داده کاوی لیفت
![]() | برای تأییدپذیری کامل این مقاله به منابع بیشتری نیاز است. (اکتبر ۲۰۲۱) |
در یادگیری قاعده انجمنی در داده کاوی، Lift معیار عملکرد برای هدف قرار دادن مدل (قاعده انجمنی) و در پیشبینی یا طبقهبندی موارد برای بدست آوردن پاسخ درست، افزایش یافته (با توجه به کل جمعیت) است، که برای مقایسه و انتخاب هدفمند تصادفی این مدل اندازهگیری میشود. در صورتی که نتیجه درون هدف، بسیار بهتر از متوسط برای کل جامعه باشد یعنی یک مدل هدف گذاری درستی انجام میدهد. Lift نسبت به این مقادیر میباشد: پاسخ هدف تقسیم بر میانگین پاسخ.
مثال، فرض کنید میزان پاسخ گویی جمعیت ۵٪ متوسط باشد، اما یک مدل خاص (یا قانون) قسمتی را با نرخ پاسخ ۲۰٪ مشخص کردهاست. سپس آن بخش ۴٫۰ (۲۰٪ / ۵٪) لیفت خواهد داشت.
بهطور معمول، مدلساز به دنبال تقسیم جمعیت به کوانتیلها و رتبهبندی کوانتایلها با استفاده از بالاپایین رفتن است. بعد سازمانها میتوانند با در نظر گرفتن هر کدام از معیارها و با مقایسه میزان پاسخ پیشبینی شده (منافع مالی مرتبط) در مقابل هزینه میتوانند تصمیم بگیرند که به آن سهمیه بازار دهند یا خیر.
منحنی lift میتواند تغییراتی در منحنی ویژگی عملکرد گیرنده (ROC) را در نظر بگیرد و همچنین در اقتصادسنجی به عنوان منحنی Lorenz یا قدرت شناخته میشود.[۱]
مثال
[ویرایش]فرض کنید مجموع دادههای استخراج شده عبارتند از:
پیشین | متعاقب |
---|---|
آ | ۰ |
آ | ۰ |
آ | ۱ |
آ | ۰ |
ب | ۱ |
ب | ۰ |
ب | ۱ |
جایی که مقدمه متغیر ورودی وجود دارد که میتوانیم آن را کنترل کنیم و نتیجه متغیری میباشد که ما سعی در پیشبینی آن داریم. مشکلات معمولاً دارای پیش زمینههای پیچیده تری خواهند بود، ولی معمولاً بر پیامدهای تک ارزش تمرکز میکنند.
اکثر الگوریتمهای استخراج قوانین (مدلهای هدفگیری) را تعیین میکنند:
- قانون ۱: الف بر ۰ دلالت دارد
- قانون 2: B دلالت بر ۱ دارد
چون اینها جز رایجترین و سادهترین الگوهای موجود در دادهها میباشند. یک مرور ساده از جدول فوق باید این قوانین را آشکار میکند.
پشتیبانی از قانون ۱ برابر است ۳/۷ زیرا این تعداد آیتم در مجموعه دادهاست که در آن سابقه A بوده و نتیجه ۰ است. support از قانون ۲ برابر است با ۲/۷ زیرا دو مورد از هفت رکورد با سابقه B و نتیجه ۱ مطابقت دارد. میتوان supportها را به صورت زیر بیان کرد:
confidence برای قانون ۱برابر است با ۳/۴ زیرا سه رکورد از چهار رکوردی که با سابقه A مطابقت دارند و نتیجه ۰ را دارند. confidence برای قانون ۲ برابر است با ۲/۳ زیرا دو مورد از سه رکوردی که با سابقه B تطابق دارند با نتیجه ۱ را مواجه میشوند. confidencesها را میتوان به صورت زیر نوشت:
Lift را میتوان با تقسیم confidence بر احتمال مطلق پیامد، یا تقسیم support بر احتمال برابرهای قبل از احتمال نتیجه، یافت:
- بالابر برای قانون ۱ (۳/۴)/(۴/۷) = (۳ * ۷)/(۴ * ۴) = ۲۱/۱۶ ≈ ۱٫۳۱
- بالابر برای قانون ۲ (۲/۳)/(۳/۷) = (۲ * ۷)/(۳ * ۳) = ۱۴/۹ ≈ ۱٫۵۶
اگر برخی از rule ها به ۱ افزایش یابند، این بدان معناست که احتمال وقوع antecedent و پیشین مستقل از یکدیگر هستند. وقتی دو رویداد مستقل از همدیگر باشند، نمیتوان قاعده ای را در مورد آن دو رویداد ترسیم کرد.
اگر lift بزرگتر از ۱ باشد، مانند رول ۲ و ۱، به ما اجازه میدهد میزان وابستگی این دو رویداد نسبت به هم را بدانیم و این قوانین را برای پیشبینی پیامد در مجموعه دادههای آینده مفید میسازد.
توجه داشته باشید که اگرچه رول 1 confidence بالاتری دارد، لیفت پایینتری دارد. از نظر دیداری، به نظر میرسد که رول ۱ به دلیل confidence بیشتر ارزشمندتر است - دقیق تر به نظر میرسد (بهتر پشتیبانی میشود). اما دقت rule مستقل از مجموعه دادهها میتواند گمراه کننده باشد. ارزش lift این است که هم confidence از رول و هم مجموعه دادههای کلی را در نظر میگیرد.
منابع
[ویرایش]- ↑ Tufféry, Stéphane (2011); Data Mining and Statistics for Decision Making, Chichester, GB: John Wiley & Sons, translated from the French Data Mining et statistique décisionnelle (Éditions Technip, 2008)
- Coppock, David S. (2002-06-21). "Why Lift?". Retrieved 2015-07-05.