ماتریس درهمریختگی
در حوزهٔ هوش مصنوعی، یادگیری ماشینی و بهطور مشخص در مسائل دستهبندی آماری، عبارت ماتریس در هم ریختگی[الف] که با نام ماتریس خطا نیز شناخته میشود،[۱] نوعی جدول خاص است که امکان نمایش دیداری عملکرد یک الگوریتم، بهویژه الگوریتم یادگیری نظارتشده، را فراهم میکند. معمولاً چنین نمایشی برای الگوریتمهای یادگیری نظارتشده استفاده میشود، اگرچه در یادگیری بدون ناظر نیز کاربرد دارد. معمولاً به کاربرد این ماتریس در الگوریتمهای بدون ناظر ماتریس تطابق می گویند.
هر ستون از ماتریس، نمونهای از مقدار پیشبینی شده را نشان میدهد. در صورتی که هر سطر نمونهای واقعی (درست) را در بر دارد یا بالعکس؛ هر دو شیوه در متون علمی یافت میشوند.[۲] بنابراین درایههای روی قطر اصلی ماتریس، نمونههایی را نشان میدهند که بهدرستی پیشبینی شدهاند.[۳] دلیل نامگذاری این ماتریس آن است که بهسادگی میتوان مشاهده کردکه آیا سیستم دو رده را با هم اشتباه میگیرد یا خیر (برای مثال در برچسبگذاری اشتباه یکی بهجای دیگری). در خارج از حوزه هوش مصنوعی، این ماتریس معمولاً ماتریس پیشایندی[ب] یا ماتریس خطا[پ] نامیده میشود.[۴]
در مباحث هوش مصنوعی از این جدول برای تعیین مقدار شاخصهای ارزیابی مانند دقت[ت] و صحت[ث] استفاده میشود. دقت، عبارت است از اینکه "چه میزان از نمونههای انتخابی درست هستند" و صحت بر این مفهوم که "چه میزان از نمونههای صحیح موجود انتخاب شده اند" دلالت دارند. البته ممکن است در منابعی، Accuracy نیز دقت ترجمه شود که مفهومی کاملاً متفاوت داشته و بر میزان نمونههایی اشاره دارد که سیستم در تشخیص آنها موفق بودهاست. [۵]
مثال
[ویرایش]فرض کنید یک مجموعه نمونه شامل ۱۲ فرد داریم که ۸ نفر آنها مبتلا به سرطان تشخیص داده شدهاند و ۴ نفر بدون سرطان هستند؛ بهطوریکه افراد مبتلا به سرطان در رده ۱ (مثبت) و افراد غیرمبتلا در رده ۰ (منفی) قرار میگیرند. در این صورت میتوان دادهها را به شکل زیر نمایش داد:
شمارهٔ فرد | ۱ | ۲ | ۳ | ۴ | ۵ | ۶ | ۷ | ۸ | ۹ | ۱۰ | ۱۱ | ۱۲ |
---|---|---|---|---|---|---|---|---|---|---|---|---|
رده واقعی | ۱ | ۱ | ۱ | ۱ | ۱ | ۱ | ۱ | ۱ | ۰ | ۰ | ۰ | ۰ |
فرض کنید یک روش تفکیک کننده در اختیار داریم که به طریقی افراد مبتلا یا غیرمبتلا به سرطان را تفکیک میکند. حال اگر این ۱۲ فرد را از این طبقهبند عبور دهیم، این طبقهبند ۹ پیشبینی صحیح و ۳ پیشبینی نادرست دارد: ۲ نفر مبتلا به سرطان بهاشتباه غیرمبتلا پیشبینی شدهاند (نمونههای ۱ و ۲)، و ۱ نفر غیرمبتلا بهاشتباه مبتلا پیشبینی شده است (نمونهٔ ۹).
شماره فرد | ۱ | ۲ | ۳ | ۴ | ۵ | ۶ | ۷ | ۸ | ۹ | ۱۰ | ۱۱ | ۱۲ |
---|---|---|---|---|---|---|---|---|---|---|---|---|
رده واقعی | ۱ | ۱ | ۱ | ۱ | ۱ | ۱ | ۱ | ۱ | ۰ | ۰ | ۰ | ۰ |
رده پیشبینیشده | ۰ | ۰ | ۱ | ۱ | ۱ | ۱ | ۱ | ۱ | ۱ | ۰ | ۰ | ۰ |
توجه کنید که اگر مجموعه ردهبندی داده واقعی را با ردهبندی پیشبینیشده مقایسه کنیم، برای هر برآیند ممکن است چهار نتیجه متفاوت رخ بدهد.
- نخست، اگر رده واقعی مثبت باشد و رده پیشبینیشده نیز مثبت (۱،۱)، به این حالت یک نتیجهٔ «مثبت درست»[ج] گفته میشود، زیرا نمونهٔ مثبت بهدرستی شناسایی شده است.
- دوم، اگر رده واقعی مثبت و رده پیشبینیشده منفی باشد (۱،۰)، «منفی نادرست»[چ] نام دارد، زیرا نمونهٔ مثبت به اشتباه منفی در نظر گرفته شده است.
- سوم، اگر رده واقعی منفی و رده پیشبینیشده مثبت (۰،۱) باشد، «مثبت نادرست»[ح] نام دارد، چون نمونهٔ منفی بهاشتباه مثبت تشخیص داده شده است.
- چهارم، اگر رده واقعی منفی و رده پیشبینیشده منفی (۰،۰) باشد، «منفی درست»[خ] نامیده میشود، زیرا نمونهٔ منفی بهدرستی تشخیص داده شده است.
در نتیجه میتوانیم مقایسهٔ بین ردهبندی واقعی و پیشبینیشده را انجام داده و این اطلاعات را به جدول اضافه کنیم و نتایج درست را با رنگ سبز نمایش دهیم تا شناساییشان سادهتر باشد.
شمارهٔ فرد | ۱ | ۲ | ۳ | ۴ | ۵ | ۶ | ۷ | ۸ | ۹ | ۱۰ | ۱۱ | ۱۲ |
---|---|---|---|---|---|---|---|---|---|---|---|---|
رده واقعی | ۱ | ۱ | ۱ | ۱ | ۱ | ۱ | ۱ | ۱ | ۰ | ۰ | ۰ | ۰ |
رده پیشبینیشده | ۰ | ۰ | ۱ | ۱ | ۱ | ۱ | ۱ | ۱ | ۱ | ۰ | ۰ | ۰ |
نتیجه | FN | FN | TP | TP | TP | TP | TP | TP | FP | TN | TN | TN |
الگوی پایه برای هر ماتریس درهمریختگی دودویی از همان چهار نوع نتیجهٔ بیانشده در بالا (مثبت درست، منفی نادرست، مثبت نادرست و منفی درست) همراه با ردههای مثبت و منفی استفاده میکند. این چهار حالت را میتوان در یک «ماتریس درهمریختگی» ۲×۲ به صورت زیر فرموله کرد:
رده پیشبینیشده | |||
کل جامعه = P + N |
مثبت (PP) | منفی (PN) | |
رده واقعی | مثبت (P) | مثبت درست (TP) | منفی نادرست (FN) |
منفی (N) | مثبت نادرست (FP) | منفی درست (TN) | |
Sources: [۶][۷][۸][۹][۱۰][۱۱][۱۲] |
رنگبندیهایی که در سه جدول دادهٔ بالا استفاده شده، با همین ماتریس درهمریختگی هماهنگ است تا افتراق دادهها آسانتر شود.
اکنون میتوان سادهتر تعداد هر نوع نتیجه را جمع زد و آنها را در قالب قرار داد و یک ماتریس درهمریختگی ساخت که چکیدهای مختصر از نتایج آزمون دستهبند ارائه کند:
رده پیشبینیشده | |||
کل جامعه 8 + 4 = 12 |
دارای سرطان 7 |
بدون سرطان 5 | |
رده واقعی | دارای سرطان 8 |
6 | 2 |
بدون سرطان 4 |
1 | 3 |
در این ماتریس درهمریختگی، از میان ۸ نمونهٔ مبتلا به سرطان، سیستم ۲ مورد را بهاشتباه سالم تشخیص داده است. همچنین از میان ۴ نمونهٔ سالم، ۱ مورد را بهاشتباه مبتلا پیشبینی کرده است. تمام پیشبینیهای صحیح روی قطر اصلی جدول (سبزرنگ) قرار دارند؛ پس بهصورت بصری نیز میتوان بهآسانی خطاهای پیشبینی (یعنی مقادیری که روی قطر اصلی نیستند) را مشاهده کرد. همچنین با جمع کردن سطرهای ماتریس درهمریختگی، میتوان به تعداد کل نمونههای مثبت (P) و منفی (N) در مجموعهدادهٔ اولیه پی برد؛ یعنی و .
ماتریس درهمریختگی
[ویرایش]در تحلیل پیشبین، «ماتریس درهمریختگی» (گاه «ماتریس درهمریختگی» هم نامیده میشود) جدولی ۲×۲ است که تعداد «مثبت واقعی»، «منفی کاذب»، «مثبت کاذب» و «منفی واقعی» را گزارش میکند. این جدول امکان تحلیل دقیقتری نسبت به صرفاً محاسبهٔ نسبت پیشبینیهای درست (دقت یا Accuracy) فراهم میکند. اگر مجموعهداده نامتوازن باشد (تعداد نمونهها در کلاسهای مختلف خیلی متفاوت باشد)، صرف محاسبهٔ دقت میتواند گمراهکننده باشد. برای نمونه، اگر در دادهها ۹۵ نمونه مبتلا به سرطان و فقط ۵ نمونه سالم وجود داشته باشد، ممکن است یک دستهبند بهطورکلی همه را مبتلا به سرطان تشخیص دهد. در این صورت دقت کلی ۹۵٪ خواهد بود، اما با نگاهی دقیقتر مشخص میشود که برای افراد مبتلا ۱۰۰٪ میزان تشخیص درست (حساسیت) داریم ولی برای افراد سالم ۰٪! اگر از F1 نیز استفاده کنیم، در چنین مواردی ممکن است دچار خطا شویم؛ زیرا در این مثال، مقدار F1 بیش از ۹۷٫۴٪ را نشان میدهد، اما Informedness (شاخصی برای سنجش تصمیم آگاهانه) مقدار صفر را به دست میدهد، چرا که حدسهای ما در مورد افراد سالم هیچ اطلاعاتی را منتقل نمیکند (همه را مثبت گرفتهایم). بنابر پژوهش داویده کیکو (Davide Chicco) و جوزپه ژورمان (Giuseppe Jurman)، بااطلاعترین سنجه برای ارزیابی یک ماتریس درهمریختگی، ضریب همبستگی متیوز (MCC) است.[۱۳] سایر سنجهها را نیز میتوان در ماتریس درهمریختگی گنجاند که هریک کاربرد و اهمیت خاص خود را دارند.
وضعیت پیشبینیشده | منابع: [۱۴][۱۵][۱۶][۱۷][۱۸][۱۹][۲۰][۲۱] | ||||
کل جامعه = P + N |
مثبت پیشبینیشده | منفی پیشبینیشده | اطلاعمندی (BM) = TPR + TNR − 1 |
آستانه شیوع (PT) = √TPR × FPR - FPR/TPR - FPR | |
مثبت (P) [د] | مثبت واقعی(TP)، ضربه صحیح (hit)[ذ] |
منفی کاذب (FN)، عدم تشخیص، کمتر از واقع برآورد شده (miss) |
نرخ مثبت واقعی (TPR)، بازیابی، حساسیت (SEN)، احتمال تشخیص، نرخ ضربه صحیح، توان = TP/P = 1 − FNR |
نرخ منفی کاذب (FNR)، نرخ عدم تشخیص (miss rate)خطای نوع دوم [ر] = FN/P = 1 − TPR | |
منفی (N)[ز] | مثبت کاذب (FP)، آلارم اشتباه، آژیر کاذب، برآورد بیش از واقع |
منفی واقعی (TN) ، رد صحیح (correct rejection)[ژ] |
نرخ مثبت کاذب (FPR)، احتمال آژیر کاذب، fall-out خطای نوع اول [س] = FP/N = 1 − TNR |
نرخ منفی واقعی (TNR)، ویژگی (specificity)، گزینشپذیری = TN/N = 1 − FPR | |
شیوع = P/P + N |
ارزش اخباری مثبت (PPV)، دقت = TP/TP + FP = 1 − FDR |
نرخ حذف اشتباه (FOR) = FN/TN + FN = 1 − NPV |
نسبت درستنمایی مثبت (LR+) = TPR/FPR |
نسبت درستنمایی منفی (LR−) = FNR/TNR | |
صحت (ACC) = TP + TN/P + N |
نرخ کشف اشتباه (FDR) = FP/TP + FP = 1 − PPV |
ارزش اخباری منفی (NPV) = TN/TN + FN = 1 − FOR |
نشانداری (MK)، deltaP (Δp) = PPV + NPV − 1 |
نسبت شانس تشخیصی (DOR) = LR+/LR− | |
دقت متعادل (BA) = TPR + TNR/2 |
امتیاز اف ۱ = 2 PPV × TPR/PPV + TPR = 2 TP/2 TP + FP + FN |
شاخص فاوکس–مالوز (FM) = √PPV × TPR |
ضریب همبستگی متیوز (MCC) = √TPR × TNR × PPV × NPV - √FNR × FPR × FOR × FDR |
شاخص جاکارد، امتیاز تهدید (TS)، شاخص موفقیت بحرانی (CSI) = TP/TP + FN + FP |
- ↑ confusion matrix
- ↑ contingency matrix
- ↑ error matrix
- ↑ Precision
- ↑ Recall
- ↑ True Positive
- ↑ False Negative
- ↑ False Positive
- ↑ True Negative
- ↑ تعداد موارد واقعاً مثبت در دادهها
- ↑ نتیجهای که درست نشان میدهد یک وضعیت یا ویژگی حضور دارد
- ↑ خطای نوع دوم: نتیجهای که بهاشتباه نشان میدهد یک ویژگی یا وضعیت حضور ندارد
- ↑ تعداد موارد واقعاً منفی در دادهها
- ↑ نتیجهای که درست نشان میدهد یک وضعیت یا ویژگی غایب است
- ↑ خطای نوع اول: نتیجهای که بهاشتباه نشان میدهد یک ویژگی یا وضعیت حضور دارد
ماتریسهای سردرگمی با بیش از دو رده
[ویرایش]ماتریس درهمریختگی منحصر به مسائل دودویی نیست و در طبقهبندهای چندردهای هم قابل استفاده است. ماتریسهای سردرگمیای که پیشتر گفتیم فقط دو شرط داشتند (مثبت و منفی). جدول زیر خلاصه از وضعیت ادراک را بین دو محاوره کننده به زبان سوتی[الف] میکند که برای ساده شدن، سلولهای صفر در آن حذف شدهاند:[۲۲]
اصوات دریافتی اصوات
تولیدی |
i | e | a | o | u |
---|---|---|---|---|---|
i | 15 | 1 | |||
e | 1 | 1 | |||
a | 79 | 5 | |||
o | 4 | 15 | 3 | ||
u | 2 | 2 |
مثال
[ویرایش]فرض کنیم الگوریتمی برای دستهبندی بین گربهها، سگها، خرگوشها طراحی کردهایم. فرض کنیم در این مثال ۸ گربه، ۶ سگ و ۱۳ خرگوش داریم. در سطر مربوط به گربهها، ۵ مورد به عنوان گربه و 3 مورد به عنوان سگ دستهبندی شدهاند. در صورتی که در سطر مربوط به خرگوشها، تنها چند مورد اشتباه وجود دارد. به سادگی مشاهده میشود که عملکرد الگوریتم در تمیز دادن دستههای خرگوشها نسبت به گربهها بسیار بهتر است. مشخص است که اعداد روی قطر اصلی ماتریس نمایش تعداد دستهبندیهای درست هستند. لذا در صورتی که تمام اعداد غیر روی قطر اصلی صفر باشند، الگوریتم دارای بالاترین دقت ممکن است.
برای بدست آوردن بازدهی یک دستهبندیکننده کافی است مجموع عناصر قطر اصلی را بر مجموع کل عناصر ماتریس تقسیم نمود.
کلاس پیشبینی شده | ||||
---|---|---|---|---|
گربه | سگ | خرگوش | ||
کلاس واقعی class |
گربه | ۵ | ۳ | ۰ |
سگ | ۲ | ۳ | ۱ | |
خرگوش | ۰ | ۲ | ۱۱ |
یادداشتها
[ویرایش]- ↑ Whistled Language
منابع
[ویرایش]- ↑ Stehman, Stephen V. (1997). "Selecting and interpreting measures of thematic classification accuracy". Remote Sensing of Environment. 62 (1): 77–89. Bibcode:1997RSEnv..62...77S. doi:10.1016/S0034-4257(97)00083-7.
- ↑ Powers, David M. W. (2011). "Evaluation: From Precision, Recall and F-Measure to ROC, Informedness, Markedness & Correlation". Journal of Machine Learning Technologies. 2 (1): 37–63. S2CID 55767944.
- ↑ Opitz, Juri (2024). "A Closer Look at Classification Evaluation Metrics and a Critical Reflection of Common Evaluation Practice". Transactions of the Association for Computational Linguistics. 12: 820–836. arXiv:2404.16958. doi:10.1162/tacl_a_00675.
- ↑ Stehman, Stephen V. (1997). "Selecting and interpreting measures of thematic classification accuracy". Remote Sensing of Environment. ۶۲ (۱): ۷۷–۸۹. doi:10.1016/S0034-4257(97)00083-7.
- ↑ "ماتریس اغتشاش یا ماتریس درهم ریختگی". رضا داوطلب. Archived from the original on 24 October 2016.
- ↑ Provost, Foster; Fawcett, Tom (2013). Data science for business: what you need to know about data mining and data-analytic thinking (1. ed., 2. release ed.). Beijing Köln: O'Reilly. ISBN 978-1-4493-6132-7.
- ↑ Fawcett, Tom (2006). "An Introduction to ROC Analysis" (PDF). Pattern Recognition Letters. 27 (8): 861–874. Bibcode:2006PaReL..27..861F. doi:10.1016/j.patrec.2005.10.010. S2CID 2027090.
- ↑ Powers, David M. W. (2011). "Evaluation: From Precision, Recall and F-Measure to ROC, Informedness, Markedness & Correlation". Journal of Machine Learning Technologies. 2 (1): 37–63.
- ↑ Ting, Kai Ming (2011). Sammut, Claude; Webb, Geoffrey I. (eds.). Encyclopedia of machine learning. Springer. doi:10.1007/978-0-387-30164-8. ISBN 978-0-387-30164-8.
- ↑ Brooks, Harold; Brown, Barb; Ebert, Beth; Ferro, Chris; Jolliffe, Ian; Koh, Tieh-Yong; Roebber, Paul; Stephenson, David (2015-01-26). "WWRP/WGNE Joint Working Group on Forecast Verification Research". Collaboration for Australian Weather and Climate Research. World Meteorological Organisation. Retrieved 2019-07-17.
- ↑ Chicco D, Jurman G (January 2020). "The advantages of the Matthews correlation coefficient (MCC) over F1 score and accuracy in binary classification evaluation". BMC Genomics. 21 (1): 6-1–6-13. doi:10.1186/s12864-019-6413-7. PMC 6941312. PMID 31898477.
- ↑ Tharwat A. (August 2018). "Classification assessment methods". Applied Computing and Informatics. 17: 168–192. doi:10.1016/j.aci.2018.08.003.
- ↑ Chicco D, Jurman G (January 2020). "The advantages of the Matthews correlation coefficient (MCC) over F1 score and accuracy in binary classification evaluation". BMC Genomics. 21 (1): 6-1–6-13. doi:10.1186/s12864-019-6413-7. PMC 6941312. PMID 31898477.
- ↑ Fawcett, Tom (2006). "An Introduction to ROC Analysis" (PDF). Pattern Recognition Letters. 27 (8): 861–874. doi:10.1016/j.patrec.2005.10.010. S2CID 2027090.
- ↑ Provost, Foster; Tom Fawcett (2013-08-01). "Data Science for Business: What You Need to Know about Data Mining and Data-Analytic Thinking". O'Reilly Media، Inc. (به انگلیسی).
- ↑ Powers, David M. W. (2011). "Evaluation: From Precision، Recall and F-Measure to ROC، Informedness، Markedness & Correlation". Journal of Machine Learning Technologies. 2 (1): 37–63.
- ↑ Ting, Kai Ming (2011). Sammut, Claude; Webb, Geoffrey I. (eds.). Encyclopedia of machine learning. Springer. doi:10.1007/978-0-387-30164-8. ISBN 978-0-387-30164-8.
- ↑ Brooks, Harold; Brown, Barb; Ebert, Beth; Ferro, Chris; Jolliffe, Ian; Koh, Tieh-Yong; Roebber, Paul; Stephenson, David (2015-01-26). "WWRP/WGNE Joint Working Group on Forecast Verification Research". Collaboration for Australian Weather and Climate Research. World Meteorological Organisation. Retrieved 2019-07-17.
- ↑
Chicco D، Jurman G (January 2020). "The advantages of the Matthews correlation coefficient (MCC) over F1 score and accuracy in binary classification evaluation". BMC Genomics. 21 (1): 6-1–6-13. doi:10.1186/s12864-019-6413-7. PMC 6941312. PMID 31898477.
{{cite journal}}
: Vancouver style error: non-Latin character in name 1 (help) - ↑
Chicco D، Toetsch N، Jurman G (February 2021). "The Matthews correlation coefficient (MCC) is more reliable than balanced accuracy، bookmaker informedness، and markedness in two-class confusion matrix evaluation". BioData Mining. 14 (13): 13. doi:10.1186/s13040-021-00244-z. PMC 7863449. PMID 33541410.
{{cite journal}}
: Vancouver style error: non-Latin character in name 1 (help) - ↑ Tharwat A. (August 2018). "Classification assessment methods". Applied Computing and Informatics. 17: 168–192. doi:10.1016/j.aci.2018.08.003.
- ↑ Rialland, Annie (August 2005). "Phonological and phonetic aspects of whistled languages". Phonology. 22 (2): 237–271. CiteSeerX 10.1.1.484.4384. doi:10.1017/S0952675705000552. S2CID 18615779.