دستهبندی با چند برچسب
یادگیری ماشین و دادهکاوی |
---|
![]() |
دستهبندی با چند برچسب (به انگلیسی: Multi-label classification) متفاوت از ردهبندی چندگانه است.
در یادگیری ماشینی، برای دستهبندی چندگانه هدف ما این است که از بین برچسبهای موجود برای هر نمونه دقیقا یک برچسب را انتخاب کنیم و به آن نمونه نسبت دهیم. در حالی که در دستهبندی با چند برچسب ممکن است به هر نمونه بیش از یک برچسب نسبت داده شود و حالت کلی تری از ردهبندی چندگانه است.
به بیان بهتر، در دستهبندی با چند برچسب، با دادن ورودی x به مدل، خروجی y را از آن دریافت میکنیم که y یک بردار از مقادیر 0 و 1 است که مشخص میکند ورودی به کدام دستهها تعلق دارد.
روشهای تبدیل مسئله به مسائل دیگر
[ویرایش]- تبدیل به مسئله دستهبندی دوگانه:این روش را ارتباط دوگانه [۱] مینامند. در این روش، برای هر دسته یک دستهبندی کننده دوگانه آموزش میدهیم که برای یک نمونه عضویت آن در آن دسته را پیش بینی کند سپس در بردار خروجی y به ازای دستههایی که جواب دستهبندی کننده آنها مثبت بوده، 1 میگذاریم.
- تبدیل به مسائل دستهبندی چندگانه: در این روش به ازای هر حالت موجود از ترکیب برچسبها در مجموعه داده آموزش، یک دسته در نظر میگیریم. برای مثال فرض کنید سه برچسب الف، ب و پ داریم. به ازای هر یک از حالات [000]، [001]، [010]، [011]، [100]، [101]، [110]، [111] یک دسته در نظر میگیریم. برای نمونه، [010] نشان میدهد نمونه به دستههای الف و پ تعلق ندارد و به دسته ب تعلق دارد. اکنون روی این دستههای جدید، دستهبندی چندگانه انجام میدهیم. [۲]
معیارهای ارزیابی
[ویرایش]معیارهای ارزیابی روشهای دستهبندی با چند برچسب متفاوت از روشهای دستهبندی چندگانه است زیرا ذات و اهداف این دو مسئله با هم تفاوت دارد. ارزیابیهای رایج برای این دسته از مسائل به شرح زیر است.
- هزینه Hamming: در این روش نسبت برچسبهای اشتباه به کل برچسبها در نظر گرفته میشود:
که در این فرمول، مقدار درست (هدف) و مقدار پیشبینی شده است. تعداد کل نمونهها و مجموعه برچسبها است.
- اندیس ژاکار که در واقع نسبت برچسبهایی که به درستی پیشبینی شدند به اجتماع کل برچسب های واقعی و پیش بینی شده است.
که برچسبهای واقعی و برچسبهای پیشبینی شده است.
- تطابق دقیق که سختگیرانهترین روش است و درصد نمونههایی را که همه برچسبهایشان به درستی دستهبندی شده مشخص میکند.
- دقت و بازیابی و امتیاز اف ۱ که دقت ، بازیابی ، و امتیاز اف ۱، میانگین همساز آنهاست.
منابع
[ویرایش]- ↑ Jesse Read, Bernhard Pfahringer, Geoff Holmes, Eibe Frank. Classifier Chains for Multi-label Classification. Machine Learning Journal. Springer. Vol. 85(3), (2011).
- ↑ Spolaôr, Newton; Cherman, Everton Alvares; Monard, Maria Carolina; Lee, Huei Diana (March 2013). "A Comparison of Multi-label Feature Selection Methods using the Problem Transformation Approach". Electronic Notes in Theoretical Computer Science. 292: 135–151. doi:10.1016/j.entcs.2013.02.010. ISSN 1571-0661.