کمیسازی (یادگیری ماشین)
در یادگیری ماشین و تحلیل داده، کمی سازی (بهطور مختلف یادگیری برای کمیت یا برآورد شیوع نظارت یا تخمین قبلی کلاس نامیده میشود) وظیفهٔ استفاده از یادگیری تحت نظارت برای آموزش مدلهایی (کمی سازها) است که فرکانسهای نسبی (همچنین به عنوان شیوع نیز شناخته میشود) کلاسهای مورد علاقه را در نمونه از موارد دادههای نامشخص تخمین میزند.[۱] به عنوان مثال، در نمونه ای از ۱۰۰٬۰۰۰ توییت بدون برچسب که برای بیان نظرات در مورد یک نامزد سیاسی خاص شناخته شدهاست، ممکن است از یک اندازهگیری برای تخمین درصد این ۱۰۰۰۰۰ توییت که متعلق به کلاس 'مثبت است' استفاده شود (یعنی، که یک موضع مثبت نسبت به این کاندید نشان میدهد)، و برای کلاسهای «خنثی» و «منفی» نیز همین کار را انجام دهد.
کمیسازی ممکن است به عنوان وظیفه پیشبینیکنندههای آموزشی در نظر گرفته شود که توزیع احتمال (گسسته) را تخمین میزنند، برای مثال، یک توزیع پیشبینیشده تولید میکند که توزیع واقعی ناشناخته آیتمها را در سراسر کلاسهای مورد نظر تقریب میزند. کمیسازی با طبقهبندی متفاوت است، زیرا هدف از طبقهبندی، پیشبینی برچسبهای کلاسی آیتم دادهای منحصر بفرد است، در حالی که هدف از تعیین آن برای پیشبینی مقادیر شیوع کلاس مجموعه موارد دادهاست. کمی سازی نیز با رگرسیون متفاوت است، زیرا در رگرسیون، آیتمهای داده آموزشی برچسبهایی با ارزش واقعی دارند، در حالی که در کمی سازی، آیتمهای دادههای آموزشی دارای برچسبهای کلاسی هستند.
در چندین کار تحقیقاتی[۲][۳][۴][۵][۶] نشان داده شدهاست که انجام کمیت با طبقهبندی همه موارد نامشخص و سپس شمارش مواردی که به هر کلاس نسبت داده شدهاست (روش 'طبقهبندی و شمارش') معمولاً منجر به دقت کمیت پایینتر میشود. این نابهینه بودن ممکن است به عنوان یک نتیجه مستقیم از "اصل Vapnik " در نظر گرفته شود، که بیان میکند:
اگر مقدار محدودی از اطلاعات برای حل برخی از مشکلات دارید، سعی کنید مستقیماً مشکل را حل کنید و هرگز یک مشکل کلی تر را به عنوان یک مرحله میانی حل نکنید. این امکان وجود دارد که اطلاعات موجود برای یک راه حل مستقیم کافی باشد اما برای حل یک مشکل واسطه ای عمومی کافی نیست.[۷]
در مورد ما، مسئله ای که باید بهطور مستقیم حل شود، کمی سازی است، در حالی که مشکل واسط عمومی تر، طبقهبندی است. در نتیجه بهینه نبودن روش «طبقهبندی و شمارش»، کمی سازی به عنوان یک کار به خودی خود، متفاوت از طبقهبندی (در اهداف، روشها، تکنیکها و اقدامات ارزیابی)، تکاملیافتهاست.
منابع
[ویرایش]- ↑ Pablo González; Alberto Castaño; Nitesh Chawla; Juan José del Coz (2017). "A review on quantification learning". ACM Computing Surveys. 50: 74:1–74:40. doi:10.1145/3117807.
- ↑ George Forman (2008). "Quantifying counts and costs via classification". Data Mining and Knowledge Discovery. 17: 164–206. doi:10.1007/s10618-008-0097-y.
- ↑ Antonio Bella; Cèsar Ferri; José Hernández-Orallo; María José Ramírez-Quintana (2010). "Quantification via probability estimators". Proceedings of the 11th IEEE International Conference on Data Mining (ICDM 2010): 737–742. doi:10.1109/icdm.2010.75. ISBN 978-1-4244-9131-5.
- ↑ José Barranquero; Jorge Díez; Juan José del Coz (2015). "Quantification-oriented learning based on reliable classifiers". Pattern Recognition. 48: 591–604. Bibcode:2015PatRe..48..591B. doi:10.1016/j.patcog.2014.07.032.
- ↑ Andrea Esuli; Fabrizio Sebastiani (2015). "Optimizing text quantifiers for multivariate loss functions". ACM Transactions on Knowledge Discovery and Data. 9: Article 27. arXiv:1502.05491. doi:10.1145/2700406.
- ↑ Wei Gao; Fabrizio Sebastiani (2016). "From classification to quantification in tweet sentiment analysis". Social Network Analysis and Mining. 6: 1–22. doi:10.1007/s13278-016-0327-z.
- ↑ Vladimir Vapnik (1998). Statistical learning theory. New York, US: Wiley.