ماشین بردار پشتیبان ساختاریافته
این مقاله شامل فهرستی از منابع، کتب مرتبط یا پیوندهای بیرونی است، اما بهدلیل فقدان یادکردهای درونخطی، منابع آن همچنان مبهم هستند. (دسامبر ۲۰۱۹) |
ماشین بردار پشتیبان ساختار یافته یک الگوریتم یادگیری ماشین است که دسته بند بردار پشتیبان ماشین (SVM) را تعمیم میدهد . درحالی که طبقهبندی کننده SVM، دستهبندی دوتایی ، دستهبندی چندکلاسه و رگرسیون را پشتیبانی میکند، SVM ساختار یافته به آموزش یک دسته بند برای برچسبهای خروجی با ساختار کلی به کار می رود.
به عنوان مثال، یک نمونه آماری ممکن است یک جمله به زبان طبیعی باشد و همچنین برچسب خروجی ما ممکن است یک درخت تجزیه با کیفیت باشد. آموزش مدل دستهبندی شامل نمایش جفت نمونه صحیح و جفتهای برچسب خروجی است. پس از آموزش، مدل SVM ساختار یافته به فرد اجازه میدهد تا برای نمونههای جدید، برچسب خروجی متناظر را پیشبینی کند؛ یعنی با توجه به یک جمله زبان طبیعی، طبقهبندی کننده میتواند محتملترین درخت را جهت پیش بینی تولید کند.
آموزش
[ویرایش]فرض کنید نمونه یادگیری , داریم که در آن فضای نمونه (ورودی) و فضای برچسب (خروجی) می باشد. در مرحله آموزش SVM ساختاریافته بردار وزن ها طوری انتخاب می شود که تابع هزینه زیر کمینه شود:
تابع هدف بالا محدب می باشد چون بیشینه تعدادی تابع تبدیل آفین است. تابع یک فاصله در فضای برچسب را اندازه گیری می کند و این یک تابع دلخواه (و نه لزوماً یک متریک) می باشد که رابطه های و را ارضا می کند. تابع یک تابع ویژگی است که یک بردار ویژگی از یک نمونه ورودی و برچسب دادهشده را استخراج میکند. طراحی این تابع بستگی بسیار زیادی به کاربرد آن دارد.
از آنجایی که تابع هدف بالا مشتق پذیر نیست، اغلب، به صورت یک برنامه ریز درجه دوم فرموله می شود. این کار با معرفی یک متغیر به ازای هر نمونه آموزشی بدست می آید که هر کدام در نهایت برابر با مقدار ماکزیمم نشان داده شده در فرمول بالا خواهد شد. با این کار مساله بهینه سازی بالا به صورت زیر در می آید:
استنتاج
[ویرایش]در زمان تست، یک نمونه ورودی به سیستم داده می شود و تابع پیشبینی آن را به یک برچسب از فضای برچسب نگاشت میکند. برای SVM ساختار یافته، با توجه به بردار بهدستآمده از بخش آموزش، تابع پیشبینی به صورت زیر می باشد:
بنابراین, بیشینه کردن روی فضای برچسب، همان برچسب پیشبینیشده است. حل این مساله، مساله استنتاج نامیده میشود و مشابه برآوردگر بیشینهگر احتمال پسین (MAP) درمدلهای احتمالی است. بسته به ساختار تابع ، حل مساله بیشینه کردن میتواند سخت باشد.
جداسازی
[ویرایش]برنامه درجه دوم فوق شامل محدودیت های نابرابر خطی بسیار زیاد و احتمالاً نامتناهی است. به طور کلی، تعداد نامساوی ها برای این که به طور ضمنی بهینه شود، بسیار زیاد است . به جای آن مسئله با استفاده از delayed constraint generation که در آن از زیر مجموعه ای از محدودیت های کوچک و متناهی استفاده شده است حل میشود. بهینه سازی بر روی یک زیرمجموعه ای از محدودیتها، مجموعه جواب مطلوب را توسعه داده و یک راه حلی ارائه میدهد که کران پایین تری را بر روی هدف فراهم میکند. برای آزمایش این که آیا جواب محدودیتهای مجموعه کامل نامساوی ها را نقض میکند یا نه، یک مساله جداسازی باید حل شود. به دلیل اینکه نامساوی ها بر روی نمونهها تجزیه میشوند، برای هرنمونه مساله زیر باید حل شود:
به منظور بیشینه کردن سمت راست تابع هدف بالا ثابت از معادله خارج شده و یک عبارت وابسته به متغیرها، یعنی بهینه میشود. اگر عبارت بهدستآمده کوچکتر یا مساوی صفر باشد، برای نمونه های موجود هیچ محدودیتی نقض نمیشود. اگر اکیداً بزرگتر از صفر باشد، محدودیت های نقض شده زیادی شناسایی می شود. این مسئله با این محدودیت توسعه داده شده و دوباره حل می شود. این فرایند تا زمانی ادامه مییابد که هیچ نامساوی نقض شده ای را نتوان شناسایی کرد.
اگر ثابتها از مساله بالا حذف شوند، به رابطه زیر میرسیم:
این مسئله شبیه به مسائل استدلالی است. تنها تفاوت آن ها، افزودن عبارت است، که اغلب اوقات، به گونه ای انتخاب می شود که در فضای برچسب تجزیه طبیعی داشته باشد. در این حالت، تاثیر دادن مسئله را به یک مسئله استدلالی تبدیل می کند و حل بیشترین محدودیت های نقض شده برابر با حل مساله استدلال خواهد بود.
منابع
[ویرایش]- Ioannis Tsochantaridis, Thorsten Joachims, Thomas Hofmann and Yasemin Altun (2005), Large Margin Methods for Structured and Interdependent Output Variables, JMLR, Vol. 6, pages 1453-1484.
- Thomas Finley and Thorsten Joachims (2008), Training Structural SVMs when Exact Inference is Intractable, ICML 2008.
- Sunita Sarawagi and Rahul Gupta (2008), Accurate Max-margin Training for Structured Output Spaces, ICML 2008.
- Gökhan BakIr, Ben Taskar, Thomas Hofmann, Bernhard Schölkopf, Alex Smola and SVN Vishwanathan (2007), Predicting Structured Data, MIT Press.
- Vojtěch Franc and Bogdan Savchynskyy Discriminative Learning of Max-Sum Classifiers, Journal of Machine Learning Research, 9(Jan):67—104, 2008, Microtome Publishing
- Kevin Murphy [۱] Machine Learning, MIT Press