دیدگاههای تنظیم در ماشینهای بردارپشتیبانی
دیدگاههای منظمسازی در ماشینهای بردار پشتیبان راهی برای تفسیر ماشینهای بردار پشتیبان (SVM) در زمینه سایر الگوریتمهای یادگیری ماشینی مبتنی بر منظمسازی ارائه میکنند. الگوریتمهای ماشینبردارپشتیبان دادههای باینری را با هدف برازش دادههای مجموعه آموزشی به گونهای دستهبندی میکنند که میانگین تابع هزینه هینج و نرم L2 وزنهای آموختهشده را به حداقل برساند. این استراتژی از بیشبرازش از طریق منظمسازی تیخونوف و در مفهوم نرمL2 جلوگیری میکند و همچنین با به حداقل رساندن انحراف و واریانس تخمینگر ما از وزنها مطابقت دارد. برآوردگرهایی با میانگین مجذور خطای کمتر، زمانی که دادههای دیده نشده داده میشوند، بهتر پیشبینی میکنند یا بهتر تعمیم میدهند.
بهطور خاص، الگوریتمهای تنظیم تیخونوف یک مرز تصمیمگیری تولید میکنند که میانگین خطای مجموعه آموزشی را به حداقل میرساند و مرز تصمیمگیری را محدود میکند که بیش از حد پیچیده نباشد یا بیش برازش روی دادههای تمرین نداشته باشدو اینکار را از طریق یک
وزنها تنظیم کند. خطاهای آموزش و مجموعه تست را میتوان بدون انحراف و به روشی منصفانه با استفاده از صحت، دقت، Auc-Roc، دقت و بازیابی و سایر معیارها اندازهگیری کرد.
دیدگاههای منظمسازی در ماشینهای بردار پشتیبان، ماشینبردارپشتیبان را به عنوان یک مورد خاص از منظمسازی تیخونوف، بهویژه منظمسازی تیخونوف با از تابع هزینه هینج برای یک تابع هزینه، تفسیر میکند. این یک چارچوب نظری برای تجزیه و تحلیل الگوریتمهای ماشینبردارپشتیبان و مقایسه آنها با الگوریتمهای دیگر با اهداف مشابه فراهم میکند: تعمیم بدون بیش برازش. ماشینبردارپشتیبان اولین بار در سال ۱۹۹۵ توسط کورینا کورتس و ولادیمیر واپنیک پیشنهاد شد و به صورت هندسی به عنوان روشی برای یافتن ابرصفحهها که میتواند دادههای چند بعدی را به دو دسته تقسیم کند، ارائه شد.[۱] این تفسیر هندسی سنتی ازماشینبردارپشتیبان شهود مفیدی را در مورد نحوه کار ماشینبردارپشتیبان ارائه میدهد، اما ارتباط با سایر تکنیکهای یادگیری ماشینی برای جلوگیری از تطبیق بیش از حد، مانند منظم سازی، توقف اولیه، پراکندگی و استنتاج بیزی دشوار است. با این حال، هنگامی که کشف شد که ماشینبردارپشتیبان نیز یک مورد خاص از منظمسازی تیخونوف است، دیدگاههای منظمسازی در ماشینبردارپشتیبان تئوری لازم را برای تطبیق ماشینبردارپشتیبان در کلاس وسیعتری از الگوریتمها ارائه کرد.[۲][۳] این امکان مقایسه دقیق بین ماشینبردارپشتیبان و سایر اشکال منظم سازی تیخونوف را فراهم کردهاست، و دلیل نظری را برای اینکه چرا استفاده از تابع هزینه ماشینبردارپشتیبان، یعنی از تابع هزینه هینج، سودمند است، را فراهم کردهاست.[۴]
در چارچوب تئوری یادگیری آماری، الگوریتم یک استراتژی برای انتخاب یک تابع است یک مجموعه آموزشی داده شدهاست از ورودیها و برچسبهای آنها (برچسبها معمولاً هستند ). استراتژیهای تنظیم با انتخاب تابعی که متناسب با دادهها است، اما خیلی پیچیده نیست، از بیش برازش جلوگیری میکند. بهطور مشخص:
جایی که یک فضای فرضی[۵] از توابع است، تابع هزینه است، یک نرم در فضای فرضی توابع است، و پارامتر منظم سازی است.[۶]
چه زمانی یک هسته بازتولید فضای هیلبرت است، یک تابع هسته وجود دارد که میتواند به صورت یک نوشته شود ماتریس مثبت - معین متقارن . توسط قضیه معرفی کننده،
خواص ویژه تابع هزینه هینج
[ویرایش]سادهترین و شهودیترین تابع هزینه برای دستهبندی، هزینه-طبقهبندی-اشتباه یا هزینه ۰–۱ است که اگر ۰ است و ۱ اگر ، یعنی تابع پلهای هویساید روی . با این حال، این تابع هزینه محدب نیست، در نتیجه پیدا کردن مینیمم مسئله منظمسازی از نظر محاسباتی بسیار دشوار است؛ بنابراین، ما به دنبال جایگزینهای محدب برای هزینه ۰–۱ هستیم. هزینه هینج، ، جایی که ، چنین محدبی را فراهم میکند. در واقع، هزینه هینج، بهترین کران محدب بالایی به تابع هزینه-طبقهبندی-اشتباه ۰–۱ است،[۳] و با دادههای بینهایت، راهحل بهینه بیز را برمیگرداند:[۴][۷]
مسئله تنظیم تیخونوف را میتوان نشان داد که با فرمول مرسوم ماشینبردارپشتیبان وبیان آن با تابع هزینه هینج معادل است. تابع هزینه هینج در آن به صورت زیر است.
جایی که ، مسئله تنظیم میشود.
ضرب در نتیجه میدهد:
با ، که معادل مسئله کمینه سازی استاندارد ماشینبردارپشتیبانی است.
یادداشتها و مراجع
[ویرایش]- ↑ Cortes, Corinna; Vladimir Vapnik (1995). "Support-Vector Networks". Machine Learning. 20 (3): 273–297. doi:10.1007/BF00994018.
- ↑ Rosasco, Lorenzo. "Regularized Least-Squares and Support Vector Machines" (PDF).
- ↑ ۳٫۰ ۳٫۱ Lee, Yoonkyung; Wahba, Grace (2012). "Multicategory Support Vector Machines". Journal of the American Statistical Association. 99 (465): 67–81. doi:10.1198/016214504000000098.
- ↑ ۴٫۰ ۴٫۱ Rosasco L. , De Vito E. , Caponnetto A. , Piana M. , Verri A. (May 2004). "Are Loss Functions All the Same". Neural Computation. 5. 16 (5): 1063–1076. CiteSeerX 10.1.1.109.6786. doi:10.1162/089976604773135104. PMID 15070510.
{{cite journal}}
: نگهداری یادکرد:نامهای متعدد:فهرست نویسندگان (link) - ↑ A hypothesis space is the set of functions used to model the data in a machine-learning problem. Each function corresponds to a hypothesis about the structure of the data. Typically the functions in a hypothesis space form a Hilbert space of functions with norm formed from the loss function.
- ↑ For insight on choosing the parameter, see, e.g. , Wahba, Grace; Yonghua Wang (1990). "When is the optimal regularization parameter insensitive to the choice of the loss function". Communications in Statistics – Theory and Methods. 19 (5): 1685–1700. doi:10.1080/03610929008830285.
- ↑ Lin, Yi (July 2002). "Support Vector Machines and the Bayes Rule in Classification" (PDF). Data Mining and Knowledge Discovery. 6 (3): 259–275. doi:10.1023/A:1015469627679.
- Evgeniou, Theodoros; Massimiliano Pontil; Tomaso Poggio (2000). "Regularization Networks and Support Vector Machines" (PDF). Advances in Computational Mathematics. 13 (1): 1–50. doi:10.1023/A:1018946025316.
- Joachims, Thorsten. "SVMlight". Archived from the original on 2015-04-19. Retrieved 2012-05-18.