کمترین مربعات جزئی
بخشی از مجموعه مباحث دربارهٔ آمار |
تحلیل رگرسیون |
---|
مدلها |
برآورد |
پیشزمینه |
کمترین مربعات جزئی [الف] (انگلیسی: Partial least squares regression (PLS regression)) یکی از روشهای تحلیل رگرسیون است. در این روش، راه حل حداقل مربعات بر روی تعدادی مؤلفه متعامد که ترکیبی خطی از متغیرهای مستقل هستند و به صورت متناوب و با هدف بیشینهکردن کوواریانسِ تبدیل خطیِ متغیرهای مستقل و متغیرهای وابسته ایجاد شدهاند، اعمال میشود.[۱][۲]
کمترین مربعات جزئی توسط آماردان سوئدی، Herman O. A. Wold معرفیشد که سپس آن را با پسرش Svante Wold توسعهداد. یک اصطلاح جایگزین برای «حداقل مربعات جزئی»، نگاشت به ساختارهای پنهان است، اما هوز «حداقل مربعات جزئی» در بسیاری از حوزهها اصطلاح رایج است. اگرچه کاربردهای اصلی آن در علوم اجتماعی بود، اما امروزه PLS بیشترین کاربرد را در شیمیِ آماری و حوزههای مرتبط دارد. همچنین در بیوانفورماتیک، حس سنجی، علوم اعصاب و انسانشناسی نیز استفاده میشود.
رابطه ریاضی
[ویرایش]فرض میکنیم داده داریم که هر کدام از یک متغیر وابسته و متغیر مستقل تشکیل شدهاست؛ به کمک متغیرهای مستقل متغیر وابسته را پیشبینی میکنیم. مقادیر متغیرهای مستقل (به همراه یک بردار ثابت ) و مقادیر متغیر وابسته را به ترتیب در ماتریسهای و به شکل پایین نمایش میدهیم؛ در اینجا یک ماتریس از مقادیر امین متغیر مستقل است:
هدف از رگرسیون خطی بدست آوردن پارامتر است به شکلی که در اینجا یک متغیر تصادفی است که خطای مدل را نشان میدهد. این خطا از توزیع طبیعی با میانگین صفر و واریانس ثابت برای تمامی ابعاد پیروی میکند به این معنی که و . از طریق روش حداقل مربعات میتوان یعنی مربع میزان خطاها را کمینه کرد و به پارامتر بهینه رسید. این پارامتر با برابراست. یکی از مشکلات اصلی این روش عدم وارونپذیری است. برای حل این مشکل، حداقل مربعات جزئی، متناوباً مولفههایی متعامد ( در پایین) که ترکیبی خطی از متغیرهای مستقل هستند تولید میکند و در نهایت راه حل حداقل مربعات را بر روی این مولفهها اعمال میکند. ضرایب متغیرهای مستقل در مولفهها با ضرب نقطهایِ متغیرهای وابسته و مستقل برابر است. متغیرهای مستقل در ابتدای کار استاندارد شدهاند یعنی میانگین صفر و واریانس یک دارند. در پایان هر مرحله متغیرهای مستقل نسبت به مولفه آن مرحله متعامد میشوند. این کار باعث میشود که در پایان تمام مولفهها نسبت به هم متعامد باشند. الگوریتم تولید مولفهها برای به شکل پایین است ( از روش اعتبارسنجی متقابل محاسبه میشود):
از آنجا که یا همان مقدار پیشبینی شده، ترکیبی خطی از ها است و خود ها هم ترکیبی خطی از متغیرهای مستقل هستند، در نهایت مدل رگرسیون ترکیبی خطی از متغیرهای مستقل خواهد بود.[۱]
الگوریتم PLS1
[ویرایش]PLS1 یک الگوریتم پرکاربرد است که وقتی از آن استفاده میشود که Y یک بردار باشد. این الگوریتم در شبهکد زیر بیان میشود (حروف بزرگ ماتریس هستند، حروف کوچک اگر بالانویس داشته باشند بردار، و اگر اندیس داشتهباشند اسکالر هستند):
1 function PLS1(X, y, l) 2 3 , an initial estimate of w. 4 for to 5 6 (note this is a scalar) 7 8 9 (note this is a scalar) 10 if 11 , break the for loop 12 if 13 14 15 end for 16 define W to be the matrix with columns . Do the same to form the P matrix and q vector. 17 18 19 return
این شکل از الگوریتم نیازی به مرکزیت ورودی X و Y (کم کردن میانگین هر ستون از تک تک درایههای آن ستون در ماتریس) ندارد، زیرا این کار بهطور ضمنی توسط الگوریتم انجام میشود. متغیر l (فراهمشده توسط کاربر) محدودیتی برای تعداد متغییرهای پنهان در رگرسیون است و اگر با رتبه ماتریس X برابر باشد، الگوریتم تخمینهای رگرسیون کمترین مربعات را برای B و به دست میدهد.
جستارهای وابسته
[ویرایش]یادداشتها
[ویرایش]- ↑ partial least squares
منابع
[ویرایش]- ↑ ۱٫۰ ۱٫۱ Hastie, Trevor; Tibshirani, Robert; Friedman, Jerome (2009). "The Elements of Statistical Learning". Springer Series in Statistics (به انگلیسی): 80–82. doi:10.1007/978-0-387-84858-7. ISSN 0172-7397.
- ↑ de Jong, S.; ter Braak, C.J.F. (1994). "Comments on the PLS kernel algorithm". J. Chemometrics. 8 (2): 169–174. doi:10.1002/cem.1180080208.