رگرسیون مؤلفه‌های اصلی

رگرسیون مؤلفه اصلی ^[الف] یکی از روش‌های تحلیل رگرسیون است که از تحلیل مؤلفه‌های اصلی استفاده می‌کند. در رگرسیون مؤلفه اصلی، به جای اینکه متغیر وابسته به‌طور مستقیم با متغیرهای مستقل در ارتباط باشد، این ارتباط به‌طور غیر مستقیم از طریق مولفه‌های اصلی متغیرهای مستقل انجام می‌گیرد. معمولاً فقط یک زیر مجموعه از این مؤلفه‌های اصلی با بالاترین واریاناس‌ها برای رگرسیون مورد استفاده قرار می‌گیرد.^[۱] یکی از مشکلات اصلی در رگرسیون خطی زمانی رخ می‌دهد که ماتریس کوواریانس متغیرهای مستقل‌های تمام رتبه نباشد به این معنی که بعضی از متغیرهای مستقل به هم همبستگی داشته باشند. رگرسیون مؤلفه اصلی با حذف مولفه‌های اصلی با واریانس پایین از فضای متغیرهای مستقل، این مشکل را حل می‌کند.^[۲]

رابطه ریاضی

$n$ داده و $p$ متغیر مستقل داریم که می‌خواهیم از طریق آنها متغیر وابسته را پیش‌بینی کنیم. این متغیرها را در ماتریس‌های $\mathbf {X} _{n\times p}$ و $\mathbf {Y} _{n\times 1}$ به شکل پایین ذخیره می‌کنیم:

\mathbf {X} _{n\times p}=\left(\mathbf {x} _{1},\ldots ,\mathbf {x} _{n}\right)^{\top }

\mathbf {Y} _{n\times 1}=\left(y_{1},\ldots ,y_{n}\right)^{\top }

هدف از رگرسیون خطی بدست آوردن پارامتر ${\boldsymbol {\beta }}\in \mathbb {R} ^{p}$ است به شکلی که $\mathbf {Y} =\mathbf {X} {\boldsymbol {\beta }}+{\boldsymbol {\varepsilon }}$ در اینجا $\varepsilon$ یک متغیر تصادفی است که خطای مدل را نشان می‌دهد. توزیع این خطا را معمولاً طبیعی در نظر می‌گیرند با میانگین صفر و واریانس ثابت برای تمامی ابعاد یعنی $\operatorname {E} \left({\boldsymbol {\varepsilon }}\right)=\mathbf {0} \;$ و $\;\operatorname {Var} \left({\boldsymbol {\varepsilon }}\right)=\sigma ^{2}I_{n\times n}$ . از طریق روش کمترین مربعات می‌توان $||\mathbf {Y} -\mathbf {X} {\boldsymbol {\beta }}||^{2}$ یعنی مربع میزان خطاها را کمینه کرد و به پارامتر بهینه رسید. این پارامتر با ${\widehat {\boldsymbol {\beta }}}_{\mathrm {ols} }=(\mathbf {X} ^{\top }\mathbf {X} )^{-1}\mathbf {X} ^{\top }\mathbf {Y}$ برابر است. یکی از مشکلات اصلی این روش عدم وارونپذیری $(\mathbf {X} ^{\top }\mathbf {X} )^{-1}$ است. برای حل این مشکل رگرسیون مؤلفه اصلی، ابتدا مولفه‌های اصلی $\mathbf {X} ^{\top }\mathbf {X}$ را پیدا می‌کند و بعد داده را در راستای تعدادی از این مولفه‌های اصلی با بالاترین واریاناس‌ها منعکس می‌شوند. ابتدا از طریق تجزیه مقدارهای منفرد ماتریس $\mathbf {X}$ به سه قسمت تقسیم می‌شود $\mathbf {X} =U\Delta V^{\top }$ . در اینجا $\Delta _{p\times p}=\operatorname {diag} \left[\delta _{1},\ldots ,\delta _{p}\right]$ یک ماتریس قطری از مقدارهای منفرد و $U_{n\times p}=[\mathbf {u} _{1},\ldots ,\mathbf {u} _{p}]$ و $V_{p\times p}=[\mathbf {v} _{1},\ldots ,\mathbf {v} _{p}]$ ماتریسهایی از بردارهای ویژه چپ و راست هستند. مقدارهای منفرد با ترتیب نزولی در ماتریس قطری قرار دارند به این معنی که $\delta _{1}\geq \cdots \geq \delta _{p}\geq 0$ . بعد از تجزیه مقدارهای منفرد $\mathbf {X} ^{\top }\mathbf {X}$ از طریق $\mathbf {X} ^{\top }\mathbf {X} =V\Lambda V^{\top }$ محاسبه می‌شود.^[۱] در اینجا $\Lambda _{p\times p}=\operatorname {diag} \left[\lambda _{1},\ldots ,\lambda _{p}\right]=\operatorname {diag} \left[\delta _{1}^{2},\ldots ,\delta _{p}^{2}\right]=\Delta ^{2}$ ماتریس مقدارهای ویژه ماتریس $\mathbf {X} ^{\top }\mathbf {X}$ است؛ این مقادیر با ترتیب نزولی در ماتریس قطری $\Lambda _{p\times p}$ قرار دارند، به این معنی که $\lambda _{1}\geq \cdots \geq \lambda _{p}\geq 0$ ، و $V$ ماتریس بردارهای ویژه $\mathbf {X} ^{\top }\mathbf {X}$ یا همان مولفه‌های اصلی $\mathbf {X}$ است. رگرسیون مؤلفه اصلی ابتدا $\mathbf {X}$ را در راستای $k\leq p$ منعکس می‌کند و سپس رگرسیون خطی را در این فضای جدید اعمال می‌کند. اگر $V_{k}$ ماتریس $k$ بردار ویژه $\mathbf {X} ^{\top }\mathbf {X}$ باشد، انعکاس $\mathbf {X}$ بر روی $V_{k}$ برابر است با $W_{k}=\mathbf {X} V_{k}=[\mathbf {X} \mathbf {v} _{1},\ldots ,\mathbf {X} \mathbf {v} _{k}]\in \mathbb {R} ^{k}$ . رگرسیون مؤلفه اصلی، از $W_{k}$ به عنوان متغیرهای جدید مستقل استفاده می‌کند و رگرسیون خطی را بر آن اعمال می‌کند. طبق روش کمترین مربعات، پارامتر بهینه برای این داده جدید برابر است با ${\widehat {\gamma }}_{k}=\left(W_{k}^{\top }W_{k}\right)^{-1}W_{k}^{\top }\mathbf {Y} \in \mathbb {R} ^{k}$ . حال برای داده جدید $\mathbf {X_{new}} _{\,(1\times p)}$ ، مدل رگرسیون ابتدا داده را با $\mathbf {X_{new}} V_{k}$ به فضای جدید $\mathbb {R} ^{k}$ منتقل می‌کند، سپس با $\mathbf {X_{new}} V_{k}{\widehat {\gamma }}_{k}$ مقدار متغیر وابسته را پیش‌بینی می‌کند. اگر ${\widehat {\boldsymbol {\beta }}}_{k}=V_{k}{\widehat {\gamma }}_{k}\in \mathbb {R} ^{p}$ آنگاه پیش‌بینی مدل $\mathbf {X_{new}} {\widehat {\beta }}_{k}$ خواهد بود و با استفاده از ${\widehat {\boldsymbol {\beta }}}_{k}$ دیگر احتیاجی به انعکاس داده به یک فضای جدید نیست.^[۱]

یادداشت‌ها

↑ principal component regression

منابع

↑ ^۱٫۰ ^۱٫۱ ^۱٫۲ Jolliffe, Ian T. (1982). "A note on the Use of Principal Components in Regression". Journal of the Royal Statistical Society, Series C. 31 (3): 300–303. doi:10.2307/2348005. JSTOR 2348005.
↑ Dodge, Y. (2003) The Oxford Dictionary of Statistical Terms, OUP. شابک ‎۰−۱۹−۹۲۰۶۱۳−۹

[1] rincipal component regression

[:0-2] ۱٫۰ ^۱٫۱ ^۱٫۲ Jolliffe, Ian T. (1982). "A note on the Use of Principal Components in Regression". Journal of the Royal Statistical Society, Series C. 31 (3): 300–303. doi:10.2307/2348005. JSTOR 2348005.

[3] Dodge, Y. (2003) The Oxford Dictionary of Statistical Terms, OUP. شابک ‎۰−۱۹−۹۲۰۶۱۳−۹

[الف]

[۱]

[۲]