تنظیم تیخونوف، که به نام آندره تیخونوف نامگذاری شدهاست، روشی برای منظمسازی در مسئله کمترین مربعات است.[ ۱] این روش معمولاً در مدلهایی که تعداد زیادی پارامتر دارند خوب عمل میکند. بهطور کلی، این روش در ازای مقدار قابل اغماضی از اریبی ، باعث بهبود بازدهی برآورد پارامتر میشود.[ ۲]
در مسئله کمترین مربعات هدف یافتن بردار
β
→
{\displaystyle {\vec {\beta }}}
است به قسمی که
L
(
D
,
β
→
)
=
|
|
X
β
→
−
Y
|
|
2
{\displaystyle L(D,{\vec {\beta }})=||X{\vec {\beta }}-Y||^{2}}
به کمترین مقدار ممکن برسد. در اینجا
X
{\displaystyle X}
یک ماتریس
k
×
k
{\displaystyle k\times k}
،
β
→
{\displaystyle {\vec {\beta }}}
و
Y
{\displaystyle Y}
بردارهای
k
×
1
{\displaystyle k\times 1}
هستند و
D
=
{
X
,
Y
}
{\displaystyle D=\{X,\,Y\}}
. برای پیداکردن بهینه تابع، گرادیان
L
(
D
,
β
→
)
{\displaystyle L(D,{\vec {\beta }})}
را حساب کرده با صفر برابر میکنیم. نخست
L
(
D
,
β
→
)
{\displaystyle L(D,{\vec {\beta }})}
را بسط میدهیم:
L
(
D
,
β
→
)
=
|
|
X
β
→
−
Y
|
|
2
=
(
X
β
→
−
Y
)
⊤
(
X
β
→
−
Y
)
=
Y
⊤
Y
−
Y
⊤
X
β
→
−
β
→
⊤
X
⊤
Y
+
β
→
⊤
X
⊤
X
β
→
{\displaystyle {\begin{aligned}L(D,{\vec {\beta }})&=||X{\vec {\beta }}-Y||^{2}\\&=(X{\vec {\beta }}-Y)^{\top }(X{\vec {\beta }}-Y)\\&=Y^{\top }Y-Y^{\top }X{\vec {\beta }}-{\vec {\beta }}^{\top }X^{\top }Y+{\vec {\beta }}^{\top }X^{\top }X{\vec {\beta }}\end{aligned}}}
حال گرادیان این تابع را نسبت به
β
→
{\displaystyle {\vec {\beta }}}
پیدا میکنیم که میشود:
∂
L
(
D
,
β
→
)
∂
β
→
=
∂
(
Y
⊤
Y
−
Y
⊤
X
β
→
−
β
→
⊤
X
⊤
Y
+
β
→
⊤
X
⊤
X
β
→
)
∂
β
→
=
−
2
X
⊤
Y
+
2
X
⊤
X
β
→
{\displaystyle {\begin{aligned}{\frac {\partial L(D,{\vec {\beta }})}{\partial {\vec {\beta }}}}&={\frac {\partial \left(Y^{\top }Y-Y^{\top }X{\vec {\beta }}-{\vec {\beta }}^{\top }X^{\top }Y+{\vec {\beta }}^{\top }X^{\top }X{\vec {\beta }}\right)}{\partial {\vec {\beta }}}}\\&=-2X^{\top }Y+2X^{\top }X{\vec {\beta }}\end{aligned}}}
با برابر قرار دادن گرادیان با صفر پارامتر بهینه بدست میآید:
−
2
X
⊤
Y
+
2
X
⊤
X
β
→
=
0
⇒
X
⊤
Y
=
X
⊤
X
β
→
⇒
β
^
→
=
(
X
⊤
X
)
−
1
X
⊤
Y
{\displaystyle -2X^{\top }Y+2X^{\top }X{\vec {\beta }}=0\Rightarrow X^{\top }Y=X^{\top }X{\vec {\beta }}\Rightarrow {\vec {\hat {\beta }}}=(X^{\top }X)^{-1}X^{\top }Y}
یکی از مشکلات اساسی که در این روش کمترین مربعات وجود دارد مشکل عدم وجود ماتریس وارون برای
(
X
T
X
)
{\displaystyle (\mathbf {X} ^{\mathsf {T}}\mathbf {X} )}
است. برای حل این مشکل تنظیم تیخونوف تابع
L
(
D
,
β
→
)
{\displaystyle L(D,{\vec {\beta }})}
را به تابع پایین تغییر میدهد:[ ۲] [ ۳]
L
(
D
,
β
→
)
=
|
|
X
β
→
−
Y
|
|
2
+
|
|
Γ
β
→
|
|
2
=
(
X
β
→
−
Y
)
⊤
(
X
β
→
−
Y
)
+
β
→
⊤
Γ
⊤
Γ
β
→
=
Y
⊤
Y
−
Y
⊤
X
β
→
−
β
→
⊤
X
⊤
Y
+
β
→
⊤
X
⊤
X
β
→
{\displaystyle {\begin{aligned}L(D,{\vec {\beta }})&=||X{\vec {\beta }}-Y||^{2}+||\Gamma {\vec {\beta }}||^{2}\\&=(X{\vec {\beta }}-Y)^{\top }(X{\vec {\beta }}-Y)+{\vec {\beta }}^{\top }\Gamma ^{\top }\Gamma {\vec {\beta }}\\&=Y^{\top }Y-Y^{\top }X{\vec {\beta }}-{\vec {\beta }}^{\top }X^{\top }Y+{\vec {\beta }}^{\top }X^{\top }X{\vec {\beta }}\end{aligned}}}
حال گرادیان این تابع را نسبت به
β
→
{\displaystyle {\vec {\beta }}}
پیدا میکنیم که میشود:
∂
L
(
D
,
β
→
)
∂
β
→
=
∂
(
Y
⊤
Y
−
Y
⊤
X
β
→
−
β
→
⊤
X
⊤
Y
+
β
→
⊤
X
⊤
X
β
→
+
β
→
⊤
X
⊤
X
β
→
)
∂
β
→
=
−
2
X
⊤
Y
+
2
X
⊤
X
β
→
+
2
β
→
Γ
⊤
Γ
{\displaystyle {\begin{aligned}{\frac {\partial L(D,{\vec {\beta }})}{\partial {\vec {\beta }}}}&={\frac {\partial \left(Y^{\top }Y-Y^{\top }X{\vec {\beta }}-{\vec {\beta }}^{\top }X^{\top }Y+{\vec {\beta }}^{\top }X^{\top }X{\vec {\beta }}+{\vec {\beta }}^{\top }X^{\top }X{\vec {\beta }}\right)}{\partial {\vec {\beta }}}}\\&=-2X^{\top }Y+\ 2X^{\top }X{\vec {\beta }}+2{\vec {\beta }}\Gamma ^{\top }\Gamma \end{aligned}}}
با برابر قرار دادن گرادیان با صفر پارامتر بهینه بدست میآید:
−
2
X
⊤
Y
+
2
X
⊤
X
β
→
+
2
β
→
Γ
⊤
Γ
=
0
⇒
X
⊤
Y
=
(
X
⊤
X
+
Γ
⊤
Γ
)
β
→
⇒
β
^
→
=
(
X
⊤
X
+
Γ
⊤
Γ
)
−
1
X
⊤
Y
{\displaystyle -2X^{\top }Y+2X^{\top }X{\vec {\beta }}+2{\vec {\beta }}\Gamma ^{\top }\Gamma =0\Rightarrow X^{\top }Y=\left(X^{\top }X+\Gamma ^{\top }\Gamma \right){\vec {\beta }}\Rightarrow {\vec {\hat {\beta }}}=(X^{\top }X+\Gamma ^{\top }\Gamma )^{-1}X^{\top }Y}
پس پارامتر بهینه ما برابر است با:
β
^
→
=
(
X
⊤
X
+
Γ
⊤
Γ
)
−
1
X
⊤
Y
{\displaystyle {\bf {{\vec {\hat {\beta }}}=(X^{\top }X+\Gamma ^{\top }\Gamma )^{-1}X^{\top }Y}}}
اگر
Γ
{\displaystyle \Gamma }
را با
α
I
{\displaystyle \alpha I}
(در اینجا
I
{\displaystyle I}
ماتریس همانی است) برابر قرار دهیم، به جواب پایین میرسیم که همان رگرسیون ستیغی است. در این رگرسیون سعی بر این است که مقادیر پارامتر زیاد بزرگ نشود تا بیشبرازش اتفاق نیفتد. با استفاده از ضریب لاگرانژ میتوان نشان داد که این روش معادل بهینهسازی
min
β
→
|
|
X
β
→
−
Y
|
|
2
{\displaystyle \min _{\vec {\beta }}||X{\vec {\beta }}-Y||^{2}}
تحت محدودیتِ
∑
β
i
2
≤
c
{\displaystyle \sum \beta _{i}^{2}\leq c}
به ازای یک عدد
c
{\displaystyle c}
است.[ ۴]
β
^
→
=
(
X
⊤
X
+
α
2
I
)
−
1
X
⊤
Y
{\displaystyle {\bf {{\vec {\hat {\beta }}}=(X^{\top }X+\alpha ^{2}I)^{-1}X^{\top }Y}}}
↑ Kennedy, Peter (2003). A Guide to Econometrics (Fifth ed.). Cambridge: The MIT Press. pp. 205–206. ISBN 0-262-61183-X .
↑ ۲٫۰ ۲٫۱ Gruber, Marvin (1998). Improving Efficiency by Shrinkage: The James–Stein and Ridge Regression Estimators . Boca Raton: CRC Press. pp. 7–15. ISBN 0-8247-0156-9 .
↑ Golub, Gene H.; Hansen, Per Christian.; O'Leary, Dianne P. (1999-01-01). "Tikhonov Regularization and Total Least Squares" . SIAM Journal on Matrix Analysis and Applications . 21 (1): 185–194. doi :10.1137/S0895479897326432 . ISSN 0895-4798 .
↑ Ng, Andrew Y. (2004). Feature selection, L1 vs. L2 regularization, and rotational invariance (PDF) . Proc. ICML .