واحد بازگشتی دروازه‌ای

واحدهای بازگشتی دروازه‌ای (GRUs) یک مکانیسم دروازه‌ای در شبکه‌های عصبی بازگشتی هستند که در سال ۲۰۱۴ توسط کیونگ‌هیون چو و همکارانش ایجاد شدند.^[۱] واحد بازگشتی دروازه‌ای مانند یک حافظه طولانی کوتاه مدت (LSTM) با یک دروازه فراموشی کار می‌کند،^[۲] اما پارامترهای کمتری نسبت به LSTM دارد، زیرا فاقد دروازه خروجی است.^[۳] عملکرد GRU در برخی از وظایف مانند مدل‌سازی موسیقی چندصدایی، مدل‌سازی سیگنال گفتار و پردازش زبان طبیعی مشابه عملکرد LSTM است.^[۴]^[۵] GRUها عملکرد بهتری در مجموعه داده‌های کوچکتر و داده‌های کم‌بسامد دارند.^[۶]

معماری

تغییرات مختلفی در واحد دروازه کامل وجود دارد، با استفاده از حالت مخفی قبلی و بایاس در ترکیب‌های مختلف، و یک شکل ساده به نام واحد حداقل دروازه‌ای.

اپراتور $\odot$ محصول هادامارد را در زیر نشان می‌دهد.

واحد تمام دروازه‌ای

در ابتدا، برای $t=0$ ، بردار خروجی عبارت است از $h_{0}=0$ .

{\begin{aligned}z_{t}&=\sigma _{g}(W_{z}x_{t}+U_{z}h_{t-1}+b_{z})\\r_{t}&=\sigma _{g}(W_{r}x_{t}+U_{r}h_{t-1}+b_{r})\\{\hat {h}}_{t}&=\phi _{h}(W_{h}x_{t}+U_{h}(r_{t}\odot h_{t-1})+b_{h})\\h_{t}&=(1-z_{t})\odot h_{t-1}+z_{t}\odot {\hat {h}}_{t}\end{aligned}}

متغیرها

$x_{t}$ : بردار ورودی
$h_{t}$ : بردار خروجی
${\hat {h}}_{t}$ : بردار فعال‌سازی
$z_{t}$ : بردار به روز رسانی
$r_{t}$ : بردار ریست
$W$ ، $U$ و $b$ : ماتریس پارامتر و بردار

توابع فعال سازی

$\sigma _{g}$ : تابع سیگموئید.
$\phi _{h}$ : تابع هذلولی.

از سایر توابع فعال‌سازی نیز می‌توان استفاده کرد مشروط بر اینکه $\sigma _{g}(x)\in [0,1]$ .

با تغییر $z_{t}$ و $r_{t}$ می‌توان شکلهای دیگری از مدل را ایجاد کرد:^[۷]

نوع اول، هر دروازه فقط به حالت پنهان قبلی و b بستگی دارد.

{\begin{aligned}z_{t}&=\sigma _{g}(U_{z}h_{t-1}+b_{z})\\r_{t}&=\sigma _{g}(U_{r}h_{t-1}+b_{r})\\\end{aligned}}

نوع دوم، هر دروازه فقط به حالت پنهان قبلی بستگی دارد.

{\begin{aligned}z_{t}&=\sigma _{g}(U_{z}h_{t-1})\\r_{t}&=\sigma _{g}(U_{r}h_{t-1})\\\end{aligned}}

نوع سوم، هر دروازه فقط با استفاده از b محاسبه می‌شود.

{\begin{aligned}z_{t}&=\sigma _{g}(b_{z})\\r_{t}&=\sigma _{g}(b_{r})\\\end{aligned}}

واحد حداقل دروازه‌ای

واحد حداقل دروازه‌ای مشابه واحد تمام دروازه‌ای است، به جز اینکه بردار به روز رسانی و ریست در یک دروازه فراموشی ادغام شده‌است.^[۸]

{\begin{aligned}f_{t}&=\sigma _{g}(W_{f}x_{t}+U_{f}h_{t-1}+b_{f})\\{\hat {h}}_{t}&=\phi _{h}(W_{h}x_{t}+U_{h}(f_{t}\odot h_{t-1})+b_{h})\\h_{t}&=(1-f_{t})\odot h_{t-1}+f_{t}\odot {\hat {h}}_{t}\end{aligned}}

متغیرها

$x_{t}$ : بردار ورودی
$h_{t}$ : بردار خروجی
${\hat {h}}_{t}$ : بردار فعال سازی
$f_{t}$ : بردار فراموشی
$W$ ، $U$ و $b$ : ماتریس‌های پارامتر و بردار

واحد تکراری تطبیقی محتوا

واحد تکراری تطبیقی محتوا یا Content Adaptive Recurrent Unit (CARU) گونه‌ای از GRU است که در سال ۲۰۲۰ توسط کاهو چان و همکاران وی ایجاد شد.^[۹] CARU شامل گیت به روز رسانی مانند GRU است، اما به جای گیت ریست، یک گیت تطبیقی با محتوا معرفی می‌کند. CARU برای کاهش مشکل وابستگی طولانی مدت مدل‌های RNN طراحی شده‌است. CARU پارامترهای کمتری نسبت به GRU دارد و در مسائل پردازش زبانهای طبیعی عملکردش تنها قدری بهتر از GRU است.^[۱۰]

در معادلات زیر، متغیرهای حروف کوچک نشان دهنده بردارها و $\left[W;B\right]$ پارامترهای مدل را نشان می‌دهد که لایه‌های خطی هستند که از وزن‌ها و بایاس‌ها تشکیل شده‌اند. در ابتدا، برای $t=0$ ، CARU مستقیماً بردارد $h^{(1)}\gets W_{vn}v^{(0)}+B_{vn}$ را برمی‌گرداند؛ برای $t>0$ خروجی‌ها عبارتند از:

${\begin{aligned}x^{(t)}&={W_{vn}}v^{(t)}+{B_{vn}}\\n^{(t)}&=\phi (({W_{hn}}h^{(t)}+{B_{hn}})+x^{(t)})\\z^{(t)}&=\sigma ({W_{hz}}h^{(t)}+{B_{hz}}+{W_{vz}}v^{(t)}+{B_{vz}})\\l^{(t)}&=\sigma (x^{(t)})\odot z^{(t)}\\h^{(t+1)}&=(1-l^{(t)})\odot h^{(t)}+l^{(t)}\odot n^{(t)}\end{aligned}}$

در اینجا اپراتور $\odot$ نشان دهنده ضرب هادامارد است، و $\sigma$ و $\phi$ به ترتیب نشان‌دهنده تابع سیگموئید و هذلولی است.

پیوند به بیرون

منابع

↑ Cho, Kyunghyun; van Merrienboer, Bart; Bahdanau, DZmitry; Bengio, Yoshua (2014). "On the Properties of Neural Machine Translation: Encoder-Decoder Approaches". arXiv:1409.1259. {{cite journal}}: Cite journal requires |journal= (help)
↑ Felix Gers; Jürgen Schmidhuber; Fred Cummins (1999). "Learning to Forget: Continual Prediction with LSTM". Proc. ICANN'99, IEE, London. 1999: 850–855. doi:10.1049/cp:19991218. ISBN 0-85296-721-7.
↑ "Recurrent Neural Network Tutorial, Part 4 – Implementing a GRU/LSTM RNN with Python and Theano – WildML". 2015-10-27. Archived from the original on 2021-11-10. Retrieved May 18, 2016.
↑ Ravanelli, Mirco; Brakel, Philemon; Omologo, Maurizio; Bengio, Yoshua (2018). "Light Gated Recurrent Units for Speech Recognition". IEEE Transactions on Emerging Topics in Computational Intelligence. 2 (2): 92–102. arXiv:1803.10225. doi:10.1109/TETCI.2017.2762739.
↑ Su, Yuahang; Kuo, Jay (2019). "On extended long short-term memory and dependent bidirectional recurrent neural network". Neurocomputing. 356: 151–161. arXiv:1803.01686. doi:10.1016/j.neucom.2019.04.044.
↑ Gruber, N.; Jockisch, A. (2020), "Are GRU cells more specific and LSTM cells more sensitive in motive classification of text?", Frontiers in Artificial Intelligence, 3: 40, doi:10.3389/frai.2020.00040
↑ Dey. "Gate-Variants of Gated Recurrent Unit (GRU) Neural Networks". arXiv:1701.05923.
↑ Heck. "Simplified Minimal Gated Unit Variations for Recurrent Neural Networks". arXiv:1701.03452.
↑ Chan, Ka-Hou; Ke, Wei; Im, Sio-Kei (2020), Yang, Haiqin; Pasupa, Kitsuchart; Leung, Andrew Chi-Sing; Kwok, James T. (eds.), "CARU: A Content-Adaptive Recurrent Unit for the Transition of Hidden State in NLP", Neural Information Processing (به انگلیسی), Cham: Springer International Publishing, 12532: 693–703, doi:10.1007/978-3-030-63830-6_58, ISBN 978-3-030-63829-0, retrieved 2022-02-18
↑ Ke, Wei; Chan, Ka-Hou (2021-11-30). "A Multilayer CARU Framework to Obtain Probability Distribution for Paragraph-Based Sentiment Analysis". Applied Sciences (به انگلیسی). 11 (23): 11344. doi:10.3390/app112311344. ISSN 2076-3417.

[1] Cho, Kyunghyun; van Merrienboer, Bart; Bahdanau, DZmitry; Bengio, Yoshua (2014). "On the Properties of Neural Machine Translation: Encoder-Decoder Approaches". arXiv:1409.1259. {{cite journal}}: Cite journal requires |journal= (help)

[lstm1999-2] Felix Gers; Jürgen Schmidhuber; Fred Cummins (1999). "Learning to Forget: Continual Prediction with LSTM". Proc. ICANN'99, IEE, London. 1999: 850–855. doi:10.1049/cp:19991218. ISBN 0-85296-721-7.

[MyUser_Wildml.com_May_18_2016c-3] "Recurrent Neural Network Tutorial, Part 4 – Implementing a GRU/LSTM RNN with Python and Theano – WildML". 2015-10-27. Archived from the original on 2021-11-10. Retrieved May 18, 2016.

[Ravalli2018-4] Ravanelli, Mirco; Brakel, Philemon; Omologo, Maurizio; Bengio, Yoshua (2018). "Light Gated Recurrent Units for Speech Recognition". IEEE Transactions on Emerging Topics in Computational Intelligence. 2 (2): 92–102. arXiv:1803.10225. doi:10.1109/TETCI.2017.2762739.

[Su2019-5] Su, Yuahang; Kuo, Jay (2019). "On extended long short-term memory and dependent bidirectional recurrent neural network". Neurocomputing. 356: 151–161. arXiv:1803.01686. doi:10.1016/j.neucom.2019.04.044.

[gruber_jockisch-6] Gruber, N.; Jockisch, A. (2020), "Are GRU cells more specific and LSTM cells more sensitive in motive classification of text?", Frontiers in Artificial Intelligence, 3: 40, doi:10.3389/frai.2020.00040

[7] Dey. "Gate-Variants of Gated Recurrent Unit (GRU) Neural Networks". arXiv:1701.05923.

[8] Heck. "Simplified Minimal Gated Unit Variations for Recurrent Neural Networks". arXiv:1701.03452.

[9] Chan, Ka-Hou; Ke, Wei; Im, Sio-Kei (2020), Yang, Haiqin; Pasupa, Kitsuchart; Leung, Andrew Chi-Sing; Kwok, James T. (eds.), "CARU: A Content-Adaptive Recurrent Unit for the Transition of Hidden State in NLP", Neural Information Processing (به انگلیسی), Cham: Springer International Publishing, 12532: 693–703, doi:10.1007/978-3-030-63830-6_58, ISBN 978-3-030-63829-0, retrieved 2022-02-18

[10] Ke, Wei; Chan, Ka-Hou (2021-11-30). "A Multilayer CARU Framework to Obtain Probability Distribution for Paragraph-Based Sentiment Analysis". Applied Sciences (به انگلیسی). 11 (23): 11344. doi:10.3390/app112311344. ISSN 2076-3417.

[۱]

[۲]

[۳]

[۴]

[۵]

[۶]

[۷]

[۸]

[۹]

[۱۰]