شبکههای عصبی بازگشتی دو طرفه
شبکههای عصبی بازگشتی دوطرفه (به انگلیسی: Bidirectional Recurrent Neural Networks) انواعی از شبکههای عصبی بازگشتی (Recurrent Neural Networks) هستند که دو لایهٔ پنهان در دو جهت مختلف در یک شبکهٔ عصبی را به یک خروجی یکسان وصل میکند. این رویکرد یکی از رویکردهای مدلهای یادگیری عمیق سازنده (Generative Deep Learning) است که به این ترتیب خروجی میتواند اطلاعات را هم از گذشته و هم از آینده به صورت همزمان دریافت کند. این نوع از شبکههای عصبی در سال ۱۹۹۷ میلادی توسط برند شوستر (Bernd Schuster) و دینش پالیوال (Dinesh Paliwal) ابداع شدهاست. این مدل برای افزایش حجم اطلاعات ورودی به شبکههای عصبی ابداع شدند. به عنوان نمونه مدلهای پیشین نظیر مدل پرسپترون چند لایه (Multilayer perceptron) و شبکه عصبی با تأخیر زمانی (Time delay neural network) محدودیتهایی روی انعطافپذیری دیتای ورودی دارند چراکه باید دادهٔ ورودی آنها به صورت ثابت و فیکس باشد. از طرفی شبکههای عصبی بازگشتی استاندارد (Recurrent Neural Networks) نیز محدودیتهایی دارند چراکه نمیتوانند داده را از آینده دریافت نمایند. حال، راهکار تمامی این مشکلات استفاده از شبکههای عصبی بازگشتی دوطرفه است که هیچیک از محدودیتهای فوق را ندارند. به عبارتی هم لازم نیست دادهٔ ورودی آنها فیکس باشد و هم میتوانند از هر استیتی گذشته و آینده را به صورت همزمان ببینند و اطلاعات بیشتری برای یادگیری مدل استفاده نمایند.[۱]
شبکههای عصبی بازگشتپذیر دوطرفه هنگامی که نیاز به اطلاعات متن دادهٔ ورودی داریم هم میتواند کاربردی باشد. به عنوان نمونه در تشخیص دستنوشتهها، برای تشخیص یک حرف باید هم به حروف بعد از آن در جمله دقت نماییم و هم بتوانیم حرف قبل از آن را به صورت همزمان ببینیم.
معماری شبکه
[ویرایش]ایدهٔ اولیهای که از آن در شبکههای عصبی بازگشتپذیر دوطرفه استفاده میشود این است که نورونهای یک شبکه عصبی بازگشتپذیر یکطرفهٔ استاندارد را به دو طرف تقسیم مینماییم. به عبارتی یک جهت در زمان در جهت مثبت داریم و یک جهت در زمان در جهت منفی که به اولی حالتهای پسین (Forward States) و به دومی حالتهای پیشین (Backward States) میگوییم. تنها نکتهای که باید دقت کنیم این است که خروجی این دو استیت به ورودی در استیتهای جهت مخالف متصل نیستند. ساختار کلی شبکههای بازگشتپذیر و شبکههای بازگشتپذیر دوطرفه در دیاگرام زیر آورده شدهاست. با استفاده از دو جهت در زمان بر خلاف شبکههای بازگشتپذیر استاندارد در شبکههای بازگشتپذیر دوطرفه اطلاعات میتواند به صورت همزمان هم از آینده و هم از گذشته در استیت فعلی دریافت شود.
شبکههای عصبی بازگشتپذیر دوطرفه همانند شبکههای عصبی بازگشتپذیر استاندارد میتوانند آموزش دادهشوند. این اتفاق به سبب اینکه دو جهت در زمان هیچ تعاملی با هم ندارند محقق میشود و به صورت مستقل میتوانند آموزش دادهشوند. تنها تفاوت در زمان پسانتشار (Backpropagation) در زمان باید پردازشهای اضافهای هم انجام دهیم. به دلیل اینکه بهروزرسانی خروجیها و ورودیها به صورت همزمان امکان انجام ندارد. به صورت کلی آموزش باید به صورت زیر انجام شود: برای حرکت پیشانتشار (Forward pass) استیتهای پسین و پیشین در ابتدا طی میشوند و سپس نورونهای خروجی طی میشوند. همچنین در حرکت پسانتشار (Backward pass) ابتدا نورونهای خروجی طی میشوند و سپس استیتهای پسین و پیشین طی میشوند. پس از حرکت پیشانتشار و حرکت پسانتشار هم وزنها به روزرسانی میشوند.
کاربردها
[ویرایش]برخی کاربردهای شبکههای عصبی بازگشتپذیر دوطرفه به صورت زیر هستند:
- تشخیص صوت - تبدیل صوت به متن (Speech Recognition) [۲][۳]
- ترجمه(Translation) [۴]
- تشخیص دستنوشته(Handwritten Recognition) [۵]
- پیشبینی ساختار پروتئین (Protein Structure Prediction) [۶][۷]
- برچسبگذاری اجزای کلام (POS Tagging)
- تجزیه وابستگی (Dependency Parsing) [۸]
- استخراج موجودیت (Entity Extraction) [۹]
منابع
[ویرایش]- ↑ Salehinejad, Hojjat; Sankar, Sharan; Barfett, Joseph; Colak, Errol; Valaee, Shahrokh (2017). "Recent Advances in Recurrent Neural Networks". arXiv:1801.01078. Bibcode:2018arXiv180101078S.
{{cite journal}}
: Cite journal requires|journal=
(help) - ↑ Graves, Alex, Santiago Fernández, and Jürgen Schmidhuber. "Bidirectional LSTM networks for improved phoneme classification and recognition." Artificial Neural Networks: Formal Models and Their Applications–ICANN 2005. Springer Berlin Heidelberg, 2005. 799-804.
- ↑ Graves, Alan, Navdeep Jaitly, and Abdel-rahman Mohamed. "Hybrid speech recognition with deep bidirectional LSTM." Automatic Speech Recognition and Understanding (ASRU), 2013 IEEE Workshop on. IEEE, 2013.
- ↑ Sundermeyer, Martin, et al. "Translation modeling with bidirectional recurrent neural networks." Proceedings of the Conference on Empirical Methods on Natural Language Processing, October. 2014.
- ↑ Liwicki, Marcus, et al. "A novel approach to on-line handwriting recognition based on bidirectional long short-term memory networks." Proc. 9th Int. Conf. on Document Analysis and Recognition. Vol. 1. 2007.
- ↑ Baldi, Pierre, et al. "Exploiting the past and the future in protein secondary structure prediction." Bioinformatics 15.11 (1999): 937-946.
- ↑ Pollastri, Gianluca, and Aoife Mclysaght. "Porter: a new, accurate server for protein secondary structure prediction." Bioinformatics 21.8 (2005): 1719-1720.
- ↑ Kiperwasser, Eliyahu; Goldberg, Yoav (2016). "Simple and Accurate Dependency Parsing Using Bidirectional LSTM Feature Representations". Transactions of the Association for Computational Linguistics (به انگلیسی). 4: 313–327. arXiv:1603.04351. Bibcode:2016arXiv160304351K. doi:10.1162/tacl_a_00101. S2CID 1642392.
- ↑ Dernoncourt, Franck; Lee, Ji Young; Szolovits, Peter (2017-05-15). "NeuroNER: an easy-to-use program for named-entity recognition based on neural networks". arXiv:1705.05487 [cs.CL].