دگرنمایی واژه
در پردازش زبان طبیعی (NLP)، دگرنماییِ واژه اصطلاحی است که برای بردن واژگان به فضایی برداری (نمایش آنها با بردارهای عددی) به منظور تجزیه و تحلیل متن استفاده میشود، ساختار آن معمولاً به شکل یک بردار با مقادیر واقعی است که معنای هر کلمه را به گونهای رمزگذاری میکند که کلماتی که در بردار به هم نزدیکتر هستند از نظر معنی نیز مشابه باشند. جاسازی کلمات را میتوان با ترکیبی از عملیات مدلسازی زبان و تکنیکهای یادگیری ویژگی به دست آورد که در آن نگاشتی از واژگان کلمات یا عبارات به بردارهای اعداد واقعی انجام میشود. این عمل از نظر مفهومی به معنای یک جاسازی ریاضی از فضایی با ابعاد بزرگ به فضای برداری پیوسته با ابعاد بسیار کمتر است.
روشهای تولید این نگاشت شامل استفاده از شبکههای عصبی، کاهش ابعاد در ماتریس هم رویداد کلمه، مدلهای احتمالی،[۱] روش مبتنی بر دانش قابل توضیح[۲] و همچنین بازنمایی صریح بر حسب زمینه که کلمات در آن ظاهر میشوند.
زمانی که از جاسازی (تعبیه) کلمات و عبارات، به عنوان ورودی اولیه استفاده شود، عملکرد کارهای پردازش زبان طبیعی مانند تجزیه نحوی و تجزیه و تحلیل احساسات را افزایش میدهد.
توسعه و تاریخچه رویکرد
[ویرایش]روش جاسازی کلمات در حوزه پژوهشی معناشناسی توزیعی در زبانشناسی، مورد بررسی قرار گرفتهاست و هدف آن طبقهبندی شباهتهای معنایی بین اقلام زبان بر اساس ویژگیهای توزیعی بین آنها در نمونههای بزرگی از دادههای زبان است. این ایده که «یک کلمه با گروهی که آن را نگه میدارد مشخص میشود» اولین بار توسط جان روپرت فرث مطرح شد.
مفهوم فضای معنایی شامل موارد لغوی (کلمات یا اصطلاحات چند کلمهای) است که با بردارها یا عملیات جاسازی نشان داده میشوند و مبتنی بر چالشهای محاسباتی بدست آوردن ویژگیهای توزیعی و استفاده از آنها برای کاربرد عملی و همچنین برای اندازهگیری شباهت بین کلمات، عبارات یا کل اسناد است. اولین نسل از مدلهای فضای معنایی، مدل فضای برداری برای بازیابی اطلاعات است.[۳][۴][۵] چنین مدلهایی که فضای برداری کلمات و دادههای توزیعی آنها در سادهترین شکل پیادهسازی شدهاند، منجر به یک فضای برداری بسیار پراکنده با ابعاد بالا میشوند (مبحث نفرین ابعاد). کاهش ابعاد با استفاده از روشهای جبر خطی مانند تجزیه مقادیر منفرد، در اواخر دهه ۸۰ منجر به معرفی آنالیز پنهان مفهومی و رویکرد نمایهسازی تصادفی برای جمعآوری زمینههای همزمانی کلمات شد.[۶][۷][۸][۹][۱۰] در سال ۲۰۰۰ بنجیو و همکارانش در مجموعه ای از مقالات «مدلهای زبانی احتمالی عصبی» برای کاهش بالای ابعاد کلمات همراه با «یادگیری بازنمایی توزیع شده برای کلمات» را ارائه کردند.[۱۱] برای جاسازی کلمات دو سبک مختلف وجود دارد، یکی که در آن کلمات به عنوان بردار همزمان در نظر گرفته میشوند و دیگری که در آن کلمات به عنوان بردار زمینههای زبانی بیان میشوند. این سبکها توسط لاولی و همکارانش در سال ۲۰۰۴ مورد مطالعه قرار گرفتهاند. Roweis و Saul در مجله Science نحوه استفاده از " جاسازی خطی محلی " (LLE) برای نمایش ساختارهای داده با ابعاد بالا را منتشر کردند.[۱۲] پس از سال ۲۰۰۵ اکثر تکنیکهای جدید جاسازی کلمه به جای مدلهای احتمالی و جبری بیشتر بر اساس معماری شبکههای عصبی کار میکنند.[۱۳]
پس از پیشرفتهایی که در سال ۲۰۱۰ در زمینه کاری نظری در مورد کیفیت بردارها انجام شد و سرعت آموزش مدل و پیشرفتهای سختافزاری امکان کاوش در فضای پارامتر وسیعتری را فراهم کرد این رویکرد توسط بسیاری از گروههای تحقیقاتی مورد استفاده قرار گرفت. در سال ۲۰۱۳، تیمی در گوگل به رهبری توماس میکولوف روش word2vec را ایجاد کردند که ابزاری است که جاسازی کلمه در مدلهای فضای برداری را سریعتر از رویکردهای قبلی امکانپذیر میکند. رویکرد word2vec بهطور گستردهای استفاده شدهاست و باعث افزایش علاقه به استفاده از تکنیک جاسازی کلمات و در نهایت هموار کردن راه برای کاربرد عملی شدهاست.[۱۴]
محدودیتها
[ویرایش]یکی از محدودیتهای اصلی جاسازی کلمات (بهطور کلی مدلهای فضای برداری) این است که کلمات با معانی متعدد در یک نمایش واحد (یک بردار در فضای معنایی) ترکیب میشوند. به عبارت دیگر، چند معنایی و هم نامی به درستی به کار گرفته نمیشود. به عنوان مثال، در جمله "باشگاهی (کلاب) که دیروز امتحان کردم عالی بود!"، مشخص نیست که اصطلاح باشگاه (کلاب) به معنای کلمه ساندویچ کلاب، باشگاه بیسبال ، کلاب هوس یا باشگاه گلف است یا ممکن است در بر گیرنده هر معنای دیگری مربوط به باشگاه باشد. از این رو تطبیق معانی متعدد هر کلمه در بردارهای مختلف (جاسازیهای چند حسی (چند معنایی)) در پردازش زبان طبیعی برای تقسیم کردن جاسازیهای تک معنایی به چند معنایی ضروری است.
برای بازنمایی معنایی کلمه، اکثر رویکردهایی که تعبیههای چند معنایی تولید میکنند را میتوان به دو دسته اصلی بدون نظارت و مبتنی بر دانش تقسیم کرد.[۱۵] یک روش مبتنی بر word2vec skip-gram یعنی Multi-Sense Skip-Gram (MSSG)[۱۶] که تمایز معنی کلمه و جاسازی را بهطور همزمان انجام میدهد، زمان آموزش را نیز بهبود بخشیده و تعداد معانی خاصی را برای هر کلمه در نظر میگیرد. در این روش تعداد معانی در نظر گرفته شده میتواند بسته به هر کلمه متفاوت باشد. همچنین این روش با ترکیب دانش قبلی بدست آمده از پایگاه دادههای لغوی (به عنوان مثال، وردنت، ConceptNet و بابلنت) و جاسازی کلمه و ابهام زدایی معنی کلمه و روش مناسبترین حاشیه نویسی حسی (MSSA)[۱۷] و با در نظر گرفتن بافت کلمه در یک پنجره از پیش تعریف شده، مفاهیم کلمه را از طریق یک رویکرد بدون نظارت و مبتنی بر دانش برچسب گذاری میکند. هنگامی که کلمات ابهام زدایی میشوند، میتوان آنها را در یک تکنیک استاندارد جاسازی کلمه استفاده کرد، در نتیجه جاسازیهای چند معنایی تولید میشوند. معماری MSSA این امکان را میدهد تا فرایند ابهام زدایی و حاشیه نویسی بهطور مکرر و به شیوه ای خود-بهبود انجام شود.
استفاده از تعبیههای چند معنایی برای بهبود عملکرد در چندین کار NLP، مانند برچسبگذاری جزء کلام، شناسایی رابطه معنایی، شباهت معنایی، شناسایی موجودیت نامگذاری شده و تحلیل احساسات کاربرد دارد.[۱۸][۱۹]
اخیراً تعبیههایی با مفهوم زمینهای مانند ELMo و برت توسعه یافتهاند. این تعبیهها از بافت و زمینه کلمه برای ابهامزدایی چندمعنایی استفاده میکنند. این دسته الگوریتمها این کار را با استفاده از معماری شبکه عصبی LSTM و Transformer انجام میدهند.
برای توالیهای بیولوژیکی: بردارهای بیولوژیکی (BioVectors)
[ویرایش]روش جاسازی کلمه برای n- gram در توالیهای بیولوژیکی (مثلاً DNA, RNA و پروتئینها) برای کاربردهای بیوانفورماتیک توسط عسگری و مفرد پیشنهاد شدهاست.[۲۰] نام گذاری بردارهای بیولوژیکی(BioVec) برای اشاره به توالیهای بیولوژیکی است. بهطور کلی از واژگان برداریهای پروتئینی (ProtVec) برای پروتئینها (توالیهای آمینو اسید) و برداریهای ژنی (GeneVec) برای توالیهای ژنی، بهطور گستردهای در یادگیری عمیق استفاده شود. نتایج ارائه شده توسط عسگری و مفرد[۲۰] نشان میدهد که BioVectosها میتواند توالیهای بیولوژیکی را از نظر تفسیرهای بیوشیمیایی و بیوفیزیکی شناسایی کند.
بردارهای فکر
[ویرایش]بردارهای فکر توسعه روش جاسازی کلمات برای کل جملات یا حتی اسناد هستند. برخی از محققان امیدوارند که این بردارها بتوانند کیفیت ترجمه ماشینی را بهبود بخشند.[۲۱]
نرمافزار
[ویرایش]یک نرمافزار جهت آموزش و استفاده از روش جاسازی کلمات، ابزار Word2vec ساخته توماس میکولوف است، برنامه دیگر ساخت دانشگاه استنفورد با نام GN-GloVe است.[۲۲] از نرمافزارهای دیگر میتوان به جاساز فلیر،[۱۸] AllenNLP's ELMo,[۲۳] برت، fastText , Gensim ,[۲۴] ایندرا[۲۵] و دیپلرنینگ۴جی اشاره کرد. همچنین تجزیه و تحلیل مؤلفه اصلی (PCA) و روش T-Distributed Stochastic Neighbour Embedding (t-SNE) هر دو برای کاهش ابعاد فضاهای برداری کلمه و جاسازی کلمات و خوشه بندی استفاده میشوند.[۲۶]
نمونههایی از کاربرد
[ویرایش]به عنوان مثال، از ابزار fastText برای جاسازی کلمات برای پیکره متنی در موتور Sketch که به صورت آنلاین در دسترس هستند، استفاده میشود.[۲۷]
منابع
[ویرایش]- ↑ Globerson, Amir (2007). "Euclidean Embedding of Co-occurrence Data" (PDF). Journal of Machine Learning Research.
- ↑ Qureshi, M. Atif; Greene, Derek (2018-06-04). "EVE: explainable vector based embedding technique using Wikipedia". Journal of Intelligent Information Systems (به انگلیسی). 53: 137–165. arXiv:1702.06891. doi:10.1007/s10844-018-0511-x. ISSN 0925-9902.
- ↑ Salton, Gerard (1962). "Some experiments in the generation of word and document associations". Proceeding AFIPS '62 (Fall) Proceedings of the December 4–6, 1962, Fall Joint Computer Conference. AFIPS '62 (Fall): 234–250. doi:10.1145/1461518.1461544. ISBN 978-1-4503-7879-6. Retrieved 18 October 2020.
- ↑ Salton, Gerard; Wong, A; Yang, C S (1975). "A Vector Space Model for Automatic Indexing". Communications of the Association for Computing Machinery (CACM). 18 (11): 613–620. doi:10.1145/361219.361220.
{{cite journal}}
:|hdl-access=
requires|hdl=
(help) - ↑ Dubin, David (2004). "The most influential paper Gerard Salton never wrote". Archived from the original on 18 اكتبر 2020. Retrieved 18 October 2020.
{{cite web}}
: Check date values in:|archive-date=
(help) - ↑ Sahlgren, Magnus. "A brief history of word embeddings".
- ↑ Kanerva, Pentti, Kristoferson, Jan and Holst, Anders (2000): Random Indexing of Text Samples for Latent Semantic Analysis, Proceedings of the 22nd Annual Conference of the Cognitive Science Society, p. 1036. Mahwah, New Jersey: Erlbaum, 2000.
- ↑ Karlgren, Jussi; Sahlgren, Magnus (2001). Uesaka, Yoshinori; Kanerva, Pentti; Asoh, Hideki (eds.). "From words to understanding". Foundations of Real-World Intelligence. CSLI Publications: 294–308.
- ↑ Sahlgren, Magnus (2005) An Introduction to Random Indexing, Proceedings of the Methods and Applications of Semantic Indexing Workshop at the 7th International Conference on Terminology and Knowledge Engineering, TKE 2005, August 16, Copenhagen, Denmark
- ↑ Sahlgren, Magnus, Holst, Anders and Pentti Kanerva (2008) Permutations as a Means to Encode Order in Word Space, In Proceedings of the 30th Annual Conference of the Cognitive Science Society: 1300–1305.
- ↑ Bengio, Yoshua; Ducharme, Réjean; Vincent, Pascal; Jauvin, Christian (2003). "A Neural Probabilistic Language Model" (PDF). Journal of Machine Learning Research. 3: 1137–1155.
- ↑ Roweis, Sam T.; Saul, Lawrence K. (2000). "Nonlinear Dimensionality Reduction by Locally Linear Embedding". Science. 290 (5500): 2323–6. Bibcode:2000Sci...290.2323R. CiteSeerX 10.1.1.111.3313. doi:10.1126/science.290.5500.2323. PMID 11125150.
- ↑ Mnih, Andriy; Hinton, Geoffrey (2009). "A Scalable Hierarchical Distributed Language Model". Advances in Neural Information Processing Systems 21 (NIPS 2008). Curran Associates, Inc. 21: 1081–1088.
- ↑ "word2vec". Google Code Archive. Retrieved 23 July 2021.
- ↑ Camacho-Collados. "From Word to Sense Embeddings: A Survey on Vector Representations of Meaning". arXiv:1805.04032.
- ↑ Neelakantan, Arvind; Shankar, Jeevan; Passos, Alexandre; McCallum, Andrew (2014). "Efficient Non-parametric Estimation of Multiple Embeddings per Word in Vector Space". Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP). Stroudsburg, PA, USA: Association for Computational Linguistics: 1059–1069. arXiv:1504.06654. doi:10.3115/v1/d14-1113.
- ↑ Ruas, Terry; Grosky, William; Aizawa, Akiko (2019-12-01). "Multi-sense embeddings through a word sense disambiguation process". Expert Systems with Applications. 136: 288–303. arXiv:2101.08700. doi:10.1016/j.eswa.2019.06.026. ISSN 0957-4174.
{{cite journal}}
:|hdl-access=
requires|hdl=
(help) - ↑ ۱۸٫۰ ۱۸٫۱ Akbik, Alan; Blythe, Duncan; Vollgraf, Roland (2018). "Contextual String Embeddings for Sequence Labeling". Proceedings of the 27th International Conference on Computational Linguistics. Santa Fe, New Mexico, USA: Association for Computational Linguistics: 1638–1649.
- ↑ Li, Jiwei; Jurafsky, Dan (2015). "Do Multi-Sense Embeddings Improve Natural Language Understanding?". Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing. Stroudsburg, PA, USA: Association for Computational Linguistics: 1722–1732. arXiv:1506.01070. doi:10.18653/v1/d15-1200.
- ↑ ۲۰٫۰ ۲۰٫۱ Asgari, Ehsaneddin; Mofrad, Mohammad R.K. (2015). "Continuous Distributed Representation of Biological Sequences for Deep Proteomics and Genomics". PLOS ONE. 10 (11): e0141287. arXiv:1503.05140. Bibcode:2015PLoSO..1041287A. doi:10.1371/journal.pone.0141287. PMC 4640716. PMID 26555596.
- ↑ Kiros. "skip-thought vectors". arXiv:1506.06726.
- ↑ "GloVe".
- ↑ "Elmo".
- ↑ "Gensim".
- ↑ "Indra". GitHub. 2018-10-25.
- ↑ Ghassemi, Mohammad; Mark, Roger; Nemati, Shamim (2015). "A Visualization of Evolving Clinical Sentiment Using Vector Representations of Clinical Notes" (PDF). Computing in Cardiology.
- ↑ "Embedding Viewer". Embedding Viewer. Lexical Computing. Archived from the original on 8 February 2018. Retrieved 7 Feb 2018.