پرش به محتوا

ال‌مو

از ویکی‌پدیا، دانشنامهٔ آزاد

ELMO (توکارسازی از مدل زبانی) یک توکارسازی واژه برای نمایش یک رشته از واژه‌ها به صورت رشته‌ی متناظر بردارها است.[۱] این روش توسط پژوهشگران در مؤسسه هوش مصنوعی آلن[۲] و دانشگاه واشینگتن ایجاد شده، برای اولین بار در فوریه ۲۰۱۸ منتشر شده است. این روش یک LSTM دو جهته است که یک ورودی سطح نویسه را می‌گیرد، و توکارسازی سطح واژه را خروجی می‌دهد، که در یک پیکره متنی تقریبا ۳۰ میلیون جمله‌ای و ۱ میلیارد واژه‌ای آموزش دیده است.

معماری ELMo یک فهم بافتی از توکن‌ها را انجام می‌دهد. نمایش واژه بافتی عمیق برای بسیاری از فعالیت‌های پردازش زبان طبیعی مثل تفکیک هم‌منبع و تفکیک چندمعنایی مفید است.

ELMO از نظر تاریخی، به عنوان یک پیشگام در پیش‌آموزش مولد خودنظارتی که با یک تنظیم دقیق دنبال می‌شود، مهم است، که در آن یک مدل بزرگ آموزش می‌بیند تا یک پیکره بزرگ را بازتولید کند، سپس مدل بزرگ توسط وزن‌های فعالیت-بخصوص اضافی تقویت می‌شود، و توسط یک داده فعالیت فراناظر تنظیم دقیق می‌شود. این روش یک گام مفید در تکامل به سمت مدل‌سازی زبانی مبتنی بر ترنسفورمر است.

پانویس

[ویرایش]
  1. Peters ME, Neumann M, Iyyer M, Gardner M, Clark C, Lee K, Zettlemoyer L (2018). "Deep contextualized word representations". arXiv:1802.05365 [cs.CL].
  2. "AllenNLP - ELMo — Allen Institute for AI".

منابع

[ویرایش]

مشارکت‌کنندگان ویکی‌پدیا. «ELMo». در دانشنامهٔ ویکی‌پدیای انگلیسی، بازبینی‌شده در ۷ نوامبر ۲۰۲۴.