شناساگر موجودیت نامهای استنفورد
شناساگر موجودیت نامهای استنفورد این ابزار، توالی نامها (نامهای خاص) از جمله اسامی سازمانها، مکانهای جغرافیایی، نام و نام خانوادگی افراد را در یک متن شناسایی و استخراج میکند، همچنین میتوان این نرمافزار را جهت استخراج نام ژنها و پروتئینها، زمان و تاریخ نیز گسترش داد. این نرمافزار که جهت تحلیل متون و داده کاوی مورد استفاده قرار میگیرد، تحت مجوز جنرال پابلیک لایسنس بوده و دانلود و استفاده از آن برای همگان به صورت آزاد امکانپذیر است، نسخههای فعلی (Stanford NER) نیازمند جاوا ۱/۸ یا بالاتر هستند.
ابزار شناساگر موجودیت نامها، طیف گستردهای از تکنیکهای مبتنی بر یادگیری ماشین و مدلهای آماری زبان را به همراه واژهنامههایی، جهت تحلیل متون و استخراج نامها به کار میگیرد. در اصل، ما به آن یک بلوک متن طبقهبندی شده میگوییم، و این نرمافزار آن را از طریق متن پردازش میکند، به ساختار متن ما نگاه میکند و مطابق آن با مدلهای آماری برای شناسایی افراد، سازمانها و مکانها اقدام میکند.[۱]
روش راه اندازی
[ویرایش]جهت استفاده ابتدا، (Stanford NER) را از وبگاه مخصوص استنفورد دانلود کنید و آن را به دستگاه خود بیفزایید. هیچ گونه روش نصب پیچیدهای برای آن وجود ندارد، شما باید قادر به اجرای (Stanford NER) از پوشه ای که آنرا ذخیره کردهاید، باشید. بهطور معمول، (Stanford NER) از خط فرمان اجرا میشود.
(Stanford NER) نیز به عنوان «CRF Classifier» شناخته میشود. این نرمافزار یک پیادهسازی کلی از مدلهای زنجیره خطی شرطی (CRF) را فراهم میکند، به عبارت دیگر شما میتوانید از این کد برای ساخت مدلهای توالی برای (NER) یا هر کار دیگری استفاده کنید. با وارد کردن فایلهای متنی به این نرمافزار و انتخاب یکی از سه گزینه موجود در بخش «CRF»، نرمافزار شروع به تحلیل و پردازش دادهها میکند و درنهایت اسامی و نامها را در متن با برجسته سازی رنگی نشان میدهد. هنگامی که برنامه پردازش را به پایان رساند، میتوانیم از دادههای پردازش شده جهت مصور سازی یا تحلیلهای بعدی خروجی بگیریم.[۲]
منابع
[ویرایش]- ↑ «The Stanford Natural Language Processing Group». nlp.stanford.edu. دریافتشده در ۲۰۱۹-۰۱-۲۸.
- ↑ «The Stanford Natural Language Processing Group». nlp.stanford.edu. دریافتشده در ۲۰۱۹-۰۱-۲۸.