پرش به محتوا

یادگیری هستی شناسی(علم اطلاعات)

از ویکی‌پدیا، دانشنامهٔ آزاد

یادگیری هستی شناسی ( استخراج هستی شناسی، ایجاد هستی شناسی ، یا اکتساب هستی شناسی ) آفرینش خودکار یا نیمه خودکار هستی شناسی ها است، شامل استخراج عبارات دامنه های سخن مربوطه و روابط بین مفاهیمی که این عبارات از پیکرهٔ متنی زبان طبیعی نشان می دهند و رمزگذاری آنها با استفاده از زبان هستی شناسی به منظور بازیابی آسان. از آنجایی که ساختن هستی شناسی ها به صورت دستی بسیار طاقت فرسا و زمان بر است، انگیزه بالایی برای خودکارسازی این فرآیند وجود دارد.

عموما این فرآیند با استخراج عبارات و مفاهیم یا گروه های اسمی از متن خام با استفاده از پردازنده های زبانی مانند برچسب‌گذاری جزء کلام و شقه کردن به عبارت آغاز می‌شود . سپس از تکنیک‌های آماری [۱] یا نمادین [۲] [۳] برای استخراج نشانهٔ رابطه استفاده می‌شود که بر اساس روش های استخراج ابرنام برپایه الگو [۴] یا تعریف [۵] هستند.

شیوه

[ویرایش]

یادگیری هستی شناسی به منظور استخراج (نیمه-) خودکار تمام هستی شناسی ها از متن زبان طبیعیست . [۶] [۷] این فرآیند عموما به هشت وظیفهٔ زیر تقسیم می شود که لزوماً به همه ی مسائل هستی شناسی تعمیم داده نمی شوند.

استخراج دامنۀ سخن

[ویرایش]

طی مرحله استخراج واژه شناسی ،عبارات مختص دامنه استخراج می شوند که در گام ذیل (اکتشاف مفاهیم) استفاده می شوند.می توان عبارات مرتبط را تشخیص داد، به عنوان مثال، با محاسبه فراوانی وزنی تی اف-آی دی اف و یا با به کار بردن روش مقدار -C/ مقدار -NC. لیست عبارات حاصل، باید توسط یک متخصص دامنه پالایش شود. در مرحله ی بعد، به نحو مشابه دیدگاه مرجع در استخراج اطلاعات ، سامانۀ یادگیری هستی شناسی مترادف ها را تعیین می­کند، چرا که مترادف ها معنی مشابهی را در اشتراک دارند و متعاقباً به یک مفهوم مشترک مرتبط هستند.

نتیجتاً متداول ترین روش ها خوشه بندی و استفاده از تدابیر  شباهت آماری هستند.

اکتشاف مفاهیم

[ویرایش]

در مرحلۀ اکتشاف مفاهیم، عبارات به واحد های حامل مفهوم گروه بندی می­شوند که هر کدام به یک برداشت از هستی و متعاقبا مفهوم مرتبط هستند.عبارات دسته بندی شده همان عبارات مختص دامنه و مترادف هایشان هستند که در مرحلۀ استخراج دامنۀ سخن شناسایی شدند.

منابع

[ویرایش]
  1. A. Maedche and S.Staab. Learning ontologies for the semantic web.In Semantic Web Worskhop 2001.
  2. Roberto Navigli and Paola Velardi. Learning Domain Ontologies from Document Warehouses and Dedicated Web Sites, Computational Linguistics,30(2), MIT Press, 2004, pp.151-179.
  3. P.Velardi, S.Faralli, R.Navigli. OntoLearn Reloaded: A Graph-based Algorithm for Taxonomy Induction. Computational Linguistics, 39(3), MIT Press,2013, pp.665-707.
  4. Marti A. Hearst. Automatic acquisition of hyponyms from large text corpora. In Proceedings of the Fourteenth International Conference on Computational Linguistics, pages 539--545, Nantes, France, July 1992.
  5. R.Navigli, P. Velardi. Learning Word-Class Lattices for Definition and Hypernym Extraction.Proc.of the 48th Annual Meeting of the Association for Computational Linguistics (ACL 2010), Uppsala, Sweden, July 11–16, 2010, pp.1318-1327.
  6. Cimiano, Philipp; Völker, Johanna; Studer, Rudi (2006). "Ontologies on Demand? - A Description of the State-of-the-Art, Applications, Challenges and Trends for Ontology Learning from Text", Information, Wissenschaft und Praxis, 57, p. 315 - 320, http://people.aifb.kit.edu/pci/Publications/iwp06.pdf[پیوند مرده] (retrieved: 18.06.2012).
  7. Wong, W., Liu, W. & Bennamoun, M. (2012), "Ontology Learning from Text: A Look back and into the Future". ACM Computing Surveys, Volume 44, Issue 4, Pages 20:1-20:36.