خلاصهسازی خودکار
خلاصهسازی خودکار فرآیند کوتاه کردن مجموعهای از دادهها بهصورت محاسباتی، برای ایجاد یک زیرمجموعه (خلاصه) است که نشان دهنده مهمترین یا مرتبطترین اطلاعات در محتوای اصلی است. الگوریتمهای هوش مصنوعی معمولاً برای دستیابی به این هدف توسعه داده میشوند و برای انواع مختلف دادهها تخصصی میشوند.
اهمیت خلاصهسازی
[ویرایش]در دنیای امروز، حجم اطلاعات موجود بسیار زیاد است و این امر دسترسی ما به دادهها را پیچیده میکند؛ بنابراین لازم است روشی پیدا کنیم که دسترسی به اطلاعات مورد نظر را ساده کند. بهترین روش خلاصه کردن و سپس طبقهبندی اطلاعات است.
کاربردهای خلاصهسازی
[ویرایش]همه ما از خلاصهسازی به صورتهای گوناگون استفاده میکنیم. برای نمونه میتوان به موارد زیر اشاره کرد. اما کاربردهای دیگری هم وجود دارد:
- موتورهای جستجو گر وب
- ارسال اخبار به صورت فشرده و کوتاه
- جمعبندی نتایج تحقیق و مقاله
سیستم خلاصهسازی چیست؟
[ویرایش]سیستم خلاصهسازی شامل یک کامپیوتر است که متنی را به عنوان ورودی دریافت میکند و خلاصهٔ آن را به شکل خروجی تحویل میدهد.
انواع خلاصه و خلاصهسازی
[ویرایش]خلاصهها را میتوان از جهات مختلف طبقهبندی کرد:
- چگونگی پردازش
- مخاطب و متن
- اطلاعات ورودی
- سبک
- نوع کاربر
چگونگی پردازش خلاصهسازی
[ویرایش]Extractive & Abstractive Summarization
- در روش extractive جملاتی از خود متن انتخاب میشوند و در خلاصه قرار میگیرند. کاری که باید انجام دهیم
- در روش abstractive مفهوم متن ورودی درک میشود و براساس آن خلاصه ارائه میشود. ممکن است جمله و عباراتی از متن در خلاصه قرار گیرند ولی قرار نیست تمام جملات خلاصه عیناً از درون متن انتخاب شده باشند.
- اساس کار سیستمهای خودکار خلاصه سازی، روش extractive است. گرچه پیشرفتهای زیادی در زمینه درک متن توسط کامپیوتر حاصل شده، ولی هنوز به جایی نرسیدهایم که یک کامپیوتر بتواند متن را تجزیه و تحلیل کند.
انواع مخاطب و متن
[ویرایش]Query & Generic Summarization
- یک متن را با در نظر گرفتن فرضهای گوناگون میتوان به روشهای متفاوت خلاصه کرد.
- خلاصه Generic خلاصهای است که در آن مخاطب را فردی عادی در نظر میگیریم و موضوع و سبک متن برای ما اهمیت ندارد.
- خلاصهٔ Query خلاصهای است که که در ابتدا اطلاعاتی از مخاطب و موضوع متن پیدا میکنیم و سپس به خلاصهسازی میپردازیم.
- خلاصه به دست آمده از این دو روش متفاوت خواهند بود.
انواع اطلاعات ورودی
[ویرایش]سند تکی (Single Doc) و سند چندتایی (Multiple Doc) از انواع اطلاعات ورودی هستند. چنانچه ورودی سیستم تنها یک متن باشد، به آن Single Document گویند در غیر این صورت به آن Multi Document گفته میشود. در Multi Document متنهای ورودی باید با هم اشتراک معنایی داشته باشند.
سبک متن
[ویرایش]هر کدام از سبکهای روزنامهای، علمی و سندی ساختاری متفاوت با دیگری دارند. در نتیجه در پردازشهای انجام شده این تفاوتها میبایست لحاظ شود.
نوع کاربر
[ویرایش]کاربر میتواند انسان یا کامپیوتر باشد. وقتی انسان کاربر سیستم است، متن خلاصه شده باید قابل خواندن باشد. وقتی کامپیوتر کاربر است، خوانا بودن مهم نیست، اما تمامی اطلاعات مهم باید استخراج شوند.
تاریخچه خلاصهسازی خودکار
[ویرایش]اولین فعالیتها در این زمینه در سال ۱۹۵۰ توسط فردی به نام Luhn شروع شد. اساس کار او، کلمات با بیشترین تکرار بود. او کلمات پر تکرار را مهم تر از سایر کلمات به حساب میآورد. جملاتی که تعداد بیشتری از این کلمات را داشتند، جملاتی بودند که باید در خلاصه میآمدند. روش وی خطای زیادی دارد و خود او، بعضی از این خطاها را اصلاح کرد. برای مثال برخی افعال و حروف اضافه در تمامی متنها به دفعات دیده میشوند ولی اطلاعات خاصی را در رابطه با عنوان مقاله در اختیار نمیگذارند. گرچه کار وی خطا ی زیادی داشت، ولی به علت اینکه از پایه گذاران این روش بود، بسیار مورد ستایش قرار گرفت. عدهٔ زیادی کار او را ادامه دادند و روشهای جدیدی ابداع شد که دقت بالاتری دارند.
از جمله افرادی که کار Luhn را ادامه داد، Edmundson بود. او مواردی مانند تعداد دفعات تکرار هر کلمه، تعداد کلماتی از جمله که در عنوان مقاله آمده، محل جمله در مقاله، تعداد کلماتی از جمله که نشان دهندهٔ اهمیت هستند (مانند در نتیجه، بهطور خلاصه و...) را مورد توجه قرار داد. وی برای مشخص کردن ارزش هر جمله از ترکیب خطی موارد بالا استفاده کرد.
جستارهای وابسته
[ویرایش]منابع
[ویرایش][۱][۲][۳][۴] Pourmasoumi. A, Kahani, M., Toosi, S.A., Estriri, A., and Qhaemi, H., “IJAZ: an operational system for single-document summarization of Persian news texts” vol. 0, no. 121, pp. 33–48, Jan. 2014.
>
- ↑ K. Sparck Jones, “Automatic summarizing: factors and directions,” in Advances in Automatic Text Summarization, pp. 1–12, MIT Press, 1998.
- ↑ W. tau Yih, J. Goodman, L. Vanderwende, and H. Suzuki, “Multi-document summarization by maximizing informative content-words,” in Proceedings of the International Joint Conference on Artificial Intelligence, pp. 1776–1782,
- ↑ S. Tucker, N. Kyprianou, and S. Whittaker, “Time-compressing speech: ASR transcripts are an effective way to support gist extraction,” in Proceedings of the International Workshop on Machine Learning for Multimodal Interaction, pp. 226–235, 2008.
- ↑ J. Ulrich, G. Murray, and G. Carenini, “A publicly available annotated corpus for supervised email summarization,” in Proceedings of the AAAI EMAIL Workshop, pp. 77–87, 2008.