خلاصه‌سازی خودکار

خلاصه‌سازی خودکار فرآیند کوتاه کردن مجموعه‌ای از داده‌ها به‌صورت محاسباتی، برای ایجاد یک زیر‌مجموعه (خلاصه) است که نشان دهنده مهم‌ترین یا مرتبط‌ترین اطلاعات در محتوای اصلی است. الگوریتم‌های هوش‌ مصنوعی معمولاً برای دستیابی به این هدف توسعه داده می‌شوند و برای انواع مختلف داده‌ها تخصصی می‌شوند.

اهمیت خلاصه‌سازی

در دنیای امروز، حجم اطلاعات موجود بسیار زیاد است و این امر دسترسی ما به داده‌ها را پیچیده می‌کند؛ بنابراین لازم است روشی پیدا کنیم که دسترسی به اطلاعات مورد نظر را ساده کند. بهترین روش خلاصه کردن و سپس طبقه‌بندی اطلاعات است.

کاربردهای خلاصه‌سازی

همه ما از خلاصه‌سازی به صورت‌های گوناگون استفاده می‌کنیم. برای نمونه می‌توان به موارد زیر اشاره کرد. اما کاربردهای دیگری هم وجود دارد:

موتورهای جستجو گر وب
ارسال اخبار به صورت فشرده و کوتاه
جمع‌بندی نتایج تحقیق و مقاله

سیستم خلاصه‌سازی چیست؟

سیستم خلاصه‌سازی شامل یک کامپیوتر است که متنی را به عنوان ورودی دریافت می‌کند و خلاصهٔ آن را به شکل خروجی تحویل می‌دهد.

انواع خلاصه و خلاصه‌سازی

خلاصه‌ها را می‌توان از جهات مختلف طبقه‌بندی کرد:

چگونگی پردازش
مخاطب و متن
اطلاعات ورودی
سبک
نوع کاربر

چگونگی پردازش خلاصه‌سازی

Extractive & Abstractive Summarization

در روش extractive جملاتی از خود متن انتخاب می‌شوند و در خلاصه قرار می‌گیرند. کاری که باید انجام دهیم
در روش abstractive مفهوم متن ورودی درک می‌شود و براساس آن خلاصه ارائه می‌شود. ممکن است جمله و عباراتی از متن در خلاصه قرار گیرند ولی قرار نیست تمام جملات خلاصه عیناً از درون متن انتخاب شده باشند.
اساس کار سیستم‌های خودکار خلاصه سازی، روش extractive است. گرچه پیشرفت‌های زیادی در زمینه درک متن توسط کامپیوتر حاصل شده، ولی هنوز به جایی نرسیده‌ایم که یک کامپیوتر بتواند متن را تجزیه و تحلیل کند.

انواع مخاطب و متن

Query & Generic Summarization

یک متن را با در نظر گرفتن فرض‌های گوناگون می‌توان به روش‌های متفاوت خلاصه کرد.
خلاصه Generic خلاصه‌ای است که در آن مخاطب را فردی عادی در نظر می‌گیریم و موضوع و سبک متن برای ما اهمیت ندارد.
خلاصهٔ Query خلاصه‌ای است که که در ابتدا اطلاعاتی از مخاطب و موضوع متن پیدا می‌کنیم و سپس به خلاصه‌سازی می‌پردازیم.
خلاصه به دست آمده از این دو روش متفاوت خواهند بود.

انواع اطلاعات ورودی

سند تکی (Single Doc) و سند چندتایی (Multiple Doc) از انواع اطلاعات ورودی هستند. چنانچه ورودی سیستم تنها یک متن باشد، به آن Single Document گویند در غیر این صورت به آن Multi Document گفته می‌شود. در Multi Document متن‌های ورودی باید با هم اشتراک معنایی داشته باشند.

سبک متن

هر کدام از سبک‌های روزنامه‌ای، علمی و سندی ساختاری متفاوت با دیگری دارند. در نتیجه در پردازش‌های انجام شده این تفاوت‌ها می‌بایست لحاظ شود.

نوع کاربر

کاربر می‌تواند انسان یا کامپیوتر باشد. وقتی انسان کاربر سیستم است، متن خلاصه شده باید قابل خواندن باشد. وقتی کامپیوتر کاربر است، خوانا بودن مهم نیست، اما تمامی اطلاعات مهم باید استخراج شوند.

تاریخچه خلاصه‌سازی خودکار

اولین فعالیت‌ها در این زمینه در سال ۱۹۵۰ توسط فردی به نام Luhn شروع شد. اساس کار او، کلمات با بیش‌ترین تکرار بود. او کلمات پر تکرار را مهم تر از سایر کلمات به حساب می‌آورد. جملاتی که تعداد بیشتری از این کلمات را داشتند، جملاتی بودند که باید در خلاصه می‌آمدند. روش وی خطای زیادی دارد و خود او، بعضی از این خطاها را اصلاح کرد. برای مثال برخی افعال و حروف اضافه در تمامی متن‌ها به دفعات دیده می‌شوند ولی اطلاعات خاصی را در رابطه با عنوان مقاله در اختیار نمی‌گذارند. گرچه کار وی خطا ی زیادی داشت، ولی به علت اینکه از پایه گذاران این روش بود، بسیار مورد ستایش قرار گرفت. عدهٔ زیادی کار او را ادامه دادند و روش‌های جدیدی ابداع شد که دقت بالاتری دارند.

از جمله افرادی که کار Luhn را ادامه داد، Edmundson بود. او مواردی مانند تعداد دفعات تکرار هر کلمه، تعداد کلماتی از جمله که در عنوان مقاله آمده، محل جمله در مقاله، تعداد کلماتی از جمله که نشان دهندهٔ اهمیت هستند (مانند در نتیجه، به‌طور خلاصه و...) را مورد توجه قرار داد. وی برای مشخص کردن ارزش هر جمله از ترکیب خطی موارد بالا استفاده کرد.

جستارهای وابسته

متن‌کاوی

منابع

^[۱]^[۲]^[۳]^[۴] Pourmasoumi. A, Kahani, M., Toosi, S.A., Estriri, A., and Qhaemi, H., “IJAZ: an operational system for single-document summarization of Persian news texts” vol. 0, no. 121, pp. 33–48, Jan. 2014.

>

↑ K. Sparck Jones, “Automatic summarizing: factors and directions,” in Advances in Automatic Text Summarization, pp. 1–12, MIT Press, 1998.
↑ W. tau Yih, J. Goodman, L. Vanderwende, and H. Suzuki, “Multi-document summarization by maximizing informative content-words,” in Proceedings of the International Joint Conference on Artificial Intelligence, pp. 1776–1782,
↑ S. Tucker, N. Kyprianou, and S. Whittaker, “Time-compressing speech: ASR transcripts are an effective way to support gist extraction,” in Proceedings of the International Workshop on Machine Learning for Multimodal Interaction, pp. 226–235, 2008.
↑ J. Ulrich, G. Murray, and G. Carenini, “A publicly available annotated corpus for supervised email summarization,” in Proceedings of the AAAI EMAIL Workshop, pp. 77–87, 2008.

[1] K. Sparck Jones, “Automatic summarizing: factors and directions,” in Advances in Automatic Text Summarization, pp. 1–12, MIT Press, 1998.

[2] W. tau Yih, J. Goodman, L. Vanderwende, and H. Suzuki, “Multi-document summarization by maximizing informative content-words,” in Proceedings of the International Joint Conference on Artificial Intelligence, pp. 1776–1782,

[3] S. Tucker, N. Kyprianou, and S. Whittaker, “Time-compressing speech: ASR transcripts are an effective way to support gist extraction,” in Proceedings of the International Workshop on Machine Learning for Multimodal Interaction, pp. 226–235, 2008.

[4] J. Ulrich, G. Murray, and G. Carenini, “A publicly available annotated corpus for supervised email summarization,” in Proceedings of the AAAI EMAIL Workshop, pp. 77–87, 2008.

[۱]

[۲]

[۳]

[۴]

ن ب و پردازش زبان‌های طبیعی
شرایط عمومی	پیکره متنی Speech corpus کلمات توقف مدل بسته کلمات Ai-complete ان-گرم (Bigram, Trigram)
متن‌کاوی	Text segmentation برچسب‌زنی اجزای کلام Text chunking Compound term processing Collocation extraction Stemming Lemmatisation Named-entity recognition Coreference resolution تجزیه و تحلیل احساسات Concept mining تجزیه‌کننده Word sense disambiguation Terminology extraction Truecasing
خلاصه‌سازی خودکار	Multi-document summarization Sentence extraction Text simplification
ترجمه ماشینی	ترجمه به کمک کامپیوتر Example-based Rule-based
شناسایی خودکار و ضبط داده‌ها	بازشناسی گفتار متن به گفتار نویسه‌خوان نوری Natural language generation
مدل عناوین	Pachinko allocation تخصیص پنهان دیریکله آنالیز پنهان مفهومی
بررسی به کمک کامپیوتر	Automated essay scoring Concordancer Grammar checker Predictive text غلط‌یاب Syntax guessing
زبان طبیعی رابط کاربر	دستیار شخصی هوشمند ربات سخنگو Interactive fiction Question answering