متن پر سر و صدا
متن پر سر و صدا متنی است که بین شکل سطحی نمایش کدگذاری شده متن و متن مورد نظر، صحیح یا اصلی تفاوت دارد.[۱] نویز ممکن است به دلیل اشتباهات تایپی یا عبارات محاوره ای باشد که همیشه در زبان طبیعی وجود دارد و معمولاً کیفیت دادهها را به گونه ای کاهش میدهد که باعث میشود متن برای پردازش خودکار رایانهها از جمله پردازش زبان طبیعی کمتر در دسترس باشد. نویز همچنین ممکن است از طریق یک فرایند استخراج (به عنوان مثال، رونویسی یا OCR) از رسانههای غیر از متون الکترونیکی اصلی وارد شده باشد.[۲]
استفاده از زبان در گفتمانهای رایانهای، مانند چتها، ایمیلها و متنهای پیام کوتاه، بهطور قابلتوجهی با فرم استاندارد زبان متفاوت است. تمایل به طول پیام کوتاهتر که تایپ سریعتر را تسهیل میکند و نیاز به وضوح معنایی، ساختار این متن مورد استفاده در چنین گفتمانهایی را شکل میدهد.
تحلیلگران مختلف کسب و کار تخمین میزنند که دادههای بدون ساختار حدود ۸۰ درصد از کل دادههای سازمانی را تشکیل میدهند. بخش بزرگی از این دادهها شامل رونوشتهای چت، ایمیلها و سایر ارتباطات داخلی و خارجی غیررسمی و نیمه رسمی است. معمولاً چنین متنی برای مصرف انسان در نظر گرفته شدهاست، اما - با توجه به حجم دادهها - پردازش دستی و ارزیابی آن منابع عملاً دیگر امکانپذیر نیست. این امر نیاز به روشهای متن کاوی قوی را افزایش میدهد.
تکنیکهای کاهش نویز
[ویرایش]استفاده از غلطگیر املا و چککننده دستور زبان میتواند میزان نویز متن تایپشده را کاهش دهد. بسیاری از واژه پردازها این را در ابزار ویرایش گنجاندهاند. جستجوی آنلاین Google شامل یک موتور پیشنهاد عبارت جستجو برای راهنمایی کاربران در هنگام اشتباه در جستارهای خود است.
جستارهای وابسته
[ویرایش]- فساد دادهها
- واژگان
- بگذار صحبت کند
- درک زبان طبیعی
- کانال پر سر و صدا
منابع
[ویرایش]- ↑ Knoblock, C. , Lopresti, D. , Roy, S. , Subramaniam, L. V. (2007). "Special Issue on Noisy Text Analytics". International Journal on Document Analysis and Recognition. 10 (3–4): 127–128. doi:10.1007/s10032-007-0058-9.
{{cite journal}}
: نگهداری یادکرد:نامهای متعدد:فهرست نویسندگان (link) - ↑ Vinciarelli, A. (2005). "Noisy text categorization". IEEE Transactions on Pattern Analysis and Machine Intelligence. 27 (12): 1882–1895. doi:10.1109/TPAMI.2005.248. PMID 16355657.