پیشنویس:ویژگی (یادگیری ماشین)
در یادگیری ماشین و تشخیص الگو ، ویژگی، یک خاصیت یا ویژگی قابل اندازه گیری فردی یک پدیده است. انتخاب ویژگیهای اطلاعاتی، تمایز دهنده و مستقل، عنصر حیاتی الگوریتمهای مؤثر در بازشناخت الگو، طبقهبندی و رگرسیون الگو است. ویژگیها به طور معمول عددی هستند، اما ویژگیهای ساختاری مانند رشتهها و گراف ها در تشخیص الگوی نحوی استفاده میشوند. مفهوم "ویژگی" با متغیر توضیح دهنده که در تکنیک های آماری مانند رگرسیون خطی استفاده می شود، مرتبط است.
طبقه بندی
[ویرایش]یک ویژگی عددی میتواند به راختی با یک یردار ویژگی شرح داده شود. یک روش برای طبقهبندی باینری ، استفاده از یک تابع پیشبینی خطی (مربوط به پرسپترون ) با بردار ویژگی به عنوان ورودی است. این روش شامل محاسبه حاصل ضرب اسکالر بین بردار ویژگی و بردار وزن است، که مشخص می کند کدام مشاهدات که نتیجه آن بیشتر از یک آستانه است، مؤهل به دسته بندی هستند.
الگوریتمهای طبقهبندی از یک بردار ویژگی شامل طبقهبندی نزدیکترین همسایه ، شبکههای عصبی و تکنیکهای آماری مانند رویکردهای بیزی است.
مثال ها
[ویرایش]در تشخیص کاراکتر ، ویژگیها می توانند شامل هیستوگرام شمارش تعداد پیکسلهای سیاه در امتداد جهتهای افقی و عمودی، تعداد سوراخهای داخلی، تشخیص خط و بسیاری موارد دیگر باشد.
در تشخیص گفتار ، ویژگیهایی برای تشخیص واج میتواند شامل نسبت نویز، طول صداها، قدرت نسبی، تطایق فیلتر و بسیاری موارد دیگر باشد.
در الگوریتمهای تشخیص هرزنامه ، ویژگیها ممکن است شامل وجود یا عدم وجود برخی سربرگ های ایمیل، ساختار ایمیل، زبان، فراوانی عبارات خاص، صحت دستوری متن باشد.
در بینایی کامپیوتر ، تعداد زیادی ویژگی ممکن است وجود داشته باشد، مانند لبه ها و اشیاء.
برنامه های افزودنی
[ویرایش]در تشخیص الگو و یادگیری ماشین ، یک بردار ویژگی یک بردار n بعدی از ویژگیهای عددی است که برخی اشیاء را نشان می دهنده. بسیاری از الگوریتمهای یادگیری ماشینی نیاز به نمایش عددی اشیا دارند، زیرا این نمایشها فرایند پردازش و تحلیل آماری را تسهیل میکنند. هنگام نمایش تصاویر، مقادیر ویژگی ممکن است با پیکسل های یک تصویر مطابقت داشته باشد، در حالی که در نمایش متون، ویژگی ها ممکن است فراوانی وقوع عبارات متنی باشد. بردارهای ویژگی معادل بردارهای متغیرهای توضیحی مورد استفاده در روش های آماری مانند رگرسیون خطی هستند. بردارهای ویژگی اغلب با استفاده از حاصل ضرب نقطه ای با وزن ها ترکیب می شوند تا یک تابع پیش بینی خطی بسازند که برای تعیین امتیاز برای پیش بینی استفاده می شود.
فضای برداری مرتبط با این بردارها معمولاً فضای ویژگی نامیده می شود. برای کاهش ابعاد فضای ویژگی، میتوان از تکنیک های کاهش ابعاد استفاده کرد.
ویژگیهای سطح بالاتر میتوانند از ویژگیهای موجود به دست آید و به بردار ویژگی اضافه شوند. به عنوان مثال، برای مطالعه بیماری ها ویژگی "سن" مفید است و به عنوان سن = "سال مرگ" -"سال تولد" تعریف می شود. این فرآیند به عنوان ساخت ویژگی شناخته می شود. [۱] [۲] ساخت ویژگی، کاربرد یک مجموعه از اپراتور های سازنده به یک مجموعه از ویژگی های موجود است که منجرب به ساخت ویژگی های جدید می شود. نمونه های این اپراتورهای شامل بررسی شرایط برابری {=، ≠}، اپراتورهای حسابی {+،−،×، /}، اپراتورهای آرایه {max(S)، min(S)، میانگین(S)} و همچنین دیگر اپراتورهای پیچیدهتر، مانند count(S,C) [۳] هستند که تعداد ویژگیهای موجود در بردار ویژگی S را که برخی از شرایط C را برآورده میکنند، شمارش می کند یا، برای مثال، فاصلهها با سایر کلاسهای تشخیص تعمیم یافته توسط برخی دستگاههای پذیرنده. ساخت ویژگی از دیرباز به عنوان یک ابزار قدرتمند برای افزایش دقت و درک ساختار، به خصوص در مسائل با ابعاد بالا در نظر گرفته شده است. [۴] کاربردها شامل مطالعات بیماری و تشخیص احساسات از طریق گفتار است. [۵]
انتخاب و استخراج
[ویرایش]مجموعه اولیه ویژگیهای خام میتواند تکراری و بزرگ باشد و قابل مدیریت نباشد. بنابراین، یک مرحله اولیه در بسیاری از کاربردهای یادگیری ماشین و تشخیص الگو شامل انتخاب زیرمجموعهای از ویژگیها، یا ساختن یک مجموعهای از ویژگیهای جدید و کاهشیافته برای تسهیل یادگیری، و بهبود تعمیم و تفسیرپذیری است.[نیازمند منبع] .
استخراج یا انتخاب ویژگی ها ترکیبی از هنر و علم است. توسعه سیستم هایی برای این کار به عنوان مهندسی ویژگی شناخته می شود. این نیاز به آزمایش چندین احتمال و ترکیب تکنیک های خودکار با بصیرت و دانش کارشناس حوزه دارد. اتوماسیون این فرآیند یادگیری ویژگی است، جایی که یک ماشین نه تنها از ویژگی ها برای یادگیری استفاده می کند، بلکه خود ویژگی ها را یاد می گیرد.
همچنین ببینید
[ویرایش]- متغیر کمکی
- کاهش ابعاد
- مهندسی ویژگی
- ترفند هش کردن
- طبقه بندی آماری
- هوش مصنوعی قابل توضیح
منابع
[ویرایش]- ↑ Liu, H., Motoda H. (1998) Feature Selection for Knowledge Discovery and Data Mining., Kluwer Academic Publishers. Norwell, MA, USA. 1998.
- ↑ Piramuthu, S., Sikora R. T. Iterative feature construction for improving inductive learning algorithms. In Journal of Expert Systems with Applications. Vol. 36, Iss. 2 (March 2009), pp. 3401-3406, 2009
- ↑ Bloedorn, E., Michalski, R. Data-driven constructive induction: a methodology and its applications. IEEE Intelligent Systems, Special issue on Feature Transformation and Subset Selection, pp. 30-37, March/April, 1998
- ↑ Breiman, L. Friedman, T., Olshen, R., Stone, C. (1984) Classification and regression trees, Wadsworth
- ↑ Sidorova, J., Badia T. Syntactic learning for ESEDA.1, tool for enhanced speech emotion detection and analysis. Internet Technology and Secured Transactions Conference 2009 (ICITST-2009), London, November 9–12. IEEE