پیش‌نویس:ویژگی (یادگیری ماشین)

در یادگیری ماشین و تشخیص الگو ، ویژگی، یک خاصیت یا ویژگی قابل اندازه گیری فردی یک پدیده است. انتخاب ویژگی‌های اطلاعاتی، تمایز دهنده و مستقل، عنصر حیاتی الگوریتم‌های مؤثر در بازشناخت الگو، طبقه‌بندی و رگرسیون الگو است. ویژگی‌ها به طور معمول عددی هستند، اما ویژگی‌های ساختاری مانند رشته‌ها و گراف ها در تشخیص الگوی نحوی استفاده می‌شوند. مفهوم "ویژگی" با متغیر توضیح دهنده که در تکنیک های آماری مانند رگرسیون خطی استفاده می شود، مرتبط است.

طبقه بندی

یک ویژگی عددی میتواند به راختی با یک یردار ویژگی شرح داده شود. یک روش برای طبقه‌بندی باینری ، استفاده از یک تابع پیش‌بینی خطی (مربوط به پرسپترون ) با بردار ویژگی به عنوان ورودی است. این روش شامل محاسبه حاصل ضرب اسکالر بین بردار ویژگی و بردار وزن است، که مشخص می کند کدام مشاهدات که نتیجه آن بیشتر از یک آستانه است، مؤهل به دسته بندی هستند.

الگوریتم‌های طبقه‌بندی از یک بردار ویژگی شامل طبقه‌بندی نزدیکترین همسایه ، شبکه‌های عصبی و تکنیک‌های آماری مانند رویکردهای بیزی است.

مثال ها

در تشخیص کاراکتر ، ویژگی‌ها می توانند شامل هیستوگرام شمارش تعداد پیکسل‌های سیاه در امتداد جهت‌های افقی و عمودی، تعداد سوراخ‌های داخلی، تشخیص خط و بسیاری موارد دیگر باشد.

در تشخیص گفتار ، ویژگی‌هایی برای تشخیص واج می‌تواند شامل نسبت نویز، طول صداها، قدرت نسبی، تطایق فیلتر و بسیاری موارد دیگر باشد.

در الگوریتم‌های تشخیص هرزنامه ، ویژگی‌ها ممکن است شامل وجود یا عدم وجود برخی سربرگ های ایمیل، ساختار ایمیل، زبان، فراوانی عبارات خاص، صحت دستوری متن باشد.

در بینایی کامپیوتر ، تعداد زیادی ویژگی ممکن است وجود داشته باشد، مانند لبه ها و اشیاء.

برنامه های افزودنی

در تشخیص الگو و یادگیری ماشین ، یک بردار ویژگی یک بردار n بعدی از ویژگی‌های عددی است که برخی اشیاء را نشان‌ می دهنده. بسیاری از الگوریتم‌های یادگیری ماشینی نیاز به نمایش عددی اشیا دارند، زیرا این نمایش‌ها فرایند پردازش و تحلیل آماری را تسهیل می‌کنند. هنگام نمایش تصاویر، مقادیر ویژگی ممکن است با پیکسل های یک تصویر مطابقت داشته باشد، در حالی که در نمایش متون، ویژگی ها ممکن است فراوانی وقوع عبارات متنی باشد. بردارهای ویژگی معادل بردارهای متغیرهای توضیحی مورد استفاده در روش های آماری مانند رگرسیون خطی هستند. بردارهای ویژگی اغلب با استفاده از حاصل ضرب نقطه ای با وزن ها ترکیب می شوند تا یک تابع پیش بینی خطی بسازند که برای تعیین امتیاز برای پیش بینی استفاده می شود.

فضای برداری مرتبط با این بردارها معمولاً فضای ویژگی نامیده می شود. برای کاهش ابعاد فضای ویژگی، میتوان از تکنیک های کاهش ابعاد استفاده کرد.

ویژگی‌های سطح بالاتر می‌توانند از ویژگی‌های موجود به دست آید و به بردار ویژگی اضافه شوند. به عنوان مثال، برای مطالعه بیماری ها ویژگی "سن" مفید است و به عنوان سن = "سال مرگ" -"سال تولد" تعریف می شود. این فرآیند به عنوان ساخت ویژگی شناخته می شود. ^[۱] ^[۲] ساخت ویژگی، کاربرد یک مجموعه از اپراتور های سازنده به یک مجموعه از ویژگی های موجود است که منجرب به ساخت ویژگی های جدید می شود. نمونه های این اپراتورهای شامل بررسی شرایط برابری {=، ≠}، اپراتورهای حسابی {+،−،×، /}، اپراتورهای آرایه {max(S)، min(S)، میانگین(S)} و همچنین دیگر اپراتورهای پیچیده‌تر، مانند count(S,C) ^[۳] هستند که تعداد ویژگی‌های موجود در بردار ویژگی S را که برخی از شرایط C را برآورده می‌کنند، شمارش می کند یا، برای مثال، فاصله‌ها با سایر کلاس‌های تشخیص تعمیم‌ یافته توسط برخی دستگاه‌های پذیرنده. ساخت ویژگی از دیرباز به عنوان یک ابزار قدرتمند برای افزایش دقت و درک ساختار، به خصوص در مسائل با ابعاد بالا در نظر گرفته شده است. ^[۴] کاربردها شامل مطالعات بیماری و تشخیص احساسات از طریق گفتار است. ^[۵]

انتخاب و استخراج

مجموعه اولیه ویژگی‌های خام می‌تواند تکراری و بزرگ باشد و قابل مدیریت نباشد. بنابراین، یک مرحله اولیه در بسیاری از کاربردهای یادگیری ماشین و تشخیص الگو شامل انتخاب زیرمجموعه‌ای از ویژگی‌ها، یا ساختن یک مجموعه‌ای از ویژگی‌های جدید و کاهش‌یافته برای تسهیل یادگیری، و بهبود تعمیم و تفسیرپذیری است.^{^{[نیازمند منبع]}} .

استخراج یا انتخاب ویژگی ها ترکیبی از هنر و علم است. توسعه سیستم هایی برای این کار به عنوان مهندسی ویژگی شناخته می شود. این نیاز به آزمایش چندین احتمال و ترکیب تکنیک های خودکار با بصیرت و دانش کارشناس حوزه دارد. اتوماسیون این فرآیند یادگیری ویژگی است، جایی که یک ماشین نه تنها از ویژگی ها برای یادگیری استفاده می کند، بلکه خود ویژگی ها را یاد می گیرد.

همچنین ببینید

منابع

↑ Liu, H., Motoda H. (1998) Feature Selection for Knowledge Discovery and Data Mining., Kluwer Academic Publishers. Norwell, MA, USA. 1998.
↑ Piramuthu, S., Sikora R. T. Iterative feature construction for improving inductive learning algorithms. In Journal of Expert Systems with Applications. Vol. 36, Iss. 2 (March 2009), pp. 3401-3406, 2009
↑ Bloedorn, E., Michalski, R. Data-driven constructive induction: a methodology and its applications. IEEE Intelligent Systems, Special issue on Feature Transformation and Subset Selection, pp. 30-37, March/April, 1998
↑ Breiman, L. Friedman, T., Olshen, R., Stone, C. (1984) Classification and regression trees, Wadsworth
↑ Sidorova, J., Badia T. Syntactic learning for ESEDA.1, tool for enhanced speech emotion detection and analysis. Internet Technology and Secured Transactions Conference 2009 (ICITST-2009), London, November 9–12. IEEE

[Liu1998-1] Liu, H., Motoda H. (1998) Feature Selection for Knowledge Discovery and Data Mining., Kluwer Academic Publishers. Norwell, MA, USA. 1998.

[Piramithu2009-2] Piramuthu, S., Sikora R. T. Iterative feature construction for improving inductive learning algorithms. In Journal of Expert Systems with Applications. Vol. 36, Iss. 2 (March 2009), pp. 3401-3406, 2009

[bloedorn1998-3] Bloedorn, E., Michalski, R. Data-driven constructive induction: a methodology and its applications. IEEE Intelligent Systems, Special issue on Feature Transformation and Subset Selection, pp. 30-37, March/April, 1998

[breinman1984-4] Breiman, L. Friedman, T., Olshen, R., Stone, C. (1984) Classification and regression trees, Wadsworth

[Sidorova2009-5] Sidorova, J., Badia T. Syntactic learning for ESEDA.1, tool for enhanced speech emotion detection and analysis. Internet Technology and Secured Transactions Conference 2009 (ICITST-2009), London, November 9–12. IEEE

[۱]

[۲]

[۳]

[۴]

[۵]