کاهش ابعاد
در یادگیری ماشین و آمار کاهش بعد یا کاهش ابعاد به معنی انتقال داده از فضای با بعد بیش تر به فضایی با بعد پایینتر به شکل تحت نظر (Supervised)[۱] است، به گونه ای که داده در فضای با بعد کمتر بتواند بهطور معنی داری داده اصلی را نمایندگی کند و ویژگیهای آن را در خود داشته باشد. کار با داده در ابعاد بالا میتواند به دلایل گوناگونی نامطلوب باشد؛ داده در ابعاد بالا به دلیل نفرین ابعاد بسیار تنک باشد و همچنین تحلیل داده در ابعاد بالا از لحاظ محاسباتی بسیار کند و پرهزینه است. کاهش ابعاد در شاخههایی که با تعداد زیادی مشاهده و/یا تعداد زیادی ویژگی سروکار دارند مانند پردازش سیگنال یا بینایی ماشین به کار میرود. کاهش ابعاد را میتوان به انتخاب ویژگی و استخراج ویژگی تقسیم کرد.[۲]
انتخاب ویژگی
[ویرایش]هدف نهایی انتخاب ویژگی این است که زیر مجموعه ای از ویژگیها در فضای اصلی را انتخاب کند که حاوی بیشترین اطلاعات موجود در دادههای اصلی باشند؛ سپس این ویژگیها را به عنوان ویژگی در بعد کاهش یافته معرفی کند. سه روش کلی انتخاب ویژگی شامل پالایش (برای مثال کسب اطلاعات)، روش پوشه (برای مثال جست و جو بر اساس دقت) و روش جاسازی شده (حذف یا افزودن ویژگیها بر اساس خطای تخمین) هستند.
برخی از وظایف معمول تحلیل داده مانند خوشه بندی و رگرسیون در فضای کاهش یافته به این روش بهتر و دقیق تر عمل میکنند.[۳]
استخراج ویژگی
[ویرایش]استخراج ویژگی دادهها را در فضای با ابعاد بزرگ به یک فضای ابعاد کمتر تبدیل میکند. تبدیل دادهها میتواند به شکل خطی باشد، (مانند روش تحلیل مولفه اصلی) اما همچنین بسیاری از تکنیکهای کاهش ابعاد غیر خطی نیز وجود دارد.[۴][۵] روشهای غیر خطی معمولاً سادهتر و سریع ترند اما به خصوص برای دادههای پیچیده روشهای غیر خطی دقت بیش تری دارند.[۶] برای دادههای چند بعدی، نماینده تانسور را میتوان در کاهش ابعاد از طریق یادگیری زیر فضای چندخطی استفاده کرد.[۷]
تجزیه تحلیل مولفه اصلی (PCA)
[ویرایش]مقاله اصلی: تحلیل مولفههای اصلی
این روش اصلیترین روش خطی برای کاهش ابعاد است؛ این روش نگاشت خطی دادهها را به یک فضا با بعد پایینتر انجام میدهد، به طوری که میزان توضیح واریانس داده اصلی در داده منتقل شده (به ابعاد کمتر) بیشینه باشد. در عمل، ماتریس واریانس (و بعضی اوقات کوواریانس) دادهها ساخته میشود و بردار ویژه این ماتریس محاسبه میشود. بردارویژههایی که متناظر با بزرگترین مقادیر ویژهها هستند، بیشترین میزان اطلاعات از دادههای اصلی را در خود دارند و اکنون میتوانند برای بازسازی بخش بزرگی از واریانس دادههای اصلی استفاده شوند. به صورت تخمینی، چندین بردار اول را میتوان نماینده رفتار کلان داده تفسیر کرد. داده در ابعاد کمتر با استفاده از این بردارهای اصلی همراه با از دست دادن بخشی از اطلاعات (با این امید که توضیح دهندگی واریانس را تا حد خوبی حفظ کند) ساخته میشود.
هسته PCA
[ویرایش]تحلیل مؤلفه اصلی میتواند با استفاده از روش هسته به شکل غیر خطی عمل کند. تکنیک حاصل قادر به ساخت نگاشتهای غیر خطی است که میزان توضیح واریانس را در دادههای در فضای کوچکتر به حداکثر میرساند. در کل این روش از روشی مشابه با PCA استفاده میکند، با این تفاوت که به جای استفاده از نگاشت خطی از داده در ابعاد پایین به داده در ابعاد اصلی با استفاده از روش هسته از نگاشت غیر خطی استفاده میکند.
هسته مبتنی بر گرافیک PCA
[ویرایش]دیگر تکنیکهای غیر خطی برجسته شامل تکنیکهای یادگیری منیوفولد، تکنیکهایی مانند Isomap، جابجایی خطی محلی (LLE)، خصوصیات لاپلاس و هماهنگی فضایی مماس محلی (LTSA) میباشد. این تکنیکها با استفاده از یک تابع هزینه ای که سعی دارد تا خواص محلی را حفظ کند، نماینده ای برای داده اصلی در ابعاد پایینتر ایجاد میکنند و میتوانند به عنوان تعریف یک هسته مبتنی بر گراف برای PCA هسته مورد استفاده قرار گیرند.
تفکیک کننده خطی (LDA)
[ویرایش]تفکیک کننده خطی (LDA) یک شاخه از روش جدایی خطی فیشر است. این روش در آمار، تشخیص الگو و یادگیری ماشین برای یافتن ترکیب خطی از ویژگیهایی که دو یا چند خوشه یا رویداد را جدا کند استفاده میشود.
خودرمزگذار
[ویرایش]خودرمزگذارها میتوانند بهمنظور یادگیری توابع غیرخطی کاهش ابعاد مورد استفاده واقع شوند. آنها همچنین امکان اجرای تابع معکوس به منظور برگرداندن داده به ابعاد اصلی را دارند.
خود رمزنگارها دارای تعداد زیادی ابرپارامتر هستند که میتوان برای رسیدن به دقت بهتر یا پردازش سریع تر در کاهش ابعاد از آنها استفاده کرد.
نهان کردن همسایه تصادفی با توزیع تی (t-SNE)
[ویرایش]این روش بیشتر برای مصورسازی دادگان در ابعاد زیاد استفاده میشود و از آن جا که ویژگیهای موجود در داده مانند فاصله بین دادهها را خوب حفظ نمیکند استفاده از آن برای دیگر عملیاتها مانند خوشهبندی توصیه نمیشود.
افکنش و تخمین یکنواخت منیفولد (UMAP)
[ویرایش]این روش در کل مشابه با روش t-SNE است اما از یک سری فروض اضافه برای تقریب بهتر داده اصلی استفاده میکند.
مزایای استفاده از کاهش ابعاد
[ویرایش]- کاهش فضای ذخیرهسازی و قدرت پردازشی مورد نیاز که باعث کاهش زمان عملیات روی داده میشود.
- کاهش ابعاد به شکلی که اطلاعات زیادی از داده اصلی از دست نرود در بسیاری از موارد باحذف نویز داده باعث بهبود عملکرد مدل یادگیری ماشین میشود.
- کاهش ابعاد داده اصلی به فضای ۲ یا ۳ بعدی که برای مصور سازی داده و درک انسانی آن بسیار سودمند است.
کاربردها
[ویرایش]برای مجموعه دادههای با ابعاد بزرگ (یا به عنوان مثال با تعداد ابعاد بیش از ۱۰) کاهش ابعاد معمولاً قبل از اعمال الگوریتم نزدیکترین همسایگان (k-NN) به منظور جلوگیری از مشقت چند بعدی انجام میشود.[۸]
تکنیک کاهش ابعادی که گاهی در علوم اعصاب استفاده میشود، ابعاد با حداکثر اطلاعات است که یک نماینده در ابعاد پایینتر از یک مجموعه داده را نشان میدهد به شکلی که حداکثر ممکن اطلاعات داده اصلی حفظ شوند.
یادداشت
[ویرایش]- ↑ Roweis, S. T.; Saul, L. K. (2000). "Nonlinear Dimensionality Reduction by Locally Linear Embedding". Science. 290 (5500): 2323–2326. doi:10.1126/science.290.5500.2323. PMID 11125150.
- ↑ Pudil, P.; Novovičová, J. (1998). "Novel Methods for Feature Subset Selection with Respect to Problem Knowledge". In Liu, Huan; Motoda, Hiroshi (eds.). Feature Extraction, Construction and Selection. pp. 101. doi:10.1007/978-1-4615-5725-8_7. ISBN 978-1-4613-7622-4.
- ↑ Rico-Sulayes, Antonio (2017). "Reducing Vector Space Dimensionality in Automatic Classification for Authorship Attribution". Revista Ingeniería Electrónica, Automática y Comunicaciones. 38 (3): 26–35.
- ↑ Samet, H. (2006) Foundations of Multidimensional and Metric Data Structures. Morgan Kaufmann. شابک ۰−۱۲−۳۶۹۴۴۶−۹
- ↑ C. Ding, X. He, H. Zha, H.D. Simon, Adaptive Dimension Reduction for Clustering High Dimensional Data, Proceedings of International Conference on Data Mining, 2002
- ↑ Pramoditha, Rukshan (2022-08-19). "How Autoencoders Outperform PCA in Dimensionality Reduction". Medium (به انگلیسی). Retrieved 2023-01-05.
- ↑ Lu, Haiping; Plataniotis, K.N.; Venetsanopoulos, A.N. (2011). "A Survey of Multilinear Subspace Learning for Tensor Data" (PDF). Pattern Recognition. 44 (7): 1540–1551. doi:10.1016/j.patcog.2011.01.004.
- ↑ Kevin Beyer, Jonathan Goldstein, Raghu Ramakrishnan, Uri Shaft (1999) "When is “nearest neighbor” meaningful?". Database Theory—ICDT99, 217-235
منابع
[ویرایش]- دار کردن، I. (2002) "بررسی ابعاد تکنیکهای کاهش". مرکز علمی کاربردی محاسبات ملی لارنس لیورمور فنی گزارش UCRL-ID-148494
- کانینگهام، P. (2007) "ابعاد کاهش" دانشگاه کالج دوبلین ویژگیهای گزارش UCD-CSI-2007-7
- Zahorian, Stephen A.; Hu, Hongbing (2011). "Nonlinear Dimensionality Reduction Methods for Use with Automatic Speech Recognition". Speech Technologies. doi:10.5772/16863. ISBN 978-953-307-996-7.
- Lakshmi Padmaja, Dhyaram; Vishnuvardhan, B (18 August 2016). "Comparative Study of Feature Subset Selection Methods for Dimensionality Reduction on Scientific Data": 31–34. doi:10.1109/IACC.2016.16. Retrieved 7 October 2016.
{{cite journal}}
: Cite journal requires|journal=
(help)