مشقت بعدچندی
نفرین ابعاد (به انگلیسی: Curse of dimensionality) به پدیدههای گوناگونی گفته میشود که هنگام تحلیل و ساماندهی دادهها در فضاهای با ابعاد بسیار بالا (اغلب با صدها یا هزاران بعد) روی میدهند، ولی نه در محیطهای با ابعاد بسیار پایین، مانند فضای فیزیکی سهبعدی، که در زندگی روزمره احساس میکنیم.
از چندین پدیده در حوزههایی چون محاسبات عددی، نمونهبرداری، ترکیبیات، یادگیری ماشینی، دادهکاوی، و پایگاه دادهها با این نام یاد میشود. مضمون مشترک همهٔ این مشکلات آن است که با افزایش ابعاد، حجم فضا آنقدر سریع افزایش مییابد که دادههای موجود پراکنده و تُنُک میشوند. این تنکی در هر روشی که مستلزم معنیداری آماری است مشکلساز میشود. با افزایش ابعاد لازم است دادههای مورد نیاز برای پشتیبانی از نتیجه هم اغلب بهطور نمایی افزایش یابند تا نتیجهٔ حاصله از نظر آماری معقول و معتبر باشد. همچنین ساماندهی و جستجوی داده اغلب متکی بر شناسایی ناحیههایی است که در آنجاها اشیاء گروههایی با خواص مشابه تشکیل داده باشند؛ اما در دادههای کثیرالابعاد همهٔ اشیاء از بسیاری جهات تُنُک و نامشابه به نظر میرسند که این امر از کارایی راهبردهای معمول و متعارف ساماندهی دادهها میکاهد.
اصطلاح مشقت بعدچندی را ریچارد بلمن هنگام کار کردن روی برنامهریزی پویا وضع کرد و جا انداخت.
دامنههای تحت تاثیر
[ویرایش]یادگیری ماشینی
[ویرایش]مشقت چندبعدی در یادگیری ماشینی زمانی به چشم میآید که در حال کار کردن با دادههایی باشیم که نسبت ویژگیها به تعداد آنها بالا باشد. مشکلی که خود را در هنگام کار با دادههایی با ویژگیهای بسیار زیاد خود را نشان میدهد، سخت بودن پیدا کردن هرگونه الگوی معنیداری هنگام آنالیز و تجسم کردن دادهاست. این پدیده فرایندآموزش یک مدل یادگیری ماشین را مختل میکند و تأثیر منفی روی دقت و سرعت آموزش مدل میگذارد. افزایش تعداد بعد در دادهها احتمال رخداد چند خطی بودن را افزایش میدهد.
پدیده هیوز
[ویرایش]پدیدهٔ هیوز نشان میدهد که افزایش تعداد ویژگیهای داده باعث بهبود عملکرد یک مدل طبقهبندی کننده میشود تا زمانی که به یک نقطهٔ آپتیمال برسیم. پس از آن اضافه کردن ویژگیهای جدید با ثابت نگه داشتن تعداد داده باعث تنزل عملکرد مدل میشود.
روشهای حل مشکل مشقت بعدچندی
[ویرایش]کاهش ابعاد
[ویرایش]کاهش ابعاد، به مجموعه روشهایی گفته میشود که با استفاده از آنها دادهها را از فضای با ابعاد بالا به فضایی با بعد کمتر نگاشت میکنند به صورتی که دادههای نگاشته شده دارای ویژگیهای معنیداری از دادههای اولیه ما باشند، به صورت ایدهآل به نحوی که در دادههای نهایی تنها دارای ویژگیهای مستقل از هم باشیم به طوری که بتوان دادههای اصلی را از آنها بدست آورد.
روشهای کاهش ابعاد به صورت کلی به دستههای خطی و غیرخطی تقسیم میشوند.
تغییر معیار شباهت
[ویرایش]مشکلی که برای دادهها در فضا با ابعاد زیاد رخ میدهد میل کردن فاصلهٔ نقاط به صفر است؛ به همین دلیل الگوریتمهایی مانند الگوریتم کی-نزدیکترین همسایه که بر اساس معیار شباهت کار میکنند اثرگذاری خود را در ابعاد بالاتر از دست میدهند. به این دلیل است که ابعاد را میتوان در چنین الگوریتمهایی به عنوان «مشقت» در نظر گرفت.
یکی از روشهایی که میتوان اثر تعداد زیاد بعد در داده را کاهش داد تغییر معیار شباهت استفاده در فضای برداریای است که دادهها در آن قرار دارند.
یکی از معیارهای شباهت که اثر وجود ابعاد زیاد در داده را تا حدی کاهش میدهد، شباهت کسینوسی است که برای دو بردار غیر صفر به صورت مقابل محاسبه میشود:
افزایش داده
[ویرایش]افزایش داده (به انگلیسی: Data augmentation) در تحلیل دادهها تکنیکهایی هستند که برای افزایش تعداد داده با اعمال تغییراتی ساده و جزیی استفاده میشوند. این تکنیک علاوه بر کمک به مشکل بیشبرازش سعی میکنند فضای دادهها را از پراکندگی خارج کنند تا بتوان رابطهٔ معناداری میان دادهها پیدا کرد.
همچنین نگاه کنید به
[ویرایش]- چند خطی(Multicollinearity)
جستارهای وابسته
[ویرایش]منابع
[ویرایش]- Wikipedia contributors, "Curse of dimensionality," Wikipedia, The Free Encyclopedia, https://en.wikipedia.org/wiki/Curse_of_dimensionality (accessed December 28, 2022).
- Wikipedia contributors, "Data augmentation," Wikipedia, The Free Encyclopedia, https://en.wikipedia.org/wiki/Data_augmentation (accessed December 28, 2022).
- Wikipedia contributors, "Cosine similarity," Wikipedia, The Free Encyclopedia, https://en.wikipedia.org/wiki/Cosine_similarity (accessed December 28, 2022).
- Alonso, María & Malpica, José & Martinez-Agirre, Alex. (2011). Consequences of the Hughes phenomenon on some classification Techniques. American Society for Photogrammetry and Remote Sensing Annual Conference 2011.