تطبیق دامنه
تطبیق دامنه (به انگلیسی: Domain Adaptation)[۱] زمینهای در یادگیری ماشینی است که به یادگیری انتقالی مربوط است. این سناریو زمانی رخ میدهد که ما بخواهیم از یک توزیع داده منبع یک مدل که روی داده هدف متفاوت (اما مرتبط) عملکرد خوبی داشته باشد یاد بگیریم. به عنوان مثال، یکی از وظایف مشکل رایج فیلتر هرزنامه، انطباق یک مدل از یک کاربر (توزیع منبع) به کاربر جدیدی است که بهطور چشمگیری ایمیلهای متفاوتی را دریافت میکند (توزیع هدف). همچنین نشان داده شدهاست که تطبیق دامنه برای یادگیری منابع نامرتبط سودمند است. توجه داشته باشید که وقتی بیش از یک توزیع منبع در دسترس باشد، به این مشکل تطبیق دامنه چند منبعی گفته میشود.[۲]
بررسی اجمالی
[ویرایش]تطبیق دامنه توانایی اعمال یک الگوریتم تعلیم دیده در یک یا چند «دامنه منبع» به یک «دامنه هدف» متفاوت (اما مرتبط) است. تطبیق دامنه زیرمجموعهای از یادگیری انتقالی میباشد. در تطبیق دامنه، دامنه منبع و هدف همگی فضای ویژگی مشابهی دارند (اما توزیعهای متفاوت). در مقابل، یادگیری انتقالی شامل مواردی است که فضای ویژگی دامنه هدف با فضا یا فضاهای ویژگی منبع متفاوت است.[۳] در واقع تطبیق دامنه حالتی از انتقال یادگیری را پوشش میدهد که در آن مدل قرار است یک وظیفه یکسان را که روی دامنه منبع یاد گرفته به دامنه هدف انتقال دهد.
انتقال دامنه
[ویرایش]تغییر دامنه،[۴] یا تغییر توزیعی،[۵] تغییری در تقسیم داده بین مجموعه داده آموزشی الگوریتم و مجموعه دادهای میباشد که هنگام استفاده از آن برای پیشبینی روی دادههای جدید با آن رو به رو میشود. این تغییرات دامنه در کاربردهای عملی و صنعتی هوش مصنوعی رایج و معمول است. الگوریتمهای متداول یادگیری ماشینی اغلب با تغییرات دامنه سازگار نیستند. جامعه مدرن یادگیری ماشینی استراتژیهای مختلفی برای تلاش برای دستیابی به سازگاری بهتر دامنه دارد.[۴]
انتقال پیشین (به انگلیسی: Prior Shift)
[ویرایش]برای انتقال پیشین، احتمالات پیشین کلاسها متفاوت است، اما توزیع های شرطی معادل هستند، . این می تواند برای مثال در تنظیمات تشخیص عیب رخ دهد، جایی که یک خط مشی تعمیر و نگهداری جدید ممکن است باعث خطای کمتری شود، یا در تشخیص نشت نفت قبل از وقوع یک حادثه رخ دهد.
انتقال متغیر (به انگلیسی: Covariate Shift)
[ویرایش]این انتقال اغلب زمانی رخ می دهد که نوعی سوگیری انتخاب نمونه وجود داشته باشد. سوگیری انتخاب به عنوان احتمال تغییر یافته نمونهگیری تعریف میشود. به عنوان مثال، فرض کنید از شهری دیدن میکنید که اکثر مردم در مرکز آن زندگی می کنند و تراکم سکونت به عنوان تابعی از فاصله از مرکز کاهش می یابد. برای شما جالب است که آیا مردم فکر می کنند که شهر پرجمعیت است یا خیر. اگر در میدان اصلی نمونه برداری کنید، بیشتر با افرادی روبرو می شوید که در مرکز زندگی می کنند و احتمالاً پاسخ های "بله" زیادی دریافت خواهید کرد. ساکنانی که دورتر زندگی میکنند، که میگویند «نه»، در دادهها کمتر نشان داده شدهاند. یکی دیگر از دلایل تغییر متغیرهای کمکی، دادههای از دست رفته است. در عمل، داده ها ممکن است به دلیل از کار افتادن دستگاههای اندازهگیری یا به دلیل انصراف موضوع از بین بروند.
انتقال مفهوم (به انگلیسی: Concept Shift)
[ویرایش]در مورد تغییر مفهوم، توزیع داده ها ثابت می ماند در حالی که پسین ها تغییر می کنند. به عنوان مثال، یک محیط پزشکی را در نظر بگیرید که در آن هدف، پیشآگهی برای بیمار بر اساس سن، شدت آنفولانزا، سلامت عمومی و وضعیت اجتماعی-اقتصادی آنها است. در کلاس ها در اصل به عنوان "رفع" و "عوارض" تعریف شده است. اما، در زمان آزمون، جنبههای دیگر بهعنوان شکلی از «عارضه» شمرده میشوند و به این ترتیب برچسبگذاری میشوند. آنچه که طبقه مثبت و منفی را تشکیل می دهد و در نتیجه توزیع های پسینی را تشکیل می دهد، تغییر کرده است.
مثالها
[ویرایش]- یک الگوریتم تعلیم دیده بر روی سیمهای خبری ممکن است مجبور باشد با مجموعه دادههای جدیدی از اسناد زیستپزشکی سازگار شود.[۷]
- یک فیلتر هرزنامه که در طول آموزش بر روی گروه خاصی از کاربران ایمیل آموزش داده شدهاست، باید در هنگام استقرار با کاربر هدف جدید سازگار شود.[۸]
- استفاده از الگوریتمهای تشخیصی هوش مصنوعی، آموزشدیده بر روی دادههای برچسبدار مرتبط با بیماریهای قبلی، به دادههای بدون برچسب جدید مرتبط با همهگیری COVID-19.[۹]
- یک تغییر ناگهانی اجتماعی، مانند شیوع بیماری همهگیر، میتواند باعث تغییر دامنه شود و باعث شود الگوریتمهای یادگیری ماشینی که بر روی دادههای مصرفکننده منسوخ شدهاند، با شکست مواجه شوند و نیاز به مداخله داشته باشند.[۱۰][۱۱]
سایر برنامهها دربردارنده تشخیص محلی سازی وای فای و بسیاری از جنبههای بینایی رایانه است.[۳]
رسمی سازی
[ویرایش]را فضای ورودی (یا فضای توضیحات) باشد و را فضای خروجی (یا فضای برچسب) در نظر میگیریم. هدف یک الگوریتم یادگیری ماشینی دانستن یک مدل ریاضی (فرضیه) است. قادر به چسباندن یک برچسب از به یک مثال از میباشد. این مدل از یک نمونه یادگیری آموخته میشود .
معمولاً در یادگیری تحت نظارت (بدون تطبیق دامنه)، فرض میکنیم که مثالهای از توزیع از پشتیبانی (ناشناخته و ثابت) به صورت i.i.d. نمونهگیری میشوند. سپس هدف یادگیری (از ) است به طوری که کمترین خطای ممکن را برای برچسب زدن نمونههای جدید از توزیع مرتکب شود.
تفاوت اصلی بین یادگیری تحت نظارت و تطبیق دامنه این است که در تطبیق دامنه ما دو توزیع داده (توزیع داده منبع) و (توزیع داده هدف) در فضای بررسی میکنیم. تطبیق دامنه وظیفهای است که در آن انتقال دانش از دامنه منلع به دامنه هدف انجام میشود. سپس هدف یادگیری (از نمونههای برچسبدار یا بدون برچسب که از دو دامنه میآیند) است به طوری که کمترین خطای ممکن را در دامنه هدف مرتکب شود.
مسئله اصلی این است: اگر یک مدل از یک دامنه منبع آموخته شود، ظرفیت آن برای برچسب گذاری صحیح داده های حاصل از دامنه هدف چقدر است؟
انواع مختلف تطبیق دامنه
[ویرایش]زمینه های مختلفی برای تطبیق دامنه وجود دارد. آنها در اطلاعات در نظر گرفته شده برای کار هدف متفاوت هستند.
- تطبیق دامنه نظارت شده: همه نمونههای در نظر گرفته شده برای منبع و هدف باید برچسب گذاری شوند.
- تطبیق دامنه نیمه نظارت شده: در این وضعیت، همه نمونههای منبع و مجموعه "کوچکی" از نمونه های هدف را برچسبدار و بقیه مجموعه هدف را بدون برچسب در نظر می گیریم.
- تطبیق دامنه بدون نظارت: نمونه آموزشی شامل مجموعهای از مثالهای منبع برچسبدار، مجموعهای از نمونههای منبع بدون برچسب و مجموعهای از نمونههای هدف بدون برچسب است.
منابع
[ویرایش]- ↑ Ben-David, Shai; Blitzer, John; Crammer, Koby; Kulesza, Alex; Pereira, Fernando; Wortman Vaughan, Jennifer (2010). "A theory of learning from different domains" (PDF). Machine Learning. 79 (1–2): 151–175. doi:10.1007/s10994-009-5152-4.
- ↑ Crammer, Koby; Kearns, Michael; Wortman, Jeniifer (2008). "Learning from Multiple Sources" (PDF). Journal of Machine Learning Research. 9: 1757–1774.
- ↑ ۳٫۰ ۳٫۱ Sun, Shiliang; Shi, Honglei; Wu, Yuanbin (July 2015). "A survey of multi-source domain adaptation". Information Fusion. 24: 84–92. doi:10.1016/j.inffus.2014.12.003.
- ↑ ۴٫۰ ۴٫۱ Sun, Baochen, Jiashi Feng, and Kate Saenko. "Return of frustratingly easy domain adaptation." In Thirtieth AAAI Conference on Artificial Intelligence. 2016.
- ↑ Amodei, Dario, Chris Olah, Jacob Steinhardt, Paul Christiano, John Schulman, and Dan Mané. "Concrete problems in AI safety." arXiv preprint arXiv:1606.06565 (2016).
- ↑ Muraleedharan, Vivek (2021-06-26). "Domain Adaptation problems in Machine learning". Nerd For Tech (به انگلیسی). Retrieved 2022-12-30.
- ↑ Daumé III, Hal. "Frustratingly easy domain adaptation." arXiv preprint arXiv:0907.1815 (2009).
- ↑ Ben-David, Shai, John Blitzer, Koby Crammer, and Fernando Pereira. "Analysis of representations for domain adaptation." In Advances in neural information processing systems, pp. 137-144. 2007.
- ↑ Hu, Yipeng; Jacob, Joseph; Parker, Geoffrey J. M.; Hawkes, David J.; Hurst, John R.; Stoyanov, Danail (June 2020). "The challenges of deploying artificial intelligence models in a rapidly evolving pandemic". Nature Machine Intelligence (به انگلیسی). 2 (6): 298–300. arXiv:2005.12137. doi:10.1038/s42256-020-0185-2. ISSN 2522-5839.
- ↑ Matthews, Dylan (26 March 2019). "AI disaster won't look like the Terminator. It'll be creepier". Vox (به انگلیسی). Retrieved 21 June 2020.
- ↑ "Our weird behavior during the pandemic is messing with AI models". MIT Technology Review (به انگلیسی). 11 May 2020. Retrieved 21 June 2020.