یادگیری چند وظیفهای
یادگیری چند وظیفهای (Multi-task learning (MTL)) زیر مجموعهای از یادگیری ماشین است که در آن چندین کار یادگیری همزمان حل میشود، در حالی که از نقاط اشتراک و تفاوت بین وظایف استفاده میشود. این میتواند باعث بهبود کارایی یادگیری و دقت پیشبینی برای مدلهای خاص وظیفه در مقایسه با آموزش مدلها بهطور جداگانه شود. نسخههای اولیه MTL «اشاره» نامیده میشدند.[۱][۲][۳]
ریچ کاروانا در مقاله ای که در سال ۱۹۹۷ بهطور گسترده مورد استناد قرار گرفت، توصیف زیر را ارائه کرد:
یادگیری چند وظیفه ای رویکردی برای انتقال استقرایی است که تعمیم را با استفاده از اطلاعات دامنه موجود در سیگنالهای آموزشی وظایف مرتبط به عنوان یک سوگیری استقرایی بهبود میبخشد. این کار را با یادگیری کارها به صورت موازی در حین استفاده از یک نمایش مشترک انجام میدهد. آنچه برای هر کار آموزش داده میشود، میتواند به یادگیری بهتر وظایف دیگر کمک کند.
در زمینه طبقهبندی، هدف MTL بهبود عملکرد وظایف طبقهبندی متعدد با یادگیری مشترک آنهاست. به عنوان مثال میتوان به یک فیلتر اسپم اشاره کرد که میتواند به عنوان طبقهبندی متمایز اما مرتبط در بین کاربران مختلف در نظر گرفته شود. برای واضحتر کردن این موضوع، در نظر بگیرید که افراد مختلف توزیعهای متفاوتی از ویژگیها دارند که ایمیلهای اسپم را از ایمیلهای قانونی متمایز میکند، برای مثال یک انگلیسیزبان ممکن است متوجه شود که همه ایمیلهای روسی اسپم هستند، اما برای روسیزبانان اینگونه نیست. با این حال یک اشتراک مشخص در این طبقهبندی در بین کاربران وجود دارد، برای مثال یکی از ویژگیهای مشترک ممکن است متن مربوط به انتقال پول باشد. حل مشکل طبقهبندی اسپم هر کاربر بهطور مشترک از طریق MTL میتواند به راهحلها اجازه دهد تا یکدیگر را مطلع کنند و عملکرد را بهبود بخشند.[۴] نمونههای بیشتری از تنظیمات برای MTL شامل طبقهبندی چند کلاسه و طبقهبندی چندبرچسبی است.[۵]
یادگیری چند وظیفهای به خوبی کار میکند زیرا منظم سازی ناشی از نیاز به یک الگوریتم برای اجرای درست یک کار مرتبط میتواند برتر از منظم سازی باشد که با جریمه کردن یکنواخت همه پیچیدگیها از بیش برازش جلوگیری میکند. یکی از موقعیتهایی که MTL ممکن است بسیار مفید باشد، این است که وظایف مشترکات قابل توجهی داشته باشند و عموماً کمتر نمونهبرداری شده باشند.[۶][۷] با این حال، نشان داده شدهاست که MTL برای یادگیری وظایف نامرتبط نیز مفید است.[۶][۸]
روشها
[ویرایش]گروهبندی وظایف و همپوشانی
[ویرایش]در پارادایم MTL، اطلاعات را میتوان در برخی یا همه وظایف به اشتراک گذاشت. بسته به ساختار ارتباط کار، ممکن است بخواهید اطلاعات را به صورت انتخابی در بین وظایف به اشتراک بگذارید. به عنوان مثال، وظایف ممکن است گروهبندی شوند یا در یک سلسله مراتب وجود داشته باشند، یا بر اساس برخی معیارهای کلی مرتبط باشند. فرض کنید، که بردار پارامتر مدلسازی هر کار، ترکیبی خطی از برخی از پایههای اساسی است. تشابه از نظر این مبنا میتواند نشان دهنده مرتبط بودن وظایف باشد. به عنوان مثال، با پراکندگی، همپوشانی ضرایب غیر صفر در بین وظایف نشان دهنده اشتراک است. سپس یک گروهبندی وظیفه با آن وظایفی مطابقت دارد که در یک زیرفضای ایجاد شده توسط برخی از زیرمجموعههای عناصر پایه، جایی که وظایف در گروههای مختلف ممکن است از نظر پایههایشان نابههمپیوسته یا همپوشانی داشته باشند، مطابقت دارد.[۹] ارتباط کار را میتوان به صورت پیشینی تحمیل کرد یا از دادهها آموخت.[۱۰][۱۱] ارتباط سلسله مراتبی وظایف نیز میتواند بهطور ضمنی بدون فرض دانش پیشینی یا روابط یادگیری بهطور صریح مورد بهرهبرداری قرار گیرد.[۱۲][۱۳] به عنوان مثال، یادگیری صریح ارتباط نمونه در بین وظایف را میتوان برای تضمین اثربخشی یادگیری مشترک در چندین حوزه انجام داد.[۱۲]
بهرهبرداری از وظایف نامرتبط
[ویرایش]میتوان با استفاده از گروهی از وظایف کمکی، غیر مرتبط با کارهای اصلی، گروهی از وظایف اصلی را یادگرفت. در بسیاری از برنامهها، یادگیری مشترک وظایف نامرتبط که از دادههای ورودی یکسان استفاده میکنند میتواند مفید باشد. دلیل آن این است که دانش قبلی در مورد ارتباط کار میتواند منجر به نمایشهای پراکندهتر و آموزندهتر برای هر گروه کاری شود، که اساساً با غربال کردن ویژگیهای خاص توزیع دادهها انجام میشود. روشهای جدیدی که مبتنی بر روششناسی چندوظیفهای قبلی با حمایت از نمایش کمبعدی مشترک در هر گروه کار است، پیشنهاد شدهاند. برنامهنویس میتواند برای وظایف گروههای مختلف جریمه ای اعمال کند که این دو نمایش را به متعامد بودن تشویق میکند. آزمایشها بر روی دادههای مصنوعی و واقعی نشان دادهاند که ترکیب وظایف نامرتبط میتواند منجر به پیشرفتهای قابلتوجهی نسبت به روشهای استاندارد یادگیری چند وظیفهای شود.[۱۴]
انتقال دانش
[ویرایش]مفهوم انتقال دانش مربوط به یادگیری چند وظیفهای است. در حالی که یادگیری چند وظیفهای سنتی به این معنی است که یک نمایش مشترک بهطور همزمان در بین وظایف ایجاد میشود، انتقال دانش مستلزم یک نمایش مشترک متوالی است. پروژههای یادگیری ماشینی در مقیاس بزرگ مانند شبکه عصبی کانولوشنال GoogLeNet ,[۱۵] یک طبقهبندیکننده شی مبتنی بر تصویر، میتواند نمایشهای قوی ایجاد کند که ممکن است برای یادگیری الگوریتمهای وظایف مرتبط مفید باشد. به عنوان مثال، مدل از پیش آموزش دیده میتواند به عنوان استخراج کننده ویژگی برای انجام پیش پردازش برای الگوریتم یادگیری دیگر استفاده شود. یا مدل از پیش آموزش دیده میتواند برای مقداردهی اولیه یک مدل با معماری مشابه استفاده شود که سپس برای یادگیری یک کار طبقهبندی متفاوت تنظیم میشود.[۱۶]
یادگیری تطبیقی آنلاین گروهی
[ویرایش]بهطور سنتی یادگیری چند وظیفه ای و انتقال دانش در تنظیمات یادگیری ثابت اعمال میشود. گسترش آنها به محیطهای غیر ثابت، یادگیری تطبیقی آنلاین گروهی (GOAL) نامیده میشود.[۱۷] به اشتراک گذاری اطلاعات میتواند مفید باشد به ویژه اگر یادگیرندگان در محیطهای پیوسته در حال تغییر عمل کنند، زیرا یک یادگیرنده میتواند از تجربه قبلی یادگیرنده دیگر برای سازگاری سریع با محیط جدید خود بهرهمند شود. چنین یادگیری تطبیقی گروهی کاربردهای متعددی دارد، از پیشبینی سریهای زمانی مالی، از طریق سیستمهای توصیه محتوا، تا درک بصری برای عوامل خودمختار تطبیقی.
کاربرد ها
[ویرایش]فیلتر اسپم
[ویرایش]با استفاده از اصول MTL، تکنیکهایی برای فیلتر کردن هرزنامههای مشترک که شخصیسازی را تسهیل میکند، پیشنهاد شدهاست. در سیستمهای ایمیل عضویت باز در مقیاس بزرگ، اکثر کاربران پیامها را به اندازه کافی برای اثربخشی طبقهبندیکننده محلی مشخص نمیکنند، در حالی که دادهها آنقدر نویز دارند که نمیتوانند برای فیلتر سراسری در همه کاربران استفاده شوند. یک طبقهبندیکننده جهانی/انفرادی ترکیبی میتواند در جذب تأثیر کاربرانی که ایمیلها را با جدیت از عموم مردم برچسبگذاری میکنند، مؤثر باشد. این را میتوان در حالی انجام داد که هنوز کیفیت کافی را برای کاربران با نمونههای برچسب گذاری شده کمی ارائه میدهد.[۱۸]
جستجوی وب
[ویرایش]با استفاده از درختهای تصمیم تقویت شده، میتوان به اشتراک گذاری و منظم سازی ضمنی داده را فعال کرد. این روش یادگیری را میتوان در مجموعه دادههای رتبهبندی جستجوی وب استفاده کرد. یک مثال استفاده از مجموعه دادههای رتبهبندی از چندین کشور است. در اینجا، یادگیری چندوظیفه ای مفید است زیرا مجموعه دادههای کشورهای مختلف به دلیل هزینه قضاوتهای سرمقاله از نظر اندازه تا حد زیادی متفاوت است. نشان داده شدهاست که یادگیری وظایف مختلف بهطور مشترک میتواند به بهبود قابل توجهی در عملکرد با قابلیت اطمینان شگفتانگیز منجر شود.[۱۹]
منابع
[ویرایش]- ↑ Baxter, J. (2000). A model of inductive bias learning" Journal of Artificial Intelligence Research 12:149--198, On-line paper
- ↑ Thrun, S. (1996). Is learning the n-th thing any easier than learning the first?. In Advances in Neural Information Processing Systems 8, pp. 640--646. MIT Press. Paper at Citeseer
- ↑ Caruana, R. (1997). "Multi-task learning" (PDF). Machine Learning. 28: 41–75. doi:10.1023/A:1007379606734.
- ↑ Weinberger, Kilian. "Multi-task Learning".
- ↑ Ciliberto. "Convex Learning of Multiple Tasks and their Structure".
{{cite arxiv}}
:|arxiv=
required (help) - ↑ ۶٫۰ ۶٫۱ Hajiramezanali, E. & Dadaneh, S. Z. & Karbalayghareh, A. & Zhou, Z. & Qian, X. Bayesian multi-domain learning for cancer subtype discovery from next-generation sequencing count data. 32nd Conference on Neural Information Processing Systems (NIPS 2018), Montréal, Canada. آرخیو:1810.09433
- ↑ Weinberger, Kilian. "Multi-task Learning".
- ↑ Romera-Paredes, B. , Argyriou, A. , Bianchi-Berthouze, N. , & Pontil, M. , (2012) Exploiting Unrelated Tasks in Multi-Task Learning. http://jmlr.csail.mit.edu/proceedings/papers/v22/romera12/romera12.pdf
- ↑ Kumar, A. , & Daume III, H. , (2012) Learning Task Grouping and Overlap in Multi-Task Learning. http://icml.cc/2012/papers/690.pdf
- ↑ Ciliberto. "Convex Learning of Multiple Tasks and their Structure".
{{cite arxiv}}
:|arxiv=
required (help) - ↑ Jawanpuria, P. , & Saketha Nath, J. , (2012) A Convex Feature Learning Formulation for Latent Task Structure Discovery. http://icml.cc/2012/papers/90.pdf
- ↑ ۱۲٫۰ ۱۲٫۱ Hajiramezanali, E. & Dadaneh, S. Z. & Karbalayghareh, A. & Zhou, Z. & Qian, X. Bayesian multi-domain learning for cancer subtype discovery from next-generation sequencing count data. 32nd Conference on Neural Information Processing Systems (NIPS 2018), Montréal, Canada. آرخیو:1810.09433
- ↑ Zweig, A. & Weinshall, D. Hierarchical Regularization Cascade for Joint Learning. Proceedings: of 30th International Conference on Machine Learning (ICML), Atlanta GA, June 2013. http://www.cs.huji.ac.il/~daphna/papers/Zweig_ICML2013.pdf
- ↑ Romera-Paredes, B. , Argyriou, A. , Bianchi-Berthouze, N. , & Pontil, M. , (2012) Exploiting Unrelated Tasks in Multi-Task Learning. http://jmlr.csail.mit.edu/proceedings/papers/v22/romera12/romera12.pdf
- ↑
{{cite book}}
: Empty citation (help) - ↑ Roig, Gemma. "Deep Learning Overview" (PDF). Archived from the original (PDF) on 6 March 2016. Retrieved 1 February 2023.
- ↑ Zweig, A. & Chechik, G. Group online adaptive learning. Machine Learning, DOI 10.1007/s10994-017- 5661-5, August 2017. http://rdcu.be/uFSv
- ↑ Attenberg, J. , Weinberger, K. , & Dasgupta, A. Collaborative Email-Spam Filtering with the Hashing-Trick. http://www.cse.wustl.edu/~kilian/papers/ceas2009-paper-11.pdf بایگانیشده در ۱ آوریل ۲۰۱۱ توسط Wayback Machine
- ↑ Chappelle, O. , Shivaswamy, P. , & Vadrevu, S. Multi-Task Learning for Boosting with Application to Web Search Ranking. http://www.cse.wustl.edu/~kilian/papers/multiboost2010.pdf بایگانیشده در ۱ آوریل ۲۰۱۱ توسط Wayback Machine