یادگیری کارآموزی
![]() | این مقاله دقیق، کامل و صحیح ترجمه نشده و نیازمند ترجمه به فارسی است. کل یا بخشی از این مقاله به زبانی بهجز زبان فارسی نوشته شدهاست. اگر مقصود ارائهٔ مقاله برای مخاطبان آن زبان است، باید در نسخهای از ویکیپدیا به همان زبان نوشته شود (فهرست ویکیپدیاها را ببینید). در غیر این صورت، خواهشمند است ترجمهٔ این مقاله را با توجه به متن اصلی و با رعایت سیاست ویرایش، دستور خط فارسی و برابر سازی به زبان فارسی بهبود دهید و سپس این الگو را از بالای صفحه بردارید. همچنین برای بحثهای مرتبط، مدخل این مقاله در فهرست صفحههای نیازمند ترجمه به فارسی را ببینید. اگر این مقاله به زبان فارسی بازنویسی نشود، تا دو هفتهٔ دیگر نامزد حذف میشود و/یا به نسخهٔ زبانی مرتبط ویکیپدیا منتقل خواهد شد. |
![]() | این مقاله سبک یادکرد و شیوهٔ منبعدهی مشخصی ندارد.(ژوئن ۲۰۲۲) |
در هوش مصنوعی، یادگیری کارآموزی (یا همان یادگیری از روش نمایش) فرایند یادگیری با مشاهده یک متخصص است.[۱][۲] میتوان آن را بهعنوان نوعی از یادگیری تحت نظارت در نظر گرفت، که در آن مجموعه دادههای آموزشی از اجرای وظایف توسط یک معلم نمایشی تشکیل است.[۲]
رویکرد تابع نگاشت
[ویرایش]توابع نگاشت با ایجاد یک نگاشت مستقیم از حالات به اقدامات،[۲] یا از حالتها به مقادیر پاداش دهی، از متخصص تقلید میکنند.[۱] به عنوان مثال، در سال ۲۰۰۲، محققان از این رویکرد برای آموزش مهارتهای ابتدایی فوتبال به ربات AIBO استفاده کردند.[۲]
رویکرد یادگیری تقویتی معکوس
[ویرایش]یادگیری تقویتی معکوس (Inverse reinforcement learning) یا به اختصار IRL فرایند به دست آوردن تابع پاداش از رفتار مشاهده شده میباشد. در حالی که «یادگیری تقویتی» معمولی از پاداش و تنبیه برای یادگیری رفتار استفاده میکند، IRL بالعکس عمل میکند و ربات رفتار یک فرد را مشاهده میکند تا دریابد که شخص با آن رفتار قصد دارد به چه هدفی برسد.[۳] از مشکلات و چالشهای IRL میتوان به این موارد اشاره کرد:
1) اندازهگیری رفتار یک عامل در طول زمان، در شرایط مختلف. ۲) اندازهگیری ورودیهای سنسور آن عامل. ۳) مدلی از محیط فیزیکی (از جمله بدن عامل): تعیین تابع پاداشی که عامل در حال بهینهسازی آن است.
محقق IRL، استوارت جی. راسل، میگوید ممکن است که IRL برای مشاهده انسانها و تلاش برای کدگذاری «ارزشهای اخلاقی» پیچیده آنها، در تلاش برای ایجاد «رباتهای اخلاق مدار» که ممکن است روزی متوجه باشند که «گربه خود را نپزند» بدون نیاز به اینکه صراحتاً برای آنها توضیح داده شود استفاده شود.[۴] این سناریو را میتوان به عنوان یک «بازی یادگیری تقویتی معکوس مشارکتی» مدلسازی کرد، که در آن یک بازیکن «انسان» و یک بازیکن «ربات» برای ایمن کردن اهداف ضمنی فرد با یکدیگر همکاری میکنند، با اینکه این اهداف مشخصا برای انسان و ربات شناخته نشدهاست.[۵][۶]
در سال ۲۰۱۷، OpenAI و DeepMind برای یادگیری تقویتی معکوس مشارکتی در مسائل ساده مانند بازیهای آتاری و کارهای ساده ربات مانند، همچون backflip از یادگیری عمیق استفاده کردند. نقش انسان به پاسخ دادن و بازتاب دادن به سؤالات ربات محدود میشد که کدام یک از دو سناریوی مختلف ترجیح داده میشود. محققان شواهدی پیدا کردند که نشان میدهد ممکن است این تکنیکها از نظر اقتصادی برای سیستمهای مدرن مقیاسپذیر باشند.[۷][۸]
جستارهای وابسته
[ویرایش]منابع
[ویرایش]- ↑ ۱٫۰ ۱٫۱ "Apprenticeship learning via inverse reinforcement learning". Pieter Abbeel, Andrew Ng, In 21st International Conference on Machine Learning (ICML). 2004.
- ↑ ۲٫۰ ۲٫۱ ۲٫۲ ۲٫۳ Argall, Brenna D.; Chernova, Sonia; Veloso, Manuela; Browning, Brett (May 2009). "A survey of robot learning from demonstration". Robotics and Autonomous Systems. 57 (5): 469–483. CiteSeerX 10.1.1.145.345. doi:10.1016/j.robot.2008.10.024. خطای یادکرد: برچسب
<ref>
نامعتبر؛ نام «survey» چندین بار با محتوای متفاوت تعریف شده است. (صفحهٔ راهنما را مطالعه کنید.). - ↑ Wolchover, Natalie. "This Artificial Intelligence Pioneer Has a Few Concerns". WIRED. Retrieved 22 January 2018.
- ↑ Havens, John C. (23 June 2015). "The ethics of AI: how to stop your robot cooking your cat". the Guardian. Retrieved 22 January 2018.
- ↑ "Artificial Intelligence And The King Midas Problem". Huffington Post. 12 December 2016. Retrieved 22 January 2018.
- ↑ Hadfield-Menell, D. , Russell, S. J. , Abbeel, Pieter & Dragan, A. (2016). Cooperative inverse reinforcement learning. In Advances in neural information processing systems (pp. 3909-3917).
- ↑ "Two Giants of AI Team Up to Head Off the Robot Apocalypse". WIRED. 7 July 2017. Retrieved 29 January 2018.
- ↑ Christiano, P. F. , Leike, J. , Brown, T. , Martic, M. , Legg, S. , & Amodei, D. (2017). Deep reinforcement learning from human preferences. In Advances in Neural Information Processing Systems (pp. 4302-4310).