پیشنویس:یادگیری تقویتی/ Reinforcement Learning
مقالهٔ پیشنویس در حال حاضر برای بازبینی ثبت نشدهاست.
این یک پیشنویس واگذارشده مقالهها برای ایجاد است. این مقاله در حال حاضر در انتظار بازبینی نیست. مادامی که بهطور فعالانه در حال بهبود بخشیدن این مقاله باشید، ضربالاجلی برای تکمیل آن نیست. پیشنویسهایی که در حال بهبود یافتن نباشند ممکن است پس از شش ماه حدف شوند. دقت کنید: جعبهٔ دیافت درخواست در ابتدا در پایین صفحه پدیدار خواهد شد. اگر این جعبه را میبینید، درخواست شما با موفقیت ارسال شدهاست.
جایی که میتوانید کمک بگیرید
چگونگی بهبود یک پیشنویس
همچنین میتوانید با کنکاش در ویکیپدیا:مقالههای برگزیده و ویکیپدیا:مقالههای خوب نمونههایی از بهترین نوشتارها با موضوعی مشابه مقالهٔ مورد نظر خودتان را بیابید. شانس بیشتر برای یک بازبینی سریع برای این که شانس بازبینی سریع مقالهتان بیشتر شود، پیشنویس خود را با استفاده از دکمهٔ پایین با برچسبهای ویکیپروژهٔ مرتبط برچسب بزنید. این کار به بازبینیکنندگان کمک میکند تا مطلع شوند که یک پیشنویس جدید با موضوع مورد علاقهٔ آنها ثبت شدهاست. برای مثال، اگر مقالهای دربارهٔ یک فضانورد زن نوشتهاید، میتوانید برچسبهای زندگینامه، فضانوردی و دانشمندان زن را بیفزایید. منابع برای ویرایشگران
آخرین بار در ۲ ماه پیش توسط Javadst (بحث | مشارکتها) ویرایش شدهاست. (روزآمدسازی) |
منابع
[ویرایش]این مقاله در حال ترجمه از ویکی انگلیسی است، لطفا حذف نشود.
یادگیری تقویتی (RL) یکی از حوزههای یادگیری ماشین است که به چگونگی انجام اقداماتی توسط عوامل در یک محیط به منظور حداکثر کردن یک مفهوم پاداش تجمعی میپردازد. یادگیری تقویتی یکی از سه پارادایم اصلی یادگیری ماشین، در کنار یادگیری نظارتشده و یادگیری بدون نظارت است.
در یادگیری تقویتی، یک عامل یاد میگیرد که چگونه در یک محیط نامطمئن و بالقوه پیچیده به هدف خود برسد. در یک محیط ناشناخته، عامل ابتدا ممکن است نداند که کدام اقدامات را باید انجام دهد و باید با امتحان کردن آنها کشف کند که کدام اقدامات بیشترین پاداش را به همراه دارند. این رویکرد آزمون و خطا شامل متعادل کردن دو فعالیت است: اکتشاف (از مناطق ناشناخته) و بهرهبرداری (از دانش فعلی). تعادل بین اکتشاف و بهرهبرداری یکی از موضوعات پرمطالعه در یادگیری تقویتی است.
یادگیری تقویتی با یادگیری نظارتشده تفاوت دارد زیرا نیازی به ارائه جفتهای ورودی/خروجی صحیح نیست و اقدامات نامناسب نیاز به اصلاح ندارند. در عوض، تمرکز بر عملکرد است که شامل یافتن تعادل بین اکتشاف و بهرهبرداری میباشد.
ایده اصلی در یادگیری تقویتی، کسب بیشترین پاداش در طول زمان است. این پاداش ممکن است فوری باشد یا به تأخیر بیفتد. گاهی انجام عملی که پاداش فوری را کاهش میدهد میتواند به پاداش بزرگتری در آینده منجر شود. چنین اقداماتی به عنوان "اقدامات با پاداش تأخیری" شناخته میشوند.
برای اعمال یادگیری تقویتی به یک مسئله، معمولاً لازم است که مسئله را به صورت حالات، اقدامات، و پاداشها فرموله کنیم. وظیفه عامل این است که یک سیاست یاد بگیرد، که یک نگاشت از حالات به اقدامات است، به گونهای که پاداش تجمعی در طول زمان حداکثر شود.
الگوریتمهای یادگیری تقویتی معمولاً در سیستمهای خودمختار و رباتیک استفاده میشوند، جایی که آنها به سیستمها کمک میکنند تا یاد بگیرند چگونه بدون دخالت انسانی وظایف را انجام دهند. مثالها شامل بازوهای رباتیک که یاد میگیرند اشیا را بگیرند، پهپادها که یاد میگیرند ناوبری کنند، و خودروهای خودران که یاد میگیرند رانندگی کنند.
یکی از چالشهای کلیدی در یادگیری تقویتی تعادل بین اکتشاف و بهرهبرداری است. عوامل باید نیاز به اکتشاف محیط برای کشف اقدامات جدید که ممکن است پاداشهای بیشتری به همراه داشته باشند را با نیاز به بهرهبرداری از اقدامات شناختهشده که در حال حاضر پاداشهای بالایی به همراه دارند، متعادل کنند.
یک رویکرد رایج در یادگیری تقویتی استفاده از توابع ارزش برای تخمین پاداش آینده اقدامات مختلف و سپس استفاده از این تخمینها برای هدایت اقدامات عامل است. یکی از الگوریتمهای محبوب که از توابع ارزش استفاده میکند، Q-learning است که ارزش اقدامات در هر حالت را تخمین میزند و این تخمینها را با کسب تجربه بیشتر توسط عامل بهروزرسانی میکند.
رویکرد رایج دیگر استفاده از روشهای گرادیان سیاست است که مستقیماً سیاست عامل را بر اساس گرادیان پاداش مورد انتظار تنظیم میکنند. این روشها اغلب در محیطهایی با فضای عمل پیوسته استفاده میشوند، جایی که روشهای تابع ارزش ممکن است کمتر مؤثر باشند.
پیشرفتهای اخیر در یادگیری تقویتی روشهای تابع ارزش را با تکنیکهای یادگیری عمیق ترکیب کردهاند که به یادگیری تقویتی عمیق منجر شده است. یادگیری تقویتی عمیق در حوزههای مختلف از جمله بازیهای رایانهای (مثل AlphaGo)، کنترل رباتیک، و رانندگی خودران موفقیتهای چشمگیری کسب کرده است.
یادگیری تقویتی همچنان به عنوان یک حوزه فعال تحقیقاتی ادامه دارد، با کارهای جاری که هدف آنها بهبود کارایی و مقیاسپذیری الگوریتمها و همچنین اعمال آنها در حوزههای جدید و چالشبرانگیز است. رده:مقالههای ایجاد شده توسط ایجادگر