پیش‌نویس:یادگیری تقویتی/ Reinforcement Learning

مقالهٔ پیش‌نویس در حال حاضر برای بازبینی ثبت نشده‌است.

این یک پیش‌نویس واگذارشده مقاله‌ها برای ایجاد است. این مقاله در حال حاضر در انتظار بازبینی نیست. مادامی که به‌طور فعالانه در حال بهبود بخشیدن این مقاله باشید، ضرب‌الاجلی برای تکمیل آن نیست. پیش‌نویس‌هایی که در حال بهبود یافتن نباشند ممکن است پس از شش ماه حدف شوند.

دقت کنید: جعبهٔ دیافت درخواست در ابتدا در پایین صفحه پدیدار خواهد شد. اگر این جعبه را می‌بینید، درخواست شما با موفقیت ارسال شده‌است.

برای ویرایش پیش‌نویس، روی زبانهٔ «ویرایش» در بالای صفحه کلیک کنید.
محتوا را از منابع کپی نکنید؛ در غیر این صورت، پیش‌نویس شما به‌دلیل نقض حق تکثیر رد خواهد شد.
متن را از دیدگاهی بی‌طرف بنویسید و مقالهٔ خود را بر پایه منابع معتبری که نسبت به موضوع دارای استقلال هستند بنا کنید.
نوشتن مقاله دربارهٔ خودتان یا یا تجارتتان به‌شدت نکوهیده است. اگر تعارض منافع دارید، باید آن را اعلام کنید.

جایی که می‌توانید کمک بگیرید

اگر برای ویرایش یا ثبت‌کردن پیش‌نویس خود نیاز به کمک دارید، لطفاً سؤال خود را بپرسید در میز کمک مبا از ویرایشگران باتجربه. از این میز کمک فقط برای درخواست کمک در ویرایش یا ثبت پیش‌نویس استفاده کنید، نه برای درخواست بازبینی.
اگر نیازمند بازخورد دربارهٔ پیش‌نویس‌تان هستید، یا اینکه فرایند بازبینی خیلی طولانی شده‌است، می‌توانید در صفحهٔ بحث یک ویکی‌پروژه مرتبط درخواست کمک کنید. برخی ویکی‌پروژه‌ها از سایر ویکی‌پروژه‌ها فعال‌تر هستند و در نتیجه نمی‌توان دریافت پاسخ سریع را تضمین کرد.

چگونگی بهبود یک پیش‌نویس

راهنما:همکاری – بررسی اجمالی ابتدایی پیرامون چگونگی ویرایش در ویکی‌پدیا.
راهنما:نشانه‌گذاری ویکی – چگونگی استفاده از نشانه‌گذاری‌ها
ویکی‌پدیا:شیوه ارجاع به منابع – چگونگی درج ارجاعات و منابع
ویکی‌پدیا:توسعه مقاله – چگونه مقالهٔ خود را توسعه دهید
ویکی‌پدیا:راهنمایی برای نوشتن مقاله‌های بهتر – چگونه مقالهٔ خود را بهبود دهید
ویکی‌پدیا:تأییدپذیری – مطمئن شوید که مقالهٔ شما دربردارندهٔ منابع معتبر و مستقل است

همچنین می‌توانید با کنکاش در ویکی‌پدیا:مقاله‌های برگزیده و ویکی‌پدیا:مقاله‌های خوب نمونه‌هایی از بهترین نوشتارها با موضوعی مشابه مقالهٔ مورد نظر خودتان را بیابید.

شانس بیشتر برای یک بازبینی سریع

برای این که شانس بازبینی سریع مقاله‌تان بیشتر شود، پیش‌نویس خود را با استفاده از دکمهٔ پایین با برچسب‌های ویکی‌پروژهٔ مرتبط برچسب بزنید. این کار به بازبینی‌کنندگان کمک می‌کند تا مطلع شوند که یک پیش‌نویس جدید با موضوع مورد علاقهٔ آن‌ها ثبت شده‌است. برای مثال، اگر مقاله‌ای دربارهٔ یک فضانورد زن نوشته‌اید، می‌توانید برچسب‌های زندگی‌نامه، فضانوردی و دانشمندان زن را بیفزایید.

به پیش‌نویس خود یک برچسب بیفزایید

منابع برای ویرایشگران

یافتن منابع: گوگل (کتاب‌ها · اخبار · روزنامه‌ها · آکادمیک · تصاویر آزاد · ارجاعات وپ) · اخبار آزاد · جی‌استور · نیویورک تایمز · کتابخانه وپ
ابزارهای ساده: ربات یادکرد (راهنما) | پیشرفته: تعمیر پیوندهای ابهام‌دار · تعمیر پیوندهای عریان · تعمیر پیوندهای خراب

آخرین بار در ۲ ماه پیش توسط Javadst (بحث | مشارکت‌ها) ویرایش شده‌است. (روزآمدسازی)

ثبت پیش‌نویس برای بازبینی!

منابع

این مقاله در حال ترجمه از ویکی انگلیسی است، لطفا حذف نشود.

یادگیری تقویتی (RL) یکی از حوزه‌های یادگیری ماشین است که به چگونگی انجام اقداماتی توسط عوامل در یک محیط به منظور حداکثر کردن یک مفهوم پاداش تجمعی می‌پردازد. یادگیری تقویتی یکی از سه پارادایم اصلی یادگیری ماشین، در کنار یادگیری نظارت‌شده و یادگیری بدون نظارت است.

در یادگیری تقویتی، یک عامل یاد می‌گیرد که چگونه در یک محیط نامطمئن و بالقوه پیچیده به هدف خود برسد. در یک محیط ناشناخته، عامل ابتدا ممکن است نداند که کدام اقدامات را باید انجام دهد و باید با امتحان کردن آن‌ها کشف کند که کدام اقدامات بیشترین پاداش را به همراه دارند. این رویکرد آزمون و خطا شامل متعادل کردن دو فعالیت است: اکتشاف (از مناطق ناشناخته) و بهره‌برداری (از دانش فعلی). تعادل بین اکتشاف و بهره‌برداری یکی از موضوعات پرمطالعه در یادگیری تقویتی است.

یادگیری تقویتی با یادگیری نظارت‌شده تفاوت دارد زیرا نیازی به ارائه جفت‌های ورودی/خروجی صحیح نیست و اقدامات نامناسب نیاز به اصلاح ندارند. در عوض، تمرکز بر عملکرد است که شامل یافتن تعادل بین اکتشاف و بهره‌برداری می‌باشد.

ایده اصلی در یادگیری تقویتی، کسب بیشترین پاداش در طول زمان است. این پاداش ممکن است فوری باشد یا به تأخیر بیفتد. گاهی انجام عملی که پاداش فوری را کاهش می‌دهد می‌تواند به پاداش بزرگتری در آینده منجر شود. چنین اقداماتی به عنوان "اقدامات با پاداش تأخیری" شناخته می‌شوند.

برای اعمال یادگیری تقویتی به یک مسئله، معمولاً لازم است که مسئله را به صورت حالات، اقدامات، و پاداش‌ها فرموله کنیم. وظیفه عامل این است که یک سیاست یاد بگیرد، که یک نگاشت از حالات به اقدامات است، به گونه‌ای که پاداش تجمعی در طول زمان حداکثر شود.

الگوریتم‌های یادگیری تقویتی معمولاً در سیستم‌های خودمختار و رباتیک استفاده می‌شوند، جایی که آن‌ها به سیستم‌ها کمک می‌کنند تا یاد بگیرند چگونه بدون دخالت انسانی وظایف را انجام دهند. مثال‌ها شامل بازوهای رباتیک که یاد می‌گیرند اشیا را بگیرند، پهپادها که یاد می‌گیرند ناوبری کنند، و خودروهای خودران که یاد می‌گیرند رانندگی کنند.

یکی از چالش‌های کلیدی در یادگیری تقویتی تعادل بین اکتشاف و بهره‌برداری است. عوامل باید نیاز به اکتشاف محیط برای کشف اقدامات جدید که ممکن است پاداش‌های بیشتری به همراه داشته باشند را با نیاز به بهره‌برداری از اقدامات شناخته‌شده که در حال حاضر پاداش‌های بالایی به همراه دارند، متعادل کنند.

یک رویکرد رایج در یادگیری تقویتی استفاده از توابع ارزش برای تخمین پاداش آینده اقدامات مختلف و سپس استفاده از این تخمین‌ها برای هدایت اقدامات عامل است. یکی از الگوریتم‌های محبوب که از توابع ارزش استفاده می‌کند، Q-learning است که ارزش اقدامات در هر حالت را تخمین می‌زند و این تخمین‌ها را با کسب تجربه بیشتر توسط عامل به‌روزرسانی می‌کند.

رویکرد رایج دیگر استفاده از روش‌های گرادیان سیاست است که مستقیماً سیاست عامل را بر اساس گرادیان پاداش مورد انتظار تنظیم می‌کنند. این روش‌ها اغلب در محیط‌هایی با فضای عمل پیوسته استفاده می‌شوند، جایی که روش‌های تابع ارزش ممکن است کمتر مؤثر باشند.

پیشرفت‌های اخیر در یادگیری تقویتی روش‌های تابع ارزش را با تکنیک‌های یادگیری عمیق ترکیب کرده‌اند که به یادگیری تقویتی عمیق منجر شده است. یادگیری تقویتی عمیق در حوزه‌های مختلف از جمله بازی‌های رایانه‌ای (مثل AlphaGo)، کنترل رباتیک، و رانندگی خودران موفقیت‌های چشمگیری کسب کرده است.

یادگیری تقویتی همچنان به عنوان یک حوزه فعال تحقیقاتی ادامه دارد، با کارهای جاری که هدف آن‌ها بهبود کارایی و مقیاس‌پذیری الگوریتم‌ها و همچنین اعمال آن‌ها در حوزه‌های جدید و چالش‌برانگیز است. رده:مقاله‌های ایجاد شده توسط ایجادگر