یادگیری تقویتی از بازخورد انسانی
یادگیری ماشین و دادهکاوی |
---|
درحوزه یادگیری ماشین، یادگیری تقویتی از بازخورد انسانی (انگلیسی: Reinforcement learning from human feedback) (اختصاری RLHF) تکنیکی برای همسو کردن یک عامل هوشمند با ترجیحات انسانی است. در یادگیری تقویتی کلاسیک، هدف غایی چنین عاملی، آموزش تابعی (که خطمشی[الف] نامیده میشود) است تا رفتار آن عامل را هدایت کند. این تابع یاد میگیرد که چگونه بر اساس عملکرد خود، بتواند پاداش دریافتی خود را از یک تابع پاداش بیرونی به حداکثر برساند.[۱] ولی در مورد ترجیحات انسانی، تعریف دقیق تابع پاداشی که ترجیحات انسان را تقریب میزند، دشوار است. بنابراین، RLHF به دنبال آموزش مستقیم "مدل پاداش" از روی بازخورد انسانی است.[۲] ابتدا مدل پاداش، مستقل از خطمشی در حال بهینهسازی، به شیوهای نظارتشده آموزش داده میشود. بدین روش که بر اساس دادههای رتبهبندی تهیه شده توسط نظرنویسان انسانی (برچسبگذار)، بتواند پیشبینی کند که آیا پاسخ داده شده به پرسش (ورودی) خوب (پاداش بالا) است یا بد (پاداش کم). سپس این مدل در یک الگوریتم بهینهسازی، مانند بهینهسازی خطمشی پروگزیمال[ب]، به عنوان یک تابع پاداش برای بهبود خطمشی عامل مورد استفاده قرار میگیرد.[۳]
RLHF در حوزههای مختلف یادگیری ماشین کاربرد دارد، همچون وظایف پردازش زبان طبیعی (مانند خلاصه کردن متن و عاملهای مکالمهکننده)، یا وظایف بینایی رایانهای (مانند مدلهای متن به تصویر ، و توسعه رباتهای بازیهای ویدئویی. در حالی که RLHF یک روش بهبود عملکرد در آموزش مدل به منظور انطباق با ترجیحات انسانی است، ولی در نحوه جمعآوری دادههای ترجیحات انسانی با چالشهایی نیز مواجه است. اگرچه RLHF برای بهبود عملکرد به مقادیر زیادی داده نیاز ندارد، با این حال تامین دادههای ترجیحی با کیفیت بالا هنوز هم یک فرآیند گران به حساب میآید. علاوه بر این، اگر دادهها از یک نمونه نماینده، به دقت جمع آوری نشده باشند، مدل بهدست آمده ممکن است سوگیریهای ناخواستهای را نشان دهد.
پیشینه و انگیزه
[ویرایش]بهینهسازی یک مدل بر اساس بازخورد انسانی زمانی مطلوب است که تعیین تکلیف دشوار باشد اما قضاوت آن آسان باشد.[۴] برای مثال، ممکن است در نظر داشته باشید که مدلی را آموزش دهید تا متن ایمن تولید کند که همزمان هم مفید و هم بیضرر (مثلاً بدون سوگیری، غیر سمی یا بدون مضر) باشد. درخواست از انسان برای ایجاد فهرستی از نمونههای بیضرر و مضر به صورت دستی دشوار و وقتگیر خواهد بود. با این حال، انسانها در ارزیابی و مقایسه سریع مضرات متنهای مختلف تولید شده توسط هوش مصنوعی ماهر هستند. بنابراین، یک راهکار عملی این است که به مدل اجازه دهیم از این نوع بازخورد انسانی برای بهبود تولید متن خود استفاده کند.[۵]
علیرغم مزایای واضح ادغام بازخورد انسانی در آموزش مدلها، تلاشهای اولیه با چالشهای مهمی مواجه شدند. مشکل یادگیری تقویتی در بیشتر تلاشها اول آن بود که محدود بودند و تعمیم آنها دشوار بود، و در انجام وظایف پیچیدهتر به شکست منجر میشدند،[۶][۷][۸][۹] و دوم این که در استفاده از توابع پاداش پراکنده (که فاقد اطلاعات خاص و ارتباط لازم با مقادیر زیادی از متن در یک زمان بودن) یا توابع پاداش با نویز بالا ( که به طور متناقض به خروجیهای مشابه پاداش یکسان میدادند) با مشکلاتی مواجه بودند.[۱۰][۱۱]
RLHF اولین روش موفق استفاده از بازخورد انسانی برای یادگیری تقویتی نبود، اما یکی از پرکاربردترین روش هاست. پایه و اساس RLHF در تلاش به منظور ایجاد یک الگوریتم عمومی برای یادگیری با استفاده از بازخورد انسانی معرفی شد.[۳][۴] الگوریتمی که امروزه استفاده میشود توسط اوپنایآی در مقالهای پیرامون بهبود جریان پیشنهاد متن، یا خلاصهسازی بر اساس بازخورد انسانی معرفی شد. و همزمان که در مقاله دیگری در رابطه با جیپیتی ۳ (سلف چتجیپیتی) مورد استفاده قرار گرفت محبوبیت عمومی پیدا کرد.[۲][۱۲][۱۳] بهعلاوه، نشان داده شده است که RLHF استواری عاملهای RL و ظرفیت آنها برای اکتشاف را بهبود میبخشد، که منجر به یک فرآیند بهینهسازی کاراتر در مدیریت عدم قطعیت و کاوش موثرتر محیط خود جهت بهدست آوردن بالاترین پاداش میشود.[۱۴]
جمع آوری بازخوردهای انسانی
[ویرایش]بازخورد انسانی معمولاً با جمعآوری پاسخ انسانها به درخواست رتبهبندی رفتارهای خروجی عامل انجام میشود. [۱۳][۱۵][۱۶] از این رتبهبندیها برای امتیاز دادن به خروجیها استفاده میشود. برای مثال، سیستم ردهبندی الو، که الگوریتمی است برای محاسبه سطح مهارت نسبی بازیکنان در یک بازی است و به نتیجه همان بازی بستگی دارد. با وجودی که رتبهبندی خروجیها رایجترین شکل بازخورد است، تحقیقات اخیر انواع دیگری از بازخورد مانند بازخورد عددی، بازخورد زبان طبیعی، و درخواست برای ویرایش مستقیم خروجی مدل را بررسی کردهاند.[۱۷]
یکی از انگیزههای اولیه استفاده از RLHF این بود که به مقادیر نسبتاً کمی از داده مقایسهای برای مؤثر بودن نیاز دارد.[۴] نشان داده شده که حجم کوچکی از دادهها میتواند منجر به نتایج قابل مقایسه با مقدار زیادی از داده شود. علاوه بر این، افزایش مقدار داده اثر کمتری دارد نسبت به همان میزان افزایش در اندازه مدل پاداش.[۱۲] با این وجود در مواردی که گروه برچسبگذار نماینده یکدستی از دادهها نباشد، حجم وسیعتر و متنوعتر دادهها میتواند برای اجتناب از سوگیری حیاتی باشد.[۱۳]
در هنگام بهرهگیری از RLHF از طریق مقایسه زوجی تحت مدل بردلی-تری-لوس (یا مدل پلاکت-لوس برای مقایسههای K-wise بیش از دو مقایسه)، برآورد درستنمایی بیشینه[پ] توابع پاداش خطی، تنها زمانی همگرا میشود که دادههای مقایسهای توسط یک مدل خطی خوشتعریف، به خوبی تولید شوند. این بدان معناست که، تحت شرایط خاص، اگر یک مدل آموزش در انتخاب بین یک (یا گروهی از) جفت گزینههای پیش رو، تصمیمی را بگیرد که به ترجیح انسانها نزدیکتر است، لزوماً در پیشبینی ترجیحات آینده بهبود مییابد. انتظار بهبود در پاسخها تا زمانی برقرار است که مقایسههایی که مدل از آنها میآموزد مبتنی بر یک قانون منسجم و ساده (غیر پیچیده) باشد.[۱۸][۱۹]
تا اینجا با دو مدل جمعآوری داده آشنایی داریم. در روش جمعآوری داده غیربرخط، مدل در تعامل با یک مجموعه داده ایستا آموزش میبیند و به صورت دستهای خطمشی خود را بهروزرسانی میکند. در روش برخط، مدل به طور مستقیم با محیط پویا در تعامل است و خطمشی خود را بلافاصله بهروزرسانی میکند. هر دو روش از نظر ریاضی مورد مطالعه قرار گرفت و به این نتیجه منتهی شد که اجرای RLHF تحت مدلهای بازخوردی مختلف مرزهای پیچیدگی یکسانی دارد.[۱۸][۲۰]
در مرحله آموزش خطمشی با استفاده از روش جمعآوری داده غیربرخط، استفاده از یک MLE بدبینانه دارای یک کران اطمینان پایین به عنوان تخمین پاداش، مؤثرتر خواهد بود. علاوه بر این، در صورت امکان، نشان داده شده است که استفاده مستقیم از مقایسههای K-wise به طور مجانبی کارآمدتر از تبدیل آنها به مقایسههای زوجی برای اهداف پیشبینی است.[۱۳][۲۰][۲۱]
در روش برخط، که بازخورد انسانی از طریق مقایسههای زوجی تحت مدل بردلی-تری-لوس جمعآوری میشود و هدف ما به حداقل رساندن پشیمانی الگوریتم (تفاوت عملکرد در مقایسه با عامل بهینه) است، نشان داده شده که، استفاده از یک MLE خوش بینانه با یک کران اطمینان بالا به عنوان تخمین پاداش، میتواند به طراحی الگوریتمهای کارآمد منتهی شود. به این معنی که به دادههای آموزشی نسبتا کمی نیاز داریم. یک چالش کلیدی در RLHF هنگام یادگیری از طریق مقایسههای زوجی (یا دوئل)، مشکل ماهیت غیر مارکوفی خطمشی بهینهسازی است. برخلاف سناریوهای سادهتر که در آن استراتژی بهینه نیاز به خاطر سپردن اقدامات گذشته ندارد، در RLHF، غالباً بهترین روش عملیاتی به رویدادها و تصمیمهای قبلی بستگی دارد و استراتژی را وابسته به حافظه میکند.[۱۹]
کاربرد
[ویرایش]RLHF در حوزههای مختلف پردازش زبان طبیعی (NLP)، مانند عاملهای مکالمهکننده، خلاصهسازی متن و درک زبان طبیعی به کار گرفته شده است.[۱۲][۲۲] در یادگیری تقویتی مرسوم عاملها از اقدامات خود بر اساس یک "عملکرد پاداش" از پیش تعریف شده یاد میگیرند. استفاده از چنین روشی برای کاربردهای NLP دشوار خواهد بود از این جهت که تعریف یا اندازهگیری پاداشها دشوار است. به ویژه زمانی که با وظایف پیچیدهای سروکار داریم که در بر گیرنده اولویتها، ترجیحات و ارزشهای انسانی است. RLHF میتواند بهوسیلهٔ دریافت کردن پیشاپیش ترجیحات و اعمال آن در مدل پاداش، مدلهای NLP (بهویژه مدلهای زبانی) را طوری هدایت کند که پاسخهایی منطبق بر ترجیحات انسان ارائه کند. این روش به مدلی منتهی میشود که قادر به ایجاد پاسخهای مرتبطتر و حذف پرسوجوهای نامناسب یا نامربوط است.[۲۳] برخی از نمونههای قابلتوجه از مدلهای زبان آموزشدیده با RLHF عبارتند از چتجیپیتی (و InstructGPT سلف آن) از شرکت اوپنایآی،[۲۴][۲۵][۲۶] اسپارو[ت] (گنجشک) از شرکت دیپمایند،[۲۷][۲۸] جمینای شرکت گوگل،[۲۹] و کلود از شرکت آنتروپیک هستند.[۳۰]
در بینایی کامپیوتر، RLHF برای همسو کردن مدلهای متن به تصویر نیز استفاده شده است. مطالعاتی که با موفقیت از RLHF برای این هدف استفاده کردند، اشاره کردهاند که استفاده از منظمسازی KL در RLHF، که با هدف جلوگیری از دور شدن بیش از حد خطمشی آموختهشده از مدل ناهمسو بکارگرفته شد، منجر به کاهش بیشبرازش در طول آموزش مدل پاداش شد و به پایداری کل پروسه کمک کرد. خروجیهای تصویر نهایی مدلهای آموزشدیده با تنظیم KL به طور قابل توجهی کیفیت بالاتری از مدلهای بدون آن بودند.[۳۱][۳۲] روشهای دیگر سعی کردند بازخورد را از طریق آموزش مستقیمتر - بر اساس به حداکثر رساندن پاداش بدون استفاده از یادگیری تقویتی - ترکیب کنند، اما پذیرفتند که رویکرد مبتنی بر RLHF عملکرد بهتری خواهد داشت. بهعلاوه، RLHF امکان تولید نمونه برخط را در طول بهروزرسانیها به محققان میداد. همین ویژگی باعث دور نگه داشته شدن بیشبرازش تابع پاداش میشد.
RLHF در ابتدا در زمینههای دیگر مانند توسعه رباتهای بازیهای ویدئویی و وظایف رباتیک شبیهسازی شده استفاده شد. به عنوان مثال، اوپنایآی و دیپمایند عاملهایی را برای انجام بازیهای آتاری بر اساس ترجیحات انسانی آموزش دادند. در آموزش کلاسیک چنین رباتهایی مبتنی بر روش RL، تابع پاداش به عملکرد عامل در بازی مرتبط میشد، که معمولاً از معیارهایی مانند امتیاز درون بازی استفاده میکردند. ولی در RLHF، یک انسان به طور مداوم با دو کلیپ متفاوت از رفتار عامل در بازی مواجه میشود و باید تصمیم بگیرد که کدام یک بهتر به نظر میرسد. این رویکرد میتواند به عاملها بیاموزد که در سطح بالاتر و بدون دسترسی به امتیاز خود عمل کنند. در واقع، نشان داده شد که گاهی RLHF میتواند به عملکرد برتر نسبت به RL با معیارهای امتیاز منجر شود. زیرا ترجیحات انسان میتواند حاوی اطلاعات مفیدتری نسبت به معیارهای مبتنی بر عملکرد باشد.[۳۳][۳۴] این عاملهای آموزش دیده با RLHF در بسیاری از محیطهای آزمایششده به عملکرد قوی دست یافتند که اغلب از عملکرد انسان پیشی میگرفتند.[۳۵]
آموزش
[ویرایش]در RLHF، دو مدل به طور مستقل آموزش داده میشوند: یک مدل پاداش و یک مدل خطمشی از طریق یادگیری تقویتی (اختصاری RL). مدل پاداش، بر اساس بازخورد انسانی یاد میگیرد که تعیین کند چه رفتاری مطلوب است. مدل پاداش در همین حین، خطمشی را به گونهای هدایت میکند که اقدامات عامل را تعیین کند. هر دو مدل معمولاً با استفاده از یک مدل زبانی خودهمبسته پیشآموزشدیده مقداردهی اولیه میشوند. سپس این مدل به شیوهای نظارتشده بر روی مجموعه دادههای نسبتاً کوچکی از جفت پرسش و پاسخهایی که توسط برچسبگذارهای انسانی نوشته شده، آموزش داده میشود. یک مزیت برای مدل پاداش این است که با یک مدل از پیش آموزشدیده شروع به کار میکند، زیرا این مدل با درک زبان انسان ترجیحات انسانی به سرعت دریافت کرده ودر نتیجه روند آموزش را تسریع میکند.[۳۶]
سپس مدل پاداش با جایگزینی لایه انتهایی مدل قبلی، با یک سر رگرسیون با داده تصادفی، آموزش داده میشود.با این کار، مدل را از وظیفه اولیه دستهبندی خود بر روی دانشنامهاش، تغییر میدهیم به طوری که خروجی آن یک عدد است که مطابق با امتیاز هر پرسش و پاسخ معین تغییر میدهد. این مدل بر روی دادههای مقایسهای ترجیحات انسانی، که قبلاً از مدل نظارتشده جمعآوری شده بود آموزش داده میشود. در این مقاله، مدل برای به حداقل رساندن تابع تلفات آنتروپی متقاطع زیر آموزش داده شده است، که آن را تشویق میکند تا پیشبینیهایی نزدیکتر به رتبهبندیهای واقعی انسان انجام دهد:
که تعداد پاسخهایی است که برچسبگذاران رتبهبندی کردهاند، خروجی مدل پاداش برای پرسش و تکمیل پرسش است، تکمیل پرسش ترجیح داده شده از مجموعه است، نشان دهنده تابع سیگموئید و نشان دهنده مقدار مورد انتظار است. این تابع تلفات اساساً تفاوت بین پیشبینیهای مدل پاداش و تصمیمهای گرفته شده توسط انسان را اندازهگیری میکند. هدف این است که حدسهای مدل را تا حد امکان به ترجیحات انسانها نزدیک کنیم و اختلاف اندازهگیری شده توسط این معادله را به حداقل برسانیم. در حالتهای مقایسهای فقط زوجی، عامل حذف میشود.[۳۶] در باقی موارد، همه مقایسههای مربوط به یک پرسش، برای آموزش، تحت یک دسته واحد استفاده میشود. پس از آموزش، خروجیهای مدل نرمال میشوند.[۳۶]
بسیار شبیه به مدل پاداش، خطمشی بازخورد انسانی نیز بر روی یک مدل از پیش آموزش دیده تنظیم دقیق شده است. هدف از مرحله تنظیم دقیق، انطباق مدل موجود و غیرهمسو (که در ابتدا به روش نظارتشده آموزش دیده) با هدف همسویی بهتر با ترجیحات انسان است. که این امر با تنظیم پارامترهای آن بر اساس پاداشهای حاصل از بازخورد انسان انجام میپذیرد. با استفاده از RL بر روی جفتهای پرسش و پاسخ، خروجی مدل پاداش را میتوان پاداشی در نظر گرفت که باید به حداکثر برسد.[۳۶] محیط، خطمشی را با اعلانهای تصادفی از مجموعه داده مواجه میکند و انتظار پاسخ به آنها دارد. با این کار سناریوهای دنیای واقعی را شبیهسازی میکند که در آن عامل باید اعلانهای متنوع را درک کند و پاسخهای مناسب ایجاد کند. با نمایش خطمشی RL آموخته شده با پارامترها مانند ، میتوانیم تابع هدف زیر را تعریف کنیم:
که توزیع آموزشی است که ما نمونهها را از آن میگیریم و مدل قبلی آموزشدیده و ناهمسو است. ثابت برای تنظیم شدت مجازات KL استفاده میشود. این جریمه برای هر کدام از نشانهها، بین خروجیهای خطمشی و خروجیهای مدل ناهمسو اعمال میشود. هدف آن اجتناب از تنظیم بیش از حد خطمشی است، و تضمین میکند که فرآیند آموزش، مدل را بر روی دادههای آموزشی جدید بیش از حد متخصص نمیکند.[۳۶] بخش KL با جریمه کردن واگرایی KL (اندازهگیری فاصله آماری بین توزیعها) بین مدل تنظیم دقیق شده و مدل نظارتشده اولیه کار میکند. با انتخاب مناسب، آموزش میتواند یادگیری از دادههای جدید را متعادل کند و در عین حال اطلاعات مفید مدل اولیه را حفظ کند و با اجتناب از بیشبرازش، با دادههای جدید تعمیم یابد. جدای از جلوگیری از تولید خروجیهای بسیار متفاوت در مدل جدید در مقایسه با خروجیهای مدل اولیه، انگیزه دوم از گنجاندن اصطلاح KL این است که به خطی مشی اجازه میدهد با ایجاد آنتروپی[ث] مدل را تشویق میکند، محیط بزرگتری را مورد بررسی قرار دهد، که میتواند از فروریزش مدل بر روی یک واحد مد (حالت) جلوگیری کند.[۳۶]
به عبارت سادهتر، تابع هدف، میزان بهبود همسویی پاسخهای خطمشی را با بازخورد انسانی محاسبه میکند. خطمشی به هر درخواست یک پاسخ تولید میکند و هر پاسخ نیز بر اساس میزان مطابقت با دو معیار دیگر، اول ترجیحات انسانی (که توسط مدل پاداش اندازهگیری میشود) و دوم شباهت به پاسخهایی است که مدل به طور طبیعی ایجاد میکند، ارزیابی میشود. هدف، ایجاد تعادل بین بهبود همسویی با ترجیحات انسانی است، در حالی که اطمینان حاصل میشود که پاسخهای مدل متنوع باقی میمانند و از آنچه در طول آموزش اولیه آموخته است فاصله زیادی نمیگیرد. این به مدل کمک میکند تا نه تنها پاسخهایی تولید کند که که افراد مفید یا قابل قبول میدانند، بلکه درک گستردهای را حفظ کند و از پاسخهای بیش از حد محدود یا تکراری اجتناب کند.
معمولاً یک بخش دوم به تابع هدف اضافه میشود که به خطمشی اجازه میدهد تا گرادیانهای پیشآموزش را در خود جای دهد. این بخش باعث میشود که مدل توانایی درک زبان اولیه خود را از دست ندهد، در حالی که وظیفه اصلی خود (تکمیل متن) را انجام میدهد، با گنجاندن پیشآموزش و بر اساس بازخورد انسانی، وظایف جدید را نیز بیاموزد. تابع هدف نهایی به صورت زیر نوشته میشود:
که میزان اثرگذاری بخش دوم را کنترل میکند و توزیع متن اصلی قبل از آموزش است. در ادامه این تابع هدف میتواند مستقیماً برای آموزش خطمشی با استفاده از الگوریتم بهینهسازی خطمشی پروگزیمال استفاده شود.[۳۶]
در مجموع، این تابع هدف، با ترکیب هدف همسویی با استفاده از بازخورد انسانی، و همچنین حفظ درک زبان اصلی مدل، روشی را برای تنظیم خطمشی RL، تعریف میکند.
محدودیتها
[ویرایش]RLHF در بخشهای جمعآوری بازخورد انسانی، یادگیری مدل پاداش و بهینهسازی خطمشی با چالشهای جدی روبرو.[۳۷] از نظر جمعآوری دادهها، مقیاسپذیری و هزینه بازخورد انسانی در مقایسه با یادگیری بدون نظارت میتواند زمانبر و گران باشد. کیفیت و انسجام آن نیز ممکن است بسته به وظیفه، رابط، و ترجیحات و سوگیریهای افراد مختلف متفاوت باشد.[۳۸]
اثربخشی RLHF به کیفیت بازخورد انسان بستگی دارد. به عنوان مثال، اگر بازخورد فاقد بیطرفی، ناسازگار یا نادرست باشد، ممکن است سوگیرانه شود و گروههای خاصی را بر گروههای دیگر ترجیح دهد.[۳۹] در جایی که مدل به جای یادگیری تعمیمیافته نمونههای بازخورد خاصی را حفظ میکند، خطر بیشبرازش وجود دارد. برای مثال، بازخورد بهدست آمده از یک جمعیت خاص ممکن است مدل را به یادگیری ویژگیها یا نویز، همراه با همسویی متفق با آن گروه سوق دهد. همسویی بیش از حد، با بازخورد خاصی که دریافت میکند (یعنی سوگیری در آن) میتواند منجر به عملکرد ضعیف مدل در زمینههای جدید یا زمانی که توسط گروههای مختلف استفاده میشود، شود. یک تابع پاداش واحد نمیتواند همیشه نظرات گروههای مختلف مردم را نشان دهد. حتی با وجود یک نمونه نماینده، دیدگاهها و ترجیحات متضاد ممکن است منجر به این شود که مدل پاداش به نفع نظر اکثریت باشد و به طور بالقوه به گروههای دارای نمایندگی کمتر آسیب برساند.[۴۰]
در برخی موارد، همانطور که در یادگیری تقویتی معمولی امکانپذیر است، ممکن است خطر یادگیری مدل برای دستکاری فرآیند بازخورد یا بازی دادن سیستم برای دستیابی به پاداشهای بالاتر به جای بهبود واقعی عملکرد آن وجود داشته باشد.[۴۱] در مورد RLHF، یک مدل ممکن است یاد بگیرد که از این واقعیت استفاده کند که برای آنچه به طور مثبت ارزیابی میشود و نه لزوماً برای آنچه واقعا خوب است، پاداش میگیرد، که میتواند منجر به یادگیری برای دنبالهروی و دستآموز شدن بشود. برای مثال، مدلها ممکن است یاد بگیرند که اعتماد ظاهری، حتی اگر نادرست باشد، پاداشهای بیشتری را به همراه دارد. چنین رفتاری، اگر کنترل نشود، نه تنها مشوق است، بلکه به دلیل پتانسیل مدل برای گمراه کردن، میتواند باعث ایجاد مشکلات قابل توجهی در اجرایی شدن بشود. مطالعات نشان دادهاند که انسانها در شناسایی اشتباهات در خروجیهای LLM در کارهای پیچیده مهارت ندارند. بنابراین، مدلهایی که یاد میگیرند متنی با صدایی مطمئن و در عین حال نادرست تولید کنند، میتوانند منجر به مشکلات مهمی در هنگام پیاده سازی شوند.[۴۲]
گزینههای جایگزین
[ویرایش]در زمینه یادگیری ترجیحات انسانی، جایگزینی برای RLHF به نام بهینه سازی ترجیح مستقیم[ج] (اختصاری DPO) پیشنهاد شده است. درست مشابه RLHF، با استفاده از دادههای ترجیحی تولید شده توسط انسان با هدف همسو کردن، به مدل زبانی بزرگ از پیش آموزشدیده اعمال میشود. با این حال، برخلاف RLHF، که ابتدا یک مدل واسط جداگانه را آموزش میدهند تا بفهمد نتایج خوب چگونه باید به نظر برسند و سپس آموزش مدل اصلی برای دستیابی به آن نتایج، در روش پیشنهادی DPO، با تنظیم مستقیم مدل اصلی بر اساس ترجیحات افراد، فرآیند را ساده میکنند. این روش برای تعریف "هزینه ترجیح" به عنوان تابعی از خطمشی، مستقیماً متغیرها را تغییر میدهد، و از این هزینه برای تنظیم دقیق مدل استفاده میکند. این کار به مدل کمک میکند ترجیحات انسانی را بدون نیاز به مراحل جداگانه درک و اولویتبندی کند. اساساً، این رویکرد مستقیماً تصمیمات مدل را بر اساس بازخورد مثبت یا منفی انسان شکل میدهد.
DPO برای پیاده سازی و آموزش سادهتر از RLHF است و نشان داده شده است که نتایج قابل مقایسه و گاهی بهتر را ایجاد میکند.[۴۳] با این وجود، نشان داده شده است که RLHF در برخی از مجموعه دادهها، به عنوان مثال، در معیارهایی که سعی در اندازهگیری درستی دارند، DPO را پشت سر میگذارد. بنابراین، انتخاب روش ممکن است بسته به ویژگیهای دادههای ترجیحی انسان و ماهیت کار متفاوت باشد.[۴۴]
مشاهدات بیشتر
[ویرایش]یادداشتها
[ویرایش]منابع
[ویرایش]- ↑ Artificial intelligence: a modern approach. Pearson. 2016. pp. 830–831. ISBN 978-0-13-604259-4.
- ↑ ۲٫۰ ۲٫۱ "Fine-Tuning Language Models from Human Preferences". Arxiv (به انگلیسی). 2019-09-18.
- ↑ ۳٫۰ ۳٫۱ Lambert, Nathan; Castricato, Louis; von Werra, Leandro; Havrilla, Alex. "Illustrating Reinforcement Learning from Human Feedback (RLHF)". huggingface.co. Retrieved 4 March 2023.
- ↑ ۴٫۰ ۴٫۱ ۴٫۲ Amodei, Dario; Christiano, Paul; Ray, Alex (13 June 2017). "Learning from human preferences". openai.com. Retrieved 4 March 2023.
- ↑ Zheng, Rui; Dou, Shihan; Gao, Songyang; Hua, Yuan; Shen, Wei; Wang, Binghai; Liu, Yan; Jin, Senjie; Liu, Qin; Zhou, Yuhao; Xiong, Limao; Chen, Lu; Xi, Zhiheng; Xu, Nuo; Lai, Wenbin; Zhu, Minghao; Chang, Cheng; Yin, Zhangyue; Weng, Rongxiang; Cheng, Wensen; Huang, Haoran; Sun, Tianxiang; Yan, Hang; Gui, Tao; Zhang, Qi; Qiu, Xipeng; Huang, Xuanjing (2023). "Secrets of RLHF in Large Language Models Part I: PPO". arXiv:2307.04964 [cs.CL].
- ↑ "Training a Robot via Human Feedback: A Case Study". Social Robotics. Lecture Notes in Computer Science (به انگلیسی). Springer International Publishing. 8239: 460–470. doi:10.1007/978-3-319-02675-6_46. ISBN 978-3-319-02674-9.
- ↑ "APRIL: Active Preference-learning based Reinforcement Learning". Arxiv (به انگلیسی). 2012-08-05.
- ↑ "A Bayesian Approach for Policy Learning from Trajectory Preference Queries". Advances in Neural Information Processing Systems (به انگلیسی). Curran Associates, Inc. 25.
- ↑ "Programming by Feedback". Proceedings of the 31st International Conference on Machine Learning (به انگلیسی). PMLR: 1503–1511. 2014-06-18.
- ↑ "Deep TAMER: Interactive Agent Shaping in High-Dimensional State Spaces". Arxiv (به انگلیسی). 2017-09-28.
- ↑ "Interactive Learning from Policy-Dependent Human Feedback". Arxiv (به انگلیسی). 2019-01-21.
- ↑ ۱۲٫۰ ۱۲٫۱ ۱۲٫۲ Nisan Stiennon; Long Ouyang; Jeffrey Wu; Daniel Ziegler; Ryan Lowe; Chelsea Voss; Alec Radford; Dario Amodei; Paul F. Christiano (2020). "Learning to summarize with human feedback". Advances in Neural Information Processing Systems (به انگلیسی). 33.
- ↑ ۱۳٫۰ ۱۳٫۱ ۱۳٫۲ ۱۳٫۳ Ouyang, Long; Wu, Jeffrey; Jiang, Xu; Almeida, Diogo; Wainwright, Carroll; Mishkin, Pamela; Zhang, Chong; Agarwal, Sandhini; Slama, Katarina; Gray, Alex; Schulman, John; Hilton, Jacob; Kelton, Fraser; Miller, Luke; Simens, Maddie; Askell, Amanda; Welinder, Peter; Christiano, Paul; Leike, Jan; Lowe, Ryan (31 October 2022). Training language models to follow instructions with human feedback. Thirty-Sixth Conference on Neural Information Processing Systems: NeurIPS 2022 (به انگلیسی). arXiv:2203.02155.
- ↑ Bai, Yuntao; Jones, Andy; Ndousse, Kamal; Askell, Amanda; Chen, Anna; DasSarma, Nova; Drain, Dawn; Fort, Stanislav; Ganguli, Deep; Henighan, Tom; Joseph, Nicholas; Kadavath, Saurav; Kernion, Jackson; Conerly, Tom; El-Showk, Sheer; Elhage, Nelson; Hatfield-Dodds, Zac; Hernandez, Danny; Hume, Tristan; Johnston, Scott; Kravec, Shauna; Lovitt, Liane; Nanda, Neel; Olsson, Catherine; Amodei, Dario; Brown, Tom; Clark, Jack; McCandlish, Sam; Olah, Chris; Mann, Ben; Kaplan, Jared (2022). "Training a Helpful and Harmless Assistant with Reinforcement Learning from Human Feedback". arXiv:2204.05862 [cs.CL].
- ↑ "OpenAI invites everyone to test ChatGPT, a new AI-powered chatbot—with amusing results" (به انگلیسی). Ars Technica. 2022-12-01.
- ↑ "Getting stakeholder engagement right in responsible AI" (به انگلیسی). VentureBeat. 2023-02-05.
- ↑ "Bridging the Gap: A Survey on Integrating (Human) Feedback for Natural Language Generation". Arxiv (به انگلیسی). 2023-05-01.
- ↑ ۱۸٫۰ ۱۸٫۱ Xie, Tengyang; Jiang, Nan; Wang, Huan; Xiong, Caiming; Bai, Yu (2021). "Policy Finetuning: Bridging Sample-Efficient Offline and Online Reinforcement Learning". Advances in Neural Information Processing Systems. Curran Associates, Inc. 34: 27395–27407. arXiv:2106.04895. Retrieved 10 March 2024.
- ↑ ۱۹٫۰ ۱۹٫۱ Pacchiano, Aldo; Saha, Aadirupa; Lee, Jonathan (2023-03-03). "Dueling RL: Reinforcement Learning with Trajectory Preferences". Proceedings of the 26th International Conference on Artificial Intelligence and Statistics (به انگلیسی). PMLR: 6263–6289. arXiv:2111.04850.
- ↑ ۲۰٫۰ ۲۰٫۱ Zhu, Banghua; Jordan, Michael; Jiao, Jiantao (2023-07-03). "Principled Reinforcement Learning with Human Feedback from Pairwise or K-wise Comparisons". Proceedings of the 40th International Conference on Machine Learning (به انگلیسی). PMLR: 43037–43067. arXiv:2301.11270.
- ↑ Li, Zihao; Yang, Zhuoran; Wang, Mengdi (20 June 2023). "Reinforcement learning with Human Feedback: Learning Dynamic Choices via Pessimism". ILHF Workshop ICML 2023 (به انگلیسی). arXiv:2305.18438. Retrieved 10 March 2024.
- ↑ Ouyang, Long; Wu, Jeff; Jiang, Xu; Almeida, Diogo; Wainwright, Carroll L.; Mishkin, Pamela; Zhang, Chong; Agarwal, Sandhini; Slama, Katarina; Ray, Alex; Schulman, John; Hilton, Jacob; Kelton, Fraser; Miller, Luke; Simens, Maddie; Askell, Amanda; Welinder, Peter; Christiano, Paul; Leike, Jan; Lowe, Ryan (2022). "Training language models to follow instructions with human feedback". arXiv:2203.02155 [cs.CL].
- ↑ «Can AI really be protected from text-based attacks?». TechCrunch (به انگلیسی). ۲۰۲۳-۰۲-۲۴.
- ↑ «OpenAI invites everyone to test ChatGPT, a new AI-powered chatbot—with amusing results». Ars Technica (به انگلیسی). ۲۰۲۲-۱۲-۰۱.
- ↑ "How OpenAI is trying to make ChatGPT safer and less biased". MIT Technology Review (به انگلیسی).
- ↑ "ChatGPT is OpenAI's latest fix for GPT-3. It's slick but still spews nonsense". MIT Technology Review (به انگلیسی). 2022-11-30.
- ↑ «Why DeepMind isn't deploying its new AI chatbot — and what it means for responsible AI». VentureBeat (به انگلیسی). ۲۰۲۲-۰۹-۲۳.
- ↑ "Building safer dialogue agents". Google DeepMind (به انگلیسی). 2022-09-22.
- ↑ «Introducing Gemini: our largest and most capable AI model». Google (به انگلیسی). ۲۰۲۳-۱۲-۰۶.
- ↑ "What to Know About Claude 2, Anthropic's Rival to ChatGPT". TIME (به انگلیسی). 2023-07-18.
- ↑ "DPOK: Reinforcement Learning for Fine-tuning Text-to-Image Diffusion Models" (به انگلیسی). 2023-11-02.
{{cite journal}}
: Cite journal requires|journal=
(help) - ↑ "ImageReward: Learning and Evaluating Human Preferences for Text-to-Image Generation". Arxiv (به انگلیسی). 2023-12-28.
- ↑ "Learning from human preferences" (به انگلیسی). Openai. 2017-06-13.
- ↑ "Learning through human feedback". Google DeepMind (به انگلیسی). 2017-06-12.
- ↑ "Deep Reinforcement Learning from Human Preferences". Advances in Neural Information Processing Systems. Curran Associates, Inc. 30. 2017.
- ↑ ۳۶٫۰ ۳۶٫۱ ۳۶٫۲ ۳۶٫۳ ۳۶٫۴ ۳۶٫۵ ۳۶٫۶ Nisan Stiennon; Long Ouyang; Jeffrey Wu; Daniel Ziegler; Ryan Lowe; Chelsea Voss; Alec Radford; Dario Amodei; Paul F. Christiano (2020). "Learning to summarize with human feedback". Advances in Neural Information Processing Systems (به انگلیسی). 33.
- ↑ "Open Problems and Fundamental Limitations of Reinforcement Learning from Human Feedback". Transactions on Machine Learning Research (به انگلیسی). 2023-09-18. ISSN 2835-8856.
- ↑ "Thoughts on the impact of RLHF research" (به انگلیسی). alignmentforum.org. 2023-01-25.
{{cite journal}}
: Cite journal requires|journal=
(help) - ↑ "Illustrating Reinforcement Learning from Human Feedback (RLHF)". huggingface.co (به انگلیسی). 2022-12-09.
- ↑ "Open Problems and Fundamental Limitations of Reinforcement Learning from Human Feedback". Arxiv (به انگلیسی). 2023-07-27.
- ↑ "Assimilating Human Feedback from Autonomous Vehicle Interaction in Reinforcement Learning Models". dx.doi.org (به انگلیسی). 2023-10-13.
- ↑ "Open Problems and Fundamental Limitations of Reinforcement Learning from Human Feedback". Arxiv (به انگلیسی). 2023-09-11.
- ↑ "Direct Preference Optimization: Your Language Model is Secretly a Reward Model". Arxiv (به انگلیسی). 2023-05-29.
- ↑ "HelpSteer: Multi-attribute Helpfulness Dataset for SteerLM". Arxiv (به انگلیسی). 2023-11-16.