پرش به محتوا

پرونده:RLHF diagram.svg

محتوای صفحه در زبان‌های دیگر پشتیبانی نمی‌شود
از ویکی‌پدیا، دانشنامهٔ آزاد

پروندهٔ اصلی (پروندهٔ اس‌وی‌جی، با ابعاد ۵۱۲ × ۳۶۶ پیکسل، اندازهٔ پرونده: ۱۷۷ کیلوبایت)

خلاصه

توضیح
English: This is a high-level overview of reinforcement learning from human feedback, including training an initial supervised model, collecting human feedback, training a reward model, and using it to align the initial model.
تاریخ
منبع اثر شخصی
پدیدآور PopoDameron

اجازه‌نامه

من، صاحب حقوق قانونی این اثر، به این وسیله این اثر را تحث اجازه‌نامهٔ ذیل منتشر می‌کنم:
w:fa:کرییتیو کامنز
انتساب انتشار مشابه
این پرونده تحت پروانهٔ Creative Commons Attribution-Share Alike 4.0 International منتشر شده است.
شما اجازه دارید:
  • برای به اشتراک گذاشتن – برای کپی، توزیع و انتقال اثر
  • تلفیق کردن – برای انطباق اثر
تحت شرایط زیر:
  • انتساب – شما باید اعتبار مربوطه را به دست آورید، پیوندی به مجوز ارائه دهید و نشان دهید که آیا تغییرات ایجاد شده‌اند یا خیر. شما ممکن است این کار را به هر روش منطقی انجام دهید، اما نه به هر شیوه‌ای که پیشنهاد می‌کند که مجوزدهنده از شما یا استفاده‌تان حمایت کند.
  • انتشار مشابه – اگر این اثر را تلفیق یا تبدیل می‌کنید، یا بر پایه‌ آن اثری دیگر خلق می‌کنید، می‌‌بایست مشارکت‌های خود را تحت مجوز یکسان یا مشابه با ا اصل آن توزیع کنید.

عنوان

شرحی یک‌خطی از محتوای این فایل اضافه کنید
High-level overview of reinforcement learning from human feedback

آیتم‌هایی که در این پرونده نمایش داده شده‌اند

توصیف‌ها

source of file انگلیسی

تاریخچهٔ پرونده

روی تاریخ/زمان‌ها کلیک کنید تا نسخهٔ مربوط به آن هنگام را ببینید.

تاریخ/زمانبندانگشتیابعادکاربرتوضیح
کنونی‏۱ آوریل ۲۰۲۴، ساعت ۲۰:۲۰تصویر بندانگشتی از نسخهٔ مورخ ‏۱ آوریل ۲۰۲۴، ساعت ۲۰:۲۰۵۱۲ در ۳۶۶ (۱۷۷ کیلوبایت)PopoDameronClarified relationship between RM and aligned model & added description to the aligned model
‏۱۴ مارس ۲۰۲۴، ساعت ۰۴:۱۳تصویر بندانگشتی از نسخهٔ مورخ ‏۱۴ مارس ۲۰۲۴، ساعت ۰۴:۱۳۵۱۲ در ۳۶۶ (۱۶۰ کیلوبایت)PopoDameronUploaded own work with UploadWizard

صفحهٔ زیر از این تصویر استفاده می‌کند:

کاربرد سراسری پرونده

ویکی‌های دیگر زیر از این پرونده استفاده می‌کنند:

فراداده