پیشنویس:GPT-1
"این مقاله در حال ترجمه از ویکی انگلیسی است
لطفا حذف نشود" ترنسفورمر تولیدگر از پیش آموزشدیده ۱ (اختصاری GPT-1)[پاورقی ۱] اولین مدلهای زبان بزرگ شرکت اوپنایآی بود که پس از اختراع معماری ترنسفورمرها توسط گوگل در سال ۲۰۱۷ معرفی شد. در ژوئن ۲۰۱۸، اوپنایآی مقالهای با عنوان "بهبود درک زبان توسط تولیدکننده از پیش آموزش دیده" منتشر کرد، که در آن این مدل ابتدایی به همراه مفهوم کلی یک ترنسفورمر از پیش آموزشدیده.[۱] معرفی شد.
تا پیش از آن، بهترین مدلهای شبکه عصبی پردازش زبان طبیعی عمدتاً از یادگیری نظارتشده بر روی حجم زیادی از دادههای برچسبگذاری شده به صورت دستی استفاده میکردند. وابستگی این مدلها به یادگیری نظارت شده علاوه بر اینکه آموزش مدلهای بسیار بزرگ را گرانقیمت و زمانبر میکند، استفاده آنها از مجموعهدادههایی که به خوبی برچسبگذاری نشدهاند محدود میکرد. به دلیل کمبود متون در دسترس برای بسیاری از زبانها (مانند سواحلی یا کریول آییسینی)، ایجاد مجموعه داده به منظور آموزش مدلهای چنینی برای کاربردهای ترجمه و تفسیر، سخت است.
برعکس مدلهای گفته شده، رویکرد «نیمه نظارتشده» در جیپیتی شامل دو مرحله است: یکی مرحله «پیشآموزش» تولیدکننده بدون نظارت، که در این مرحله هدف از مدلسازی زبان تنظیم پارامترهای اولیه بود و در مرحله دیگر، پارامترها با استفاده از «تنظیم دقیق» تفکیک پذیر تحت نظارت مرتبط با هدف تطبیق داده میشوند.
برخلاف تکنیکهای قبلی شامل شبکههای عصبی بازگشتی (اختصاری RNN)که از مکانیزم "توجه" استفاده میکردند، استفاده از معماری ترنسفورمر، حافظه در مدلهای جیپیتی ساختیافتهتر از تکنیکهای بازگشتی خواهد بود و این امر منجر به "عملکرد انتقال قوی در بین وظایف مختلف" میشد.
دلیل انتخاب مجموعه داده بوککورپس
[ویرایش]برای آموزش این مدل زبانی، از بوککورپِس (en)[پاورقی ۲] به عنوان مجموعه داده آموزشی انتخاب شد زیرا که متنهای طولانی و پیوسته این مجموعه به مدل کمک میکرد تا مدیریت اطلاعات مختلف را یاد بگیرد. این مجموعه داده شامل بیش از 7000 کتاب داستانی منتشر نشده در زمینههای مختلف بود. بقیه مجموعه دادههای موجود در آن زمان، در حالی که بزرگتر هم بودند، فاقد این گوناگونی عنوان بودند.
مرحله استانداردسازی نقطه گذاریها و فواصل خالی متن بوککورپس، توسط کتابخانه ftfy انجام شد و سپس توسط spaCy نشانهگذاری شد.
معماری
[ویرایش]معماری جیپیتی ۱ در عمل یک ترنسفورمر رمزگشای دوازده لایه بود که از دوازده سر خودنگرش پوشانده شده ، با حالت های 64 بعدی (در مجموع 768) استفاده میکرد. به جای گرادیان کاهشی تصادفی ساده، از الگوریتم بهینهسازی آدام استفاده شد که در این الگوریتم نرخ یادگیری از صفر شروع میشود و به صورت خطی با ۲۰۰۰ به روز رسانی به حداکثر مقدار ۲.۵ × ۱۰^(-۴) افزایش میابد و این نرخ یادگیری با استفاده از یک الگوی کوسینوسی به 0 باز میگردد . جیپیتی ۱ دارای 117 میلیون پارامتر است. [۲]
برخلاف مرحله تنظیم دقیق جیپیتی ۱، که پارامترها و وزنهای مدل برای انجام وظایف خاصی تغییر میکنند و تطبیق مییابد، در مرحله پیشآموزش، مدل ملزم به یادگیری در رابطه با وظایف خاصی تطبیق نیست. در واقع با معماری یکنواخت مدل (که برای انجام وظایف مختلف آماده شده است) آموزش میبیند. با این حال، مدل جیپیتی ۱ با توجه به سکوهای معیارسنجی زمان خود، بهبود قابل توجهی را در وظایف مختلف پردازش زبان نشان داده. همچنین در مقایسه با مدلهایی که به طور تفکیکبخش برای هر وظیفه آموزش داده شدهاند و دارای معماریهای متمرکز بر وظیفه هستند، جیپیتی ۱ در چندین وظیفه مختلف عملکرد بهتری داشته است.
عملکرد و ارزیابی
[ویرایش]GPT-1 موفق به بهبود ۵.۸٪ و ۱.۵٪ نسبت به بهترین نتایج قبلی در وظایف استنتاج زبانی طبیعی (همچنین به عنوان تعهد متنی شناخته میشود) شده است. در این وظیفه، قابلیت تفسیر جفت جملات از مجموعه دادههای مختلف و دستهبندی رابطه بین آنها به عنوان "تعهد"، "تضاد" یا "خنثی" مورد ارزیابی قرار میگیرد. به عبارت دیگر، این مدل توانایی تفسیر و ردهبندی رابطه بین جملات را با دقت بهبود داده است. نمونه هایی از مجموعه دادههایی که در وظایف استنتاج زبانی طبیعی مورد استفاده قرار میگیرند، شامل مجموعه دادههایی مانند QNLI (مقالات ویکیپدیا) و MultiNLI (سخنرانیهای تایپ شده، داستانهای معروف و گزارشهای دولتی و ...) است. این مدل به میزان مشابهی نسبت به مدلهای قبلی در دو وظیفه مرتبط با پاسخ به سوالات و استدلال عقلانی عملکرد بهتری داشته است: با ۵.۷٪ بهبود در مجموعه داده RACE، که شامل جفت سوال-پاسخهای نوشتاری از آزمونهای مدرسه متوسط و دبیرستان است، و با ۸.۹٪ بهبود در آزمون Story Cloze Test.
GPT-1 در وظیفه شباهت دستوری (یا شناسایی نقل قول ها) نسبت به مدلهای قبلی که بهترین عملکرد را دارند ۴.۲٪ بهبود داشته است. این وظیفه شامل ارزیابی قابلیت پیشبینی این که آیا دو جمله نقل قولی از یکدیگر هستند یا نه، با استفاده از مجموعه داده Quora Question Pairs (QQP) میباشد.
GPT-1 در وظیفه دستهبندی متن با استفاده از مجموعه داده Corpus of Linguistic Acceptability (CoLA)، با نمرهای معادل ۴۵.۴ عملکرد بهتری نسبت به بهترین عملکرد قبلی که ۳۵.۰ بود، داشته است.و در آخر GPT-1 در آزمون GLUE که یک آزمون چندوظیفهای است، نمرهی کلی به اندازه ۷۲.۸ کسب کرده است. این عملکرد بهبود قابل توجهی نسبت به رکورد قبلی که ۶۸.۹ بوده است.
پاورقیها
[ویرایش]مراجع
[ویرایش]- ↑ "GPT-1 to GPT-4: Each of OpenAI's GPT Models Explained and Compared". 11 April 2023. Archived from the original on 2023-04-15. Retrieved 2023-04-29.
- ↑ "GPT-1 to GPT-4: Each of OpenAI's GPT Models Explained and Compared". 11 April 2023. Archived from the original on 2023-04-15. Retrieved 2023-04-29.