پرش به محتوا

پیش‌نویس:GPT-1

از ویکی‌پدیا، دانشنامهٔ آزاد


معماری اصلی GPT

"این مقاله در حال ترجمه از ویکی انگلیسی است

لطفا حذف نشود" ترنسفورمر تولیدگر از پیش آموزش‌دیده ۱ (اختصاری GPT-1)[پاورقی ۱] اولین مدل‌های زبان بزرگ شرکت اوپن‌ای‌آی بود که پس از اختراع معماری ترنسفورمرها توسط گوگل در سال ۲۰۱۷ معرفی شد. در ژوئن ۲۰۱۸، اوپن‌ای‌آی مقاله‌ای با عنوان "بهبود درک زبان توسط تولیدکننده از پیش آموزش دیده" منتشر کرد، که در آن این مدل ابتدایی به همراه مفهوم کلی یک ترنسفورمر از پیش آموزش‌دیده.[۱] معرفی شد.

تا پیش از آن، بهترین مدل‌های شبکه عصبی پردازش زبان طبیعی عمدتاً از یادگیری نظارت‌شده بر روی حجم زیادی از داده‌های برچسب‌گذاری شده به صورت دستی استفاده می‌کردند. وابستگی این مدل‌ها به یادگیری نظارت شده علاوه بر اینکه آموزش مدل‌های بسیار بزرگ را گران‌قیمت و زمان‌بر می‌کند، استفاده آن‌ها از مجموعه‌داده‌هایی که به خوبی برچسب‌گذاری نشده‌اند محدود می‌کرد. به دلیل کمبود متون در دسترس برای بسیاری از زبان‌ها (مانند سواحلی یا کریول آییسینی)، ایجاد مجموعه داده به منظور آموزش مدل‌های چنینی برای کاربردهای ترجمه و تفسیر، سخت است.

برعکس مدل‌های گفته شده، رویکرد «نیمه نظارت‌شده» در جی‌پی‌تی شامل دو مرحله است: یکی مرحله «پیش‌آموزش» تولیدکننده بدون نظارت، که در این مرحله هدف از مدل‌سازی زبان تنظیم پارامترهای اولیه بود و در مرحله دیگر، پارامترها با استفاده از «تنظیم دقیق» تفکیک پذیر تحت نظارت مرتبط با هدف تطبیق داده می‌شوند.

برخلاف تکنیک‌های قبلی شامل شبکه‌های عصبی بازگشتی (اختصاری RNN‌)که از مکانیزم "توجه" استفاده می‌کردند، استفاده از معماری ترنسفورمر، حافظه در مدل‌های جی‌پی‌تی ساخت‌یافته‌تر از تکنیک‌های بازگشتی خواهد بود و این امر منجر به "عملکرد انتقال قوی در بین وظایف مختلف" می‌شد.

دلیل انتخاب مجموعه داده بوک‌کورپس

[ویرایش]

برای آموزش این مدل زبانی، از بوک‌کورپِس (en)[پاورقی ۲] به‌ عنوان مجموعه داده‌ آموزشی انتخاب شد زیرا که متن‌های طولانی و پیوسته این مجموعه به مدل کمک می‌کرد تا مدیریت اطلاعات مختلف را یاد بگیرد. این مجموعه داده شامل بیش از 7000 کتاب داستانی منتشر نشده در زمینه‌های مختلف بود. بقیه مجموعه داده‌های موجود در آن زمان، در حالی که بزرگ‌تر هم بودند، فاقد این گوناگونی عنوان بودند.

مرحله استانداردسازی نقطه گذاری‌ها و فواصل خالی متن بوک‌کورپس، توسط کتابخانه ftfy انجام شد و سپس توسط spaCy نشانه‌گذاری شد.

معماری

[ویرایش]

معماری جی‌پی‌تی ۱ در عمل یک ترنسفورمر رمزگشای دوازده لایه بود که از دوازده سر خودنگرش پوشانده شده ، با حالت های 64 بعدی (در مجموع 768) استفاده می‌کرد. به جای گرادیان کاهشی تصادفی ساده، از الگوریتم بهینه‌سازی آدام استفاده شد که در این الگوریتم نرخ یادگیری از صفر شروع می‌شود و به صورت خطی با ۲۰۰۰ به روز رسانی به حداکثر مقدار ۲.۵ × ۱۰^(-۴) افزایش میابد و این نرخ یادگیری با استفاده از یک الگوی کوسینوسی به 0 باز می‌گردد . جی‌پی‌تی ۱ دارای 117 میلیون پارامتر است. [۲]

برخلاف مرحله تنظیم دقیق جی‌پی‌تی ۱، که پارامترها و وزن‌های مدل برای انجام وظایف خاصی تغییر می‌کنند و تطبیق می‌یابد، در مرحله پیش‌آموزش، مدل ملزم به یادگیری در رابطه با وظایف خاصی تطبیق نیست. در واقع با معماری یکنواخت مدل (که برای انجام وظایف مختلف آماده شده است) آموزش می‌بیند. با این حال، مدل جی‌پی‌تی ۱ با توجه به سکوهای معیارسنجی زمان خود، بهبود قابل توجهی را در وظایف مختلف پردازش زبان نشان داده. همچنین در مقایسه با مدل‌هایی که به طور تفکیک‌بخش برای هر وظیفه آموزش داده شده‌اند و دارای معماری‌های متمرکز بر وظیفه هستند، جی‌پی‌تی ۱ در چندین وظیفه مختلف عملکرد بهتری داشته است.

عملکرد و ارزیابی

[ویرایش]

GPT-1 موفق به بهبود ۵.۸٪ و ۱.۵٪ نسبت به بهترین نتایج قبلی در وظایف استنتاج زبانی طبیعی (همچنین به عنوان تعهد متنی شناخته می‌شود) شده است. در این وظیفه، قابلیت تفسیر جفت جملات از مجموعه داده‌های مختلف و دسته‌بندی رابطه بین آن‌ها به عنوان "تعهد"، "تضاد" یا "خنثی" مورد ارزیابی قرار می‌گیرد. به عبارت دیگر، این مدل توانایی تفسیر و رده‌بندی رابطه بین جملات را با دقت بهبود داده است. نمونه هایی از مجموعه داده‌هایی که در وظایف استنتاج زبانی طبیعی مورد استفاده قرار می‌گیرند، شامل مجموعه داده‌هایی مانند QNLI (مقالات ویکیپدیا) و MultiNLI (سخنرانی‌های تایپ شده، داستان‌های معروف و گزارش‌های دولتی و ...) است. این مدل به میزان مشابهی نسبت به مدل‌های قبلی در دو وظیفه مرتبط با پاسخ به سوالات و استدلال عقلانی عملکرد بهتری داشته است: با ۵.۷٪ بهبود در مجموعه داده RACE، که شامل جفت سوال-پاسخ‌های نوشتاری از آزمون‌های مدرسه متوسط ​​و دبیرستان است، و با ۸.۹٪ بهبود در آزمون Story Cloze Test.

GPT-1 در وظیفه شباهت دستوری (یا شناسایی نقل قول ‌ها) نسبت به مدل‌های قبلی که بهترین عملکرد را دارند ۴.۲٪ بهبود داشته است. این وظیفه شامل ارزیابی قابلیت پیش‌بینی این که آیا دو جمله نقل قولی از یکدیگر هستند یا نه، با استفاده از مجموعه داده Quora Question Pairs (QQP) می‌باشد.

GPT-1 در وظیفه دسته‌بندی متن با استفاده از مجموعه داده Corpus of Linguistic Acceptability (CoLA)، با نمره‌ای معادل ۴۵.۴ عملکرد بهتری نسبت به بهترین عملکرد قبلی که ۳۵.۰ بود، داشته است.و در آخر GPT-1 در آزمون GLUE که یک آزمون چندوظیفه‌ای است، نمره‌ی کلی به اندازه ۷۲.۸ کسب کرده است. این عملکرد بهبود قابل توجهی نسبت به رکورد قبلی که ۶۸.۹ بوده است.

پاورقی‌ها

[ویرایش]
  1. Generative Pre-trained Transformer 1
  2. BookCorpus

مراجع

[ویرایش]
  1. "GPT-1 to GPT-4: Each of OpenAI's GPT Models Explained and Compared". 11 April 2023. Archived from the original on 2023-04-15. Retrieved 2023-04-29.
  2. "GPT-1 to GPT-4: Each of OpenAI's GPT Models Explained and Compared". 11 April 2023. Archived from the original on 2023-04-15. Retrieved 2023-04-29.