لاما (مدل زبانی)

لاما
توسعه‌دهنده(ها)	متا ای‌آی
انتشار اولیه	۲۴ فوریه ۲۰۲۳؛ ۲۲ ماه پیش
انتشار پایدار	لاما ۳٫۲ / ۲۵ سپتامبر ۲۰۲۴؛ ۳ ماه پیش
مخزن	github.com/meta-llama/llama-models
نوشته‌شده با	پایتون
نوع	مدل زبانی بزرگ; ترنسفورمر تولیدگر از پیش آموزش‌دیده; مدل‌های بنیادی
مجوز	Meta Llama 3.2 Community License
وبگاه	www.llama.com

لاما (به انگلیسی: LLaMA) مخفف شده عبارت مدل زبانی بزرگ متا ای‌آی (به انگلیسی: Large Language Model Meta AI) یک مدل زبانی بزرگ است که توسط متا ای‌آی در فوریه ۲۰۲۳ منتشر شد. این هوش مصنوعی توسط شرکت متا توسعه داده شده است . این مدل به انواع اندازه‌های مختف ۷، ۱۳، ۳۳، و ۶۵ میلیارد پارامتر آموزش داده شده است. توسعه دهندگان لاما مدعی هستند که عملکرد مدل ۱۳ میلیارد پارامتری در اکثر معیارهای پردازش زبان طبیعی از عملکرد جی‌پی‌تی ۳ فراتر رفته و با مدل‌های پیشرفته مانند پالم و چینچیلا قابل رقابت است. قدرتمندترین مدل‌های زبانی بزرگ عموماً فقط از طریق APIهای محدود قابل دسترسی بودند ولی متا مدل لاما را تحت یک مجوز غیرتجاری برای جامعه تحقیقاتی منتشر کرد. یک هفته پس از انتشار، لاما از طریق بیت‌تورنت در انجمن 4chan برای عموم مردم فاش شد.

در ژوئیه ۲۰۲۳، متا چندین مدل Llama 2 با پارامترهای ۷، ۱۳ و ۷۰ میلیاردی را منتشر کرد.

لاما-۳

در ۱۹ آوریل ۲۰۲۴، لاما-۳ را در دو اندازه: ۸ و ۷۰ میلیارد پارامتری منتشر کرد. این مدل‌ها بر روی تقریباً ۱۵ تریلیون نشانه متن جمع‌آوری‌شده از «منابع عمومی» آموزش دیده‌اند. در مورد مدل‌های دستورالعملی، آموزش‌های نسخه‌های دستورالعملی نیز بر روی «مجموعه‌های دستورالعمل در دسترس عموم" و همچنین "بیش از ۱۰ میلیون نمونه برچسب‌زده‌شده توسط انسان» انجام شده‌اند. هر دو مدل منبع باز فقط می‌توانند متن را بپذیرند و تولید کنند.^[۲] متا اعلام کرده که برنامه‌هایی برای انتشار مدل‌های چندوجهی، با قابلیت مکالمه به زبان‌های مختلف و همچنین با پنجره زمینه بزرگ‌تر دارد. یک مدل جدید 400B+ نیز در حال حاضر در حال آموزش است.^[۳]

لاما-۲

در ۱۸ ژوئیه ۲۰۲۳، متا با همکاری مایکروسافت، نسل بعدی محصولات لاما، با نام لاما-۲ را معرفی کرد. متا لاما-۲ را در سه اندازه مدل: ۷، ۱۳ و ۷۰ میلیارد پارامتری آموزش داده و منتشر کرد.^[۴] معماری مدل تا حد زیادی نسبت به مدل‌های لاما-۱ بدون تغییر باقی می‌ماند، اما ۴۰ درصد داده‌های بیشتری برای آموزش مدل‌های پایه استفاده شد.^[۵] پیش مقاله پیش از انتشار^[۵]^{[پاورقی ۱]} مدعی شده که ممکن است در آینده پس از برآورده کردن اهداف ایمنی در محصول، مدلی با پارامترهای 34B را منتشر کنند.

لاما-۲ شامل دو مدل پایه و مدل محاوره‌ای است به‌خوبی تنظیم شده و Llama-2 Chat نام دارد. به منظور ایحاد تفاوت با مدل‌های لاما-۱، همه مدل‌های جدید با وزن‌های مربوطه عرضه می‌شوند (وزن‌باز هستند) و برای بسیاری از کاربردهای تجاری رایگان هستند، یعنی نیاز دریافت به مجوز یا خرید ندارند. با این حال، به دلیل برخی محدودیت‌های باقیمانده، توصیف لاما به عنوان منبع باز توسط پیشگامان متن‌باز (معروف به حفاظت از تعریف منبع باز هستند) مورد مناقشه قرار گرفته است.^[۶]{{

معماری و آموزش

معماری

لاما از معماری استانداردمدل‌سازی زبان که از سال ۲۰۱۸ عمومیت یافت، همان ترنسفورمر، استفاده می‌کند.

در مقایسه با جی‌پی‌تی ۳، لاما تفاوت‌های جزئی زیر را در معماری خود دارد:

به جای GeLU از تابع فعال سازی SwiGLU استفاده می‌کند.^[۷]
به جای دگرنمایی موقعیتی، از دگرنمایی موقعیتی چرخشی^[۸] استفاده می‌کند.
به جای نرمال‌سازی لایه استاندارد از جذر میانگین مربعات در نرمال‌سازی لایه^[۹] استفاده می‌کند.^[۱۰]
طول زمینه را از 2K نشانه (در لاما ۱) به 4K نشانه (در لاما ۲) افزایش داده است.

مجموعه داده‌های آموزشی

توسعه‌دهندگان لاما تلاش خود را به جای افزایش تعداد پارامترها، بر مقیاس‌سازی عملکرد مدل با استفاده از افزایش حجم داده‌های آموزشی متمرکز کردند. به این دلیل که هزینه غالب برای ال‌ال‌ام‌ها ناشی از استنتاج بر روی مدل آموزش‌دیده شده است، تا هزینه محاسباتی فرایند آموزش.

مدل‌های پایه لاما ۱ بر روی یک مجموعه داده با ۱٫۴ تریلیون نشانه، و از منابع داده‌ای در دسترس عموم آموزش دیدند، از جمله:

آرشیو صفحات وب تهیه شده توسط کامِن‌کراول
مخازن منبع باز کد منبع از گیت‌هاب
ویکی‌پدیا به ۲۰ زبان مختلف
کتاب‌های مالکیت عمومی از پروژه گوتنبرگ
کد منبع لاتخ برای مقالات علمی بارگذاری شده در آرکایو
پرسش و پاسخ از وب سایت‌های استک اکسچنج

مدل‌های پایه لاما ۲ بر روی یک مجموعه داده با ۲ تریلیون نشانه آموزش داده شدند. این مجموعه داده به دقت انتخاب دشه بود تاوب‌سایت‌هایی که اغلب اطلاعات شخصی افراد را افشا می‌کنند حذف کند. مدل همچنین از منابع قابل اعتماد استفاده می‌کند.^[۱۱] علاوه بر این، مدل Llama 2 - Chat بر روی ۲۷۵۴۰ جفت پرسخ و پاسخ ایجاد شده برای این پروژه تنظیم شد که کیفیتی بالاتر از مجموعه داده‌های شخص ثالث بزرگتر (اما با کیفیت پایین‌تر) داشت. برای هم‌ترازی با هوش مصنوعی، یادگیری تقویتی با بازخورد انسانی^{[پاورقی ۲]} با ترکیبی از ۱۴۱۸۰۹۱ نمونه از شرکت متا و هفت مجموعه داده کوچکتر استفاده شد. میانگین عمق گفتگو در نمونه‌های متا ۳٫۹، برای مجموعه‌های Anthropic Helpful و Anthropic Harmless برابر با ۳٫۰ و برای پنج مجموعه دیگر، از جمله OpenAI Summarize, StackExchange و غیره، ۱٫۰ بود.

تنظیم‌دقیق

از انواع مدل‌های لاما ۱، تنها مدل‌های پایه با یادگیری خود نظارت‌شده و بدون تنظیم‌دقیق در دسترس هستند. برای لاما ۲، مدل‌های گفتگومحور از مدل‌های پایه‌ای لاما ۲ مشتق شده‌اند. بر خلاف جی‌پی‌تی ۴ که طول زمینه را در هنگام تنظیم‌دقیق افزایش داد، لاما ۲ و Llama 2 - Chat دارای طول زمینه یکسان معادل 4K نشانه هستند. در مرحله تنظیم‌دقیق نظارت‌شده، از یک تابع هزینه خودهمبسته استفاده می‌شود. بدین معنی که نشانه‌های درخواست‌های کاربر در تابع هزینه بی‌اثر شده‌اند. به عبارت دیگر، مدل برای یادگیری (به‌روز رسانی پارمترهایش) از پاسخ‌های خودش استفاده می‌کند نه از پاسخ‌های کاربر. اندازه دسته ۶۴ بود.

برای تراز هوش مصنوعی، نظرنویسان انسانی^{[پاورقی ۳]} پرسش‌هایی را آماده و به مدل خوراندند. سپس دو خروجی مختلف مدل را با هم مقایسه کرده و با توجه به سطح اطمینان و سطح ایمنی، برچسب‌های جداگانه به خروجی‌ها منتسب می‌کنند که باعث کنار گذاشته شدن یک خروجی می‌شود و خروجی را به نوعی وتو می‌کنند. اصطلاحاً یک پروتکل باینری اجرا می‌شود. برای دو اولویت ایمنی و مفید بودن پاسخ‌ها، دو مدل پاداش جداگانه آموزش داده می‌شود. یک پیشرفت بزرگ در این مرحله استفاده از یک تکنیک جدید مبتنی بر نمونه‌برداری بازپس‌زننده پیش از اعمال بهینه‌سازی سیاست پروگزیمال^{[پاورقی ۴]} در پیاده‌سازی یادگیری تقویتی با بازخورد انسانی است. در روش‌های قدیمی‌تر در پیاده‌سازی RLHF به‌طور گسترده و اختصاصی از بهینه‌سازی سیاست پروگزیمال بهره می‌بردند.

برای اطمینان از این که «پیام‌های سیستم»^{[پاورقی ۵]} در طول گفتگو رعایت شود، هدف‌گذاری و تمرکز در گفتگوها بر روی بهبود عملکرد با استفاده از تطابق چندمرحله‌ای انجام شد. این کار با استفاده از تکنیک جدید "توجه پنهانی" (یا "توجه روح")^{[پاورقی ۶]} در طول آموزش انجام پذیرفت، ولی با این وجود، اثرگذاری نشانه‌های مربوط به دستورالمعل‌های ضمیمه شده در تابع هزینه صفر می‌شوند.

انتشار مدل و نشت اطلاعات

اطلاع‌رسانی عمومی لاما در ۲۴ فوریه ۲۰۲۳ از طریق یک پست وبلاگ به همراه مقاله‌ای که آموزش مدل، اعتبارسنجی و مجموعه‌های آزمایشی را توصیف می‌کرد، انجام شد. کد استنتاج مورد استفاده برای اجرای مدل به صورت عمومی تحت مجوز منبع باز جی‌پی‌ال۳ منتشر شد. دسترسی به وزن‌های مدل توسط یک فرایند درخواست مدیریت می‌شد، و دسترسی «به صورت موردی به پژوهشگران دانشگاهی؛ آن‌هایی که به سازمان‌های دولتی، جامعه مدنی، و دانشگاه‌ها وابسته بودند؛ و آزمایشگاه‌های تحقیقاتی صنعت در سراسر جهان اعطا می‌شد. ".

در ۳ مارس ۲۰۲۳، تورنتی حاوی وزن‌های لاما بارگذاری شد، و پیوند به تورنت آن صفحه تصاویر سایت ۴چن به اشتراک گذاشته شد. متعاقباً در جوامع برخط هوش مصنوعی نیز منتشر شد. در همان روز، یک درخواست کشش در مخزن اصلی لاما باز شد و درخواست افزودن [[طرح یوارآی آهنربایی|پیوند آهنربایی]] به اسناد رسمی را داده بود.^[۱۲]^[۱۳] در ۴ مارس، یک درخواست کشش برای افزودن پیوندهای به مخازن هاگینگ فیس، که حاوی مدل لاما بودند، باز شد.^[۱۴]^[۱۲] در ۶ مارس، متا درخواست حذف را برای حذف مخازن هاگینگ فیس مرتبط با درخواست کشش ارائه کرد و آن را «توزیع غیرمجاز» مدل توصیف کرد. هاگینگ فیس با درخواست‌های شرکت متا موافقت کرد.^[۱۵] در ۲۰ مارس، متا به بهانه نقض حق نسخه‌برداری یک درخواست حذف قانون کپی‌رایت هزاره دیجیتال را علیه یک مخزن حاوی اسکریپت که لاما را از یک سای آینه‌ای بارگذاری می‌کرد، ارائه کرد و گیت‌هاب نیز روز بعد موافقت کرد.^[۱۶] از ۲۵ مارس، فیس بوک به درخواست کشش حاوی پیوند آهنربایی پاسخ نداده است.^[۱۳]

واکنش‌ها به این نشت متفاوت بود. برخی‌گمانه زنی کردند که این مدل برای مقاصد مخرب مانند هرزنامه پیچیده‌تر استفاده می‌شود. برخی نیز با اشاره به در دسترس بودن مدل و همچنین این واقعیت که نسخه‌های کوچکتر آن را نسبتاً ارزان می‌توان اجرا کرد تمجید کرده‌اند؛ که نشان می‌دهد که این امر باعث شکوفایی پیشرفت‌های تحقیقاتی بیشتر می‌شود. مفسران متعددی مانند سایمون ویلیسون، لاما را با استیبل دیفیوژن (یک مدل متن به تصویر) مقایسه کردند که بر خلاف مدل‌های نسبتاً پیچیده قبل از خود، آشکارا توزیع شد و منجر به گسترش سریع ابزارها، تکنیک‌ها و نرم‌افزارهای مرتبط شد.

بازتولید مجموعه داده

در ۱۷ آوریل ۲۰۲۳، شرکت TogetherAI پروژه ای به نام RedPajama را برای بازتولید و توزیع نسخه منبع باز مجموعه داده‌های لاما راه‌اندازی کرد. این مجموعه داده تقریباً ۱٫۲ تریلیون نشانه دارد و به صورت عمومی برای باگذاری توسط عموم در دسترس است.

کاربردها

گئورگی گرگانف^{[پاورقی ۷]} که توسعه‌دهنده نرم‌افزار بود، llama.cpp را منتشر کرد. این برنامه که یک نرم‌افزار بهینه‌سازی شده برای پیاده‌سازی مجدد LLaMa در C++ است. این کار به بسیاری از افراد اجازه داد تا سری مدل‌های لاما را به صورت محلی (بدون نیاز به دسترسی به خدمات ابری یا واسط برنامه‌نویسی کاربردی) اجرا کنند.^[۱۷]

بخش هوش مصنوعی انسان‌محور^{[پاورقی ۸]} دانشگاه استنفورد که مرکز تحقیقات مدل‌های بنیادی^{[پاورقی ۹]} است، مدل Alpaca را منتشر کرد. در واقع این مدل یک دستورالعمل آموزشی مبتنی بر مدل LLaMA 7B است که به منظور تنظیم دقیق برای کاربرد دستورالعملی از روش"Self-Instruct" که بتواند رقیب قابل قبولی برای سری text-davinci-003 از مدل‌های جی‌پی‌تی ۳ شرکت اوپن‌ای‌آی باشد، ولی با هزینه اندک.^[۱۸]^[۱۹] چندین پروژه منبع‌باز وجود دارند که این راه را ادامه می‌دهند و با استفاده از مجموعه داده Alpaca به تنظیم دقیق لاما می‌پردازند.

مطالعات بیشتر در این زمینه

Huang, Kalley; O'Regan, Sylvia Varnham (September 5, 2023). "Inside Meta's AI Drama: Internal Feuds Over Compute Power". Archived from the original on September 5, 2023. Retrieved September 6, 2023.

پانویس

↑ Preprint
↑ Reinforcement Learning with Human Feedback (RLHF)
↑ Human annotators. افرادی که برای مدل‌های هوش مصنوعی سؤال‌ها و متن‌هایی آماده می‌کنند که به عنوان ورودی مورد استفاده قرار می‌گیرند.
↑ Proximal Policy Optimization (PPO)
↑ System messages. دستورالعمل‌های اولیه، مانند "به فرانسوی صحبت کن" و "مانند ناپلئون بیان کن"
↑ Ghost attention. در این روش، به هر پیام جدیدی که کاربر به مدل می‌دهد، به‌طور عمدی دستورالعمل‌های مرتبط نیز الصاق می‌شود. این کار باعث می‌شود که دستورالعمل ابتدایی به مدل یادآوری شود. با این روش، پیوستگی دستورالعمل‌ها در دریافت مدل از کاربر تضمین می‌شود
↑ Georgi Gerganov
↑ Human-Centered Artificial Intelligence (HAI)
↑ Center for Research on Foundation Models (CRFM)

منابع

مشارکت‌کنندگان ویکی‌پدیا. «LLaMA». در دانشنامهٔ ویکی‌پدیای انگلیسی، بازبینی‌شده در ۲۱ ژوئن ۲۰۲۳.

↑ "llama-models/models/llama3_2/LICENSE at main · meta-llama/llama-models · GitHub". GitHub (به انگلیسی). Archived from the original on 2024-09-29. Retrieved 2024-10-20.
↑ "meta-llama/Meta-Llama-3-70B · Hugging Face". huggingface.co. 2024-04-18. Retrieved 2024-04-19.
↑ Introducing Meta Llama 3: The most capable openly available LLM to date
↑ "Meta and Microsoft Introduce the Next Generation of LLaMA". Meta. 18 July 2023. Retrieved 21 July 2023.
↑ ^۵٫۰ ^۵٫۱ A bot will complete this citation soon. Click here to jump the queue arXiv:[۱].
↑ Edwards, Benj (2023-07-18). "Meta launches LLaMA-2, a source-available AI model that allows commercial applications [Updated]". Ars Technica (به انگلیسی). Retrieved 2023-08-08.
↑ Shazeer. "GLU Variants Improve Transformer". arXiv:2104.09864.
↑ Su. "RoFormer: Enhanced Transformer with Rotary Position Embedding". arXiv:2104.09864.
↑ Zhang. "Root Mean Square Layer Normalization". arXiv:1910.07467.
↑ Lei Ba. "Layer Normalization". arXiv:1607.06450.
↑ A bot will complete this citation soon. Click here to jump the queue arXiv:[۲].
↑ ^۱۲٫۰ ^۱۲٫۱ VK, Anirudh (6 March 2023). "Meta's LLaMA Leaked to the Public, Thanks To 4chan". Analytics India Magazine. Retrieved 17 March 2023.
↑ ^۱۳٫۰ ^۱۳٫۱ "Save bandwidth by using a torrent to distribute more efficiently by ChristopherKing42 · Pull Request #73 · facebookresearch/llama". GitHub (به انگلیسی). Retrieved 25 March 2023.
↑ "Download weights from hugging face to help us save bandwidth by Jainam213 · Pull Request #109 · facebookresearch/llama". GitHub (به انگلیسی). Retrieved 17 March 2023.
↑ Cox, Joseph (7 March 2023). "Facebook's Powerful Large Language Model Leaks Online". Vice (به انگلیسی). Retrieved 17 March 2023.
↑ OpSec Online LLC (21 March 2023). "github/dmca - Notice of Claimed Infringement via Email". GitHub. Retrieved 25 March 2023.
↑ Edwards, Benj (2023-03-13). "You can now run a GPT-3-level AI model on your laptop, phone, and Raspberry Pi". Ars Technica (به انگلیسی). Retrieved 2024-01-04.
↑ Taori, Rohan; Gulrajani, Ishaan; Zhang, Tianyi; Dubois, Yann; Li, Xuechen; Guestrin, Carlos; Liang, Percy; Hashimoto, Tatsunori B. (13 March 2023). "Alpaca: A Strong, Replicable Instruction-Following Model". Stanford Center for Research on Foundation Models.
↑ A bot will complete this citation soon. Click here to jump the queue arXiv:[۳].

این یک مقالهٔ خرد هوش مصنوعی است. می‌توانید با گسترش آن به ویکی‌پدیا کمک کنید.

[:1-6] Preprint

[:1.5-13] Reinforcement Learning with Human Feedback (RLHF)

[:2-14] Human annotators. افرادی که برای مدل‌های هوش مصنوعی سؤال‌ها و متن‌هایی آماده می‌کنند که به عنوان ورودی مورد استفاده قرار می‌گیرند.

[:3-15] Proximal Policy Optimization (PPO)

[:4-16] System messages. دستورالعمل‌های اولیه، مانند "به فرانسوی صحبت کن" و "مانند ناپلئون بیان کن"

[:5-17] Ghost attention. در این روش، به هر پیام جدیدی که کاربر به مدل می‌دهد، به‌طور عمدی دستورالعمل‌های مرتبط نیز الصاق می‌شود. این کار باعث می‌شود که دستورالعمل ابتدایی به مدل یادآوری شود. با این روش، پیوستگی دستورالعمل‌ها در دریافت مدل از کاربر تضمین می‌شود

[:6-23] Georgi Gerganov

[:7-25] Human-Centered Artificial Intelligence (HAI)

[:8-26] Center for Research on Foundation Models (CRFM)

[1] "llama-models/models/llama3_2/LICENSE at main · meta-llama/llama-models · GitHub". GitHub (به انگلیسی). Archived from the original on 2024-09-29. Retrieved 2024-10-20.

[2] "meta-llama/Meta-Llama-3-70B · Hugging Face". huggingface.co. 2024-04-18. Retrieved 2024-04-19.

[3] Introducing Meta Llama 3: The most capable openly available LLM to date

[4] "Meta and Microsoft Introduce the Next Generation of LLaMA". Meta. 18 July 2023. Retrieved 21 July 2023.

[l2arxiv-5] ۵٫۰ ^۵٫۱ A bot will complete this citation soon. Click here to jump the queue arXiv:[۱].

[7] Edwards, Benj (2023-07-18). "Meta launches LLaMA-2, a source-available AI model that allows commercial applications [Updated]". Ars Technica (به انگلیسی). Retrieved 2023-08-08.

[8] Shazeer. "GLU Variants Improve Transformer". arXiv:2104.09864.

[9] Su. "RoFormer: Enhanced Transformer with Rotary Position Embedding". arXiv:2104.09864.

[10] Zhang. "Root Mean Square Layer Normalization". arXiv:1910.07467.

[11] Lei Ba. "Layer Normalization". arXiv:1607.06450.

[l2arxiv2-12] A bot will complete this citation soon. Click here to jump the queue arXiv:[۲].

[India-leak-18] ۱۲٫۰ ^۱۲٫۱ VK, Anirudh (6 March 2023). "Meta's LLaMA Leaked to the Public, Thanks To 4chan". Analytics India Magazine. Retrieved 17 March 2023.

[CKing-19] ۱۳٫۰ ^۱۳٫۱ "Save bandwidth by using a torrent to distribute more efficiently by ChristopherKing42 · Pull Request #73 · facebookresearch/llama". GitHub (به انگلیسی). Retrieved 25 March 2023.

[20] "Download weights from hugging face to help us save bandwidth by Jainam213 · Pull Request #109 · facebookresearch/llama". GitHub (به انگلیسی). Retrieved 17 March 2023.

[21] Cox, Joseph (7 March 2023). "Facebook's Powerful Large Language Model Leaks Online". Vice (به انگلیسی). Retrieved 17 March 2023.

[22] OpSec Online LLC (21 March 2023). "github/dmca - Notice of Claimed Infringement via Email". GitHub. Retrieved 25 March 2023.

[24] Edwards, Benj (2023-03-13). "You can now run a GPT-3-level AI model on your laptop, phone, and Raspberry Pi". Ars Technica (به انگلیسی). Retrieved 2024-01-04.

[27] Taori, Rohan; Gulrajani, Ishaan; Zhang, Tianyi; Dubois, Yann; Li, Xuechen; Guestrin, Carlos; Liang, Percy; Hashimoto, Tatsunori B. (13 March 2023). "Alpaca: A Strong, Replicable Instruction-Following Model". Stanford Center for Research on Foundation Models.

[28] A bot will complete this citation soon. Click here to jump the queue arXiv:[۳].

[۱]

[۲]

[۳]

[۴]

[۵]

[پاورقی ۱]

[۶]

[۷]

[۸]

[۹]

[۱۰]

[۱۱]

[پاورقی ۲]

[پاورقی ۳]

[پاورقی ۴]

[پاورقی ۵]

[پاورقی ۶]

[۱۲]

[۱۳]

[۱۴]

[۱۵]

[۱۶]

[پاورقی ۷]

[۱۷]

[پاورقی ۸]

[پاورقی ۹]

[۱۸]

[۱۹]