ترکیب متخصصان
یادگیری ماشین و دادهکاوی |
---|
ترکیب متخصصان (اختصاری MoE) یک تکنیک یادگیری ماشینی است که در آن از چندین شبکه متخصص (یادگیرنده) به منظور تقسیمبندی یک فضای مسئله، به مناطق همگن استفاده می شود. [۱] تفاوت آن با تکنیکهای یادگیری گروهی در این است که در MoE بر روی هر ورودی، تنها یک یا چند مدل متخصص اجرا میشوند، برخلاف تکنیکهای گروهی، که همه مدلها بر روی همه ورودیها اجرا میشوند.
نظریه پایه
[ویرایش]ترکیب متخصصان، همیشه دارای موارد زیر است. این عوامل متفاوت از هم ساخته و نهایتاً ترکیب میشوند.
- متخصصان را داریم، که همه آنها ورودی یکسان را دریافت می کنند، و خروجیهای را تولید میکند.
- یک تابع وزندهی واحد (با نام مستعار تابع دروازه) وجود دارد، که را به عنوان ورودی دریافت کرده و بردار خروجیهای را تولید می کند.
- مجموعه ای از پارامترها است. پارامتر برای وزندهی تابع به کار میرود.
- ترکیب متخصصان با داشتن ورودی ، با توجه به وزن های ، مقادیر را تجمیع کرده و یک خروجی مرکب تولید می کند.
به منظور به حداقل رساندن تابع هزینه، هم متخصصان و هم تابع وزندهی با استفاده از روش گرادیان کاهشی، آموزش داده میشوند. در انتخاب تابع وزندهی و تابع هزینه که شکلبندی دقیق متخصصان را تعیین کند، محدودیتی وجود ندارد.
شبکه متا-پی
[ویرایش]شبکه متا-پی[پاورقی ۱]، که توسط همپشایر و وایبل ارائه شده است،[۲] از به عنوان تابع خروجی استفاده میکند. آموزش این مدل با اعمال گرادیان کاهشی بر روی افت خطای میانگین مربع انجام میشود. متخصصان میتوانند هر تابع دلخواهی باشند.
نویسندگان مقاله در انتشار اولیه آن، مسئله طبقهبندی واجها در سیگنال گفتاری 6 سخنران مختلف ژاپنی، شامل 2 زن و 4 مرد، را حل کردند. آنها 6 متخصص را آموزش دادند که هر کدام یک «شبکه عصبی با تأخیر زمانی» (در اصل یک شبکه کانولوشن چندلایه بر روی طیفنگار mel ) بودند. سپس دریافتند که ترکیب متخصصان بهدست آمده، 5 متخصص را به 5 سخنران اختصاص داده است، اما گوینده ششم (مرد) متخصص اختصاصی ندارد. در عوض صدای او توسط ترکیب خطی متخصصان مرتبط با 3 سخنران مرد دیگر طبقهبندی شده است.
ترکیبهای تطبیقی از متخصصان محلی
[ویرایش]ترکیب تطبیقی متخصصان محلی [۳][۴] از یک مدل ترکیبی گاوسی استفاده می کند. هر متخصص یک توزیع گاوسی را پیشبینی میکند و ورودی را کاملاً نادیده میگیرد. به بیان دقیقتر، متخصص -ام پیشبینی میکند که خروجی است، به طوری که یک پارامتر آموزشپذیر است. تابع وزندهی یک تابع بیشینه هموار خطی [پاورقی ۲] است:ترکیب متخصصان پیشبینی میکند که خروجی بر اساس تابع توزیع چگالی احتمال تولید میشود:این تابع با روش تخمین حداکثر احتمال، یعنی گرادیان صعودی بر روی آموزش میبیند. گرادیان برای متخصص -ام به قرار زیر خواهد بود:و گرادیان، برای تابع وزنی به قرار زیر است:تابع وزندهی برای هر جفت ورودی-خروجی تغییر میکند تا وزن همه متخصصانی که بالاتر از میانگین کار کردهاند افزایش یابد و وزن همه متخصصانی که کمتر از میانگین کار کردهاند کاهش یابد. با این کار تابع وزندهی تشویق میشود تا یاد بگیرد فقط متخصصانی را انتخاب کند که پیشبینیهای درست را برای هر ورودی انجام میدهند.
متخصص -ام برای نزدیکتر کردن پیشبینی خود به تغییر میکند. میزان این تغییر متناسب با است. در واقع این کار یک استنباط بیزی است. با داشتن ورودی ، احتمال پیشین که متخصص پاسخ درست بدهد است. و احتمال شاهد است.
بنابراین، احتمال پسین برای متخصص -ام است. در نتیجه نرخ تغییر برای متخصص -ام متناسب با احتمال پسین آن است.
به بیان دیگر میتوان گفت: از متخصصانی که در گذشته، متخصصان خوبی برای مشورت به نظر میرسیدند، خواسته میشود تا بر روی داده ها آموزش ببینند. متخصصانی که در گذشته برای مشورت مناسب نبودند، رها شدهاند.
اثر ترکیبی بدین گونه است که متخصصان تبهر پیدا میکنند: فرض کنید دو متخصص هر دو در پیشبینی یک ورودی خاص خوب هستند، اما یکی کمی بهتر است، در این صورت تابع وزندهی در نهایت یاد میگیرد که به نفع آن یکی که بهتر بوده تمایل پیدا کند. پس از این اتفاق، متخصص ضعیفتر قادر به دریافت سیگنال گرادیان بالاتر نیست و در پیشبینی ورودی بدتر و بدتر میشود. برعکس، متخصص ضعیفتر میتواند در پیشبینی دیگر انواع ورودی بهتر عمل کند و به طور فزایندهای به منطقه دیگری کشیده شود. این روش یک اثر بازخوردی مثبت دارد و باعث میشود هر متخصص از بقیه جدا شود و به تنهایی یک منطقه محلی را تحت نظر بگیرد. بنابراین در این لحظه نام "متخصصان محلی" معنادار میشود.
ترکیب متخصصان سلسله مراتبی
[ویرایش]ترکیب متخصصان سلسله مراتبی [۵][۶] از چندین سطح مختلف دروازه در یک [ساختار] درخت استفاده میکند. هر دروازه یک توزیع احتمال جهت اعمال بر روی سطح بعدی دروازهها است. متخصصان روی [گره های] برگ درخت هستند. این ساختار بسیار شبیه به درختان تصمیم است.
یک MoE سلسله مراتبی 2 سطحی نوعی به عنوان مثال، یک تابع دروازه ای مرتبه اول ، توابع دروازهای مرتبه دوم و متخصصان را شامل میشود. لذا پیشبینی کل خواهد بود.
انواع
[ویرایش]ترکیب متخصصان، که شبیه به مدل ترکیبی گاوسی است، میتواند مشابه به روش الگوریتم حداکثرسازی انتظارات آموزش ببیند، که همانند مدلهای مخلوط گاوسی است. به عنوان یک مثال خاص، در مرحله انتظار، "بار" (که برای توضیح هر نقطه داده به کار می رود) بین متخصصان توزیع میشود. در مرحله حداکثر سازی، دو کار انجام میشود.
- متخصصان، آموزش میبینند تا توضیحاتی را بهبود بخشند، که برای آنها بار زیادی دریافت کردهاند
- دروازهها، برای بهبود سهمیهبندی و توزیع "بار" آموزش میبیند.
با این روش تابع درستنمایی لگاریتمی سریعتر از روش گرادیان صعودی میتواند همگرا شود. [۶][۷]
انتخاب تابع دروازهای اغلب انتخاب تابعی از نوع یک بیشینه هموار است. به علاوه، [۸] استفاده از توزیع های گاوسی و [۷] استفاده از خانواده توابع نمایی پیشنهاد شده است.
به جای پیادهسازی مجموع وزنی از همه متخصصان، در MoE سخت، [۹] تنها از متخصص با بالاترین رتبه استفاده میشود. به این معنا که، . با این کار زمان آموزش و استنتاج تسریع میشود.
متخصصان می توانند از انواع کلیتری از توزیعهای گاوسی چندمتغیره استفاده کنند. به عنوان مثال، مقاله [۵] پیشنهاد کرد ، که همگی ، ، و پارامترهای قابل یادگیری هستند. به بیان دیگر، هر متخصص یاد میگیرد که رگرسیون خطی را با استفاده از روش تخمین عدمقطعیت قابلیادگیری انجام دهد.
می توان در متخصصان متفاوت از توابعی به غیر از توزیعهای گاوسی استفاده کرد. به عنوان مثال، میتوان از توزیع لاپلاس، [۱۰] یا توزیع تی-استیودنت استفاده کرد. [۱۱] برای طبقهبندی باینری نیز، متخصص رگرسیون لجستیک توصیه شده است بابه طوری که و پارامترهای قابل یادگیری هستند. با تعمیم این فرمول میتوان به طبقهبندی چندگروهی دست یافت، که با استفاده از متخصصان رگرسیون لجستیک چند جملهای انجام میشود. [۱۲]
یادگیری عمیق
[ویرایش]در بخش قبلی MoE توصیف شد و باید توجه کرد که روشهای بالا پیش از عصر یادگیری عمیق مورد استفاده قرار می گرفت. در دوره پیش از یادگیری عمیق، MoE کاربردهای دیگری از جمله، در پیادهسازی مدلهای بسیار بزرگتر پیدا کرد. در این کاربرد از MoE به عنوان یک روش ساده برای انجام محاسبات شرطی بهره میبریم. یعنی به جای استفاده از کل مدل، فقط بخشهایی از مدل استفاده میشود، که متناسب با ورودی انتخاب میشوند. [۱۳]
اولین مقالهای که MoE را برای یادگیری عمیق به کار میبرد، «یادگیری بازنماییهای عاملدار در ترکیبی عمیق از متخصصان» (Eigen, Ranzato, Sutskever) [۱۴] است که پیشنهاد میکند از یک شبکه دروازهای متفاوت در هر لایه در یک شبکه عصبی عمیق استفاده شود. به طوری که، هر دروازه یک شبکه بیشینه هموار-خطی-ReLU-خطی، و هر متخصص یک شبکه ReLU-خطی انتخاب شود.
هدف اصلی استفاده از MoE در یادگیری عمیق، کاهش هزینه محاسبات است. در نتیجه، برای هر پرس و جو، تنها یک زیرمجموعه کوچک از متخصصان باید پرس و جو شود. این باعث می شود که MoE در یادگیری عمیق با MoEکلاسیک متفاوت باشد. در MoE کلاسیک به ازای هر پرس و جو، خروجی مجموع وزنی خروجیهای متخصصان است. ولی در MoE یادگیری عمیق، خروجی نهایی در هر پرس و جو میتواند تنها شامل خروجیهای زیر مجموعه ای از کل متخصصان باشد. در نتیجه، انتخاب کلیدی طراحی در این MoE معطوف به به مسیریابی میشود:
- مسیریابی و جهتدهی ورودی ها (پرس و جوها) به بهترین متخصصان چگونه انجام بپذیرد.
لایه MoE با دروازه پراکنده
[ویرایش]لایه MoE با پراکندگی دروازه، [۱۵] [پاورقی ۳] که توسط محققان گوگل برین منتشر شده است، از شبکههای پیشخور به عنوان متخصص و از بیشینه هموار خطی به عنوان دروازه استفاده میکند. مشابه پیشنهادهای ارائه شده در بالا برای MoE سخت، به منظور دستیابی به هدف پراکندگی، آنها به جای استفاده از جمع وزنی همه متخصصان، از جمع وزنی k متخصص برتر استفاده میکنند. به بیان خاصتر، در یک لایه MoE، شبکههای پیشخور و یک شبکه دروازه وجود دارد . شبکه دروازه توسط رابطه تعریف میشود. تابعی است که ورودی های به k واحد برتر را دست نخورده و یکسان نگه میدارد، ولی همه ورودیهای دیگر را به تغییر میدهد. باید به این نکته اشاره کرد که اضافه شدن نویز به تعادل بار کمک می کند.
انتخاب یک فراپارامتر است که با توجه به کاربرد انتخاب میشود. مقادیر معمول و کاربردی هستند. با فرض ، این نسخه از شبکه، ترنسفورمر سوئیچی (به انگلیسی: Switch Transformer)نامیده می شود. [۱۶]
نویسندگان مقاله برای ارائه نتایج خود، با استفاده از لایههای متناوب MoE و LSTM، مجموعهای از مدلها را برای کاربرد به عنوان ترجمه ماشینی آموزش دادند و نتیجه را با مدلهای عمیق LSTM مقایسه کردند. جدول 3 نشان می دهد که مدل های MoE علیرغم داشتن 30 برابر پارامترهای بیشتر، از زمان محاسبه استنتاج کمتری استفاده می کنند.
Vanilla MoE معمولاً مشکلاتی در تعادل بار دارد: با برخی از متخصصان اغلب مشورت می شود، در حالی که متخصصان دیگر به ندرت یا اصلاً مشورت نمی کنند. برای تشویق گیت به انتخاب هر متخصص با فرکانس برابر (تعادل بار مناسب) در هر دسته، هر لایه MoE دارای دو تابع تلفات کمکی است. این با [۱۶] به یک تابع تلفات کمکی بهبود یافته است. به طور خاص، اجازه دهید تعداد متخصصان باشد، سپس برای یک دسته معین از پرس و جوها ، ضرر کمکی برای دسته است
مسیریابی
[ویرایش]در MoE با دروازههای پراکنده، فقط از k متخصصان برتر پرس و جو میشود و خروجیهای آنها وزندهی و به هم افزوده میشود. روش های دیگری نیز وجود دارد. [۱۷]
در Hash MoE، [۱۸] مسیریابی توسط یک تابع هش انجام می شود که قبل از شروع یادگیری تثبیت و بدون تغییر در نظر گرفته شده است. به عنوان مثال، اگر مدل یک ترانسفورماتور 4 لایه باشد و ورودی، نشانهای (توکن) متناظر با کلمه "eat" باشد و هش "eat" باشد. آنگاه توکن به متخصص 1 در لایه 1، متخصص 4 در لایه 2، متخصص 2 در لایه و متخصص 3 در لایه 4 هدایت می شود. با وجود سادگی، این روش از لحاظ بازدهی در سطح MoE با دروازه پراکندگی با پارامتر است.
در MoE نرم، فرض کنید در هر دسته، هر متخصص می تواند تعداد پرس و جو را پردازش کند. در نتیجه پرس و جو وجود دارد که میتوان به هر دسته تخصیص داد. حال برای هر دسته از پرس و جوهای ، لایه MoE نرم، یک آرایه نوعی را محاسبه می کند، به طوری که توزیع احتمال بر روی پرس و جوها است، و پرس و جو -ام به متخصص -ام با رابطه محاسبه میشود.[۱۹] با این حال، این روش با مدلسازی مدل خودهمبسته کار نمیکند، زیرا وزن بغیر از خود توکن، به همه توکنهای دیگر بستگی دارد. [۲۰]
روشهای دیگر عبارتند از
- حل مسئله با روش برنامهریزی خطی مقید[۲۱]
- وادار کردن هر متخصص به انتخاب k پرس و جو برتر به انتخاب خودش (به جای اینکه هر پرس و جو k متخصص برتر را انتخاب کند)[۲۲]
- استفاده از یادگیری تقویتی برای آموزش الگوریتم مسیریابی (از آنجایی که انتخاب یک متخصص یک اقدام مجزا است، مانند RL). [۲۳]
فاکتور ظرفیت
[ویرایش]فرض کنید متخصص در یک لایه وجود دارند. برای یک دسته معین از پرس و جوی ، هر پرس و جو به یک یا چند متخصص هدایت می شود. به عنوان مثال، اگر هر پرس و جو به یک متخصص مانند ترنسفورمر سوئیچی هدایت شود، و اگر تقسیم بار بین متخصصان صورت گرفته باشد، هر متخصص باید به طور متوسط انتظار دریافت از دسته پرس و جوها را داشته باشد. در عمل، متخصصان نمیتوانند انتظار تعادل بار کامل را داشته باشند: در برخی از دسته پرس و جوها، یک متخصص ممکن است کم کار شود، در حالی که در دسته های دیگر، بیش از حد کار می کند.
تعادل بار از آن جهت اهمیت پیدا میکند به بدانیم ورودیها به هر لایه نمیتوانند از آن عبور کرده و به لایه بعدی بروند، تا زمانی که همه متخصصها در همان لایه پرس و جوهایی را که به آنها منتسب شده را به پایان برساند. فاکتور ظرفیت به شکل یک محدودیت سخت در تعادل بار ایجاد شده است. فاکتور ظرفیت بدین معنی که: هر متخصص فقط مجاز به پردازش حداکثر تا پرس و جوی دسته ای[۱۷] را دارد. در مقاله عملاً مقدار نتیجه خوبی به دست داد.
کاربرد در مدل های ترنسفورمر
[ویرایش]لایههای MoE در بزرگترین مدلهای ترنسفورمر استفاده میشوند، زیرا که مراحل آموزش و استنباط مدل کامل بسیار پرهزینه است. آنها معمولاً دارای دروازههای پراکنده با پراکندگی 1 یا 2 هستند. در مدلهای ترانسفورماتور، لایههای MoE اغلب برای انتخاب لایههای پیشخور (معمولاً یک شبکه-خطی-ReLU-خطی) استفاده میشوند. بدین صورت که پس از توجه چند سر در مسیر هر بلوک ترانسفورماتور ظاهر میشوند. به این که با بزرگتر شدن مدلها، لایههای پیشخور بخش فزایندهای از هزینه محاسبات را به خود اختصاص میدهند. به عنوان مثال در مدل Palm-540B حدود 90 درصد پارامترها در لایه های پیشخور آن قرار دارند. [۲۴]
تا تاریخ ۲۰۲۳[بروزرسانی]، مدلهایی به اندازه کافی بزرگ که از MoE استفاده کنند، معمولا مدلهای زبان بزرگ هستند که هر متخصص در آن حدود 10 میلیارد پارامتر دارد.
فارغ از مدلهای زبانی، Vision MoE نیز یک مدل ترنسفورمر با لایههای MoE است. نویسندگان مقاله با آموزش یک مدل با 15 میلیارد پارامتر، کاربرد دیگر MoE را نشان دادند.
یک سری از مدل های زبان بزرگ گوگل از MoE استفاده می کردند. GShard[۲۵] از MoE با حداکثر 2 متخصص در هر لایه استفاده می کند. بدین سان که، ابتدا متخصص برتر اول انتخاب میشود و متخصص برتر دوم با احتمالی متناسب با وزن محاسبه شده توسط تابع دروازه انتخاب میشود. پس از آن، مدل GLaM [۲۶] که یک مدل زبانی با 1.2 تریلیون پارامتر را رونمایی شد که هر در لایه MoE آن از 2 متخصص برتر (از بین 64 متخصص) استفاده می کرد. ترنسفورمرهای سوئیچی[۱۶] از 1 متخصص برتر در تمام لایه های MoE استفاده می کنند.
NLLB-200 از متا ایآی یک مدل ترجمه ماشینی است با پشتیبانی از 200 زبان انسانی. [۲۷] هر لایه MoE از یک MoE سلسله مراتبی با دو سطح استفاده می کند. در سطح اول، تابع دروازه تصمیم میگیرد که از یک لایه پیشخور "به اشتراک گذاشته شده" استفاده کند یا متخصصان. اگر از متخصصان استفاده شود، یک تابع دروازهای دیگر وزنها را محاسبه میکند و 2 متخصص برتر را انتخاب می کند. [۲۸]
مدلهای زبان بزرگ MoE را میتوان با تنظیم دستورالعمل برای کارهای پایین دستی سازگار کرد. [۲۹]
در دسامبر 2023، شرکت میسترال ایآی مدل Mixtral 8x7B خود را تحت مجوز آپاچی 2.0 منتشر کرد. این یک مدل زبان MoE با 46.7B پارامتر، 8 متخصص، و پراکندگی دروازه 2 است. آنها همچنین نسخه ای را منتشر کردند که به منظور فرمانبری از دستورها تنظیم شده بود. [۳۰][۳۱]
در مارس 2024، شرکت دیتابریکس مدل دیتابریکس را منتشر کرد. این یک مدل زبان MoE با 132B پارامتر، 16 متخصص و پراکندگی دروازه 4 است. آنها همچنین نسخه ای را منتشر کردند که برای آموزش زیر تنظیم شده بود. [۳۲][۳۳]
در صورت نیاز به مطالعات بیشتر
[ویرایش]- قبل از دوران یادگیری عمیق
- McLachlan, Geoffrey J.; Peel, David (2000). Finite mixture models. Wiley series in probability and statistics applied probability and statistics section. New York Chichester Weinheim Brisbane Singapore Toronto: John Wiley & Sons, Inc. ISBN 978-0-471-00626-8.
- Yuksel, S. E.; Wilson, J. N.; Gader, P. D. (August 2012). "Twenty Years of Mixture of Experts". IEEE Transactions on Neural Networks and Learning Systems. 23 (8): 1177–1193. doi:10.1109/TNNLS.2012.2200299. ISSN 2162-237X. PMID 24807516. S2CID 9922492.
- Masoudnia, Saeed; Ebrahimpour, Reza (12 May 2012). "Mixture of experts: a literature survey". Artificial Intelligence Review. 42 (2): 275–293. doi:10.1007/s10462-012-9338-y. S2CID 3185688.
- Nguyen, Hien D.; Chamroukhi, Faicel (July 2018). "Practical and theoretical aspects of mixture-of-experts modeling: An overview". WIREs Data Mining and Knowledge Discovery (به انگلیسی). 8 (4). doi:10.1002/widm.1246. ISSN 1942-4787. S2CID 49301452.
- دوران یادگیری عمیق
- Zoph, Barret; Bello, Irwan; Kumar, Sameer; Du, Nan; Huang, Yanping; Dean, Jeff; Shazeer, Noam; Fedus, William (2022). "ST-MoE: Designing Stable and Transferable Sparse Expert Models". arXiv:2202.08906 [cs.CL].
مشاهدات بیشتر
[ویرایش]پاورقیها
[ویرایش]منابع
[ویرایش]- ↑ Baldacchino, Tara; Cross, Elizabeth J.; Worden, Keith; Rowson, Jennifer (2016). "Variational Bayesian mixture of experts models and sensitivity analysis for nonlinear dynamical systems". Mechanical Systems and Signal Processing. 66–67: 178–200. Bibcode:2016MSSP...66..178B. doi:10.1016/j.ymssp.2015.05.009.
- ↑ Hampshire, J.B.; Waibel, A. (July 1992). "The Meta-Pi network: building distributed knowledge representations for robust multisource pattern recognition" (PDF). IEEE Transactions on Pattern Analysis and Machine Intelligence. 14 (7): 751–769. doi:10.1109/34.142911.
- ↑ Nowlan, Steven; Hinton, Geoffrey E (1990). "Evaluation of Adaptive Mixtures of Competing Experts". Advances in Neural Information Processing Systems. Morgan-Kaufmann. 3.
- ↑ Jacobs, Robert A.; Jordan, Michael I.; Nowlan, Steven J.; Hinton, Geoffrey E. (February 1991). "Adaptive Mixtures of Local Experts". Neural Computation (به انگلیسی). 3 (1): 79–87. doi:10.1162/neco.1991.3.1.79. ISSN 0899-7667. PMID 31141872.
- ↑ ۵٫۰ ۵٫۱ Jordan, Michael; Jacobs, Robert (1991). "Hierarchies of adaptive experts". Advances in Neural Information Processing Systems. Morgan-Kaufmann. 4.
- ↑ ۶٫۰ ۶٫۱ Jordan, Michael I.; Jacobs, Robert A. (March 1994). "Hierarchical Mixtures of Experts and the EM Algorithm". Neural Computation (به انگلیسی). 6 (2): 181–214. doi:10.1162/neco.1994.6.2.181. ISSN 0899-7667.
{{cite journal}}
:|hdl-access=
requires|hdl=
(help) - ↑ ۷٫۰ ۷٫۱ Jordan, Michael I.; Xu, Lei (1995-01-01). "Convergence results for the EM approach to mixtures of experts architectures". Neural Networks. 8 (9): 1409–1431. doi:10.1016/0893-6080(95)00014-3. ISSN 0893-6080.
{{cite journal}}
:|hdl-access=
requires|hdl=
(help) - ↑ Xu, Lei; Jordan, Michael; Hinton, Geoffrey E (1994). "An Alternative Model for Mixtures of Experts". Advances in Neural Information Processing Systems. MIT Press. 7.
- ↑ Collobert, Ronan; Bengio, Samy; Bengio, Yoshua (2001). "A Parallel Mixture of SVMs for Very Large Scale Problems". Advances in Neural Information Processing Systems. MIT Press. 14.
- ↑ Nguyen, Hien D.; McLachlan, Geoffrey J. (2016-01-01). "Laplace mixture of linear experts". Computational Statistics & Data Analysis. 93: 177–191. doi:10.1016/j.csda.2014.10.016. ISSN 0167-9473.
- ↑ Chamroukhi, F. (2016-07-01). "Robust mixture of experts modeling using the t distribution". Neural Networks. 79: 20–36. arXiv:1701.07429. doi:10.1016/j.neunet.2016.03.002. ISSN 0893-6080. PMID 27093693.
- ↑ Chen, K.; Xu, L.; Chi, H. (1999-11-01). "Improved learning algorithms for mixture of experts in multiclass classification". Neural Networks. 12 (9): 1229–1252. doi:10.1016/S0893-6080(99)00043-X. ISSN 0893-6080. PMID 12662629.
- ↑ Bengio. "Estimating or Propagating Gradients Through Stochastic Neurons for Conditional Computation". arXiv:1308.3432.
- ↑ Eigen. "Learning Factored Representations in a Deep Mixture of Experts". arXiv:1312.4314.
- ↑ A bot will complete this citation soon. Click here to jump the queue arXiv:[۱].
- ↑ ۱۶٫۰ ۱۶٫۱ ۱۶٫۲ Fedus, William; Zoph, Barret; Shazeer, Noam (2022-01-01). "Switch transformers: scaling to trillion parameter models with simple and efficient sparsity". The Journal of Machine Learning Research. 23 (1): 5232–5270. arXiv:2101.03961. ISSN 1532-4435.
- ↑ ۱۷٫۰ ۱۷٫۱ Zoph. "ST-MoE: Designing Stable and Transferable Sparse Expert Models". arXiv:2202.08906.
- ↑ Roller, Stephen; Sukhbaatar, Sainbayar; szlam, arthur; Weston, Jason (2021). "Hash Layers For Large Sparse Models". Advances in Neural Information Processing Systems. Curran Associates. 34: 17555–17566. arXiv:2106.04426.
- ↑ Puigcerver. "From Sparse to Soft Mixtures of Experts". arXiv:2308.00951.
- ↑ Wang, Phil (2023-10-04), lucidrains/soft-moe-pytorch, retrieved 2023-10-08
- ↑ Lewis, Mike; Bhosale, Shruti; Dettmers, Tim; Goyal, Naman; Zettlemoyer, Luke (2021-07-01). "BASE Layers: Simplifying Training of Large, Sparse Models". Proceedings of the 38th International Conference on Machine Learning (به انگلیسی). PMLR: 6265–6274. arXiv:2103.16716.
- ↑ Zhou, Yanqi; Lei, Tao; Liu, Hanxiao; Du, Nan; Huang, Yanping; Zhao, Vincent; Dai, Andrew M.; Chen, Zhifeng; Le, Quoc V. (2022-12-06). "Mixture-of-Experts with Expert Choice Routing". Advances in Neural Information Processing Systems (به انگلیسی). 35: 7103–7114. arXiv:2202.09368.
- ↑ Bengio. "Conditional Computation in Neural Networks for faster models". arXiv:1511.06297.
- ↑ "Transformer Deep Dive: Parameter Counting". Transformer Deep Dive: Parameter Counting (به انگلیسی). Archived from the original on 12 April 2023. Retrieved 2023-10-10.
- ↑ Lepikhin. "GShard: Scaling Giant Models with Conditional Computation and Automatic Sharding". arXiv:2006.16668.
- ↑ Du. "GLaM: Efficient Scaling of Language Models with Mixture-of-Experts". arXiv:2112.06905.
- ↑ "200 languages within a single AI model: A breakthrough in high-quality machine translation". ai.facebook.com (به انگلیسی). 2022-06-19. Archived from the original on 2023-01-09.
- ↑ NLLB Team. "No Language Left Behind: Scaling Human-Centered Machine Translation".
{{cite arxiv}}
:|arxiv=
required (help) - ↑ Shen. "Mixture-of-Experts Meets Instruction Tuning:A Winning Combination for Large Language Models". arXiv:2305.14705.
- ↑ AI, Mistral (2023-12-11). "Mixtral of experts". mistral.ai (به انگلیسی). Retrieved 2024-02-04.
- ↑ Jiang, Albert Q.; Sablayrolles, Alexandre; Roux, Antoine; Mensch, Arthur; Savary, Blanche; Bamford, Chris; Chaplot, Devendra Singh; Casas, Diego de las; Hanna, Emma Bou (2024-01-08), Mixtral of Experts, arXiv:2401.04088, retrieved 2024-02-04
- ↑ "Introducing DBRX: A New State-of-the-Art Open LLM". Databricks (به انگلیسی). 2024-03-27. Retrieved 2024-03-28.
- ↑ Knight, Will. "Inside the Creation of the World's Most Powerful Open Source AI Model". Wired (به انگلیسی). ISSN 1059-1028. Retrieved 2024-03-28.