پرش به محتوا

دیپ‌سیک

از ویکی‌پدیا، دانشنامهٔ آزاد
Hangzhou DeepSeek Artificial Intelligence Basic Technology Research Co., Ltd.
نام بومی杭州深度求索人工智能基础技术研究有限公司
نوعشرکت خصوصی
صنعتفناوری اطلاعات
بنا نهادهمه ۲۰۲۳؛ ۱ سال پیش (۲۰۲۳}})
بنیانگذاران
دفتر مرکزیهانگژو، ژجیانگ، چین
افراد کلیدی
  • لیانگ ونفنگ (مدیر عامل)
مالکهای-فلایر
وبگاه

دیپ‌سیک (به انگلیسی: DeepSeek)(چینی: 深度求索؛ پین‌یین: Shēndù Qiúsuǒ�) یک شرکت هوش مصنوعی چینی است که مدل‌های زبانی بزرگ متن‌باز را توسعه می‌دهد. دفتر اصلی این شرکت در هانگژو، ژجیانگ مستقر است و مالکیت و تأمین مالی آن منحصراً برعهده شرکت های-فلایر[الف] است که یک صندوق پوشش ریسک چینی است و یکی از بنیان‌گذاران آن، لیانگ ونفنگ، در سال ۲۰۲۳ این شرکت را تأسیس کرده و خودش نیز به‌عنوان مدیرعامل فعالیت می‌کند.

دیپ‌سیک قادر است وظایف استدلالی را به خوبی چت‌جی‌پی‌تی[۱] انجام دهد، با این حال طبق مقاله راائه شده خود شرکت، هزینه توسعه آن به مراتب و منابع مصرفی‌اش نیز کمتر بوده است.[۲][۳][۴] این مدل هوش مصنوعی در شرایطی توسط دیپ‌سیک توسعه یافت که ایالات متحده آمریکا برای محدود کردن توانایی چین در توسعه سامانه‌های هوش مصنوعی پیشرفته، بر روی تراشه‌های انویدیا تحریم‌هایی اعمال کرده بود.[۵][۶] در ۱۰ ژانویه ۲۰۲۵، این شرکت نخستین چت‌بات رایگان خود را منتشر کرد که تا ۲۷ ژانویه در اپ استور سیستم عامل iOS ایالات متحده جایگزین چت‌جی‌پی‌تی شد و تبدیل به پردانلودترین اپ رایگان گردید،[۷] و باعث شد ارزش سهام انویدیا ۱۸٪ افت کند.[۸][۹][۱۰]

دیپ‌سیک چت‌بات هوش مصنوعی مولد خود را متن‌باز کرده است. بدین معنی که کد آن برای استفاده، اصلاح و مشاهده در دسترس قرار دارد و همچنین دسترسی به کد منبع و اسناد طراحی به‌منظور ساخت و توسعه مهیا است.[۱۱] این شرکت پژوهشگران جوان هوش مصنوعی را از برترین دانشگاه‌های چین جذب می‌کند،[۷] و حتی افرادی را در خارج از حوزه علوم رایانه استخدام می‌کند تا دانش و توانایی مدل‌هایش در حوزه‌های گوناگون گسترش یابد.[۳]

تاریخچه

[ویرایش]

در ۲ نوامبر ۲۰۲۳، دیپ‌سیک اولین مدل خود با نام دیپ‌سیک کدر[ب] را معرفی کرد که برای استفاده تجاری رایگان و به طور کامل متن‌باز بود.[۱۲]

در ۲۹ نوامبر ۲۰۲۳، دیپ‌سیک مدل زبانی بزرگ خود با نام دیپ‌سیک اِل‌اِل‌ام را راه‌اندازی کرد که تا ۶۷ میلیارد پارامتر مقیاس‌پذیری داشت. این مدل برای رقابت با دیگر مدل‌های زبانی بزرگ آن زمان توسعه یافت و عملکردی نزدیک به GPT-۴ داشت. البته، این مدل با چالش‌هایی در زمینه کارایی محاسباتی و مقیاس‌پذیری روبرو بود. نسخه‌ای چت‌محور از این مدل نیز با نام دیپ‌سیک چت[پ] منتشر شد.[۱۳]

در ۹ می ۲۰۲۴، دیپ‌سیک-V2 معرفی شد. فایننشال تایمز گزارش داد که این مدل در مقایسه با رقبا ارزان‌تر بود و هزینه آن ۲ یوان برای هر میلیون توکن خروجی تعیین شده بود. رهبران آزمایشگاه تایگر دانشگاه واترلو، دیپ‌سیک-V2 را در رتبه‌ی هفتم در رده‌بندی مدل‌های زبانی بزرگ قرار دادند.[۱۴]

در نوامبر ۲۰۲۴، دیپ‌سیک R۱-Lite منتشر شد که برای انجام وظایفی مانند استنتاج منطقی، استدلال ریاضی و حل مسئله در زمان واقعی طراحی شده بود. دیپ‌سیک ادعا کرد که این مدل در معیارهایی مانند شعر، AIME و ریاضیات، عملکرد بهتری نسبت به OpenAI o۱ دارد. با این حال، وال استریت ژورنال گزارش داد که وقتی از ۱۵ مسئله از نسخه ۲۰۲۴ AIME استفاده شد، OpenAI o۱ سریع‌تر از دیپ‌سیک R۱ به راه‌حل‌ها رسید.[۱۵]

در دسامبر ۲۰۲۴، دیپ‌سیک-V3 معرفی شد. این مدل با ۶۷۱ میلیارد پارامتر و در مدت حدود ۵۵ روز با هزینه ۵.۵۸ میلیون دلار آموزش داده شد و از منابع بسیار کم‌تری نسبت به رقبا استفاده کرد. این مدل بر روی مجموعه‌داده‌ای شامل ۱۴.۸ تریلیون توکن آموزش دید. تست‌های معیار نشان داد که عملکرد آن از لاما ۳ و Qwen 2.5 بهتر است و با چت‌جی‌پی‌تی ۴-o و کلود ۳.۵ برابری می‌کند.

بهینه‌سازی دیپ‌سیک در استفاده از منابع محدود، محدودیت‌های احتمالی تحریم‌های آمریکا بر توسعه هوش مصنوعی چین را نشان داد. هزینه کلی آموزش این مدل ۵.۵۸ میلیون دلار بود و حدود دو ماه طول کشید.

این مدل یک ترکیب با ترنسفورمر است که شامل ۲۵۶ متخصص مسیردهی شده و ۱ متخصص مشترک می‌باشد. هر توکن ۳۷ میلیارد پارامتر را فعال می‌کند.

تاریخچه

[ویرایش]

در فوریه ۲۰۱۶، های-فلایر توسط لیانگ ونفنگ و دو نفر دیگر که فارغ التحصلان دانشگاه ججیانگ بودن بنیان‌گذاری شد. او از زمان بحران مالی ۲۰۰۸–۲۰۰۷، هم‌زمان با تحصیل در دانشگاه ججیانگ، در حال معامله سهام بود.[۱۶] تا سال ۲۰۱۹ او شرکت های-فلایر را به یک صندوق پوشش ریسک متمرکز بر توسعه و استفاده از الگوریتم‌های معاملاتی هوش مصنوعی تبدیل کرد.

تا سال ۲۰۲۱ های-فلایر منحصراً از هوش مصنوعی در معاملات استفاده می‌کرد.[۱۷] دیپ‌سیک، چت‌بات هوش مصنوعی مولد خود را متن‌باز کرد و کد آن به‌صورت آزاد برای استفاده، اصلاح و مشاهده در دسترس عموم قرار داد. این شامل دسترسی و استفاده از کد منبع و همچنین اسناد طراحی نیز می‌شود.[۱۱]

طبق گزارش 36Kr، لیانگ پیش از اعمال محدودیت‌های دولت ایالات متحده برای تراشه‌های هوش مصنوعی در چین، حدود ده‌هزار انویدیا A۱00 تهیه کرده بود.[۱۷] برخی برآوردها نشان می‌دهد ممکن است تعداد آن به ۵۰ هزار هم برسد.[۱۶]

در آوریل ۲۰۲۳، های-فلایر یک آزمایشگاه هوش عمومی مصنوعی ایجاد کرد که روی پژوهش و توسعه ابزارهای هوش مصنوعی جدا از کسب‌وکار مالی های-فلایر متمرکز بود.[۱۸][۱۹]

در مه ۲۰۲۳، با همکاری یک سرمایه‌گذار جدید، یعنی های-فلایر، این آزمایشگاه به شرکتی مستقل تبدیل شد به نام دیپ‌سیک.[۱۷][۲۰][۱۹] شرکت‌های سرمایه‌گذاری خطرپذیر تمایل چندانی برای تأمین مالی از خود نشان نمی‌دادند، چرا که به نظر نمی‌رسید دیپ‌سیک بتواند در زمان کوتاهی خروج سرمایه را مهیا کند.[۱۷]

پس از عرضه DeepSeek-V2 در مه ۲۰۲۴ که عملکرد قدرتمندی را با هزینه اندک ارائه می‌داد، دیپ‌سیک به‌عنوان عامل آغاز جنگ قیمتی در بازار مدل‌های هوش مصنوعی چین شناخته شد. خیلی زود از آن با عنوان «پین‌دودوی هوش مصنوعی» یاد شد و سایر غول‌های فناوری از جملهبایت‌دنس، تنسنت، بایدو و علی‌بابا به‌منظور رقابت با این شرکت، قیمت مدل‌های هوش مصنوعی خود را کاهش دادند. باوجود هزینه اندکی که دیپ‌سیک از مشتریان دریافت می‌کرد، همچنان سودآور بود، در حالی که رقبای آن زیان‌ده بودند.[۲۱]

دیپ‌سیک صرفاً بر پژوهش متمرکز است و برنامه مشخصی برای تجاری‌سازی ندارد؛[۲۱] این موضوع همچنین به فناوری دیپ‌سیک اجازه می‌دهد از سخت‌گیرانه‌ترین مقررات چین در زمینه هوش مصنوعی، مانند قوانین مربوط به کنترل محتوای ارائه‌شده به مصرف‌کنندگان، تا حدی معاف بماند.[۳]

دیپ‌سیک ترجیح می‌دهد که استخدام‌ها مواکداً بر توانمندی فنی باشد، نه صرفاً سابقه کاری. در نتیجه بیشتر استخدام‌ها یا از دانش‌آموختگان جدید دانشگاه‌ها هستند یا توسعه‌دهندگانی با سابقه کمتر در حوزه هوش مصنوعی.[۱۹][۳] همچنین این شرکت افرادی را بدون پیشینه علمی در علوم رایانه جذب می‌کند تا توانایی فناوری آن در درک موضوعات و حوزه‌های دانشی دیگر افزایش یابد و بتواند مثلاً شعر بسراید یا در کنکور سخت دانشگاه‌های چین عملکرد خوبی نشان دهد.[۳]

تاریخچه انتشار محصولات

[ویرایش]

دیپ‌سیک ال‌ال‌ام[ت]

[ویرایش]

در ۲ نوامبر ۲۰۲۳، دیپ‌سیک نخستین سری مدل خود با نام دیپ‌سیک کدر [ث] را منتشر کرد که رایگان و در دسترس پژوهشگران و کاربران تجاری قرار گرفت. کد مدل تحت پروانه ام‌آی‌تی متن‌باز شد و برای خودِ مدل نیز، پروانه جداگانه‌ای به نام «مجوز دیپ‌سیک» در زمینه «استفاده آزاد و مسئولانه» اضافه شد.[۲۲]

این مدل‌ها دارای همان معماری دیپ‌سیک ال‌ال‌ام هستند. این سری شامل ۸ مدل است: ۴ مدل پیش‌آموزش‌شده (Base) و ۴ مدل تنظیم دقیق دستوری (Instruct) که همگی با طول متن[ج] ۱۶k ارائه شده‌اند. مراحل آموزشی چنین بوده است:[۲۳][۲۴][۲۵]

  1. پیش‌آموزش: ۱٫۸ تریلیون توکن (۸۷٪ کد منبع، ۱۰٪ متن انگلیسی مرتبط با کد (مستندات مارک‌داون گیت‌هاب و Stack Exchange) و ۳٪ متن چینی نامرتبط با کد).
  2. پیش‌آموزش با طول متن بلند: ۲۰۰ میلیارد توکن. این مرحله طول متن را از ۴k به ۱۶k گسترش داد و مدل‌های Base تولید شدند.
  3. تنظیم دقیق نظارت‌شده[چ] (SFT): ۲ میلیارد توکن داده دستوری. این مرحله مدل‌های Instruct را تولید کرد.

این مدل‌ها روی خوشه‌ای از جی‌پی‌یوهای A۱00 و H۸00 انویدیا آموزش دیده‌اند که با اینفینی‌باند، ان‌وی لینگ، و ان‌وی سوئیچ به هم متصل شده بودند.[۲۳]

مشخصات کدگذار دیپ‌سیک[۲۳][۲۶]
Params.
۱.3B 20۴۸ 550۴ ۱6 ۱6
5.7B 32 ۴096 ۱۱00۸ 32 ۱
6.7B 32 ۴096 ۱۱00۸ 32 32
33B 62 7۱6۸ ۱9200 56 7

توجه کنید که تعداد سرها با تعداد سرهای KV برابر نیست (به‌دلیل GQA) در مدل‌های ۵٫۶ میلیاردی و ۳۳ میلیاردی

در ۲۹ نوامبر ۲۰۲۳، دیپ‌سیک سری مدل‌های دیپ‌سیک ال‌ال‌ام را با اندازه‌های ۷ میلیارد و ۶۷ میلیارد پارامتر در قالب Base و Chat (بدون Instruct) عرضه کرد. هدف آن رقابت با سایر مدل‌های ال‌ال‌ام موجود در زمان خود بود. در مقاله معرفی محصول، ادعا شد که دیپ‌سیک در آزمون‌ها از بیشتر مدل‌های متن‌باز موجود در آن زمان، به‌ویژه لاما۲، عملکرد بهتری دارد.[۲۷] مشابه دیپ‌سیک کدر، کد این مدل‌ها تحت پروانه ام‌آی‌تی بوده و خود مدل شامل مجوز پروانه دیپ‌سیک است.[۲۸]

معماری دیپ‌سیک ال‌ال‌ام عملاً مشابه سری لاما است: ترنسفورمر رمزگشا-محور pre-LN با استفاده از RMSNorm به‌عنوان روش نرمال‌سازی، تابع SwiGLU در پیشخور، دگرنمایی موقعیت چرخشی[ح] (RoPE)، و grouped-query attention (GQA). هر دو مدل دارای اندازه واژگان ۱۰۲۴۰۰ و (BPE در سطح بایت) طول متن ۴۰۹۶ هستند . آموزش آن‌ها بر روی ۲ تریلیون توکن متنی انگلیسی و چینی (با حذف تکرار) از خزنده عمومی[خ] صورت گرفت.[۲۷]

مشخصات کدگذار دیپ‌سیک[۲۷]
Params.
7B 30 ۴096 ۱۱00۸ 32 32
67B 95 ۸۱92 220۱6 ۸

در مدل ۶۷ میلیاردی نیز به‌دلیل GQA، تعداد سرها با تعداد سرهای KV یکسان نیست.

نسخه‌های Chat این دو مدل Base هم‌زمان عرضه شدند که با تنظیم دقیق نظارت‌شده و سپس [[یادگیری تقویتی از بازخورد انسانی#بهینه سازی ترجیح مستقیم[ج]|بهینه‌سازی خط‌مشی مستقیم]] (اختصاری DPO) از Base به‌دست آمده‌اند.[۲۷]

در آوریل ۲۰۲۴، سه مدل دیپ‌سیک مَث [د] عرضه شد که در ریاضیات تخصص داشتند: Base، Instruct و RL.

مراحل آموزشی آن‌ها به این ترتیب بود:[۲۹]

  1. آغاز با مدل پیش‌آموزش‌شده DeepSeek-Coder-Base-v۱.5 با ۷ میلیارد پارامتر.
  2. پیش‌آموزش بیشتر با استفاده از ۵۰۰ میلیارد توکن (۶٪ «مجموعه دیپ‌سیک ریاضی»، ۴٪ «استک جبری»، ۱۰٪ داده‌های آرکایو، ۲۰٪ کد گیت‌هاب، ۱۰٪ خزنده عمومی). خروجی این مرحله مدل Base بود.
  3. آموزش یک مدل پیروی از دستورات با تنظیم دقیق نظارت‌شده روی ۷۷۶ هزار مسئله ریاضی به‌همراه راه‌حل‌های گام‌به‌گام (همراه با ابزار). خروجی این مرحله مدل Instruct بود.

یادگیری تقویتی: مدل پاداش توسط یک «مدل پاداش فرایندی» در روش Math-Shepherd از Base آموزش دید.[۳۰] سپس با استفاده از همین مدل پاداش، مدل Instruct با روش جی‌آرپی‌او[ذ] بر مجموعه‌ای از ۱۴۴هزار پرسش ریاضی آموزش دید و مدل RL شکل گرفت.

در ماه مه ۲۰۲۴، آن‌ها سری DeepSeek-V2 را منتشر کردند. این سری شامل ۴ مدل است: ۲ مدل پایه (DeepSeek-V2، DeepSeek-V2-Lite) و ۲ چت‌بات (-Chat). دو مدل بزرگ‌تر به‌صورت زیر آموزش داده شدند:

  1. پیش‌آموزش بر روی مجموعه داده‌ای با ۸.۱ تریلیون توکن، که در آن تعداد توکن‌های چینی ۱۲٪ بیشتر از توکن‌های انگلیسی است.
  2. افزایش طول متن از ۴ هزار به ۱۲۸ هزار با استفاده از YaRN. این منجر به مدل DeepSeek-V2 شد.
  3. تنظیم دقیق نظارت‌شده با ۱.۲ میلیون نمونه برای کمک‌رسانی و ۰.۳ میلیون برای ایمنی. این منجر به DeepSeek-V2-Chat (SFT) شد که منتشر نشد.
  4. یادگیری تقویتی (RL) با استفاده از جی‌آرپی‌او در دو مرحله.
    1. مرحله اول برای حل مسائل ریاضی و کدنویسی آموزش داده شد. در این مرحله از یک مدل پاداش استفاده شد که بر اساس بازخورد کامپایلر (برای کدنویسی) و برچسب‌های واقعی (برای ریاضی) آموزش دیده بود.
    2. مرحله دوم برای کمک‌رسانی، ایمنی و پیروی از قوانین آموزش داده شد. در این مرحله از ۳ مدل پاداش استفاده شد. مدل‌های پاداش کمک‌رسانی و ایمنی بر اساس داده‌های ترجیح انسانی آموزش دیده بودند. مدل پاداش مبتنی بر قوانین به‌صورت دستی برنامه‌ریزی شده بود. همه مدل‌های پاداش آموزش‌دیده از DeepSeek-V2-Chat(SFT) ادامه داده شدند. این منجر به نسخه منتشرشده DeepSeek-V2-Chat شد.

متخصصان این شرکت یادگیری تقویتی دو مرحله‌ای را انتخاب کردند، زیرا دریافتند که RL بر روی داده‌های استدلالی دارای "ویژگی‌های منحصربه‌فردی" است که با RL بر روی داده‌های عمومی متفاوت است. به‌عنوان مثال، RL بر روی استدلال می‌تواند با تعداد بیشتری از مراحل آموزش بهبود یابد.

دو مدل V2-Lite کوچک‌تر بودند و به‌طور مشابه آموزش داده شدند، با این حال، مدل DeepSeek-V2-Lite-Chat تنها تحت پردازش تنظیم دقیق نظارت‌شده قرار گرفت و نه RL. در ادامه، نسخه Lite را برای کمک به "تحقیقات و توسعه بیشتر در مورد MLA و DeepSeekMoE" آموزش دادند.

از نظر معماری، مدل‌های V2 نسبت به سری قبلی ال‌ال‌ام دیپ‌سیک تغییر قابل‌توجهی یافته بودند. آن‌ها مکانیزم توجه استاندارد را با یک تقریب رتبه پایین به نام توجه نهفته چندسری (MLA) تغییر دادند و از ترکیب متخصصان (MoE) که قبلاً در ژانویه منتشر شده بود، استفاده کردند. در مقایسه با MoE استاندارد با دروازه‌گذاری پراکنده، این مدل های مشتق شده دارای یک "متخصص مشترک" هستند که همیشه مورد پرسش قرار می‌گیرند و دیگر "متخصصان مسیردهی‌شده"، که ممکن است هیمشه مورد پرسش قرار نگیرند.

ویژگی‌های DeepSeek V2
نام پارامترها پارامترهای فعال طول بافت
V2-Lite ۱۵.۷ میلیارد ۲.۴ میلیارد ۲۷ ۳۲ هزار ۲
V2 ۲۳۶ میلیارد ۲۱ میلیارد 60 ۱۲۸ هزار ۲ ۱08

فایننشال تایمز گزارش داد که این مدل در مقایسه با همتایان خود ارزان‌تر است و قیمت آن ۲ یوان برای هر میلیون توکن خروجی است. آزمایشگاه تایگر دانشگاه واترلو دیپ‌سیک-V2 را در رتبه هفتم در رتبه‌بندی LLM خود قرار داد.

در ژوئن ۲۰۲۴، آن‌ها ۴ مدل در سری DeepSeek-Coder-V2 منتشر کردند:

  • V2-Base
  • V2-Lite-Base
  • V2-Instruct
  • V2-Lite-Instruct.

این مدل‌ها به‌صورت زیر آموزش داده شده‌اند:

  1. مدل‌های Base از نقاط بازرسی میانی مربوطه پس از پیش‌آموزش بر روی ۴.۲ تریلیون توکن (نه نسخه در پایان پیش‌آموزش)، مقداردهی اولیه شدند، سپس بر روی ۶ تریلیون توکن دیگر پیش‌آموزش داده شدند، سپس طول متن به ۱۲۸ هزار افزایش یافت. این منجر به تولید مدل‌های Base شد.
  2. DeepSeek-Coder و DeepSeek-Math برای تولید ۲۰ هزار داده دستورالعمل مرتبط با کد و ۳۰ هزار داده دستورالعمل مرتبط با ریاضی استفاده شدند، سپس با یک مجموعه داده دستورالعمل ۳۰۰ میلیون توکنی ترکیب شدند. این مدل‌ها برای تنظیم دقیق نظارت‌شده استفاده شدند.
  3. RL با جی‌آرپی‌او. پاداش برای مسائل ریاضی با مقایسه با برچسب واقعی محاسبه شد. پاداش برای مسائل کد توسط یک مدل پاداش تولید شد که برای پیش‌بینی اینکه آیا یک برنامه تست‌های واحد را پاس می‌کند یا خیر، آموزش دیده بود.

DeepSeek-V2.5 در سپتامبر منتشر شد و در دسامبر به‌روزرسانی شد. این مدل از ترکیب DeepSeek-V2-Chat و DeepSeek-Coder-V2-Instruct ساخته شد.

در دسامبر ۲۰۲۴، شرکت دیپ‌سیک یک مدل پایه DeepSeek-V3-Base و یک مدل چت DeepSeek-V3 منتشر کرد. معماری مدل اساساً همانند نسخه V2 است. این مدل‌ها به این شکل آموزش داده شدند:[۳۱]

  1. پیش‌آموزش بر روی ۱۴٫۸ تریلیون توکن از یک پیکره چندزبانه، عمدتاً انگلیسی و چینی. نسبت محتوای ریاضی و برنامه‌نویسی در این مجموعه بیشتر از دیتاست پیش‌آموزش نسخه V2 بود.
  2. افزایش طول متن در دو مرحله از ۴هزار به ۳۲هزار و سپس به ۱۲۸هزار با استفاده از YaRN.[۳۲] این کار منجر به تولید DeepSeek-V3-Base شد.
  3. آموزش تنظیم دقیق نظارت‌شده به مدت ۲ دوره[ر] بر روی ۱٫۵ میلیون نمونه داده استدلالی (ریاضی، برنامه‌نویسی، منطق) و غیر استدلالی (نوشتار خلاقانه، نقش‌آفرینی، پرسش‌وپاسخ ساده). داده‌های استدلالی توسط «مدل‌های متخصص» [ز]تولید شد. داده‌های غیر استدلالی توسط DeepSeek-V2.5 ایجاد و سپس توسط انسان‌ها بازبینی شد.
    • «مدل‌های متخصص» با شروع از یک مدل پایه نامشخص، و سپس آموزش نظارت‌شده بر داده‌هایی با قالب <مسئله، پاسخ اصلی> و داده‌های مصنوعی با قالب <پرسش از سیستم، مسئله، پاسخ R1> تولیدشده توسط مدل داخلی DeepSeek-R1 ساخته شدند. در اعلان سیستمی، به R1 دستور داده می‌شد در حین تفکر، بازخورد و بررسی داشته باشد. سپس مدل‌های متخصص با استفاده از RL و تابع پاداش نامشخصی تقویت شدند.
    • هر مدل متخصص فقط برای تولید داده‌های مصنوعی استدلالی در یک حوزه مشخص (ریاضی، برنامه‌نویسی، منطق) آموزش دیده بود.
    • از مدل‌های متخصص به‌جای خودِ R1 استفاده شد، زیرا خروجی R1 دچار «زیاده‌اندیشی، قالب‌بندی ضعیف و طول متن خروجی بیش‌ازحد» می‌شد.
  4. مدل‌های پاداش مبتنی بر مدل[ژ] با شروع از یک نقطه بازرسی[س] آموزش نظارت‌شده V3 و سپس تنظیم دقیق روی داده‌های ترجیح انسانی[ش] حاوی هر دو پاداش نهایی و زنجیره تفکر منجر به آن پاداش، ساخته شدند. مدل پاداش برای پرسش‌هایی با پاسخ عینی اما آزاد و همچنین برای پرسش‌هایی بدون پاسخ عینی (مانند نوشتار خلاقانه) سیگنال پاداش تولید می‌کرد.
  5. یک نقطه بازرسی آموزش نظارت‌شده از V3 با استفاده از روش جی‌آرپی‌او و بهره‌گیری از هر دو مدل پاداش و پاداش مبتنی بر قواعد[ص] آموزش دید. پاداش مبتنی بر قواعد برای مسائل ریاضی از طریق پاسخ نهایی (درون یک کادر)، و برای مسائل برنامه‌نویسی از طریق آزمون واحد محاسبه می‌شد. این روند منجر به تولید DeepSeek-V3 شد.
ویژگی‌های DeepSeek V3[۳۱][۳۳]
Name Params Active params Context length
V3 671B 37B 61 128K 1 256

برای دستیابی به کارایی بالاتر، مهندسی در سطح پایین را به‌شکل گسترده انجام شد. آنها از محاسبات با دقت‌های ناهمگون استفاده کردند. بخش زیادی از مرحله روبه‌جلو (پیشخور) بجای قالب استاندارد ۳۲ بیتی، از اعداد ممیز شناور ۸ بیتی با قالب 5E2M (توان ۵ بیتی و ضریب علمی ۲ بیتی) انجام شد، که نیازمند توابع ویژه GEMM (ضرب ماتریس عمومی) برای عمل جمع با دقت بالا بود. از یک قالب شناور ۱۲ بیتی (E5M6) سفارشی تنها برای ورودی لایه‌های خطی پس از ماژول‌های توجه استفاده کردند. وضعیت‌های بهینه‌ساز[ض] در قالب ۱۶ بیتی (BF16) نگهداری می‌شد. برای به حداقل رساندن زمان نهفتگی در ارتباط بین پردازنده‌های گرافیکی، آن‌ها هم‌پوشانی گسترده‌ای میان محاسبه و ارتباط ایجاد کردند. برای نمونه، تنها برای ارتباط بین جی‌پی‌یوها، ۲۰ پردازنده چندجریانی از میان ۱۳۲ واحد موجود در H800 به این امر اختصاص داده شد. همچنین با تغییر مکرر (هر ۱۰ دقیقه) جای دقیق هر متخصص در ماشین‌ها، از تمرکز پرس‌وجو بر برخی ماشین‌ها کاستند، و هزینه‌های کمکی توزیع بار را به تابع هزینه آموزشی افزودند و از سایر تکنیک‌های متعادل‌سازی بار بهره گرفتند.[۳۱]

پس از آموزش، این مدل روی خوشه‌های H800 مستقر شد. درون هر خوشه، H800ها از طریق NVLink به هم متصل شدند و خود خوشه‌ها از طریق InfiniBand به هم وصل شوند.[۳۱]

هزینه آموزش مدل دیپ‌سیک-V3 [۳۱]
مرحله هزینه (در هر هزار ساعت-GPU) هزینه (بر حسب میلیون دلار آمریکا)
پیش‌آموزش 2,664 5.328
افزایش طول متن 119 0.24
تنظیم دقیق 5 0.01
کل هزینه 2,788 5.576

آزمون‌های بنچمارک نشان می‌دهد که دیپ‌سیک-V3 از لاما نسخه ۳٫۱ و کوئن نسخه ۲٫۵ پیشی می‌گیرد و در حد جی‌پی‌تی ۴او و کلود نسخه ۳٫۵ سونت عمل می‌کند.[۱۹][۳۴][۳۵][۳۶]

در تاریخ ۲۰ نوامبر ۲۰۲۴، مدل DeepSeek-R1-Lite-Preview از طریق واسط برنامه‌نویسی کاربردی دیپ‌سیک در دسترس قرار گرفت.[۳۷] این مدل برای استنتاج منطقی، استدلال ریاضی و حل مسائل در زمان واقعی آموزش داده شده بود. شرکت دیپ‌سیک ادعا کرد که این مدل در آزمون‌های معیاری مانند آزمون ریاضی دعوتی آمریکا (AIME) و MATH عملکرد بهتری نسبت به مدل OpenAI o1 داشته است.[۳۸] با این حال، نشریه وال استریت ژورنال گزارش داد که هنگام بررسی ۱۵ مسئله از نسخه ۲۰۲۴ آزمون AIME، مدل o1 سریع‌تر از DeepSeek-R1-Lite-Preview به پاسخ صحیح رسید.[۳۹]

در تاریخ ۲۰ ژانویه ۲۰۲۵، دو مدل DeepSeek-R1 و DeepSeek-R1-Zero منتشر شدند.[۴۰] هر دو مدل ادامه آموزش بر روی DeepSeek-V3-Base بودند و از همان معماری بهره می‌برند. علاوه بر این، شرکت دیپ‌سیک مدل‌های DeepSeek-R1-Distill را نیز منتشر کرد که برخلاف مدل‌های اصلی، از V3-Base اولیه‌سازی نشده‌اند، بلکه از مدل‌های با وزن باز مانند لاما و کوئن اولیه‌سازی شده و سپس با داده‌های مصنوعی تولیدشده توسط R1 تنظیم دقیق شده‌اند.[۴۱]

قالب ورودی برای DeepSeek-R1-Zero

مکالمه‌ای بین کاربر و دستیار. کاربر یک پرسش مطرح می‌کند و دستیار آن را حل می‌کند. ابتدا، دستیار فرایند استدلال را در ذهن خود بررسی کرده و سپس پاسخ را ارائه می‌دهد. فرایند استدلال و پاسخ درون برچسب‌های <think> </think> و <answer> </answer> قرار می‌گیرند، به این صورت: <think> فرآیند استدلال در اینجا </think> <answer> پاسخ در اینجا </answer> کاربر: <prompt> دستیار:

– مقدار <prompt> در طول آموزش با سوالات استدلالی خاص جایگزین می‌شود.

مدل DeepSeek-R1-Zero به‌طور انحصاری با استفاده از تقویت یادگیری با استفاده از جی‌آرپی‌او - آر اِل[ط] آموزش داده شد و از تنظیم دقیق نظارت‌شده استفاده نکرد. برخلاف نسخه‌های قبلی، این مدل از پاداش مبتنی بر مدل استفاده نکرده و تمام تابع‌های پاداش به‌صورت قانون‌محور بودند. دو نوع اصلی از پاداش‌ها وجود داشت (سایر انواع مشخص نشده‌اند):پاداش دقت و پاداش قالب‌بندی (فرمت).

پاداش دقت بررسی می‌کرد آیا پاسخ ارائه‌شده در جعبه پاسخ صحیح است (برای مسائل ریاضی) یا آیا کد نوشته‌شده آزمون‌ها را با موفقیت پشت سر گذاشته است (برای برنامه‌نویسی).

پاداش قالب‌بندی که بررسی می‌کرد آیا مدل فرایند فکری خود را درون برچسب‌های <think>...</think> قرار داده است یا خیر.[۴۱]

از آنجا که مدل DeepSeek-R1-Zero در خوانایی و انسجام زبانی مشکلاتی داشت، مدل R1 برای برطرف کردن این مشکلات و بهبود استدلال آموزش داده شد:[۴۱]

  1. اجرای تنظیم دقیق نظارت‌شده بر روی مدل DeepSeek-V3-Base با استفاده از هزاران داده‌ی "آغاز سرد" که همگی در قالب استاندارد |special_token|<reasoning_process>|special_token|summary> بودند.
  2. به‌کارگیری فرآیند تقویت یادگیری مشابه با R1-Zero، اما همراه با پاداش انسجام زبانی برای تشویق پاسخ‌دهی به‌صورت تک‌زبانه. این فرایند یک مدل داخلی تولید کرد که منتشر نشد.
  3. تولید ۶۰۰ هزار نمونه داده‌ی استدلالی مصنوعی از مدل داخلی، با نمونه‌گیری ردشده (rejection sampling) (یعنی اگر پاسخ نهایی استدلال اشتباه بود، نمونه حذف می‌شد). همچنین، ۲۰۰ هزار داده‌ی غیر استدلالی (مانند نگارش، پرسش و پاسخ دانش‌محور، خودشناسی، و ترجمه) با استفاده از دیپ‌سیک-V3 تولید شد.
  4. تنظیم دقیق نظارت‌شده مدل DeepSeek-V3-Base بر روی ۸۰۰ هزار نمونه داده مصنوعی برای ۲ دوره.
  5. تقویت یادگیری (GRPO RL) با استفاده از پاداش قانون‌محور (برای وظایف استدلالی) و پاداش مبتنی بر مدل (برای وظایف غیر استدلالی، مفید بودن و بی‌ضرر بودن). این فرایند مدل DeepSeek-R1 را تولید کرد.

مدل‌های تقطیرشده[ظ] با SFT بر روی ۸۰۰ هزار داده‌ی مصنوعی تولیدشده از دیپ‌سیک-R1، مشابه مرحله ۳ فوق، آموزش داده شدند. این مدل‌ها برخلاف مدل اصلی، با تقویت یادگیری (RL) آموزش داده نشدند.[۴۱]

ارزیابی و واکنش‌ها

[ویرایش]

دیپ‌سیک نسخه دستیار هوش مصنوعی خود را منتشر کرد که از مدل V3 به‌عنوان یک چت‌بات برای آی‌اواس و اندروید بهره می‌برد. تا ۲۷ ژانویهٔ ۲۰۲۵، این اپلیکیشن در اَپ‌استور ایالات متحده از چت‌جی‌پی‌تی پیشی گرفت و بالاترین امتیاز را در میان اپلیکیشن‌های رایگان کسب کرد. گفته می‌شود چت‌بات آن بر اساس آزمون‌های مرجع مورد استفاده شرکت‌های هوش مصنوعی آمریکایی می‌تواند در حد سایر چت‌بات‌های موجود در بازار به پرسش‌ها پاسخ دهد، مسائل منطقی را حل کند و برنامه‌های کامپیوتری بنویسد.[۳]

DeepSeek-V3 در مقایسه با همتایان خود به‌طور قابل‌توجهی از منابع کمتری استفاده می‌کند. برای نمونه، در حالی که شرکت‌های پیشروی هوش مصنوعی جهان، چت‌بات‌هایشان را در ابررایانه‌ها با استفاده از نزدیک به ۱۶٬۰۰۰ واحد پردازش گرافیکی یا حتی بیشتر آموزش می‌دهند، دیپ‌سیک ادعا می‌کند تنها حدود ۲٬۰۰۰ GPU شامل چیپ سری H800 از انویدیا را به کار گرفته است.[نیازمند منبع] این مدل در حدود ۵۵ روز با هزینه ۵٫۵۸ میلیون دلار آمریکا[۳۱] آموزش داده شد که تقریباً ۱۰ برابر کمتر از رقمی است که غول فناوری آمریکایی متا صرف ساخت جدیدترین فناوری هوش مصنوعی‌اش کرده‌است.[۳]

عملکرد رقابتی دیپ‌سیک با هزینه نسبتاً پایین، به عنوان عاملی که ممکن است سلطه جهانی مدل‌های هوش مصنوعی آمریکایی را به چالش بکشد، شناخته شده‌است.[۴۲] نشریات و رسانه‌های مختلف، نظیر هیل و گاردین، انتشار این چت‌بات را «لحظه اسپوتنیک» برای هوش مصنوعی آمریکا توصیف کردند.[۴۳][۴۴] گفته می‌شود عملکرد مدل R1 این شرکت، در کارهایی مانند ریاضیات، کدنویسی و استدلال زبان طبیعی، «هم‌سطح با» یکی از جدیدترین مدل‌های اوپن‌ای‌آی است[۴۵] و به نقل از دیگر مفسران، سرمایه‌گذار خطرپذیر سیلیکون‌ولی آمریکا، مارک آندرسن هم R1 را «لحظه اسپوتنیک هوش مصنوعی» توصیف کرده‌است.[۴۵]

بنیان‌گذار دیپ‌سیک، لیانگ ونفِنگ، با مدیرعامل سم آلتمن در اوپن‌ای‌آی مقایسه شده‌است. سی‌ان‌ان او را سم آلتمن چین و مبلّغ هوش مصنوعی خوانده‌است.[۴۶]

خطای ورود به حساب کاربری که دیپ‌سیک در ۲۸ ژانویه ۲۰۲۵ پس از یک حمله سایبری نشان داد

بهینه‌سازی منابع محدود در دیپ‌سیک، محدودیت‌های بالقوه تحریم‌های آمریکا علیه توسعه هوش مصنوعی چین را برجسته کرده‌است که شامل محدودیت‌های صادراتی بر تراشه‌های پیشرفته هوش مصنوعی به چین می‌شود.[۱۹][۴۷] موفقیت مدل‌های هوش مصنوعی این شرکت به‌دنبال آن «آشفتگی در بازار»[۴۸] به وجود آورد و باعث سقوط سهام شرکت‌های بزرگ فناوری در ۲۷ ژانویه شد: سهام انویدیا تا حدود ۱۷–۱۸٪ افت کرد[۴۹] و سهام رقیبش برودکام نیز به همین سرنوشت دچار شد. دیگر شرکت‌های فناوری نیز سقوط کردند، از جمله مایکروسافت (۲٫۵٪ کاهش)، شرکت مادر گوگل یعنی آلفابت (بیش از ۴٪ کاهش) و سازنده هلندی تجهیزات تراشه ای‌اس‌ام‌ال (بیش از ۷٪ کاهش).[۴۵] فروش گسترده سهام شرکت‌های فناوری در نزدک، که با انتشار مدل R1 آغاز شد، منجر به زیان بی‌سابقه در حدود ۵۹۳ میلیارد دلار از ارزش بازار شرکت‌های فعال در حوزه هوش مصنوعی و سخت‌افزار کامپیوتر شد؛[۵۰] تا ۲۸ ژانویه، مجموعاً حدود یک تریلیون دلار از ارزش سهام شرکت‌های آمریکایی کاسته شد.[۴۴]

چهره‌های برجسته حوزه هوش مصنوعی در آمریکا نسبت به موفقیت و عملکرد دیپ‌سیک واکنش‌های متفاوتی نشان دادند.[۵۱] مدیرعامل مایکروسافت، ساتیا نادلا، و سم آلتمن (مدیرعامل اوپن‌ای‌آی) — که شرکت‌هایشان در «پروژه استارگیت» مورد پشتیبانی دولت آمریکا برای توسعه زیرساخت هوش مصنوعی این کشور مشارکت دارند — هر دو دیپ‌سیک را «فوق‌العاده چشمگیر» خواندند.[۵۲][۵۳] رئیس‌جمهور آمریکا، دونالد ترامپ، که پروژه استارگیت را اعلام کرده بود، دیپ‌سیک را زنگ بیدارباش[۵۴] و تحولی مثبت توصیف کرد.[۵۵][۴۴][۵۶][۵۷] دیگر رهبران این حوزه، از جمله مدیرعامل Scale AI الکساندر وانگ، یکی از بنیان‌گذاران و مدیرعامل آنتروپیک داریو آمودی، و ایلان ماسک نسبت به عملکرد این اپلیکیشن یا پایداری موفقیتش ابراز تردید کردند.[۵۱][۵۸][۵۹] شرکت‌های مختلفی از جمله سرویس‌های وب آمازون، تویوتا و استرایپ درصدد استفاده از این مدل در برنامه‌های خود هستند.[۶۰]

در ۲۷ ژانویه، دیپ‌سیک به دنبال گزارش یک حمله سایبری که باعث کندی سرورها و سرویس‌هایش شد، ثبت‌نام کاربران جدید را صرفاً به شماره تلفن‌های داخل سرزمین اصلی چین، ایمیل و ورود از طریق گوگل محدود کرد.[۶۱][۶۲]

سانسور

[ویرایش]

برخی منابع مشاهده کرده‌اند که نسخه رسمی API مدل R۱ دارای مکانیسم‌های سانسور در موضوعات حساس، به‌ویژه موضوعاتی که برای دولت جمهوری خلق چین حساسیت دارند، است. برای نمونه، مدل از پاسخ‌دادن درباره اعتراضات میدان تیان‌آن‌من ۱۹۸۹، آزار اویغورها یا نقض حقوق بشر در چین امتناع می‌کند.[۶۳][۶۴] گاهی هوش مصنوعی در ابتدا پاسخی تولید می‌کند، اما اندکی بعد آن را پاک کرده و با پیامی نظیر «متأسفم، این فراتر از حیطه فعلی من است. بیایید درباره چیز دیگری صحبت کنیم.» جایگزین می‌کند.[۶۴] محدودیت‌ها و مکانیسم‌های سانسور در نسخه متن‌باز مدل R۱ فقط تا حدی قابل حذف هستند و به‌محض تماس با «ارزش‌های سوسیالیستی پایه» تعیین‌شده توسط نهادهای ناظر اینترنتی چین یا مثلاً مطرح‌شدن وضعیت سیاسی تایوان، گفت‌وگو متوقف می‌شود.[۶۵] در آزمونی توسط ان‌بی‌سی نیوز، R۱ درباره تایوان (جزیره‌ای با حاکمیت مستقل دموکراتیک) گفت که «تایوان بخشی جدایی‌ناپذیر از قلمرو چین است» و افزود: «ما قاطعانه با هر نوع فعالیت تجزیه‌طلبانه “استقلال تایوان” مخالفیم و متعهد به تحقق کامل اتحاد مجدد میهن از راه‌های مسالمت‌آمیز هستیم.»[۶۶]

یادداشت‌ها

[ویرایش]
  1. High-Flyer
  2. DeepSeek Coder
  3. DeepSeek Chat
  4. DeepSeek LLM
  5. DeepSeek Coder
  6. Context length: The length of token array (not words)
  7. Supervised finetuning (SFT)
  8. rotary positional embedding
  9. Common Crawl
  10. DeepSeek-Math
  11. group relative policy optimization (GRPO)
  12. epoch
  13. expert models
  14. Model-based reward models
  15. Checkpoint
  16. Human preference
  17. rule-based reward
  18. Optimizer states
  19. GRPO RL
  20. Distilled

پانویس

[ویرایش]
  1. Gibney, Elizabeth (January 23, 2025). "China's cheap, open AI model DeepSeek thrills scientists". Nature (به انگلیسی). doi:10.1038/d41586-025-00229-6. ISSN 1476-4687.
  2. Hoskins, Peter; Rahman-Jones, Imran (January 27, 2025). "DeepSeek Chinese AI chatbot sparks market turmoil for rivals". بی‌بی‌سی (به انگلیسی). Retrieved 2025-01-27.
  3. ۳٫۰ ۳٫۱ ۳٫۲ ۳٫۳ ۳٫۴ ۳٫۵ ۳٫۶ Metz, Cade; Tobin, Meaghan (2025-01-23). "How Chinese A.I. Start-Up DeepSeek Is Competing With Silicon Valley Giants". نیویورک تایمز (به انگلیسی). ISSN 0362-4331. Retrieved 2025-01-27.
  4. Cosgrove, Emma (January 27, 2025). "DeepSeek's cheaper models and weaker chips call into question trillions in AI infrastructure spending". بیزنس اینسایدر.
  5. Saran, Cliff (December 10, 2024). "Nvidia investigation signals widening of US and China chip war". Computer Weekly. Retrieved January 27, 2025. {{cite web}}: Text "Computer Weekly" ignored (help)
  6. Sherman, Natalie (December 9, 2024). "Nvidia targeted by China in new chip war probe". بی‌بی‌سی. Retrieved January 27, 2025.
  7. ۷٫۰ ۷٫۱ Metz, Cade (2025-01-27). "What is DeepSeek? And How Is It Upending A.I.?". نیویورک تایمز (به انگلیسی). ISSN 0362-4331. Retrieved 2025-01-27.
  8. Field, Hayden (27 January 2025). "China's DeepSeek AI dethrones ChatGPT on App Store: Here's what you should know". CNBC.
  9. "What is DeepSeek, and why is it causing Nvidia and other stocks to slump? - CBS News". www.cbsnews.com. 27 January 2025.
  10. Barrabi, Thomas (27 January 2025). "Nvidia stock suffers record wipeout on DeepSeek fears -- as CEO Jensen Huang's net worth tanks".
  11. ۱۱٫۰ ۱۱٫۱ Romero, Luis E. "ChatGPT, DeepSeek, Or Llama? Meta's LeCun Says Open-Source Is The Key". Forbes.
  12. "Inside DeepSeek Models". Turing Post. 28 August 2024. Retrieved 28 December 2024.
  13. Sharma, Shubham (1 December 2023). "Meet DeepSeek Chat, China's latest ChatGPT rival with a 67B model". VentureBeat. Retrieved 28 December 2024.
  14. title=The Chinese quant fund-turned-AI pioneer |url=https://www.ft.com/content/357f3c68-b866-4c2e-b678-0d075051a260
  15. {{Cite web |last=Huang |first=Raffaele |date=24 December 2024 |title=Don't Look Now, but China's AI Is Catching Up Fast |url=https://www.wsj.com/tech/ai/china-ai-advances-us-chips-7838fd20 |access-date=28 December 2024 |website=The Wall Street Journal
  16. ۱۶٫۰ ۱۶٫۱ Chen, Caiwei (2025-01-24). "How a top Chinese AI model overcame US sanctions". MIT Technology Review (به انگلیسی). Archived from the original on 25 January 2025.
  17. ۱۷٫۰ ۱۷٫۱ ۱۷٫۲ ۱۷٫۳ Ottinger, Lily (9 December 2024). "Deepseek: From Hedge Fund to Frontier Model Maker". ChinaTalk (به انگلیسی). Archived from the original on 28 December 2024. Retrieved 28 December 2024.
  18. Yu, Xu (17 April 2023). "[Exclusive] Chinese Quant Hedge Fund High-Flyer Won't Use AGI to Trade Stocks, MD Says". Yicai Global (به انگلیسی). Archived from the original on 31 December 2023. Retrieved 28 December 2024.
  19. ۱۹٫۰ ۱۹٫۱ ۱۹٫۲ ۱۹٫۳ ۱۹٫۴ Jiang, Ben; Perezi, Bien (1 January 2025). "Meet DeepSeek: the Chinese start-up that is changing how AI models are trained". South China Morning Post (به انگلیسی). Archived from the original on 22 January 2025. Retrieved 1 January 2025.
  20. McMorrow, Ryan; Olcott, Eleanor (9 June 2024). "The Chinese quant fund-turned-AI pioneer". Financial Times. Archived from the original on 17 July 2024. Retrieved 28 December 2024.
  21. ۲۱٫۰ ۲۱٫۱ Schneider, Jordan (27 November 2024). "Deepseek: The Quiet Giant Leading China's AI Race". ChinaTalk. Retrieved 28 December 2024.
  22. "DeepSeek-Coder/LICENSE-MODEL at main · deepseek-ai/DeepSeek-Coder". GitHub (به انگلیسی). Archived from the original on 22 January 2025. Retrieved 2025-01-24.
  23. ۲۳٫۰ ۲۳٫۱ ۲۳٫۲ Guo, Daya; Zhu, Qihao; Yang, Dejian; Xie, Zhenda; Dong, Kai; Zhang, Wentao; Chen, Guanting; Bi, Xiao; Wu, Y. (2024-01-26), DeepSeek-Coder: When the Large Language Model Meets Programming -- The Rise of Code Intelligence, arXiv, doi:10.48550/arXiv.2401.14196, arXiv:2401.14196
  24. "DeepSeek Coder". deepseekcoder.github.io. Retrieved 2025-01-27.
  25. deepseek-ai/DeepSeek-Coder, DeepSeek, 2025-01-27, retrieved 2025-01-27
  26. "deepseek-ai/deepseek-coder-5.7bmqa-base · Hugging Face". huggingface.co. Retrieved 2025-01-27.
  27. ۲۷٫۰ ۲۷٫۱ ۲۷٫۲ ۲۷٫۳ DeepSeek-AI; Bi, Xiao; Chen, Deli; Chen, Guanting; Chen, Shanhuang; Dai, Damai; Deng, Chengqi; Ding, Honghui; Dong, Kai (2024-01-05), DeepSeek LLM: Scaling Open-Source Language Models with Longtermism, arXiv, doi:10.48550/arXiv.2401.02954, arXiv:2401.02954
  28. deepseek-ai/DeepSeek-LLM, DeepSeek, 2025-01-27, retrieved 2025-01-27
  29. Shao, Zhihong; Wang, Peiyi; Zhu, Qihao; Xu, Runxin; Song, Junxiao; Bi, Xiao; Zhang, Haowei; Zhang, Mingchuan; Li, Y. K. (2024-04-27), DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models, arXiv, doi:10.48550/arXiv.2402.03300, arXiv:2402.03300
  30. Wang, Peiyi; Li, Lei; Shao, Zhihong; Xu, R. X.; Dai, Damai; Li, Yifei; Chen, Deli; Wu, Y.; Sui, Zhifang (2024-02-19), Math-Shepherd: Verify and Reinforce LLMs Step-by-step without Human Annotations, arXiv, doi:10.48550/arXiv.2312.08935, arXiv:2312.08935
  31. ۳۱٫۰ ۳۱٫۱ ۳۱٫۲ ۳۱٫۳ ۳۱٫۴ ۳۱٫۵ DeepSeek-AI; Liu, Aixin; Feng, Bei; Xue, Bing; Wang, Bingxuan; Wu, Bochao; Lu, Chengda; Zhao, Chenggang; Deng, Chengqi (27 December 2024), DeepSeek-V3 Technical Report, arXiv:2412.19437
  32. خطای یادکرد: خطای یادکرد:برچسب <ref>‎ غیرمجاز؛ متنی برای یادکردهای با نام :10 وارد نشده است. (صفحهٔ راهنما را مطالعه کنید.).
  33. "config.json · deepseek-ai/DeepSeek-V3 at main". huggingface.co. 26 December 2024. Retrieved 28 January 2025.
  34. Jiang, Ben (27 December 2024). "Chinese start-up DeepSeek's new AI model outperforms Meta, OpenAI products". South China Morning Post (به انگلیسی). Archived from the original on 27 December 2024. Retrieved 28 December 2024.
  35. Sharma, Shubham (26 December 2024). "DeepSeek-V3, ultra-large open-source AI, outperforms Llama and Qwen on launch". VentureBeat (به انگلیسی). Archived from the original on 27 December 2024. Retrieved 28 December 2024.
  36. Wiggers, Kyle (26 December 2024). "DeepSeek's new AI model appears to be one of the best 'open' challengers yet". TechCrunch. Archived from the original on 2 January 2025. Retrieved 31 December 2024.
  37. "News | DeepSeek-R1-Lite Release 2024/11/20: 🚀 DeepSeek-R1-Lite-Preview is now live: unleashing supercharged reasoning power!". DeepSeek API Docs (به انگلیسی). Retrieved 28 January 2025.
  38. Franzen, Carl (20 November 2024). "DeepSeek's first reasoning model R1-Lite-Preview turns heads, beating OpenAI o1 performance". VentureBeat (به انگلیسی). Archived from the original on 22 November 2024. Retrieved 28 December 2024.
  39. Huang, Raffaele (24 December 2024). "Don't Look Now, but China's AI Is Catching Up Fast". The Wall Street Journal (به انگلیسی). Archived from the original on 27 December 2024. Retrieved 28 December 2024.
  40. "Release DeepSeek-R1 · deepseek-ai/DeepSeek-R1@23807ce". GitHub (به انگلیسی). Archived from the original on 21 January 2025. Retrieved 21 January 2025.
  41. ۴۱٫۰ ۴۱٫۱ ۴۱٫۲ ۴۱٫۳ DeepSeek-AI; Guo, Daya; Yang, Dejian; Zhang, Haowei; Song, Junxiao; Zhang, Ruoyu; Xu, Runxin; Zhu, Qihao; Ma, Shirong (22 January 2025), DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning, arXiv:2501.12948
  42. "Chinese AI startup DeepSeek overtakes ChatGPT on Apple App Store". Reuters. 27 January 2025. Retrieved 27 January 2025.
  43. Wade, David (6 December 2024). "American AI has reached its Sputnik moment". The Hill (به انگلیسی). Archived from the original on 8 December 2024. Retrieved 25 January 2025.
  44. ۴۴٫۰ ۴۴٫۱ ۴۴٫۲ Milmo, Dan; Hawkins, Amy; Booth, Robert; Kollewe, Julia (28 January 2025). "'Sputnik moment': $1tn wiped off US stocks after Chinese firm unveils AI chatbot" – via The Guardian.
  45. ۴۵٫۰ ۴۵٫۱ ۴۵٫۲ "DeepSeek Chinese AI chatbot sparks market turmoil for rivals". www.bbc.com (به انگلیسی). 27 January 2025. Retrieved 27 January 2025.
  46. Goldman, David (2025-01-27). "What is DeepSeek, the Chinese AI startup that shook the tech world? | CNN Business". CNN (به انگلیسی). Retrieved 2025-01-29.
  47. Shilov, Anton (27 December 2024). "Chinese AI company's AI model breakthrough highlights limits of US sanctions". Tom's Hardware (به انگلیسی). Archived from the original on 28 December 2024. Retrieved 28 December 2024.
  48. "DeepSeek updates – Chinese AI chatbot sparks US market turmoil, wiping $500bn off Nvidia". BBC News (به انگلیسی). Retrieved 27 January 2025.
  49. Nazareth, Rita (26 January 2025). "Stock Rout Gets Ugly as Nvidia Extends Loss to 17%: Markets Wrap". Bloomberg. Retrieved 27 January 2025.
  50. Carew, Sinéad; Cooper, Amanda; Banerjee, Ankur (27 January 2025). "DeepSeek sparks global AI selloff, Nvidia losses about $593 billion of value". Reuters.
  51. ۵۱٫۰ ۵۱٫۱ Sherry, Ben (28 January 2025). "DeepSeek, Calling It 'Impressive' but Staying Skeptical". Inc. Retrieved 29 January 2025.
  52. Kevin Okemwa (2025-01-28). "Microsoft CEO Satya Nadella touts DeepSeek's open-source AI as "super impressive": "We should take the developments out of China very, very seriously"". Windows Central (به انگلیسی). Retrieved 2025-01-28.
  53. Nazzaro, Miranda (28 January 2025). "OpenAI's Sam Altman calls DeepSeek model 'impressive'". The Hill. Retrieved 28 January 2025.
  54. Dou, Eva; Gregg, Aaron; Zakrzewski, Cat; Tiku, Nitasha; Najmabadi, Shannon (28 January 2025). "Trump calls China's DeepSeek AI app a 'wake-up call' after tech stocks slide". The Washington Post. Retrieved 28 January 2025.
  55. Habeshian, Sareen (28 January 2025). "Johnson bashes China on AI, Trump calls DeepSeek development "positive"". Axios.
  56. Hoskins, Peter; Rahman-Jones, Imran (27 January 2025). "Nvidia shares sink as Chinese AI app spooks markets". بی‌بی‌سی (به انگلیسی). Retrieved 28 January 2025.
  57. Karaian, Jason; Rennison, Joe (27 January 2025). "China's A.I. Advances Spook Big Tech Investors on Wall Street" – via NYTimes.com.
  58. Sharma, Manoj (2025-01-06). "Musk dismisses, Altman applauds: What leaders say on DeepSeek's disruption". Fortune India (به انگلیسی). Retrieved 2025-01-28.
  59. "Elon Musk 'questions' DeepSeek's claims, suggests massive Nvidia GPU infrastructure". Financialexpress (به انگلیسی). 2025-01-28. Retrieved 2025-01-28.
  60. Kim, Eugene. "Big AWS customers, including Stripe and Toyota, are hounding the cloud giant for access to DeepSeek AI models". Business Insider.
  61. Kerr, Dara (27 January 2025). "DeepSeek hit with 'large-scale' cyber-attack after AI chatbot tops app stores". The Guardian. Retrieved 28 January 2025.
  62. Tweedie, Steven; Altchek, Ana. "DeepSeek temporarily limited new sign-ups, citing 'large-scale malicious attacks'". Business Insider.
  63. Field, Matthew; Titcomb, James (2025-01-27). "Chinese AI has sparked a $1 trillion panic – and it doesn't care about free speech". The Daily Telegraph (به انگلیسی). ISSN 0307-1235. Retrieved 2025-01-27.
  64. ۶۴٫۰ ۶۴٫۱ Steinschaden, Jakob (2025-01-27). "DeepSeek: This is what live censorship looks like in the Chinese AI chatbot". Trending Topics (به انگلیسی). Retrieved 2025-01-27.
  65. "The Guardian view on a global AI race: geopolitics, innovation and the rise of chaos". The Guardian (به انگلیسی). 2025-01-26. ISSN 0261-3077. Retrieved 2025-01-27.
  66. "Chinese AI DeepSeek jolts Silicon Valley, giving the AI race its 'Sputnik moment'". NBC News (به انگلیسی). 2025-01-27. Retrieved 2025-01-27.

جستارهای وابسته

[ویرایش]