رم محاسباتی
رم محاسباتی یا سی-رم (به انگلیسی: C-RAM) یک حافظه با دسترسی تصادفی با اعضای پردازشی تعبیه شده بر روی یک تراشه است. این باعث میشود که بتوان از سی-رم به عنوان یک کامپیوتر اسآیامدی استفاده کرد. همچنین میتوان از آن برای استفاده بهینه تر از پهنای باند حافظه (Memory Bandwidth) در تراشههای رم استفاده کرد.
کلیات
[ویرایش]تاثیرگذارترین پیادهسازیهای رم محاسباتی از پروژه Berkeley IRAM به دست آمد. همچنین (Vector IRAM (V-IRAM، رم دینامیک DRAM را با یک پردازنده برداری روی یک تراشه بهطور یکپارچه ترکیب میکند.[۱]
معماری قابل تنظیم مجدد حافظه با دسترسی تصادفی پویا (RADram) یک DRAM با عناصر منطقی محاسباتی FPGA قابل تنظیم مجدد است که روی یک تراشه تعبیه شدهاست.[۲] شبیهسازیهای SimpleScalar نشان میدهند که RADram (در سیستمی با یک پردازنده معمولی) میتواند در برخی از محاسبات عملکرد به مراتب بهتری نسبت به DRAM در سیستمی با همان پردازنده ارائه دهد.
برخی از مسائل محاسبات موازی شرم آور (به انگلیسی: embarrassingly parallel computational problems) در حال حاضر توسط تنگنای وان نومان بین CPU و DRAM محدود شدهاست. برخی از پژوهشگران پیشبینی میکنند که با هزینه کل برابر، ماشینی که در آن از رم محاسباتی استفاده شدهاست، در این نوع مسائل بهطور قابل توجهی سریعتر از کامپیوترهای معمولی با کاربری عمومی عمل می کند.[۳]
از سال ۲۰۱۱، «پردازش DRAM» (تعدادی لایه؛ بهینهسازی شده برای ظرفیت بالا) و «پردازش CPU» (بهینهسازی شده برای فرکانس بالا. معمولاً دارای دو برابر لایههای BEOL نسبت به DRAM. به دلیل اینکه هر لایه اضافی بازده را کاهش میدهد و هزینه ساخت را افزایش میدهد. چنین تراشههایی در مقایسه با DRAM در هر میلیمتر مربع نسبتاً گران هستند) به اندازه کافی متمایز شدهاند که سه رویکرد متفاوت برای رم محاسباتی به وجود آمده:
- با استفاده از یک فرایند بهینهسازی شده برای CPU و دستگاهی که از SRAM تعبیه شده زیادی استفاده میکند، یک مرحله فرایند اضافی اضافه کنید (که هزینه نسبت به هر میلیمتر مربع آن را گرانتر میکند) تا امکان جایگزینی «SRAM تعبیه شده» با «DRAM تعبیه شده» (eDRAM) فراهم شود و حدود ۳ برابر مساحت نسبت به حالت SRAM صرفه جویی شده و بنابراین هزینه خالص هر تراشه کاهش یابد.
- در شروع با یک سیستم که دارای یک تراشه CPU و تراشه DRAM جداگانه است، مقادیر کمی از توانایی محاسباتی «همپردازنده» را به DRAM اضافه کنید، در محدوده توانایی «پردازش DRAM» کار کنید و فقط مقدار کمی از مساحت را به DRAM اضافه کنید در غیر این صورت عملیات ها توسط تنگنای باریک بین CPU و DRAM کند میشوند: مناطق انتخاب شده از حافظه را پر نکنید، بلوکهای بزرگی از دادهها را از یک مکان به مکان دیگر کپی کنید، پیدا کنید که در آن (در صورت وجود) یک بایت معین در برخی از بلوکهای داده وجود دارد و... سیستم به دست آمده - تراشه CPU بدون تغییر و تراشه (های) «DRAM هوشمند» - حداقل به اندازه سرعت سیستم اصلی است و بهطور بالقوه از نظر هزینه کمی کمتر است. انتظار میرود هزینه مقدار کمی از مساحت اضافی بیش از صرفهجویی در زمان تست گران باشد، زیرا اکنون قابلیت محاسباتی کافی در یک «DRAM هوشمند» برای ویفر پر از DRAM وجود دارد که بتواند اکثر آزمایشهای داخلی را به صورت موازی انجام دهد. به جای روش سنتی آزمایش کامل یک تراشه DRAM در یک زمان با تجهیزات تست اتوماتیک خارجی گرانقیمت.[۱]
- با شروع یک پردازش بهینهسازی شده برای DRAM، فرایند را تغییر دهید تا کمی بیشتر شبیه به «پردازش CPU» شود و یک CPU (با فرکانس نسبتاً کم، اما کم مصرف و پهنای باند بسیار بالا) چند منظوره در محدوده توانایی آن بسازید.
برخی از CPUهایی که برای تعبیه بر روی یک فناوری پردازش DRAM طراحی شدهاند (به جای فناوری «پردازش CPU» یا «پردازش منطقی» که بهطور خاص برای CPUها بهینه شدهاست) شامل پروژه Berkeley IRAM، فناوری TOMI[۴] و AT&T DSP1 است.
از آنجایی که ظرفیت گذرگاه حافظه خارج از تراشه چندین برابر ظرفیت گذرگاه حافظه روی تراشه است، یک سیستم با تراشههای DRAM و CPU جداگانه میتواند نسبت به یک سیستم IRAM با عملکرد یکسان جندین برابر مصرف انرژی داشته باشد.[۱]
از آنجایی که انتظار میرود DRAM محاسباتی داغ تر از DRAM معمولی فعالیت کند، و چون افزایش دمای تراشه منجر به نشت سریع تر جریان از سلولهای ذخیرهسازی DRAM میشود، انتظار میرود DRAM محاسباتی نسبت به DRAM معمولی به تازه سازی (refresh) بیشتری در واحد زمان نیاز داشته باشد.[۲]
پردازندهٔ در (نزدیک) حافظه
[ویرایش]پردازندهٔ در (نزدیک به) حافظه (PINM) (به انگلیسی: processor-in-/near-memory) یک پردازنده کامپیوتری (CPU) است که بهطور تنگاتنگی به حافظه متصل است و معمولاً به همراه واحد حافظه روی یک تراشه سیلیکونی یکسان قرار دارند.
هدف اصلی از ادغام اجزای پردازش و حافظه در این روش کاهش تأخیر حافظه و افزایش پهنای باند است. از طرفی، کاهش فاصله ای که دادهها باید طی کنند، میزان برق مورد نیاز یک سیستم را نیز کاهش میدهد.[۵] بسیاری از پیچیدگیها (و در نتیجه مصرف انرژی) در پردازندههای فعلی از استراتژیهایی که در راستای جلوگیری از توقف حافظه استفاده میشود نشأت میگیرد.
مثال
[ویرایش]در دهه ۸۰ میلادی، یک CPU کوچک که FORTH را اجرا میکرد در یک تراشه DRAM تعبیه شد. این کار به منظور بهبود PUSH و POP انجام گرفت. FORTH یک زبان برنامهنویسی پشته-گرا است و این باعث بهبود کارایی آن شد.
با توجه به این که این ریز پردازنده در اوایل ۱۹۸۰ ساخته شده بود، اندازه بزرگی داشت که عملاً آن را به یک پردازشگر در مموری (Processor-in-memory) تبدیل میکرد.
پروژههای PIM قابل بیان شامل Berkeley IRAM Project در پروژه دانشگاه کالیفرنیا، برکلی[۶] و تلاش PIM دانشگاه نوتردام[۷] است.
طبقهبندی PIM مبتنی بر DRAM
[ویرایش]طراحیهای «نزدیک حافظه» و «درون حافظه» مبتنی بر DRAM را میتوان به چهار گروه اصلی طبقهبندی کرد:
- در رویکردهای سطح DIMM، واحدهای پردازشی را در نزدیکی تراشههای حافظه قرار میدهند. این رویکردها به حداقل تغییر در چیدمان داده نیاز دارند (به عنوان مثال، Chameleon[۸] و RecNMP[۹]).
- در رویکردهای سطح لایه منطقی (Logic-Layer-Level)، واحدهای پردازش در لایه منطقی حافظههای «پشته سه بعدی» (3D Stack) انجام میشود و میتوان از پهنای باند بالای حافظههای پشته سه بعدی بهره برد (به عنوان مثال، TOP_PIM[۱۰]).
- در رویکردهای سطح بانک (Bank-level)، واحدهای پردازش در داخل لایههای حافظه و در نزدیکی هر بانک قرار میگیرد. UPMEM و PIM سامسونگ[۱۱] نمونههایی از این رویکردها هستند.
- در رویکردهای سطح زیرآرایه (Subarray-level)، دادهها در داخل هر زیرآرایه پردازش میشود. رویکردهای سطح Subarray بالاترین توازی دسترسی را ارائه میکنند، اما اغلب فقط عملیاتهای ساده انجام میدهند، مانند عملیات بیتی روی یک ردیف حافظه (مثلاً DRISA[۱۲]) یا پردازش ترتیبی ردیف حافظه با استفاده از یک Single-world ALU (مثلاً Fulcrum[۱۳])
جستارهای وابسته
[ویرایش]- محاسبات با حافظه
- SyNAPSE نیز پردازش و حافظه را در یک تراشه ترکیب میکند.
منابع
[ویرایش]- ↑ ۱٫۰ ۱٫۱ ۱٫۲ Christoforos E. Kozyrakis, Stylianos Perissakis, David Patterson, Thomas Anderson, et al. "Scalable Processors in the Billion-Transistor Era: IRAM". IEEE Computer (magazine). 1997. says "Vector IRAM ... can operate as a parallel built-in self-test engine for the memory array, significantly reducing the DRAM testing time and the associated cost."
- ↑ ۲٫۰ ۲٫۱ Mark Oskin, Frederic T. Chong, and Timothy Sherwood. "Active Pages: A Computation Model for Intelligent Memory" بایگانیشده در ۲۲ سپتامبر ۲۰۱۷ توسط Wayback Machine. 1998.
- ↑ Daniel J. Bernstein. "Historical notes on mesh routing in NFS". 2002. "programming a computational RAM"
- ↑ Yong-Bin Kim and Tom W. Chen.
"Assessing Merged DRAM/Logic Technology".
1998.
"Archived copy" (PDF). Archived from the original (PDF) on 2011-07-25. Retrieved 2011-11-27.
{{cite web}}
: نگهداری یادکرد:عنوان آرشیو به جای عنوان (link) - ↑ "GYRFALCON STARTS SHIPPING AI CHIP". electronics-lab. 2018-10-10. Retrieved 5 December 2018.
- ↑ IRAM
- ↑ "PIM". Archived from the original on 2015-11-09. Retrieved 2015-05-26.
- ↑ Hadi Asghari-Moghaddam, et al. , "Chameleon: Versatile and practical near-DRAM acceleration architecture for large memory systems".
- ↑ Liu Ke, et al. , "RecNMP: Accelerating Personalized Recommendation with Near-Memory Processing".
- ↑ Dongping, Zhang, et al. , "TOP-PIM: Throughput-oriented programmable processing in memory".
- ↑ Sukhan Lee, et al. , "Hardware Architecture and Software Stack for PIM Based on Commercial DRAM Technology: Industrial Product".
- ↑ Shuangchen Li, et al. ,"DRISA: A dram-based reconfigurable in-situ accelerator".
- ↑ Marzieh Lenjani, et al. , "Fulcrum: a Simplified Control and Access Mechanism toward Flexible and Practical In-situ Accelerators".
فهرست کتب
[ویرایش]- دانکن الیوت، مایکل استام، دبلیو. مارتین اسنلگرو، کریستین کوجوکارو، رابرت مککنزی، " رم محاسباتی: پیادهسازی پردازندهها در حافظه "، طراحی IEEE و تست کامپیوترها، جلد. ۱۶، شماره ۱، صص ۳۲–۴۱، ژانویه–مارس 1999. doi:۱۰٫۱۱۰۹/۵۴٫۷۴۸۸۰۳.