پرش به محتوا

روش‌شناسی کریسپ

از ویکی‌پدیا، دانشنامهٔ آزاد

متدولوژی کریسپ (به انگلیسی: Cross-industry standard process for data mining as CRISP-DM) فرآیند استاندارد صنعتی متقاطع برای داده‌کاوی یا به صورت مصطلح کریسپ، یک مدل فرآیندی استاندارد باز است که رویکردهای عمومی متخصصان داده‌کاوی را تشریح می‌کند، این روش‌شناسی پرکاربردترین مدل تحلیلی می‌باشد.

کریسپ یک مدل فرآیند داده‌کاوی است که راهبردهای معمولی که توسط داده‌کاوان خبره برای غلبه بر مشکلات داده‌کاوی استفاده می‌شود را شرح می‌دهد. این متدولوژی در سال ۲۰۱۵ میلادی توسط شرکت آی‌بی‌ام به نام روش متحد شده راهبردهای تحلیلی برای داده‌کاوی یا به اصطلاح آسوم (به انگلیسی: ASUM-DM) تغییر نام داد و منتشر شد.

متدلوژی خوشه‌بندی CRISP برای فرایند داده‌کاوی

مراحل الگوریتم کریسپ

[ویرایش]
  • فهم تجاری (به انگلیسی: Business Understanding)
  • درک داده (به انگلیسی: Data Understanding)
  • آماده‌سازی داده (به انگلیسی: Data Preparation)
  • مدل‌سازی (به انگلیسی: Modeling)
  • ارزیابی (به انگلیسی: Evaluation)
  • توسعه (به انگلیسی: Deployment)

فهم تجاری: شامل گردآوری موارد مورد نیاز و گفتگو با مدیران ارشد برای تعیین اهداف.

درک داده: نگاه نزدیک و بررسی دسترسی به داده‌ها برای فرایند دیتاماینینگ که شامل گردآوری، توصیف، کشف و تأیید کیفیت داده‌ها می‌شود.

آماده‌سازی داده: این مرحله یکی از مهم‌ترین و همچنین زمان‌برترین بخش‌های داده‌کاوی است که شامل انتخاب، پاک‌سازی، ساخت، ادغام و قالب بندی داده‌ها می‌شود.

مدل‌سازی: هم‌اکنون داده‌ها آمادهٔ فرایند داده‌کاوی‌اند و نتایج راه حل‌هایی را برای مشکل تجاری مطرح شده نشان می‌دهند، تکنیک‌های انتخاب مدل‌سازی، ایجاد یک طراحی آزمون، ساخت مدل‌ها، و ارزیابی مدل این مرحله را می‌سازند.

ارزیابی: در این مرحله نتایج ارزیابی شده، فرایند انجام کار بازبینی و مراحل بعدی انجام می‌شوند.

توسعه: نتایج به‌دست آمده توسعه یافته و برای بهبود عملکرد سازمان به کار گرفته می‌شوند.

به نقل از همیار آی تی (۱۹ تیر ۱۳۹۶) بازبینی ۲۳ تیر ۱۳۹۶

مشکلات پیش روی الگوریتم

[ویرایش]

روش‌های خوشه‌بندی نمی‌توانند تمام نیاز یک مسئله را به‌طور موازی و همزمان برطرف کنند، در داده‌های بزرگ به دلیل وجود مشکل پیچیدگی زمانی، الگوریتم قابل اجرا برای هر داده‌ای نیست و همچنین در داده‌هایی که دارای ویژگی‌های زیادی هستند امکان بروز نتایج با تفسیرهای مختلف وجود دارد.

تاریخچه

[ویرایش]

CRISP-DM در سال ۱۹۹۶ به تصویب رسید و در سال ۱۹۹۷، اتحادیه اروپا آن ​​را به عنوان یک پروژه تحت برنامه ابتکاری ESPRIT آغاز کرد. این پروژه توسط پنج شرکت SPSS, Teradata, Daimler AG, NCR Corporation و OHRA، یک شرکت بیمه رهبری گردید.

این کنسرسیوم اصلی تجربیات مختلفی را برای پروژه به ارمغان آورد، ISL، بعداً به SPSS وارد و ادغام شد. غول کامپیوتری NCR Corporation انبار داده Teradata و نرم‌افزار داده کاوی خود را تولید کرد.

اولین نسخه این روش در چهارمین گردهمایی CRISP-DM SIG در بروکسل در مارس ۱۹۹۹ ارائه شد و در همان سال به عنوان یک راهنمای گام به گام داده کاوی منتشر شد.

جستارهای وابسته

[ویرایش]

داده‌کاوی

منابع

[ویرایش]

پیوند به بیرون

[ویرایش]