کاوش دادهها
کاوش دادهها رویکردی شبیه به تجزیه و تحلیل دادههای اولیه است. که با وجود آن به جای استفاده از سیستمهای مدیریت دادههای سنتی؛ یک تحلیلگر داده از کاوشهای بصری برای درک آنچه در یک مجموعه داده و ویژگیهای داده استفاده میکند.[۱] این ویژگیها میتواند شامل اندازه یا مقدار داده، کامل بودن دادهها، درستی دادهها، روابط احتمالی بین عناصر دادهها یا فایل باشد.
کاوش دادههای معمولاً با استفاده از ترکیب فعالیتهای خودکار و دستی انجام میشود؛[۱][۲] که فعالیتهای خودکار میتواند شامل نمایه سازی دادهها یا تجسم دادهها یا حتی گزارشهای جدولی باشد تا به تحلیلگر یک دید اولیه از دادهها و درک ویژگیهای کلیدی بدهد.[۱]
که اغلب با بررسی دستی یا فیلتر کردن دادهها برای شناسایی ناهنجاریها یا الگوهای شناسایی شده از طریق فعالیت خودکار دنبال میشود. کاوش دادهها با استفاده از صفحات گسترده یا زبان هایی مانند R / SQL
میتوانند به اسکریپت نویسی و پرسشهای دستی در دادهها مشابه برای دیدن دادههای خام نیاز داشته باشند[۳]
تمامی این فعالیتها با هدف ایجاد یک مدل ذهنی و درک دادهها در ذهن تحلیلگر است؛ و تعریف ابر دادههای اساسی برای مجموعه دادهها است که میتواند در تجزیه و تحلیل بیشتر استفاده شود.[۱]
زمانی که این درک اولیه از دادهها به دست آمد، دادهها را میتوان با حذف بخشهای غیرقابل استفاده از دادهها، اصلاح عناصری که قالب بندی ضعیفی دارند و تعریف روابط مرتبط در بین مجموعه دادهها هرس یا اصلاح کرد.[۲] این فرایند را به عنوان تعیین کیفیت داده نیز میشناسند.[۳]
همچنین کاوش داده میتواند به پرس و جو یا تجسم دادهها برای شناسایی روابط یا بینشهای بالقوه ایی که ممکن است درد داده پنهان شده باشند و نیازی به فرموله کردن مفروضات از قبل نداشته باشند؛ اشاره کند.[۱]
بهطور سنتی این منطقه ایی کلیدی برای اماردانان بود؛ مثل جان توکی که یک مبشر کلیدی در این زمینه بود.[۴] امروزه کاوش دادهها گستردهتر شدهاست و تمرکز تحلیلگران داده و دانشمندان داده روی این موضوع است. که دانشمندان داده نقش نسبتاً جدیدی در شرکتها و سازمانهای بزرگتر دارند.
اکتشاف دادههای تعاملی
[ویرایش]این قسمت از کاوش دادهها به یک منطقه مورد علاقه در زمینه ماشین لرنینگ تبدیل شدهاست. که این زمینه نسبتاً جدید و هنوز در حال پیشرفت است.[۳] به عنوان ابتداییترین سطح، یک الگوریتم ماشین لرنینگ میتواند با مجموعه دادهها تغذیه شود و همچنین میتواند برای تشخیص صحت یک فرضیه بر اساس مجموعه دادهها استفاده شود. الگوریتمهای رایج ماشین لرنینگ میتوانند برای شناسایی الگوهای خاص در دادهها تمرکز کنند.[۲] بسیاری از این الگوهای رایج مانند رگرسیون و طبقهبندی یو خوشه بندی هستند؛ اما الگوریتمها و الگوریتمهای ممکن زیادی وجود دارد که میتوانند از طریق ماشین لرنینگ روی دادهها اعمال شوند.
با استفاده از ماشین لرنینگ میتوان الگوها یا روابطی را در دادهها پیدا کرد که یافتن آنها از طریق بازرسی دستی آزمون و خطا یا تکنیکهای سنتی اکتشاف دشوار یا غیرممکن است.[۵]
نرمافزار
[ویرایش]- Trifacta - یک پلترفم برای آماده سازی و تجزیه تحلیل دادهها
- Paxata – نرمافزاری برای آماده سازی دادههای سلف سرویس
- Alteryx – نرمافزاری برای ترکیب داده و تجزیه و تحلیل دادههای پیشرفته
- Microsoft Power BI - تجسم تعاملی و ابزار تجزیه و تحلیل دادهها
- OpenRefine - یک برنامه دسکتاپ منبع باز مستقل برای پاکسازی دادهها و تبدیل دادهها
- نرمافزار Tableau – نرمافزار تجسم دادههای تعاملی
جستارهای وابسته
[ویرایش]منابع
[ویرایش]- ↑ ۱٫۰ ۱٫۱ ۱٫۲ ۱٫۳ ۱٫۴ FOSTER Open Science بایگانیشده در ۲۵ ژوئن ۲۰۲۳ توسط Wayback Machine, Overview of Data Exploration Techniques: Stratos Idreos, Olga Papaemmonouil, Surajit Chaudhuri.
- ↑ ۲٫۰ ۲٫۱ ۲٫۲ Stanford.edu, 2011 Wrangler: Interactive Visual Specification of Data Transformation Scripts, Kandel, Paepcke, Hellerstein Heer.
- ↑ ۳٫۰ ۳٫۱ ۳٫۲ Stanford.edu, IEEE Visual Analytics Science & Technology (VAST), Oct 2012 Enterprise Data Analysis and Visualization: An Interview Study. , Sean Kandel, Andreas Paepcke, Joseph Hellerstein, Jeffrey Heer Proc.
- ↑ Exploratory Data Analysis, Pearson. شابک ۹۷۸−۰۲۰۱۰۷۶۱۶۵
- ↑ Machine Learning for Data Exploration