پرش به محتوا

اعتبارسنجی سایه‌نما (خوشه‌بندی)

از ویکی‌پدیا، دانشنامهٔ آزاد

اعتبارسنجی سایه‌نما یا سیلوئت (به انگلیسی: silhouette) به روشی برای تفسیر و صحت ثبات در خوشه‌بندی اشاره دارد. این تکنیک یک نمایش گرافیکی مختصر از میزان طبقه‌بندی هر یک از اشیا ارائه می‌دهد.[۱]

مقدار سیلوئت معیار میزان شباهت یک شی به خوشه خودش (انسجام) در مقایسه با خوشه‌های دیگر (جداسازی شده) است. محدوده سیلوئت از 1− تا ۱+ است، که در آن مقدار زیاد نشان می‌دهد که شی به خوبی با خوشه خود مطابقت دارد و با خوشه‌های همسایه همسان نیست. اگر بیشتر اشیا از مقدار بالایی برخوردار باشند، ساختار خوشه بندی مناسب است. اگر بسیاری از نقاط دارای مقدار کم یا منفی باشند، در این صورت ممکن است ساختار خوشه بندی دارای خوشه‌های بسیار زیاد یا بسیار کم باشد.

سیلوئت را می‌توان با هر معیار سنجش فاصله، مانند فاصله اقلیدسی یا فاصله منهتن، محاسبه کرد.

تعریف

[ویرایش]
نمودار نشان دهندهٔ مقدار Silhouette برای سه نوع از حیوانات از dataset باغ وحش ارائه شده توسط مجموعه داده کاوی Orange است. در پایین نمودار، سیلوئت دلفین و گرازماهی را به عنوان دادهٔ پرت از گروه پستانداران شناسایی می‌کند.

فرض کنید داده‌ها به خوشه از طریق هر تکنیکی مانند خوشه‌بندی کی-میانگین در آن خوشه بندی شده‌اند

برای داده‌ای مانند نقطهٔ (نقطه متعلق به خوشه )، قرار دهید:

میانگین فاصله بین دادهٔ نقطه و سایر نقاط داده در همان خوشه، که در آن فاصله بین نقاط دادهٔ و در خوشه (تقسیم بر را انجام می‌دهیم زیرا فاصله را در جمع وارد نمی‌کنیم) ما می‌توانیم را به عنوان اینکه چه اندازه به خوبی به خوشه خود اختصاص داده شده‌است تفسیر کنیم (هرچه مقدار کوچکتر باشد ، انتساب بهتر است).

سپس میانگین عدم شباهت نقطه را به بعضی خوشه‌های به عنوان میانگین فاصله از به تمام نقاط در تعریف می‌کنیم (که در آن )

برای هر نقطهٔ داده ، اکنون تعریف می‌کنیم

کوچک‌ترین بودن (از این رو عملگر در فرمول) میانگین فاصله با همه نقاط درخوشه‌های دیگر، که عضو آنها نیست. خوشه ای با کوچک‌ترین میانگین عدم شباهت «خوشه همسایه» ی نامیده می‌شود، زیرا این بهترین خوشه مناسب بعدی برای نقطه است.

اکنون (مقدار) سیلوئت یک نقطه داده تعریف می‌کنیم

، اگر

و

، اگر

که می‌توان به صورت زیر نوشت:

از تعریف بالا مشخص می‌شود که

همچنین، توجه داشته باشید که مقدار برای خوشه‌هایی با اندازه مساوی ۱ مقدار عددی ۰ است. این محدودیت برای جلوگیری از افزایش قابل توجه تعداد خوشه‌ها اضافه شده‌است.

برای نزدیک به ۱ ما نیاز به داریم. از آنجایی که یک معیار چگونگی عدم شباهت با خوشهٔ خودش است، پس مقدار کوچک آن به معنی مطابقت خوب آن است. بعلاوه بزرگی حاکی از آن است که با خوشه‌های همسایه مطابقت خوبی نداشته‌است. در نتیجه نزدیک به یک به معنی خوشه بندی مناسب است. اگر نزدیک به منفی یک باشد با همان منطق ما می‌بینیم که مناسب تر خواهد بود اگر در خوشه همسایه، خوشه بندی شده باشد. یک نزدیک به صفر به این معنی است که داده در مرز طبیعی دو خوشه است.

میانگین ای که روی همه نقاط یک خوشه بسته می‌شود، معیاری از این است که چه مقدار نقاط دسته‌بندی شده در یک خوشه به هم نزدیک هستند؛ بنابراین میانگین بر روی همهٔ داده‌های کل دیتاست به عنوان معیاری از میزان مناسب بودن داده‌های خوشه بندی شده‌است. اگر تعداد خوشه‌ها بسیار زیاد یا بسیار کم باشد، که این زمانی اتفاق می‌افتد که یک انتخاب بد برای k در الگوریتم خوشه بندی استفاده می‌شود، (به عنوان مثال: خوشه‌بندی کی-میانگین)، بعضی از خوشه‌ها معمولاً سیلوئت‌های باریک تری نسبت به بقیه نشان می‌دهند؛ بنابراین می‌توان از نمودارها، میانگین و ابزارهای سیلوئت برای تعیین تعداد طبیعی خوشه‌ها در یک مجموعه داده استفاده کرد. همچنین می‌توان با مقیاس گذاری مجدد داده‌ها با استفاده از وزن ویژگی‌های خاص خوشه، به حداکثر رساندن سیلوئت در تعداد صحیح خوشه‌ها را افزایش داد.[۲]

کافمن و همکاران واژه ضریب سیلوئت را برای حداکثر رساندن مقدار میانگین بر روی همهٔ داده‌های کل دیتاست معرفی کرده‌اند.

بطوریکه نشاندهندهٔ میانگین را بر روی همهٔ داده‌های کل دیتاست برای یک تعداد خاصی از خوشه هااست.

مثال امتیاز سایه نما خوشه بندی در پایتون

[ویرایش]

پکیج‌های پایتون که روش‌های مختلفی برای محاسبه امتیاز خوشه بندی در اختیار ما قرار می‌دهند:

  • Silhoute_score (sklearn.metrics) در هر دیتاست برای اندازه‌گیری میانگین امتیاز سایه نما خوشه بند برای هر سمپل در هر خوشه به کار می‌رود.
  • Silhpute_samples (sklearn.metrics) برای هر سمپل در خوشه‌های مختلف امتیاز سایه بند را محاسبه می‌کند.

محاسبه امتیازبندی خوشه نما در k همسایه مجاور(k-means cluster) با n دسته

[ویرایش]

در زیر قطعه کدی برای محاسبه امتیاز سایه نما در پایتون برای الگوریتم k-means با n = ۳ (تعداد خوشه‌ها برابر ۳) در دیتاست IRIS نوشته شده.

from sklearn import datasets
from sklearn.cluster import KMeans
from sklearn.metrics import silhouette_score
## Load IRIS dataset
iris = datasets.load_iris()
X = iris.data
y = iris.target
## Instantiate the KMeans models
km = KMeans(n_clusters=3, random_state=42)
# Fit the KMeans model
km.fit_predict(X)
# Calculate Silhoutte Score
score = silhouette_score(X, km.labels_, metric='euclidean')
# Print the score
print('Silhouetter Score: %.3f' % score)

با اجرای کد بالا به امتیاز ۰٫۵۵ می‌رسیم.

روشی برای یافتن بهترین مقدار k با استفاده از امتیاز سایه نما

در ابتدا برای این کار از پکیج yellowBrick برای نمایش نمودارهای سایه نما برای الگوریتم k—means با مقادیر مختلف خوشه‌ها 2,3,4,5.

from yellowbrick.cluster import SilhouetteVisualizer
import matplotlib.pyplot as plt

fig, ax = plt.subplots(2, 2, figsize=(15,8))
scores = []
for i in [2, 3, 4, 5]:
    '''
    Create KMeans instance for different number of clusters
    '''
    km = KMeans(n_clusters=i, init='k-means++', n_init=10, max_iter=100, random_state=42)
    # Fit the KMeans model
    km.fit_predict(X)
    # Calculate Silhoutte Score
    score = silhouette_score(X, km.labels_, metric='euclidean')
    scores.append(score)
    q, mod = divmod(i, 2)
    '''
    Create SilhouetteVisualizer instance with KMeans instance
    Fit the visualizer
    '''
    visualizer = SilhouetteVisualizer(km, colors='yellowbrick', ax=ax[q-1][mod])
    visualizer.fit(X)

print(max(scores), scores.index(max(scores)))

با اجرای کد بالا به ۴ نمودار زیر می‌رسیم که به ترتیب از چپ بالا به سمت راست پایین برای تعداد خوشه‌های ۲و ۳و۴و۵ می‌باشند.

جستارهای وابسته

[ویرایش]

منابع

[ویرایش]
  1. Peter J. Rousseeuw (1987). "Silhouettes: a Graphical Aid to the Interpretation and Validation of Cluster Analysis". Computational and Applied Mathematics. 20: 53–65. doi:10.1016/0377-0427(87)90125-7.
  2. R.C. de Amorim, C. Hennig (2015). "Recovering the number of clusters in data sets with noise features using feature rescaling factors". Information Sciences. 324: 126–145. arXiv:1602.06989. doi:10.1016/j.ins.2015.06.039.