اعتبارسنجی سایهنما (خوشهبندی)
اعتبارسنجی سایهنما یا سیلوئت (به انگلیسی: silhouette) به روشی برای تفسیر و صحت ثبات در خوشهبندی اشاره دارد. این تکنیک یک نمایش گرافیکی مختصر از میزان طبقهبندی هر یک از اشیا ارائه میدهد.[۱]
مقدار سیلوئت معیار میزان شباهت یک شی به خوشه خودش (انسجام) در مقایسه با خوشههای دیگر (جداسازی شده) است. محدوده سیلوئت از 1− تا ۱+ است، که در آن مقدار زیاد نشان میدهد که شی به خوبی با خوشه خود مطابقت دارد و با خوشههای همسایه همسان نیست. اگر بیشتر اشیا از مقدار بالایی برخوردار باشند، ساختار خوشه بندی مناسب است. اگر بسیاری از نقاط دارای مقدار کم یا منفی باشند، در این صورت ممکن است ساختار خوشه بندی دارای خوشههای بسیار زیاد یا بسیار کم باشد.
سیلوئت را میتوان با هر معیار سنجش فاصله، مانند فاصله اقلیدسی یا فاصله منهتن، محاسبه کرد.
تعریف
[ویرایش]فرض کنید دادهها به خوشه از طریق هر تکنیکی مانند خوشهبندی کی-میانگین در آن خوشه بندی شدهاند
برای دادهای مانند نقطهٔ (نقطه متعلق به خوشه )، قرار دهید:
میانگین فاصله بین دادهٔ نقطه و سایر نقاط داده در همان خوشه، که در آن فاصله بین نقاط دادهٔ و در خوشه (تقسیم بر را انجام میدهیم زیرا فاصله را در جمع وارد نمیکنیم) ما میتوانیم را به عنوان اینکه چه اندازه به خوبی به خوشه خود اختصاص داده شدهاست تفسیر کنیم (هرچه مقدار کوچکتر باشد ، انتساب بهتر است).
سپس میانگین عدم شباهت نقطه را به بعضی خوشههای به عنوان میانگین فاصله از به تمام نقاط در تعریف میکنیم (که در آن )
برای هر نقطهٔ داده ، اکنون تعریف میکنیم
کوچکترین بودن (از این رو عملگر در فرمول) میانگین فاصله با همه نقاط درخوشههای دیگر، که عضو آنها نیست. خوشه ای با کوچکترین میانگین عدم شباهت «خوشه همسایه» ی نامیده میشود، زیرا این بهترین خوشه مناسب بعدی برای نقطه است.
اکنون (مقدار) سیلوئت یک نقطه داده تعریف میکنیم
- ، اگر
و
- ، اگر
که میتوان به صورت زیر نوشت:
از تعریف بالا مشخص میشود که
همچنین، توجه داشته باشید که مقدار برای خوشههایی با اندازه مساوی ۱ مقدار عددی ۰ است. این محدودیت برای جلوگیری از افزایش قابل توجه تعداد خوشهها اضافه شدهاست.
برای نزدیک به ۱ ما نیاز به داریم. از آنجایی که یک معیار چگونگی عدم شباهت با خوشهٔ خودش است، پس مقدار کوچک آن به معنی مطابقت خوب آن است. بعلاوه بزرگی حاکی از آن است که با خوشههای همسایه مطابقت خوبی نداشتهاست. در نتیجه نزدیک به یک به معنی خوشه بندی مناسب است. اگر نزدیک به منفی یک باشد با همان منطق ما میبینیم که مناسب تر خواهد بود اگر در خوشه همسایه، خوشه بندی شده باشد. یک نزدیک به صفر به این معنی است که داده در مرز طبیعی دو خوشه است.
میانگین ای که روی همه نقاط یک خوشه بسته میشود، معیاری از این است که چه مقدار نقاط دستهبندی شده در یک خوشه به هم نزدیک هستند؛ بنابراین میانگین بر روی همهٔ دادههای کل دیتاست به عنوان معیاری از میزان مناسب بودن دادههای خوشه بندی شدهاست. اگر تعداد خوشهها بسیار زیاد یا بسیار کم باشد، که این زمانی اتفاق میافتد که یک انتخاب بد برای k در الگوریتم خوشه بندی استفاده میشود، (به عنوان مثال: خوشهبندی کی-میانگین)، بعضی از خوشهها معمولاً سیلوئتهای باریک تری نسبت به بقیه نشان میدهند؛ بنابراین میتوان از نمودارها، میانگین و ابزارهای سیلوئت برای تعیین تعداد طبیعی خوشهها در یک مجموعه داده استفاده کرد. همچنین میتوان با مقیاس گذاری مجدد دادهها با استفاده از وزن ویژگیهای خاص خوشه، به حداکثر رساندن سیلوئت در تعداد صحیح خوشهها را افزایش داد.[۲]
کافمن و همکاران واژه ضریب سیلوئت را برای حداکثر رساندن مقدار میانگین بر روی همهٔ دادههای کل دیتاست معرفی کردهاند.
بطوریکه نشاندهندهٔ میانگین را بر روی همهٔ دادههای کل دیتاست برای یک تعداد خاصی از خوشه هااست.
مثال امتیاز سایه نما خوشه بندی در پایتون
[ویرایش]پکیجهای پایتون که روشهای مختلفی برای محاسبه امتیاز خوشه بندی در اختیار ما قرار میدهند:
- Silhoute_score (sklearn.metrics) در هر دیتاست برای اندازهگیری میانگین امتیاز سایه نما خوشه بند برای هر سمپل در هر خوشه به کار میرود.
- Silhpute_samples (sklearn.metrics) برای هر سمپل در خوشههای مختلف امتیاز سایه بند را محاسبه میکند.
محاسبه امتیازبندی خوشه نما در k همسایه مجاور(k-means cluster) با n دسته
[ویرایش]در زیر قطعه کدی برای محاسبه امتیاز سایه نما در پایتون برای الگوریتم k-means با n = ۳ (تعداد خوشهها برابر ۳) در دیتاست IRIS نوشته شده.
from sklearn import datasets
from sklearn.cluster import KMeans
from sklearn.metrics import silhouette_score
## Load IRIS dataset
iris = datasets.load_iris()
X = iris.data
y = iris.target
## Instantiate the KMeans models
km = KMeans(n_clusters=3, random_state=42)
# Fit the KMeans model
km.fit_predict(X)
# Calculate Silhoutte Score
score = silhouette_score(X, km.labels_, metric='euclidean')
# Print the score
print('Silhouetter Score: %.3f' % score)
با اجرای کد بالا به امتیاز ۰٫۵۵ میرسیم.
روشی برای یافتن بهترین مقدار k با استفاده از امتیاز سایه نما
در ابتدا برای این کار از پکیج yellowBrick برای نمایش نمودارهای سایه نما برای الگوریتم k—means با مقادیر مختلف خوشهها 2,3,4,5.
from yellowbrick.cluster import SilhouetteVisualizer
import matplotlib.pyplot as plt
fig, ax = plt.subplots(2, 2, figsize=(15,8))
scores = []
for i in [2, 3, 4, 5]:
'''
Create KMeans instance for different number of clusters
'''
km = KMeans(n_clusters=i, init='k-means++', n_init=10, max_iter=100, random_state=42)
# Fit the KMeans model
km.fit_predict(X)
# Calculate Silhoutte Score
score = silhouette_score(X, km.labels_, metric='euclidean')
scores.append(score)
q, mod = divmod(i, 2)
'''
Create SilhouetteVisualizer instance with KMeans instance
Fit the visualizer
'''
visualizer = SilhouetteVisualizer(km, colors='yellowbrick', ax=ax[q-1][mod])
visualizer.fit(X)
print(max(scores), scores.index(max(scores)))
با اجرای کد بالا به ۴ نمودار زیر میرسیم که به ترتیب از چپ بالا به سمت راست پایین برای تعداد خوشههای ۲و ۳و۴و۵ میباشند.
جستارهای وابسته
[ویرایش]منابع
[ویرایش]- ↑ Peter J. Rousseeuw (1987). "Silhouettes: a Graphical Aid to the Interpretation and Validation of Cluster Analysis". Computational and Applied Mathematics. 20: 53–65. doi:10.1016/0377-0427(87)90125-7.
- ↑ R.C. de Amorim, C. Hennig (2015). "Recovering the number of clusters in data sets with noise features using feature rescaling factors". Information Sciences. 324: 126–145. arXiv:1602.06989. doi:10.1016/j.ins.2015.06.039.