روش گروه جفتی وزندار با میانگین حسابی
روش گروه جفتی وزندار با میانگین حسابی (به انگلیسی: Weighted Pair Group Method with Arithmetic Mean (WPGMA)) یک متد ساده خوشهبندی سلسله مراتبی تجمعی (از پایین به بالا) میباشد که هدف آن، ایجاد یک درخت ریشهدار (که به آن دندروگرام میگویند) میباشد که ساختار موجود در یک ماتریس زوجفاصله را نشان میدهد.[۱] این متد را به رابرت آر. سوکال و چارلز دانکن میشنر نسبت میدهند.
متد جفت گروه وزندار با میانگین حسابی، شبیه به نوع بیوزن آن، یعنی متد جفت گروه بدون وزن با میانگین حسابی است که بهطور عمده بر مبنای توده کردن دادهها یا خوشهبندی سلسله مراتبی مخصوصاً برای ساخت درخت فیلوژنتیک در بیوانفورماتیک به کار میرود.[۲]
الگوریتم
[ویرایش]همانطور که در ابتدای کار ذکر شد، الگوریتم جفت گروه وزندار با میانگین حسابی، با استفاده از یک درخت ریشه دار به نام دندوگرام، ساختار موجود در یک ماتریس زوجفاصله را نشان میدهد. اگر این ماتریس، یک ماتریس باشد، این الگوریتم شامل گام میباشد؛ در هر گام، نزدیکترین دو خوشه، در اینجا فرض کنید و ، به یک خوشه سطح بالاتر ترکیبمیشوند. سپس فاصلهٔ آن با یک خوشهٔ دیگر فرضی به نام ، از طریق میانگین حسابی فاصلهٔ بین ، و ، حساب میشود:[۱]
مثال
[ویرایش]اگر فرض کنیم متد جفت گروه وزندار با میانگین حسابی، روی یک ماتریس کار میکند، در نتیجه شامل گام میباشد که در مثال زیر، یک ماتریس ۴ * ۴ دادهشده، بررسی میشود.
گام اول
[ویرایش]فرض کنید ۴ المان داریم و ماتریس زیر به نام Dist (مخفف فاصله) که نشاندهندهٔ فاصلهٔ بین هردو المان را نشان میدهد و همچنین نشاندهندهٔ فاصلهٔ بین ۲ گره در درخت دندوگرام باشد:
a1 | a2 | a3 | a4 | |
---|---|---|---|---|
a1 | ۰ | ۱۵ | ۱۹ | ۲۹ |
a2 | ۱۵ | ۰ | ۲۸ | ۳۲ |
a3 | ۱۹ | ۲۸ | ۰ | ۲۶ |
a4 | ۲۹ | ۳۲ | ۲۶ | ۰ |
در این جدول، کوتاهترین فاصله بین ۲ المان مختلف, متعلق بین و و برابر با ۱۵ میباشد.
بروزرسانی درخت دندوگرام
[ویرایش]حال فرض کنید گرهای که و را بههم متصلمیکند، نام دارد. در نتیجه به درخت دندوگرام، گره را اضافه میکنیم که فاصله این گره با و از راه زیر محاسبه میشود:
بروزرسانی ماتریس
[ویرایش]با متصل کردن و ، تعداد سطر و ستون ماتریس اولیه یک واحد کاهش مییابد و همچنین مقادیر المانهای ماتریس با تغییراتی مواجه میشود که در ذیل توضیح دادهشدهاست:
که ماتریس بروزرسانیشده و ادامهٔ روند در قسمت بعدی مشخص شدهاست
گام دوم
[ویرایش]در گام دوم، نتیجه حاصل از گام اول را ادامه میدهیم:
(a1, a2) | a3 | a4 | |
---|---|---|---|
(a1, a2) | ۰ | ۲۳٫۵ | ۳۰٫۵ |
a3 | ۲۳٫۵ | ۰ | ۲۶ |
a4 | ۳۰٫۵ | ۲۶ | ۰ |
در این جدول، کوتاهترین فاصله بین ۲ المان مختلف, متعلق بین و و برابر با ۲۳٫۵ میباشد که در درخت دندوگرام، منظور از ، گره میباشد.
بروزرسانی درخت دندوگرام
[ویرایش]حال فرض کنید گرهای که و را بههم متصلمیکند، نام دارد. در نتیجه به درخت دندوگرام، گره را اضافه میکنیم که فاصله این گره با ، و از راه زیر محاسبه میشود:
و فاصلهٔ بین و برابر است با:
بروزرسانی ماتریس
[ویرایش]با متصل کردن و , تعداد سطر و ستون ماتریس اولیه یک واحد کاهش مییابد و همچنین مقادیر المانهای ماتریس با تغییراتی مواجه میشود که در ذیل توضیح دادهشدهاست:
گام سوم
[ویرایش]در گام سوم، نتیجه حاصل از گام دوم را ادامه میدهیم:
(a1, a2), a3)) | a4 | |
---|---|---|
(a1, a2), a3)) | ۰ | ۲۸٫۵ |
a4 | ۲۸٫۵ | ۰ |
در این جدول، کوتاهترین فاصله بین ۲ المان مختلف, متعلق بین و و برابر با ۲۸٫۵ میباشد که در درخت دندوگرام، منظور از ، گره میباشد.
بروزرسانی درخت دندوگرام
[ویرایش]حال فرض کنید گرهای که و را بههم متصلمیکند، نام دارد. در نتیجه به درخت دندوگرام، گره را اضافه میکنیم که فاصله این گره با ، ، و از راه زیر محاسبه میشود:
و فاصلهٔ بین و برابر است با:
بروزرسانی ماتریس
[ویرایش]با متصل کردن و , تعداد سطر و ستون ماتریس اولیه یک واحد کاهش مییابد و تبدیل به یک ماتریس میشود که دارای مقدار صفر است.
دندوگرام حاصل
[ویرایش]در شکل زیر، دندوگرام حاصل از مثال مطرحشده را مشاهده میکنید.
جستارهای وابسته
[ویرایش]منابع
[ویرایش]- ↑ ۱٫۰ ۱٫۱ رابرت آر. سوکال، چارلز دانکن میشنر. «a statistical method for evaluating systematic relationships».
- ↑ Pavel Pevzner, Neil Jones (۲۰۰۴). «An Introduction to Bioinformatics Algorithms».