تکنیک‌های تحلیل ریزآرایه

تکنیک‌های تحلیل ریزآرایه برای تفسیر داده‌های تولید شده از آزمایش‌های انجام شده بر روی ریزآرایه‌های دی‌ان‌ای، آران‌ای و پروتئین استفاده می‌شود. این آزمایش‌ها به محققان اجازه می‌دهد تا در مورد میزان بیان تعداد زیادی ژن در یک آزمایش تحقیق کنند^[۱]. چنین آزمایش‌هایی می‌توانند حجم زیادی از داده‌ها را تولید کنند که به محققان اجازه می‌دهد تا وضعیت کلی سلول یا ارگانیسم را ارزیابی کنند. تحلیل حجم زیاد داده‌ها دشوار می‌باشد .

چندین‌ نوع تحلیل زیرآرایه وجود دارد، که در ادامه معرفی خواهند شد. در تکنیک ایجاد داده‌های خام, تغییر در هر کدام از گام‌ها نتایج تحلیل و بررسی را تغییر می‌دهد، پروژه MAQC ایجاد شده‌است تا مجموعه استراتژی‌های استاندارد برای تغییر گام‌ها را شناسایی کند. شرکت‌هایی وجود دارد که از پروتکل‌های پروژه MAQC استفاده می‌کنند تا تحلیل و بررسی کاملی را انجام دهد.^[۲]

تکنیک‌ها

خوشه‌بندی

خوشه بندی یک تکنیک داده کاوی(data mining) است که برای گروه بندی ژن هایی که دارای الگوهای بیان مشابه هستند استفاده می شود.خوشه‌بندی کی میانگین و خوشه بندی سلسله مراتبی ، به طور گسترده ای در تجزیه و تحلیل ریزآرایه‌ها استفاده می‌شوند.

خوشه‌بندی کی میانگین

این الگوریتم ابتدا توسط استوارت لویید در سال ۱۹۵۷ به عنوان یک تکنیک برای مدولاسیون کد پالس پیشنهاد شد و تا سال ۱۹۸۲ خارج از آزمایشگاه‌های بل به انتشار نرسید. فورجی در سال ۱۹۶۵ الگوریتمی مشابه را منتشر کرد، به همین دلیل است که بعضی اوقات این الگوریتم، لویید فورجی هم نامیده می‌شود.^[۳]
خوشه بندی کی میانگین, یک الگوریتم برای گروه بندی ژن ها (یا نمونه ها) بر اساس یک الگو, به k تا گروه مجزا می‌باشد. گروه‌بندی با به حداقل رساندن مجموع مربع مسافت بین داده و مرکز خوشه مربوطه انجام می شود. بنابراین هدف این نوع خوشه بندی, طبقه بندی داده ها بر اساس اصطلاحات مشابه است.

خوشه‌بندی سلسله مراتبی

خوشه بندی سلسله مراتبی یک روش آماری برای یافتن خوشه های نسبتاً همگن است. خوشه بندی سلسله مراتبی از دو مرحله جداگانه تشکیل شده است. در ابتدا ، یک ماتریس فاصله شامل تمام زوج فاصله های بین ژنها محاسبه می شود.از همبستگی پیرسون و همبستگی اسپیرمن اغلب به عنوان برآورد‌های متفاوت استفاده می شود ، اما روش های دیگری مانند فاصله منهتن یا فاصله اقلیدسی نیز قابل استفاده است.

پس از محاسبه ماتریس فاصله اولیه ،این نوع خوشه‌بندی یا به طور مکرر نزدیکترین دو خوشه‌ای را که از نقاط داده منفرد شروع می شوند,پیوند می‌دهد(رویکرد از پایین به بالا ، که نسبتاً متداول تر است) ، یا به طور مداوم با شروع از مجموعه کامل, خوشه ها را تقسیم‌بندی می‌کند (رویکرد از بالا به پایین). پس از هر مرحله ، یک ماتریس فاصله جدید بین خوشه های تازه شکل گرفته و سایر خوشه ها مجددا محاسبه می شود.^[۴]

تشخیص الگو

سیستم های تجاری (مانند ^[۵]Ingenuity و ^[۶]Pathway studio) برای تجزیه و تحلیل شبکه های ژن, نمایش های بصری از ژن های متفاوت بیان شده را بر اساس علم امروز ایجاد می کنند. ابزارهای غیر تجاری (مانند FunRich ،GenMAPP و ^[۷]Moksiskaan) همچنین در سازماندهی و تجسم داده های شبکه ژنی(که از یک یا چند آزمایش ریزآرایه تهیه‌ شده‌اند) کمک می کنند. طیف گسترده ای از ابزارهای تحلیل ریزآرایه‌ها از طریق Bioconductor (که به زبان برنامه نویسی R نوشته شده است) ، در دسترس هستند. ماژول ^[۸]SAM که اغلب به آن استناد می شود و سایر ابزارهای ریزآرایه ای [21] از طریق دانشگاه استنفورد, هاروارد و موسسه تکنولوژی ماساچوست در دسترس است.

ایجاد داده‌های خام

در این گام داده‌های خام با استفاده از نمونه برداری تولید می‌گردند و سپس داده‌ها به کامپیوتر منتقل می‌شوند. بیشتر تولیدکنندگان ریزآرایه‌ها، نرم‌افزارهای تجاری تحلیل داده را نیز به همراه تجیهزات ریزآرایه ارائه می‌دهند.

تصحیح پس زمینه

بعد از بدست آوردن داده‌های خام، خطاهای سیستماتیک از شناسایی و از داده‌ها حذف می‌شوند. با توجه به نوع آرایه، سیگنال‌های مربوط به چسبیدن غیر اختصاصی فلوئورسازه را می‌توان کم کرد تا نتایج بهتری را بدست آورد. یک روش شامل کم کردن متوسط شدت سیگنال در ناحیه‌های بین موقعیت‌ها می‌باشد. ابزارهای مختلف برای تصحیح پس زمینه و بررسی‌های بیشتر از TIGR قابل دسترس هستند.

کنترل کیفیت

کل آرایه می‌تواند شامل خطاهای واضحی باشد که با بررسی بصری، مقایسه دو به دو با آرایه‌های بدست آمده از آزمایش‌های مشابه، یا با بررسی تنزل RNA قابل تشخیص باشد. نتایج می‌توانند با حذف این آرایه‌ها از بررسی و تحلیل ارتقا یابند.

فیلتر نقطه

شناسایی بصری مصنوعات محلی، مانند چاپ یا شستشوی خطاها، در اکثر موارد به حذف نقاط منحصربفرد ختم خواهد شد. این اقدام می‌تواند بر حسب کیفیت تولید آرایه مقدار قابل توجهی زمان طول بکشد. همچنین برخی از روش‌ها همه نقاطی که شدت بیان از یک مقداری کمتر است را حذف می‌کنند.

تجمع و نرمال سازی

مقایسه دو آرایه مختلف به‌طور کلی شامل انجام اقدامات برای حذف خطاهای سیستماتیک حاصل از تفاوت در روش‌ها و شدت رنگ می‌باشد. نرمال سازی رنگ‌ها برای دو آرایه معمولاً توسط روش تجمع محلی انجام می‌شود. یک روش معمول برای تشخیص اینکه داده‌ها چقدر نرمال هستند، استفاده از نمودار MA از داده‌ها می‌باشد.

داده‌های خام افی شامل بیست کاوش برای یک هدف RNA می‌باشد. نصف این تعداد برای نقاط عدم تطابق می‌باشد که به‌طور دقیق با توالی هدف تطابق نمی‌یابند. از لحاظ نظری این می‌تواند مقدار چسبیدن غیر اختصاصی را برای هدف مشخص کند. الگوریتم MAS5 از هر دو روش تطابق کامل و عدم تطابق کاوش استفاده می‌کند.

تحلیل و بررسی عامل‌ها برای خلاصه سازی زیرآرایه ها(FARMS) یک روش مدل محور برای خلاصه سازی کاوش‌هایی با تطابق کامل می‌باشد. این روش بر اساس مدل بررسی بیزی عامل‌ها با فرض نرمال بودن نویزها می‌باشد.

شناسایی تفاوت بیان‌های معنادار

روش‌های زیادی وجود دارد تا تشخیص داده شود کدام یک از آرایه‌های کاوش سطح معناداری از افزایش بیان یا کاهش بیان را نشان می‌دهد. ساده‌ترین روش که با نام «معنادار» شناخته می‌شود، کاوش‌هایی را انتخاب می‌کند که به‌طور میانگین با عامل دو بین گروه‌ها تغییر کرده‌اند. روش‌های پیشرفته تر معمولاً از آزمون تی استیودنت یا مکانیزم‌های دیگری که هم سایز و هم تغییر را تحت تأثیر قرار می‌دهند را استفاده می‌کنند. گروه MAQC استفاده از بررسی میزان چند برابر شدن به همراه حذف برحسب مقدار p-value پیشنهاد می‌دهند.

منابع

↑ «GenUs BioSystems - Services - Data Analysis».
↑ «MicroArray Quality Control (MAQC) Project».
↑ E.W. Forgy (1965). "Cluster analysis of multivariate data: efficiency versus interpretability of classifications". Biometrics. 21: 768–769.
↑ Jaskowiak, Pablo A.; Campello, Ricardo J.G.B.; Costa, Ivan G. (2013). "Proximity Measures for Clustering Gene Expression Microarray Data: A Validation Methodology and a Comparative Analysis". IEEE/ACM Transactions on Computational Biology and Bioinformatics. 10 (4): 845–857.
↑ «Ingenuity Systems». بایگانی‌شده از اصلی در ۲۵ ژانویه ۱۹۹۹. دریافت‌شده در ۳ ژوئن ۲۰۲۰.
↑ «Ariadne Genomics: Pathway Studio». بایگانی‌شده از اصلی در ۳۰ دسامبر ۲۰۰۷. دریافت‌شده در ۳ ژوئن ۲۰۲۰.
↑ «FunRich: Functional Enrichment Analysis».
↑ «Significance Analysis of Microarrays». بایگانی‌شده از اصلی در ۲۰ ژانویه ۲۰۰۸. دریافت‌شده در ۳ ژوئن ۲۰۲۰.

[1] «GenUs BioSystems - Services - Data Analysis».

[2] «MicroArray Quality Control (MAQC) Project».

[3] E.W. Forgy (1965). "Cluster analysis of multivariate data: efficiency versus interpretability of classifications". Biometrics. 21: 768–769.

[4] Jaskowiak, Pablo A.; Campello, Ricardo J.G.B.; Costa, Ivan G. (2013). "Proximity Measures for Clustering Gene Expression Microarray Data: A Validation Methodology and a Comparative Analysis". IEEE/ACM Transactions on Computational Biology and Bioinformatics. 10 (4): 845–857.

[5] «Ingenuity Systems». بایگانی‌شده از اصلی در ۲۵ ژانویه ۱۹۹۹. دریافت‌شده در ۳ ژوئن ۲۰۲۰.

[6] «Ariadne Genomics: Pathway Studio». بایگانی‌شده از اصلی در ۳۰ دسامبر ۲۰۰۷. دریافت‌شده در ۳ ژوئن ۲۰۲۰.

[7] «FunRich: Functional Enrichment Analysis».

[8] «Significance Analysis of Microarrays». بایگانی‌شده از اصلی در ۲۰ ژانویه ۲۰۰۸. دریافت‌شده در ۳ ژوئن ۲۰۲۰.

[۱]

[۲]

[۳]

[۴]

[۵]

[۶]

[۷]

[۸]