فست ای
فست ای (به انگلیسی: FASTA) یک پکیج نرمافزاری همترازسازی توالی پروتئین و دی ان ای است که برای نخستین بار به نام (FASTP) توسط David J. Lipman و William R. Pearson در سال ۱۹۸۵[۱] معرفی گردید. میراث آن فرمت فست ای است، که امروزه در همه جای علم بیوانفورماتیک مشهود میباشد.
تاریخچه
[ویرایش]نخستین بار برنامه FASTP جهت بررسی تشابه توالی پروتئینی نوشته شد. فست ای این توانایی را داشت که جستجوی دی ان ای:دی ان ای و همچنین جستجوی پروتئین ترجمه شده:دی ان ای را انجام دهد، همچنین برنامه پیچیده تری جهت ارزیابی اهمیت آماری آن ارائه نمود.[۲] این بسته نرمافزاری شامل برنامههای مختلف میباشد که امکان همترازسازی رشتههای پروتئینی و دی ان ای را میدهد.
کاربردها
[ویرایش]فست ای "fast A" تلفظ شده و همچنین به آن "FAST-All" هم گفته میشود، بدین دلیل که این زبان برنامه نویسی قابلیت کار با کلیه حروف الفبایی را دارد. این برنامه دارای دو ورژن الحاقی از "FAST-P" (همترازی پروتئین) و "FAST-N" (همترازی نوکلئوتید)، میباشد. بسته نرمافزاری فست ای که هماکنون مورد استفاده قرار میگیرد شامل برنامههایی برای جستجوی پروتئین:پروتئین، دی ان ای:دی ان ای، پروتئین:دی ان ای ترجمه شده(همراه با تغییرات محتوا) و جستجوی پپتیدهای آرایش یافته و آرایش نیافته، میباشد. نسخههای نهایی فست ای شامل الگوریتمهای جستجوی ویژهای میباشد که جهت تصحیح خطاهای تغییر محتوا، هنگام بررسی توالی داده پروتئین با نوکلئوتید، مورد استفاده قرار میگیرد.
علاوه بر این جهت افزایش سرعت روشهای جستجوی اکتشافی(heuristic search)، بسته نرمافزاری فست ای مجهز به (SSEARCH)ابزاری برای بهینه سازی الگوریتم اسمیت واترمن میباشد.
بیشترین تمرکز این بسته نرمافزاری بر روی صحت آمار مشابه میباشد، بنابراین زیست شناسان براحتی میتوانند در مورد اینکه یک همترازی به صورت اتفاقی حاصل شده یا ممکن است به واسطه هومولوژی باشد، اظهار نظر نمایند. این بسته نرمافزاری هماکنون در fasta.bioch.virginia.edu موجود میباشد.
پایگاه اینترنتی web-interface، جهت ثبت توالیها برای جستجوی پایگاه دادههای آنلاین European European Bioinformatics Institute (EBI)'s در دسترس بوده و همچنین قابلیت استفاده از برنامههای فست ای بر روی این وبگاه، امکانپذیر میباشد. FASTA file format به عنوان ورودی این نرمافزار، امروزه در مقیاس وسیعی توسط دیگر ابزارات جستجوی پایگاه داده توالی(مانند بلاست) یا برنامههای همترازسازی توالی(مانند کلاستال, تی-کافی و...) مورد استفاده قرار میگیرد.
روش بررسی
[ویرایش]فست ای یک نوکلئوتید یا یک رشته آمینو اسید را به عنوان ورودی دریافت کرده و به کمک همترازسازی محلی توالی داده ی ورودی و توالیهایی که در پایگاه داده هستند، تشابهات توالیهای متعلق به پایگاه دادههای یکسان را پیدا کند.
برنامه فست ای از یک روش Heuristic بسیار گسترده پیروی مینماید که سرعت اجرای برنامه را بسیار ارتقا دادهاست. روش کار بدین صورت است که برنامه ابتدا یک الگو برای شناخت کلمات در نظر میگیرد سپس بر اساس طول جمله، کلمات متناظر با هم را تفکیک مینماید سپس کلماتی را که داری بیشتر احتمال تناظر هستند را (قبل از اجرای بیشتر یک جستجوی بهینهسازی زمانگیر با استفاده از الگوریتم Smith-Waterman ) علامت می زند.
سایز لغت ورودی که با تحت عنوان ktup نامگذاری میشود، تعیینکننده سرعت و حساسیت اجرای برنامه میباشد.
]
تفاوتهایی بین fastn و fastp وجود دارد که به دلیل نوع رشتههایی است که مورد استفاده قرار میگیرد. با وجود این هر دوی آنها دارای چهار مرحله هستند و هر دوی آنها از سه امتیازبندی جهت توصیف و قالب بندی کردن نتایج تشابه توالیها استفاده میکنند.که عبارتند از:
- شناسایی مناطقی که دارای بیشترین تعداد رشتههای مشابه میباشند (با ktup با اندازهٔ ۱ یا ۲).
- در این مرحله همه گروهها یا یک گروه از تشابهات رشتههای متناظر با استفاده از جدول look-up شناسایی شدهاست. مقیاس ktup مشخص میکند که چه تعداد تطابق پشت سرهم نیاز است تا یک مچ اتفاق بیفتد. بدیهی است که هر چقدر اندازه ی ktup کمتر باشد، حساسیت جستجو بیشتر میشود. اکثراً برای رشتههای پروتئینی ktup=2 و برای رشتههای نوکلئوتید 4=ktup ویا ktup=6 تعریف میشود. اولیگونوکلئوتیدهای کوچک معمولاً توسط ktup=1 اجرا میشوند.
- پس از آن برنامه تمام تمام مکانهای مشابه محلی را که به صورت قطرهایی با طول مشخص در نمودار نقطه ای نمایش داده شده اند را شناسایی می نماید . که در واقع این کار از طریق شمارش تطابق ktupها و جریمه کردن عدم تطابقها میسر میشود. در ادامه مناطق محلی که بیشترین میزان تطابق در قطرها صورت گرفته از بقیه ایزوله میشوند. برای توالیهای پروتئینی از BLOSUM50 جهت امتیاز بندی تطابق ktup استفاده میشود. رشتههای نوکلئوتیدی از ماتریس همانی برای این منظور استفاده میکنند. در نهایت ۱۰ تا از بهترین ناحیههای محلی از بین همهٔ قطرها انتخاب شده در کنار هم قرار میگیرند و سپس ذخیره میگردند.
- اسکن مجدد مناطق انتخاب شده با استفاده از ماتریس نمره دهی جهت کسب بالاترین امتیاز ممکن.
- اسکن مجدد ۱۰ مکان انتخاب شده. در این مرحله از ماتریس امتیاز بندی جهت امتیاز بندی مناطقی که طول کمتر از ktup دارند، استفاده میشود. همزمان با امتیاز دهی،تعویضهایی که بر امتیاز شباهت تأثیر می گذارد انجام میشود. با وجود اینکه توالیهای پروتئینها از ماتریس BLOSUM50 (که امتیازدهی را براساس کمترین میزان تغییراتی که نیاز است تا یک جابجایی رخ دهد) استفاده میکنند،از یک معیار شباهت دیگر به اسم PAM هم میتوان استفاده کرد. به ازای هر قطری که به این صورت اسکن میشود، مناطقی با بیشترین امتیاز مشخص میشوند. امتیاز اولیهای که در مرحله ی 1 بدست آمد، برای رتبهگذاری کتابخانه ی توالیها مورد استفاده قرار میگیرد. این امتیاز اولیه init1 نامیده میشود.
- در یک همترازسازی(Alignment)،اگر چند ناحیه اولیه با امتیاز بیشتر از CUTOFF پیدا شد، بررسی کنید که آیا این نواحی میتوانند به هم ملحق شوند و یک همترازی با گپ را تشکیل دهند. سپس امتیاز شباهت را محاسبه کنید که این مقدار برابر با حاصل جمع مناطق الحاق شده با جریمهٔ گپ برابر با 20 است. امتیاز شباهت اولیه (initn) برای رتبه بندی کتابخانه توالیها استفاده میشود. و بالاترین امتیاز پیدا شده در مرحلهٔ 2 گزارش میشود(init1).
- در این مرحله برنامه مناطق اولیه که ترکیبی از مناطق با بیشترین امتیاز هستند را به صورت بهینهای همتراز(Align) میکند. این همترازی بهینه سریعاً توسط الگوریتم برنامه نویسی پویا انجام میشود.
- امتیاز بدست آمده برای رتبه بندی کتابخانه توالیها استفاده میشود. این فرایند الحاقسازی حساسیت را افزایش می دهد ولی باعث میشود انتخابهای ما بهینه نباشد.
- استفاده از الگوریتم اسمیت واترمن جهت محاسبهٔ امتیاز بهینه برای همترازسازی (Alignment).
- در این مرحله از الگوریتم اسمیت واترمن برای بدست آوردن یک امتیاز بهینه برای هر هم ترازسازی توالیهای query و توالیهای موجود در پایگاه داده استفاده میکند. سپس یک باند 32 تایی حول منطقه ی init1 که در مرحله ی 2 بدست آمده کشیده شود تا همترازی بهینه محاسبه شود. پس از اینکه همهٔ توالیها جستجو شدند، برنامه امتیازهای اولیه ی هر توالی موجود در پایگاه داده را در یک بافتنگار رسم میکند و امتیازهایی که از نظر آماری معنی دارند را محاسبه میکند. برای توالی پروتئینها همترازسازی نهایی با همترازسازی اسمیت واترمن بدست میآید. و برای توالیهای دی ان ای یک همترازسازی نواری بدست میآید.
جستارهای وابسته
[ویرایش]منابع
[ویرایش]- ↑ Lipman, DJ; Pearson, WR (1985). "Rapid and sensitive protein similarity searches". Science. 227 (4693): 1435–41. doi:10.1126/science.2983426. PMID 2983426.
- ↑ Pearson, WR; Lipman, DJ (1988). "Improved tools for biological sequence comparison". Proceedings of the National Academy of Sciences of the United States of America. 85 (8): 2444–8. doi:10.1073/pnas.85.8.2444. PMC 280013. PMID 3162770.
مشارکتکنندگان ویکیپدیا. «FASTA». در دانشنامهٔ ویکیپدیای انگلیسی.
پیوند به بیرون
[ویرایش]- FASTA Website
- EBI's FASTA page - EBI's page for accessing FASTA services.