فست ای

فست ای (به انگلیسی: FASTA) یک پکیج نرم‌افزاری هم‌ترازسازی توالی پروتئین و دی ان ای است که برای نخستین بار به نام (FASTP) توسط David J. Lipman و William R. Pearson در سال ۱۹۸۵^[۱] معرفی گردید. میراث آن فرمت فست ای است، که امروزه در همه جای علم بیوانفورماتیک مشهود می‌باشد.

تاریخچه

نخستین بار برنامه FASTP جهت بررسی تشابه توالی پروتئینی نوشته شد. فست ای این توانایی را داشت که جستجوی دی ان ای:دی ان ای و همچنین جستجوی پروتئین ترجمه شده:دی ان ای را انجام دهد، همچنین برنامه پیچیده تری جهت ارزیابی اهمیت آماری آن ارائه نمود.^[۲] این بسته نرم‌افزاری شامل برنامه‌های مختلف می‌باشد که امکان همترازسازی رشته‌های پروتئینی و دی ان ای را می‌دهد.

کاربردها

فست ای "fast A" تلفظ شده و همچنین به آن "FAST-All" هم گفته می‌شود، بدین دلیل که این زبان برنامه نویسی قابلیت کار با کلیه حروف الفبایی را دارد. این برنامه دارای دو ورژن الحاقی از "FAST-P" (همترازی پروتئین) و "FAST-N" (همترازی نوکلئوتید)، می‌باشد. بسته نرم‌افزاری فست ای که هم‌اکنون مورد استفاده قرار می‌گیرد شامل برنامه‌هایی برای جستجوی پروتئین:پروتئین، دی ان ای:دی ان ای، پروتئین:دی ان ای ترجمه شده(همراه با تغییرات محتوا) و جستجوی پپتیدهای آرایش یافته و آرایش نیافته، می‌باشد. نسخه‌های نهایی فست ای شامل الگوریتمهای جستجوی ویژه‌ای می‌باشد که جهت تصحیح خطاهای تغییر محتوا، هنگام بررسی توالی داده پروتئین با نوکلئوتید، مورد استفاده قرار می‌گیرد.

علاوه بر این جهت افزایش سرعت روش‌های جستجوی اکتشافی(heuristic search)، بسته نرم‌افزاری فست ای مجهز به (SSEARCH)ابزاری برای بهینه سازی الگوریتم اسمیت واترمن می‌باشد.

بیشترین تمرکز این بسته نرم‌افزاری بر روی صحت آمار مشابه می‌باشد، بنابراین زیست شناسان براحتی می‌توانند در مورد اینکه یک همترازی به صورت اتفاقی حاصل شده یا ممکن است به واسطه هومولوژی باشد، اظهار نظر نمایند. این بسته نرم‌افزاری هم‌اکنون در fasta.bioch.virginia.edu موجود می‌باشد.

پایگاه اینترنتی web-interface، جهت ثبت توالی‌ها برای جستجوی پایگاه داده‌های آنلاین European European Bioinformatics Institute (EBI)'s در دسترس بوده و همچنین قابلیت استفاده از برنامه‌های فست ای بر روی این وبگاه، امکان‌پذیر می‌باشد. FASTA file format به عنوان ورودی این نرم‌افزار، امروزه در مقیاس وسیعی توسط دیگر ابزارات جستجوی پایگاه داده توالی(مانند بلاست) یا برنامه‌های هم‌ترازسازی توالی(مانند کلاستال, تی-کافی و...) مورد استفاده قرار می‌گیرد.

روش بررسی

فست ای یک نوکلئوتید یا یک رشته آمینو اسید را به عنوان ورودی دریافت کرده و به کمک هم‌ترازسازی محلی توالی داده ی ورودی و توالی‌هایی که در پایگاه داده هستند، تشابهات توالی‌های متعلق به پایگاه داده‌های یکسان را پیدا کند.

برنامه فست ای از یک روش Heuristic بسیار گسترده پیروی می‌نماید که سرعت اجرای برنامه را بسیار ارتقا داده‌است. روش کار بدین صورت است که برنامه ابتدا یک الگو برای شناخت کلمات در نظر می‌گیرد سپس بر اساس طول جمله، کلمات متناظر با هم را تفکیک می‌نماید سپس کلماتی را که داری بیشتر احتمال تناظر هستند را (قبل از اجرای بیشتر یک جستجوی بهینه‌سازی زمانگیر با استفاده از الگوریتم Smith-Waterman ) علامت می زند.

سایز لغت ورودی که با تحت عنوان ktup نامگذاری می‌شود، تعیین‌کننده سرعت و حساسیت اجرای برنامه می‌باشد.

]

تفاوتهایی بین fastn و fastp وجود دارد که به دلیل نوع رشته‌هایی است که مورد استفاده قرار می‌گیرد. با وجود این هر دوی آن‌ها دارای چهار مرحله هستند و هر دوی آن‌ها از سه امتیازبندی جهت توصیف و قالب بندی کردن نتایج تشابه توالی‌ها استفاده می‌کنند.که عبارتند از:

شناسایی مناطقی که دارای بیشترین تعداد رشته‌های مشابه می‌باشند (با ktup با اندازهٔ ۱ یا ۲).

در این مرحله همه گروه‌ها یا یک گروه از تشابهات رشته‌های متناظر با استفاده از جدول look-up شناسایی شده‌است. مقیاس ktup مشخص می‌کند که چه تعداد تطابق پشت سرهم نیاز است تا یک مچ اتفاق بیفتد. بدیهی است که هر چقدر اندازه ی ktup کمتر باشد، حساسیت جستجو بیشتر می‌شود. اکثراً برای رشته‌های پروتئینی ktup=2 و برای رشته‌های نوکلئوتید 4=ktup ویا ktup=6 تعریف می‌شود. اولیگونوکلئوتیدهای کوچک معمولاً توسط ktup=1 اجرا می‌شوند.

پس از آن برنامه تمام تمام مکانهای مشابه محلی را که به صورت قطرهایی با طول مشخص در نمودار نقطه ای نمایش داده شده اند را شناسایی می نماید . که در واقع این کار از طریق شمارش تطابق ktup‌ها و جریمه کردن عدم تطابق‌ها میسر می‌شود. در ادامه مناطق محلی که بیشترین میزان تطابق در قطرها صورت گرفته از بقیه ایزوله می‌شوند. برای توالی‌های پروتئینی از BLOSUM50 جهت امتیاز بندی تطابق ktup استفاده می‌شود. رشته‌های نوکلئوتیدی از ماتریس همانی برای این منظور استفاده می‌کنند. در نهایت ۱۰ تا از بهترین ناحیه‌های محلی از بین همهٔ قطرها انتخاب شده در کنار هم قرار می‌گیرند و سپس ذخیره می‌گردند.

اسکن مجدد مناطق انتخاب شده با استفاده از ماتریس نمره دهی جهت کسب بالاترین امتیاز ممکن.

اسکن مجدد ۱۰ مکان انتخاب شده. در این مرحله از ماتریس امتیاز بندی جهت امتیاز بندی مناطقی که طول کمتر از ktup دارند، استفاده می‌شود. هم‌زمان با امتیاز دهی،تعویضهایی که بر امتیاز شباهت تأثیر می گذارد انجام می‌شود. با وجود اینکه توالی‌های پروتئین‌ها از ماتریس BLOSUM50 (که امتیازدهی را براساس کمترین میزان تغییراتی که نیاز است تا یک جابجایی رخ دهد) استفاده می‌کنند،از یک معیار شباهت دیگر به اسم PAM هم می‌توان استفاده کرد. به ازای هر قطری که به این صورت اسکن می‌شود، مناطقی با بیشترین امتیاز مشخص می‌شوند. امتیاز اولیه‌ای که در مرحله ی 1 بدست آمد، برای رتبه‌گذاری کتابخانه ی توالی‌ها مورد استفاده قرار می‌گیرد. این امتیاز اولیه init1 نامیده می‌شود.

در یک همترازسازی(Alignment)،اگر چند ناحیه اولیه با امتیاز بیشتر از CUTOFF پیدا شد، بررسی کنید که آیا این نواحی می‌توانند به هم ملحق شوند و یک همترازی با گپ را تشکیل دهند. سپس امتیاز شباهت را محاسبه کنید که این مقدار برابر با حاصل جمع مناطق الحاق شده با جریمهٔ گپ برابر با 20 است. امتیاز شباهت اولیه (initn) برای رتبه بندی کتابخانه توالی‌ها استفاده می‌شود. و بالاترین امتیاز پیدا شده در مرحلهٔ 2 گزارش می‌شود(init1).

در این مرحله برنامه مناطق اولیه که ترکیبی از مناطق با بیشترین امتیاز هستند را به صورت بهینه‌ای همتراز(Align) می‌کند. این همترازی بهینه سریعاً توسط الگوریتم برنامه نویسی پویا انجام می‌شود.

امتیاز بدست آمده برای رتبه بندی کتابخانه توالی‌ها استفاده می‌شود. این فرایند الحاق‌سازی حساسیت را افزایش می دهد ولی باعث می‌شود انتخابهای ما بهینه نباشد.

استفاده از الگوریتم اسمیت واترمن جهت محاسبهٔ امتیاز بهینه برای همترازسازی (Alignment).

در این مرحله از الگوریتم اسمیت واترمن برای بدست آوردن یک امتیاز بهینه برای هر هم ترازسازی توالی‌های query و توالی‌های موجود در پایگاه داده استفاده می‌کند. سپس یک باند 32 تایی حول منطقه ی init1 که در مرحله ی 2 بدست آمده کشیده شود تا همترازی بهینه محاسبه شود. پس از اینکه همهٔ توالی‌ها جستجو شدند، برنامه امتیازهای اولیه ی هر توالی موجود در پایگاه داده را در یک بافت‌نگار رسم می‌کند و امتیازهایی که از نظر آماری معنی دارند را محاسبه می‌کند. برای توالی پروتئین‌ها هم‌ترازسازی نهایی با هم‌ترازسازی اسمیت واترمن بدست می‌آید. و برای توالی‌های دی ان ای یک هم‌ترازسازی نواری بدست می‌آید.

جستارهای وابسته

منابع

↑ Lipman, DJ; Pearson, WR (1985). "Rapid and sensitive protein similarity searches". Science. 227 (4693): 1435–41. doi:10.1126/science.2983426. PMID 2983426.
↑ Pearson, WR; Lipman, DJ (1988). "Improved tools for biological sequence comparison". Proceedings of the National Academy of Sciences of the United States of America. 85 (8): 2444–8. doi:10.1073/pnas.85.8.2444. PMC 280013. PMID 3162770.

مشارکت‌کنندگان ویکی‌پدیا. «FASTA». در دانشنامهٔ ویکی‌پدیای انگلیسی.

پیوند به بیرون

FASTA Website
EBI's FASTA page - EBI's page for accessing FASTA services.

[1] Lipman, DJ; Pearson, WR (1985). "Rapid and sensitive protein similarity searches". Science. 227 (4693): 1435–41. doi:10.1126/science.2983426. PMID 2983426.

[2] Pearson, WR; Lipman, DJ (1988). "Improved tools for biological sequence comparison". Proceedings of the National Academy of Sciences of the United States of America. 85 (8): 2444–8. doi:10.1073/pnas.85.8.2444. PMC 280013. PMID 3162770.

[۱]

[۲]