پرش به محتوا

شناسه‌گذاری دی‌ان‌ای

از ویکی‌پدیا، دانشنامهٔ آزاد
تصویری از شناسه‌گذاری ژنوم کلروپلاست پورفیرا نافی (دسترسی ژن‌بانک: MF385003.1). این تصویر با کلروپلات ساخته شده است.[۱] تعداد ژن‌ها، طول ژنوم و محتوای سیتوزین-گوانین در دایرهٔ سیاه میانی قرار دارند. دایرهٔ خاکستری بیرونی، محتوای سیتوزین-گوانین را در هر بخش از ژنوم نشان می‌دهد. همهٔ ژن‌های منفرد بر اساس موقعیت آنها در ژنوم، جهت رونویسی و طول آن‌ها، در بیرونی‌ترین دایره قرار می‌گیرند. آن‌ها بر اساس عملکرد سلولی یا مؤلفه‌ای که بخشی از آن هستند، رنگ خاصی می‌گیرند. جهت رونویسی ژن‌های داخلی و خارجی که با فلش نشان داده شده‌اند، به ترتیب در جهت عقربه‌های ساعت و خلاف جهت عقربه‌های ساعت نشان داده شده‌اند.

شناسه‌گذاری دی‌ان‌ای (به انگلیسی: DNA annotation) یا شناسه‌گذاری ژنوم در زیست‌شناسی مولکولی و ژنتیک، به معنی توضیح ساختار و عملکرد اجزای یک ژنوم[۲]با آنالیز و تفسیر آن برای استخراج اهمیت زیستی و درک فرآیندهایی که در آن دخیل هستند، می‌باشد.[۳] همچنین مکان ژن‌ها و تمام نواحی کدکننده در یک ژنوم را شناسایی کرده و تعیین می‌کند که آن ژن‌ها چه کاری انجام می‌دهند.[۴]

شناسه‌گذاری، پس از اینکه یک ژنوم توالی‌یابی و سرهم‌بندی شود انجام می‌شود و یک مرحلهٔ ضروری در تحلیل ژنوم است. این کار پیش از آن‌که توالی در یک پایگاه داده ذخیره شده و در یک مقاله منتشر شود انجام می‌گیرد. اگرچه توضیح ژن‌های منفرد و محصولات یا عملکردهای آن‌ها برای در نظر گرفتن این توصیف به عنوان یک شناسه‌گذاری کافی است، اما میزان تحلیل گزارش‌شده در منابع علمی برای ژنوم‌های مختلف به‌طور گسترده‌ای متفاوت است. برخی از گزارش‌ها شامل اطلاعات اضافی هستند که فراتر از یک شناسه‌گذاری ساده می‌باشند.[۵] علاوه بر این، به دلیل اندازه و پیچیدگی ژنوم‌های توالی‌یابی‌شده، شناسه‌گذاری دی‌ان‌ای به‌صورت دستی انجام نمی‌شود، بلکه از طریق روش‌های محاسباتی به‌صورت خودکار انجام می‌گیرد. با این حال، نتایج به‌دست‌آمده نیازمند تحلیل دستی توسط کارشناسان است.[۶]

شناسه‌گذاری دی‌ان‌ای به دو دسته تقسیم می‌شود: شناسه‌گذاری ساختاری، که عناصر موجود در یک ژنوم را شناسایی و مرزبندی می‌کند، و شناسه‌گذاری کارکردی، که وظایفی را به این عناصر اختصاص می‌دهد.[۷] این تنها روش دسته‌بندی آن نیست، زیرا روش‌های جایگزین دیگری مانند دسته‌بندی مبتنی بر ابعاد[۸] و دسته‌بندی مبتنی بر سطح[۳] نیز مطرح شده‌اند.

تاریخچه

[ویرایش]

نسل اول ابزارهای شناسه‌گذاری ژنوم از روش‌های موضعی از ابتدا استفاده می‌کردند که صرفاً بر اساس اطلاعات استخراج‌شده از توالی دی‌ان‌ای در مقیاس موضعی عمل می‌کردند. به عبارتی در هر لحظه، تنها یک چارچوب خوانش باز (ORF) شناسه‌گذاری می‌شد.[۹][۱۰] این روش‌ها در اواخر دههٔ ۱۹۷۰، به‌عنوان یک مورد ضروری برای پردازش حجم عظیمی از داده‌های تولیدشده توسط روش‌های توالی‌یابی مکسام-گلیبرت و سنگر توسعه یافتند. اولین نرم‌افزاری که برای تحلیل خوانشهای توالی‌یابی مورد استفاده قرار گرفت، پکیج استادن بود که در سال ۱۹۷۷ توسط راجر استادن ایجاد شد.[۱۱] این نرم‌افزار چندین وظیفهٔ مرتبط با شناسه‌گذاری از جمله شمارش نوکلئوتیدها و کدون‌ها را انجام می‌داد. در حقیقت، میزان استفاده از کدون یکی از استراتژی‌های اصلی بسیاری از روش‌های اولیهٔ پیش‌بینی و شناسایی توالی‌های کدکنندهٔ پروتئین (CDS) بود.[۱۲][۱۳][۱۴] این روش مبتنی بر این فرض بود که نواحی ترجمه‌شونده در یک ژنوم شامل کدون‌هایی هستند که دارای بیشترین تعداد tRNAهای متناظر (مولکول‌هایی که آمینواسیدها را در طی فرایند ساختن پروتئین به ریبوزوم منتقل می‌کنند) هستند و این امر موجب ترجمه‌ای کارآمدتر می‌شود.[۱۵] همچنین، این موضوع برای کدون‌های هم‌معنی نیز صادق بود، به‌طوری که این کدون‌ها اغلب در پروتئین‌هایی که دارای سطح بیان پایین‌تری هستند، حضور دارند.[۱۳][۱۶]

ظهور ژنوم‌های کامل در دههٔ ۱۹۹۰ (اولین مورد آن، ژنوم هموفیلوس آنفلوآنزا بود که در سال ۱۹۹۵ تعیین توالی شد) منجر به معرفی نسل دوم ابزارهای شناسه‌گذاری شد. همانند نسل قبلی، این ابزارها نیز شناسه‌گذاری را از طریق روش‌های از ابتدا اما این بار در مقیاس کل ژنوم انجام می‌دادند.[۹][۱۰] مدل‌های مارکوف نیروی محرکهٔ بسیاری از الگوریتم‌های مورد استفاده در شناسه‌گذارهای این نسل بودند.[۱۷][۱۸] این مدل‌ها را می‌توان به‌عنوان گراف‌های جهت‌داری در نظر گرفت که در آن‌ها، گره‌ها نشان‌دهندهٔ سیگنال‌های مختلف ژنومی (مانند نقاط شروع رونویسی و ترجمه) هستند و یال‌های گراف نشان‌دهندهٔ روند اسکن توالی می‌باشند. برای اینکه یک مدل مارکوف بتواند یک سیگنال ژنومی را شناسایی کند، ابتدا باید با مجموعه‌ای از سیگنال‌های ژنومی شناخته‌شده، آموزش داده شود.[۱۹] خروجی مدل‌های مارکوف در زمینهٔ شناسه‌گذاری شامل احتمال حضور هر نوع عنصر ژنومی در هر بخش از ژنوم است. یک مدل مارکوف دقیق، نمرهٔ احتمال بالایی را به شناسه‌گذاری‌های صحیح و نمرهٔ پایینی را به موارد نادرست اختصاص می‌دهد.[۲۰]

جدول زمانی انتشار ابزارهای شناسه‌گذاری ژنوم. جعبه‌های نقطه‌چین نشان‌دهندهٔ چهار نسل مختلف از ابزارهای شناسه‌گذاری ژنوم و ویژگی‌های شاخص آن‌ها هستند. نسل اول (آبی) که در آن شناسه‌گذارها از روش‌های از ابتدا در مقیاس موضعی استفاده می‌کردند، نسل دوم (قرمز) با روش‌های از ابتدا در مقیاس کل ژنوم، نسل سوم (سبز) که با ترکیبی از روش‌های از ابتدا و شناسه‌گذاری مبتنی بر هومولوژی مشخص می‌شود، نسل چهارم (نارنجی) که در آن، شناسایی نواحی غیرکدکنندهٔ دی‌ان‌ای و مفهوم پان‌ژنوم یا مطالعات در سطح جمعیت آغاز گردید.

با در دسترس قرار گرفتن تعداد بیشتری از ژنوم‌های توالی‌یابی‌شده در اوایل و اواسط دههٔ ۲۰۰۰، همراه با مجموعهٔ وسیعی از توالی‌های پروتئینی که به‌صورت تجربی به دست آمده بودند، ابزارهای شناسه‌گذاری ژنوم شروع به استفاده از روش‌های مبتنی بر هومولوژی کردند و نسل سوم شناسه‌گذاری ژنوم را پایه‌گذاری نمودند. این روش‌های جدید به شناسه‌گذارها این امکان را می‌دادند که نه‌تنها عناصر ژنومی را از طریق روش‌های آماری (همانند نسل‌های پیشین) استنتاج کنند، بلکه با مقایسهٔ توالی در حال شناسه‌گذاری با توالی‌های موجود و تأییدشده، این فرایند را انجام دهند. این شناسه‌گذارهای ترکیبی که هر دو روش از ابتدا و شناسه‌گذاری مبتنی بر هومولوژی را به کار می‌گیرند، نیازمند الگوریتم‌های هم‌ترازسازی سریعی برای شناسایی نواحی دارای هومولوژی هستند.[۲][۹][۱۰]

در اواخر دههٔ ۲۰۰۰، شناسه‌گذاری ژنوم تمرکز خود را به شناسایی نواحی غیرکدکننده در دی‌ان‌ای معطوف کرد. این پیشرفت به لطف ظهور روش‌هایی برای تحلیل جایگاه‌های اتصال فاکتورهای رونویسی، جایگاه‌های متیلاسیون دی‌ان‌ای، ساختار کروماتین و سایر تکنیک‌های تجزیه‌وتحلیل آران‌ای و نواحی تنظیمی امکان‌پذیر شد. علاوه بر این، برخی ابزارهای شناسه‌گذاری ژنوم نیز بر مطالعات در سطح جمعیت، که به پان ژنوم شناخته می‌شود، تمرکز کردند. به این ترتیب، برای مثال، روال کاری شناسه‌گذاری اطمینان حاصل می‌کند که ژن‌های اصلی یک تبارشاخه در ژنوم‌های گونه‌های جدید همان تبارشاخه نیز یافت شوند. هر دو رویکرد شناسه‌گذاری، نسل چهارم شناسه‌گذارهای ژنوم را تشکیل می‌دهند.[۹][۱۰]

تا دههٔ ۲۰۱۰، توالی ژنومی بیش از هزار انسان (از طریق پروژه ۱۰۰۰ ژنوم) و چندین جاندار مدل در دسترس قرار گرفت. شناسه‌گذاری ژنوم همچنان برای دانشمندانی که به بررسی ژنوم انسانی و سایر ژنوم‌ها می‌پردازند، یک چالش اساسی محسوب می‌شود.[۲۱][۲۲]

شناسه‌گذاری ساختاری

[ویرایش]
روندنمای عمومی روال شناسه‌گذاری ساختاری ژنوم. ابتدا، مناطق تکراری یک ژنوم سرهم شده با استفاده از یک کتابخانهٔ تکرار پوشانده می‌شوند. سپس، در صورت لزوم، توالی پوشانده شده با تمام شواهد حاضر یعنی ESTها، آران‌ای‌ها و پروتئین‌های) جاندار در حال شناسه‌گذاری، هم‌تراز می‌شود. در ژنوم‌های یوکاریوتی، محل پیرایش آر‌ان‌ای باید شناسایی شوند. در نهایت، با کمک پایگاه‌های دادهٔ متشکل از توالی‌های شناخته‌شدهٔ دی‌ان‌ای، آران‌ای و پروتئین و همچنین سایر اطلاعات تکمیلی، نواحی کدکننده و غیرکدکنندهٔ موجود در ژنوم پیش‌بینی می‌شوند.

شناسه‌گذاری ساختاری، محل دقیق عناصر مختلف در یک ژنوم را توصیف می‌کند. از جمله این عناصر می‌توان به این موارد اشاره کرد: چارچوب خوانش باز (ORFها)، توالی کدکننده (CDSها)، اگزون‌ها، اینترون‌ها، تکرارها، نواحی برش آر‌ان‌ای، بخش‌های تنظیمی، کدون آغاز، کدون پایان، و پروموترها.[۶][۲۳] مراحل اصلی شناسه‌گذاری ساختاری عبارت‌اند از:

  1. شناسایی و پوشاندن تکرارها
  2. هم‌ترازی شواهد (اختیاری)
  3. شناسایی جایگاه‌های برش (فقط در یوکاریوت‌ها)
  4. پیش‌بینی ویژگی‌ها (توالی‌های کدکننده و غیرکدکننده)

شناسایی و پوشاندن تکرارها

[ویرایش]

اولین مرحله از شناسه‌گذاری ساختاری، شناسایی و پوشاندن تکرارها است که شامل توالی‌های با پیچیدگی کم (مانند AGAGAGAG یا بخش‌های تک‌نوکلئوتیدی مانند TTTTTTTTT) و ترنسپوزون‌ها (که عناصر بزرگ‌تری با چندین نسخه در سراسر ژنوم هستند) می‌شود.[۲][۲۴] تکرارها بخش عمده‌ای از ژنوم‌های پروکاریوتی و یوکاریوتی را تشکیل می‌دهند؛ به عنوان مثال، بین ۰٪ تا بیش از ۴۲٪ از ژنوم‌های پروکاریوتی، از تکرارها تشکیل شده‌اند[۲۵] و سه‌چهارم ژنوم انسان نیز از عناصر تکراری تشکیل شده است.[۲۶]

شناسایی تکرارها به دو دلیل اصلی دشوار است: آن‌ها به‌خوبی حفاظت نشده‌اند و مرزهای مشخصی ندارند. به همین دلیل، لازم است که کتابخانه‌های تکرار برای ژنوم مورد نظر ساخته شوند، که این کار می‌تواند با استفاده از یکی از روش‌های زیر انجام شود:[۲۴]

  • روش‌های de novo. تکرارها را با شناسایی و گروه‌بندی جفت‌های توالی در مکان‌های مختلف که میزان شباهت آن‌ها از یک حداقل آستانهٔ توالی حفاظت شده در مقایسهٔ خود-ژنومی بیشتر است، شناسایی می‌کنند. این روش‌ها نیازی به اطلاعات قبلی درباره ساختار یا توالی‌های تکراری ندارند. نقطه‌ضعف این روش‌ها این است که می‌توانند هر توالی تکراری را شناسایی کنند، نه فقط ترنسپوزون‌ها، و ممکن است شامل توالی‌های کدکننده (CDS) حافظت‌شده نیز باشند، بنابراین پردازشِ پس از شناسایی برای حذف این توالی‌ها ضروری است. همچنین، این روش ممکن است نواحی مرتبطی را که در طول زمان تخریب شده‌اند، کنار بگذارد و عناصری را که هیچ ارتباطی در تاریخچهٔ تکاملی خود ندارند، در یک گروه قرار دهد.[۲۷]
  • روش‌های مبتنی بر همولوژی. تکرارها بر اساس شباهت (همولوژی) به تکرارهای شناخته‌شدهٔ ذخیره‌شده در یک پایگاه دادهٔ معتبر، شناسایی می‌شوند. این روش‌ها، در مقایسه با روش‌های de novo، حتی اگر تعداد کمتری از ترنسپوزون‌ها را بیابند، با احتمال بیشتری ترنسپوزون‌های واقعی را شناسایی می‌کنند. البته باید دقت شود که نسبت به خانواده‌های از پیش شناسایی‌شده، دچار سوگیری هستند.
  • روش‌های مبتنی بر ساختار. این روش‌ها تکرارها را به جای تکرار یا شباهت، بر اساس مدل‌هایی از ساختار آن‌ها شناسایی می‌کنند.

آن‌ها قادر به شناسایی ترنسپوزون‌های واقعی هستند (همانند روش‌های مبتنی بر همولوژی)، اما دچار سوگیری نسبت به عناصر شناخته‌شده نیستند. بااین‌حال، این روش‌ها به‌شدت برای هر کلاس خاصی از تکرار، اختصاصی هستند و در نتیجه، کاربرد عمومی کمتری دارند.

  • روش‌های ژنومیک مقایسه‌ای. تکرارها به‌عنوان نواحی دارای اختلال در یک هم‌ترازسازی چند توالی که در اثر درج‌های بزرگ ایجاد شده‌اند، شناسایی می‌شوند. این استراتژی از مشکل مرزهای نامشخص که در سایر روش‌ها وجود دارد، اجتناب می‌کند، اما به‌شدت به کیفیت سرهم‌بندی‌ژنوم و میزان فعالیت ترنسپوزون‌ها در ژنوم‌های مورد مطالعه وابسته است.

پس از شناسایی نواحی تکراری در یک ژنوم، آن‌ها پوشانده می‌شوند. پوشاندن به معنای جایگزینی حروف مربوط به نوکلئوتیدها (A، C، G یا T) با حروف دیگر است. با این کار، این نواحی به‌عنوان تکراری علامت‌گذاری می‌شوند و آنالیزهای بعدی آن‌ها را به‌عنوان نواحی تکراری در نظر خواهند گرفت. در صورتی که این نواحی پوشانده نشوند، ممکن است مشکلاتی در عملکرد پردازش ایجاد کنند و حتی شواهد نادرستی برای شناسه‌گذاری ژنی تولید کنند (برای مثال، در نظر گرفتن یک چارچوب خوانش باز (ORF) در یک ترنسپوزون به‌عنوان یک اگزون).[۲۴] بسته به حروفی که برای جایگزینی استفاده می‌شود، پوشاندن را می‌توان به دو دسته تقسیم کرد:

  • در پوشاندن نرم، نواحی تکراری با حروف کوچک (a، c، g یا t) نشان داده می‌شوند.
  • در پوشاندن سخت، حروف این نواحی با N جایگزین می‌شوند.

به این ترتیب، پوشاندن نرم می‌تواند برای حذف تطابق‌های حروف نوکلئوتیدی و جلوگیری از انجام هم‌ترازسازی در این نواحی استفاده شود. پوشاندن سخت، علاوه بر همهٔ این موارد، می‌تواند نواحی پوشانده‌شده را از امتیازات هم‌ترازسازی نیز حذف کند.[۲۸][۲۹]

هم‌ترازی شواهد

[ویرایش]

مرحلهٔ بعدی پس از پوشاندن ژنوم، معمولاً شامل هم‌ترازسازی تمامی شواهد موجود از رونویسی و پروتئینی با ژنوم مورد بررسی است. به عبارت دیگر، تمامی برچسب‌های توالی بیان شده (ESTها)، آران‌ای‌ها و پروتئین‌های شناخته‌شدهٔ موجودات در حال شناسه‌گذاری، با ژنوم هم‌ردیف می‌شوند.[۳۰] با وجود اختیاری بودن، چون آران‌ای‌ها و پروتئین‌ها محصولات مستقیم توالی‌های کدکننده هستند، این مرحله می‌تواند به روشن‌سازی توالی‌های ژنی کمک کند.[۱۹]

اگر داده‌های RNA-seq در دسترس باشند، می‌توان از آن‌ها برای شناسه‌گذاری و تعیین کمیت تمام ژن‌ها و ایزوفرم‌های مربوطه در ژنوم استفاده کرد. این کار نه‌تنها مکان ژن‌ها بلکه میزان بیانشان را نیز مشخص می‌کند.[۳۱] با این حال، رونوشت‌ها اطلاعات کافی برای پیش‌بینی ژن فراهم نمی‌کنند، زیرا ممکن است از برخی ژن‌ها به دست نیایند، ممکن است اپرون‌هایی با بیش از یک ژن را کد کنند، و همچنین به دلیل تغییر چارچوب خوانش و فاکتورهای آغاز ترجمه، کدون‌های شروع و پایان آن‌ها را نمی‌توان به‌طور دقیق تعیین کرد.[۱۹] برای حل این مشکل، روش‌های مبتنی بر پروتئوژنومیکس به کار گرفته می‌شوند. برای این کار، معمولا از اطلاعات مربوط به پروتئین‌های بیان‌شده که توسط طیف‌سنجی جرمی به‌دست می‌آید، استفاده می‌کنند.[۳۲]

شناسایی جایگاه‌های برش

[ویرایش]

شناسه‌گذاری ژنوم‌های یوکاریوتی به دلیل فرآیند پیرایش آران‌ای که یک فرآیند پس از رونویسی است، پیچیدگی بیشتری دارد. در این فرآیند، اینترون‌ها (ناحیه‌های غیرکدکننده) حذف شده و اگزونها (ناحیه‌های کدکننده) به هم متصل می‌شوند.[۲۳] در نتیجه، توالی‌های کدکننده (CDS) در یوکاریوت‌ها ناپیوسته هستند و برای شناسایی صحیح آن‌ها، باید نواحی اینترونی فیلتر و جدا شوند. برای این منظور، سامانه‌های شناسه‌گذاری باید مرزهای اگزون-اینترون را پیدا کنند و روش‌های مختلفی برای این کار توسعه یافته است. یکی از راه‌حل‌ها، استفاده از مرزهای اگزونی شناخته‌شده برای ترازسازی است؛ برای مثال، بسیاری از اینترون‌ها با "GT" شروع شده و با "AG" پایان می‌یابند.[۳۰] با این حال، این روش نمی‌تواند مرزهای جدید را شناسایی کند. برای حل این مشکل، از الگوریتم‌های یادگیری ماشینی استفاده می‌شود که با استفاده از مرزهای شناخته‌شده و اطلاعات کیفیتی (مانند امتیاز کیفیت)، مرزهای جدید را پیش‌بینی می‌کنند.[۳۳] پیش‌بینی‌کننده‌های مرزهای اگزونی جدید معمولاً نیاز به الگوریتم‌های کارآمد فشرده‌سازی داده و ترازسازی دارند، اما در تعیین مرزهایی که در نواحی دارای پوشش توالی‌یابی پایین قرار دارند یا دارای نرخ خطای بالایی هستند، ممکن است دچار خطا شوند.[۳۴][۳۵]

پیش‌بینی ویژگی‌ها

[ویرایش]

ژنوم به دو بخش توالی کدکننده و توالی غیرکدکننده تقسیم می‌شود و آخرین مرحله در شناسه‌گذاری ساختاری، شناسایی این ویژگی‌ها در ژنوم است. در واقع، وظیفهٔ اصلی در شناسه‌گذاری ژنوم، پیش‌بینی ژن است و به همین دلیل روش‌های متعددی برای این منظور توسعه یافته‌اند.[۱۹] اصطلاح "پیش‌بینی ژن" ممکن است گمراه‌کننده باشد، زیرا بیشتر ابزارهای پیش‌بینی ژن، تنها توالی کدکننده (CDS) را شناسایی می‌کنند و ناحیه‌های ترجمه‌نشده (UTRs) را گزارش نمی‌دهند. به همین دلیل، اصطلاح "پیش‌بینی CDS" به عنوان اصطلاحی دقیق‌تر پیشنهاد شده است.[۲۴] پیش‌بینی‌کننده‌های CDS، ویژگی‌های ژنومی را از طریق روش‌هایی به نام سنسورها شناسایی می‌کنند. این روش‌ها شامل سنسورهای سیگنال هستند که جایگاه‌های عملکردی مانند پروموترها و جایگاه‌های پلی‌آدنیلاسیون را شناسایی می‌کنند، و سنسورهای محتوا که توالی‌های دی‌ان‌ای را به بخش‌های کدکننده و غیرکدکننده طبقه‌بندی می‌کنند.[۳۶] پیش‌بینی‌کننده‌های CDS در پروکاریوت‌ها عمدتاً با چارچوب‌های خوانش باز (ORFs) سروکار دارند. چارچوب خوانش باز، بخش‌هایی از دی‌ان‌ای است که بین کدون‌های آغاز و پایان هستند. پیش‌بینی CDS در یوکاریوت‌ها با چالش‌های بیشتری روبه‌رو است، زیرا ژن‌های یوکاریوتی دارای ساختار پیچیده‌تری هستند.[۳]

روش‌های پیش‌بینی CDS را می‌توان به سه دستهٔ کلی تقسیم کرد:[۲][۳۰]

  • روش‌های از ابتدا (که به آن‌ها روش‌های آماری، درونی، یا de novo نیز گفته می‌شود). پیش‌بینی CDS تنها بر اساس اطلاعاتی انجام می‌شود که می‌توان از توالی DNA استخراج کرد. این روش‌ها به روش‌های آماری مانند مدل مارکوف پنهان (HMM) متکی هستند. برخی روش‌ها از دو یا چند ژنوم برای استنتاج نرخ‌های جهش موضعی و الگوهای تغییر در سراسر ژنوم استفاده می‌کنند.[۳۷]
  • روش‌های مبتنی بر همولوژی (که به آن‌ها روش‌های تجربی، مبتنی بر شواهد، یا بیرونی نیز گفته می‌شود). پیش‌بینی CDS بر اساس شباهت به توالی‌های شناخته‌شده انجام می‌شود. این روش به‌طور خاص، توالی مورد بررسی را با برچسب توالی بیان‌ شده (ESTs)، دی‌ان‌ای مکمل (cDNA) یا توالی‌های پروتئین هم‌تراز می‌کند.
  • ترکیب‌کننده‌ها. پیش‌بینی CDS با ترکیبی از هر دو روش ذکرشده در بالا انجام می‌شود.

شناسه‌گذاری عملکردی

[ویرایش]

شناسه‌گذاری عملکردی، عملکرد عناصر ژنومی که در شناسه‌گذاری ساختاری شناسایی شده‌اند را تعیین می‌کند،[۷] و آن‌ها را به فرآیندهای زیستی مانند چرخه سلولی، مرگ سلولی، تکوین، متابولیسم و غیره مرتبط می‌سازد.[۳] همچنین می‌تواند به‌عنوان یک بررسی کیفی اضافی برای شناسایی عناصری که ممکن است به اشتباه شناسه‌گذاری شده باشند، مورد استفاده قرار گیرد.[۲]

پانویس

[ویرایش]
  1. Zheng S, Poczai P, Hyvönen J, Tang J, Amiryousefi A (2020). "Chloroplot: An Online Program for the Versatile Plotting of Organelle Genomes". Frontiers in Genetics. 11 (576124): 576124. doi:10.3389/fgene.2020.576124. PMC 7545089. PMID 33101394.
  2. ۲٫۰ ۲٫۱ ۲٫۲ ۲٫۳ ۲٫۴ Dominguez Del Angel V, Hjerde E, Sterck L, Capella-Gutierrez S, Notredame C, Vinnere Pettersson O, et al. (5 February 2018). "Ten steps to get started in Genome Assembly and Annotation". F1000Research. 7 (148): 148. doi:10.12688/f1000research.13598.1. PMC 5850084. PMID 29568489.
  3. ۳٫۰ ۳٫۱ ۳٫۲ ۳٫۳ Stein L (July 2001). "Genome annotation: from sequence to biology". Nature Reviews. Genetics. 2 (7): 493–503. doi:10.1038/35080529. PMID 11433356. S2CID 12044602.
  4. Davis CP (29 March 2021). "Medical Definition of Genome annotation". MedicineNet. Archived from the original on 9 February 2023. Retrieved 17 April 2023.
  5. Koonin E, Galperin MY (2003). "Genome Annotation and Analysis". Sequence — Evolution — Function (1st ed.). Springer US. pp. 193–226. doi:10.1007/978-1-4757-3783-7_6. ISBN 978-1-4757-3783-7.
  6. ۶٫۰ ۶٫۱ Mishra P, Maurya R, Avashthi H, Mittal S, Chandra M, Ramteke PW (2021). "Genome assembly and annotation". In Singh DB, Pathak RK (eds.). Bioinformatics: Methods and Applications (1st ed.). Elsevier Science. pp. 49–66. doi:10.1016/B978-0-323-89775-4.00013-4. ISBN 978-0-323-89775-4.
  7. ۷٫۰ ۷٫۱ Bright LA, Burgess SC, Chowdhary B, Swiderski CE, McCarthy FM (October 2009). "Structural and functional-annotation of an equine whole genome oligoarray". BMC Bioinformatics. 10 (Suppl 11): S8. doi:10.1186/1471-2105-10-S11-S8. PMC 3226197. PMID 19811692.
  8. Reed JL, Famili I, Thiele I, Palsson BO (February 2006). "Towards multidimensional genome annotation". Nature Reviews. Genetics. 7 (2): 130–141. doi:10.1038/nrg1769. PMID 16418748. S2CID 13107786.
  9. ۹٫۰ ۹٫۱ ۹٫۲ ۹٫۳ Abril JF, Castellano S (2019). "Genome Annotation". In Ranganathan S, Nakai K, Schonbach C, Gribskov M (eds.). Encyclopedia of Bioinformatics and Computational Biology (1st ed.). Elsevier Science. pp. 195–209. doi:10.1016/B978-0-12-809633-8.20226-4. ISBN 978-0-12-811432-2. S2CID 226248103.
  10. ۱۰٫۰ ۱۰٫۱ ۱۰٫۲ ۱۰٫۳ Tatusova T, DiCuccio M, Badretdin A, Chetvernin V, Nawrocki EP, Zaslavsky L, et al. (August 2016). "NCBI prokaryotic genome annotation pipeline". Nucleic Acids Research. 44 (14): 6614–6624. doi:10.1093/nar/gkw569. PMC 5001611. PMID 27342282.
  11. Staden R (November 1977). "Sequence data handling by computer". Nucleic Acids Research. 4 (11): 4037–4051. doi:10.1093/nar/4.11.4037. PMC 343220. PMID 593900.
  12. Staden R, McLachlan AD (January 1982). "Codon preference and its use in identifying protein coding regions in long DNA sequences". Nucleic Acids Research. 10 (1): 141–156. doi:10.1093/nar/10.1.141. PMC 326122. PMID 7063399.
  13. ۱۳٫۰ ۱۳٫۱ Gribskov M, Devereux J, Burgess RR (January 1984). "The codon preference plot: graphic analysis of protein coding sequences and prediction of gene expression". Nucleic Acids Research. 12 (1 Pt 2): 539–549. doi:10.1093/nar/12.1part2.539. PMC 321069. PMID 6694906.
  14. Fickett JW (August 1996). "Finding genes by computer: the state of the art". Trends in Genetics. 12 (8): 316–320. doi:10.1016/0168-9525(96)10038-X. PMID 8783942.
  15. Grosjean H, Fiers W (June 1982). "Preferential codon usage in prokaryotic genes: the optimal codon-anticodon interaction energy and the selective codon usage in efficiently expressed genes". Gene. 18 (3): 199–209. doi:10.1016/0378-1119(82)90157-3. PMID 6751939.
  16. Grantham R, Gautier C, Gouy M, Mercier R, Pavé A (January 1980). "Codon catalog usage and the genome hypothesis". Nucleic Acids Research. 8 (1): r49–r62. doi:10.1093/nar/8.1.197-c. PMC 327256. PMID 6986610.
  17. Lukashin AV, Borodovsky M (February 1998). "GeneMark.hmm: new solutions for gene finding". Nucleic Acids Research. 26 (4): 1107–1115. doi:10.1093/nar/26.4.1107. PMC 147337. PMID 9461475.
  18. Salzberg SL, Delcher AL, Kasif S, White O (January 1998). "Microbial gene identification using interpolated Markov models". Nucleic Acids Research. 26 (2): 544–548. doi:10.1093/nar/26.2.544. PMC 147303. PMID 9421513.
  19. ۱۹٫۰ ۱۹٫۱ ۱۹٫۲ ۱۹٫۳ Soh J, Gordon PM, Sensen CW (4 September 2012). Genome Annotation. New York: Chapman and Hall/CRC. doi:10.1201/b12682. ISBN 978-0-429-06401-2. Archived from the original on 18 April 2023. Retrieved 18 April 2023.
  20. Brent MR (December 2005). "Genome annotation past, present, and future: how to define an ORF at each locus". Genome Research. 15 (12): 1777–1786. doi:10.1101/gr.3866105. PMID 16339376.
  21. ENCODE Project Consortium (April 2011). Becker PB (ed.). "A user's guide to the encyclopedia of DNA elements (ENCODE)". PLOS Biology. 9 (4): e1001046. doi:10.1371/journal.pbio.1001046. PMC 3079585. PMID 21526222. open access publication - free to read
  22. Abecasis GR, Auton A, Brooks LD, DePristo MA, Durbin RM, Handsaker RE, et al. (November 2012). "An integrated map of genetic variation from 1,092 human genomes". Nature. 491 (7422): 56–65. Bibcode:2012Natur.491...56T. doi:10.1038/nature11632. PMC 3498066. PMID 23128226.
  23. ۲۳٫۰ ۲۳٫۱ Kahl G (2015). The dictionary of genomics, transcriptomics and proteomics (Fifth ed.). Weinheim: Wiley. doi:10.1002/9783527678679. ISBN 9783527678679. Archived from the original on 4 August 2022. Retrieved 24 April 2023.
  24. ۲۴٫۰ ۲۴٫۱ ۲۴٫۲ ۲۴٫۳ Yandell M, Ence D (April 2012). "A beginner's guide to eukaryotic genome annotation". Nature Reviews. Genetics. 13 (5): 329–342. doi:10.1038/nrg3174. PMID 22510764. S2CID 3352427.
  25. Treangen TJ, Abraham AL, Touchon M, Rocha EP (May 2009). "Genesis, effects and fates of repeats in prokaryotic genomes". FEMS Microbiology Reviews. 33 (3): 539–571. doi:10.1111/j.1574-6976.2009.00169.x. PMID 19396957.
  26. Liehr T (February 2021). "Repetitive Elements in Humans". International Journal of Molecular Sciences. 22 (4): 2072. doi:10.3390/ijms22042072. PMC 7922087. PMID 33669810.
  27. Alexander RP, Fang G, Rozowsky J, Snyder M, Gerstein MB (August 2010). "Annotating non-coding regions of the genome". Nature Reviews. Genetics. 11 (8): 559–571. doi:10.1038/nrg2814. PMID 20628352. S2CID 6617359.
  28. Edgar RC (October 2010). "Search and clustering orders of magnitude faster than BLAST". Bioinformatics. 26 (19): 2460–2461. doi:10.1093/bioinformatics/btq461. PMID 20709691.
  29. Edgar R. "Sequence masking". drive5.com (به انگلیسی). Archived from the original on 3 February 2020. Retrieved 25 April 2023.
  30. ۳۰٫۰ ۳۰٫۱ ۳۰٫۲ Ejigu GF, Jung J (September 2020). "Review on the Computational Genome Annotation of Sequences Obtained by Next-Generation Sequencing". Biology. 9 (9): 295. doi:10.3390/biology9090295. PMC 7565776. PMID 32962098.
  31. Garber M, Grabherr MG, Guttman M, Trapnell C (June 2011). "Computational methods for transcriptome annotation and quantification using RNA-seq". Nature Methods. 8 (6): 469–477. doi:10.1038/nmeth.1613. PMID 21623353. S2CID 205419756.
  32. Gupta N, Tanner S, Jaitly N, Adkins JN, Lipton M, Edwards R, et al. (September 2007). "Whole proteome analysis of post-translational modifications: applications of mass-spectrometry for proteogenomic annotation". Genome Research. 17 (9): 1362–1377. doi:10.1101/gr.6427907. PMC 1950905. PMID 17690205.
  33. De Bona F, Ossowski S, Schneeberger K, Rätsch G (August 2008). "Optimal spliced alignments of short sequence reads". Bioinformatics. 24 (16): i174–i180. doi:10.1093/bioinformatics/btn300. PMID 18689821.
  34. Trapnell C, Pachter L, Salzberg SL (May 2009). "TopHat: discovering splice junctions with RNA-Seq". Bioinformatics. 25 (9): 1105–1111. doi:10.1093/bioinformatics/btp120. PMC 2672628. PMID 19289445.
  35. Križanovic K, Echchiki A, Roux J, Šikic M (March 2018). "Evaluation of tools for long read RNA-seq splice-aware alignment". Bioinformatics. 34 (5): 748–754. doi:10.1093/bioinformatics/btx668. PMC 6192213. PMID 29069314.
  36. McHardy AC, Kloetgen A (2017). "Finding Genes in Genome Sequence". In Keith JM (ed.). Bioinformatics. Methods in Molecular Biology. Vol. 1525 (Second ed.). New York: Springer. pp. 271–291. doi:10.1007/978-1-4939-6622-6_11. ISBN 978-1-4939-6622-6. PMID 27896725.
  37. Brent MR, Guigó R (June 2004). "Recent advances in gene structure prediction". Current Opinion in Structural Biology. 14 (3): 264–272. doi:10.1016/j.sbi.2004.05.007. PMID 15193305.

منبع

[ویرایش]