شناسهگذاری دیانای
![](http://upload.wikimedia.org/wikipedia/commons/thumb/e/e2/Porphyra_umbilicalis_chloroplast_genome_visualized_with_Chloroplot.png/370px-Porphyra_umbilicalis_chloroplast_genome_visualized_with_Chloroplot.png)
شناسهگذاری دیانای (به انگلیسی: DNA annotation) یا شناسهگذاری ژنوم در زیستشناسی مولکولی و ژنتیک، به معنی توضیح ساختار و عملکرد اجزای یک ژنوم[۲]با آنالیز و تفسیر آن برای استخراج اهمیت زیستی و درک فرآیندهایی که در آن دخیل هستند، میباشد.[۳] همچنین مکان ژنها و تمام نواحی کدکننده در یک ژنوم را شناسایی کرده و تعیین میکند که آن ژنها چه کاری انجام میدهند.[۴]
شناسهگذاری، پس از اینکه یک ژنوم توالییابی و سرهمبندی شود انجام میشود و یک مرحلهٔ ضروری در تحلیل ژنوم است. این کار پیش از آنکه توالی در یک پایگاه داده ذخیره شده و در یک مقاله منتشر شود انجام میگیرد. اگرچه توضیح ژنهای منفرد و محصولات یا عملکردهای آنها برای در نظر گرفتن این توصیف به عنوان یک شناسهگذاری کافی است، اما میزان تحلیل گزارششده در منابع علمی برای ژنومهای مختلف بهطور گستردهای متفاوت است. برخی از گزارشها شامل اطلاعات اضافی هستند که فراتر از یک شناسهگذاری ساده میباشند.[۵] علاوه بر این، به دلیل اندازه و پیچیدگی ژنومهای توالییابیشده، شناسهگذاری دیانای بهصورت دستی انجام نمیشود، بلکه از طریق روشهای محاسباتی بهصورت خودکار انجام میگیرد. با این حال، نتایج بهدستآمده نیازمند تحلیل دستی توسط کارشناسان است.[۶]
شناسهگذاری دیانای به دو دسته تقسیم میشود: شناسهگذاری ساختاری، که عناصر موجود در یک ژنوم را شناسایی و مرزبندی میکند، و شناسهگذاری کارکردی، که وظایفی را به این عناصر اختصاص میدهد.[۷] این تنها روش دستهبندی آن نیست، زیرا روشهای جایگزین دیگری مانند دستهبندی مبتنی بر ابعاد[۸] و دستهبندی مبتنی بر سطح[۳] نیز مطرح شدهاند.
تاریخچه
[ویرایش]نسل اول ابزارهای شناسهگذاری ژنوم از روشهای موضعی از ابتدا استفاده میکردند که صرفاً بر اساس اطلاعات استخراجشده از توالی دیانای در مقیاس موضعی عمل میکردند. به عبارتی در هر لحظه، تنها یک چارچوب خوانش باز (ORF) شناسهگذاری میشد.[۹][۱۰] این روشها در اواخر دههٔ ۱۹۷۰، بهعنوان یک مورد ضروری برای پردازش حجم عظیمی از دادههای تولیدشده توسط روشهای توالییابی مکسام-گلیبرت و سنگر توسعه یافتند. اولین نرمافزاری که برای تحلیل خوانشهای توالییابی مورد استفاده قرار گرفت، پکیج استادن بود که در سال ۱۹۷۷ توسط راجر استادن ایجاد شد.[۱۱] این نرمافزار چندین وظیفهٔ مرتبط با شناسهگذاری از جمله شمارش نوکلئوتیدها و کدونها را انجام میداد. در حقیقت، میزان استفاده از کدون یکی از استراتژیهای اصلی بسیاری از روشهای اولیهٔ پیشبینی و شناسایی توالیهای کدکنندهٔ پروتئین (CDS) بود.[۱۲][۱۳][۱۴] این روش مبتنی بر این فرض بود که نواحی ترجمهشونده در یک ژنوم شامل کدونهایی هستند که دارای بیشترین تعداد tRNAهای متناظر (مولکولهایی که آمینواسیدها را در طی فرایند ساختن پروتئین به ریبوزوم منتقل میکنند) هستند و این امر موجب ترجمهای کارآمدتر میشود.[۱۵] همچنین، این موضوع برای کدونهای هممعنی نیز صادق بود، بهطوری که این کدونها اغلب در پروتئینهایی که دارای سطح بیان پایینتری هستند، حضور دارند.[۱۳][۱۶]
ظهور ژنومهای کامل در دههٔ ۱۹۹۰ (اولین مورد آن، ژنوم هموفیلوس آنفلوآنزا بود که در سال ۱۹۹۵ تعیین توالی شد) منجر به معرفی نسل دوم ابزارهای شناسهگذاری شد. همانند نسل قبلی، این ابزارها نیز شناسهگذاری را از طریق روشهای از ابتدا اما این بار در مقیاس کل ژنوم انجام میدادند.[۹][۱۰] مدلهای مارکوف نیروی محرکهٔ بسیاری از الگوریتمهای مورد استفاده در شناسهگذارهای این نسل بودند.[۱۷][۱۸] این مدلها را میتوان بهعنوان گرافهای جهتداری در نظر گرفت که در آنها، گرهها نشاندهندهٔ سیگنالهای مختلف ژنومی (مانند نقاط شروع رونویسی و ترجمه) هستند و یالهای گراف نشاندهندهٔ روند اسکن توالی میباشند. برای اینکه یک مدل مارکوف بتواند یک سیگنال ژنومی را شناسایی کند، ابتدا باید با مجموعهای از سیگنالهای ژنومی شناختهشده، آموزش داده شود.[۱۹] خروجی مدلهای مارکوف در زمینهٔ شناسهگذاری شامل احتمال حضور هر نوع عنصر ژنومی در هر بخش از ژنوم است. یک مدل مارکوف دقیق، نمرهٔ احتمال بالایی را به شناسهگذاریهای صحیح و نمرهٔ پایینی را به موارد نادرست اختصاص میدهد.[۲۰]
![](http://upload.wikimedia.org/wikipedia/commons/thumb/c/cf/Genome_Annotation_Timeline.svg/600px-Genome_Annotation_Timeline.svg.png)
با در دسترس قرار گرفتن تعداد بیشتری از ژنومهای توالییابیشده در اوایل و اواسط دههٔ ۲۰۰۰، همراه با مجموعهٔ وسیعی از توالیهای پروتئینی که بهصورت تجربی به دست آمده بودند، ابزارهای شناسهگذاری ژنوم شروع به استفاده از روشهای مبتنی بر هومولوژی کردند و نسل سوم شناسهگذاری ژنوم را پایهگذاری نمودند. این روشهای جدید به شناسهگذارها این امکان را میدادند که نهتنها عناصر ژنومی را از طریق روشهای آماری (همانند نسلهای پیشین) استنتاج کنند، بلکه با مقایسهٔ توالی در حال شناسهگذاری با توالیهای موجود و تأییدشده، این فرایند را انجام دهند. این شناسهگذارهای ترکیبی که هر دو روش از ابتدا و شناسهگذاری مبتنی بر هومولوژی را به کار میگیرند، نیازمند الگوریتمهای همترازسازی سریعی برای شناسایی نواحی دارای هومولوژی هستند.[۲][۹][۱۰]
در اواخر دههٔ ۲۰۰۰، شناسهگذاری ژنوم تمرکز خود را به شناسایی نواحی غیرکدکننده در دیانای معطوف کرد. این پیشرفت به لطف ظهور روشهایی برای تحلیل جایگاههای اتصال فاکتورهای رونویسی، جایگاههای متیلاسیون دیانای، ساختار کروماتین و سایر تکنیکهای تجزیهوتحلیل آرانای و نواحی تنظیمی امکانپذیر شد. علاوه بر این، برخی ابزارهای شناسهگذاری ژنوم نیز بر مطالعات در سطح جمعیت، که به پان ژنوم شناخته میشود، تمرکز کردند. به این ترتیب، برای مثال، روال کاری شناسهگذاری اطمینان حاصل میکند که ژنهای اصلی یک تبارشاخه در ژنومهای گونههای جدید همان تبارشاخه نیز یافت شوند. هر دو رویکرد شناسهگذاری، نسل چهارم شناسهگذارهای ژنوم را تشکیل میدهند.[۹][۱۰]
تا دههٔ ۲۰۱۰، توالی ژنومی بیش از هزار انسان (از طریق پروژه ۱۰۰۰ ژنوم) و چندین جاندار مدل در دسترس قرار گرفت. شناسهگذاری ژنوم همچنان برای دانشمندانی که به بررسی ژنوم انسانی و سایر ژنومها میپردازند، یک چالش اساسی محسوب میشود.[۲۱][۲۲]
شناسهگذاری ساختاری
[ویرایش]![](http://upload.wikimedia.org/wikipedia/commons/thumb/0/07/Structural_Annotation_Flowchart.svg/350px-Structural_Annotation_Flowchart.svg.png)
شناسهگذاری ساختاری، محل دقیق عناصر مختلف در یک ژنوم را توصیف میکند. از جمله این عناصر میتوان به این موارد اشاره کرد: چارچوب خوانش باز (ORFها)، توالی کدکننده (CDSها)، اگزونها، اینترونها، تکرارها، نواحی برش آرانای، بخشهای تنظیمی، کدون آغاز، کدون پایان، و پروموترها.[۶][۲۳] مراحل اصلی شناسهگذاری ساختاری عبارتاند از:
- شناسایی و پوشاندن تکرارها
- همترازی شواهد (اختیاری)
- شناسایی جایگاههای برش (فقط در یوکاریوتها)
- پیشبینی ویژگیها (توالیهای کدکننده و غیرکدکننده)
شناسایی و پوشاندن تکرارها
[ویرایش]اولین مرحله از شناسهگذاری ساختاری، شناسایی و پوشاندن تکرارها است که شامل توالیهای با پیچیدگی کم (مانند AGAGAGAG یا بخشهای تکنوکلئوتیدی مانند TTTTTTTTT) و ترنسپوزونها (که عناصر بزرگتری با چندین نسخه در سراسر ژنوم هستند) میشود.[۲][۲۴] تکرارها بخش عمدهای از ژنومهای پروکاریوتی و یوکاریوتی را تشکیل میدهند؛ به عنوان مثال، بین ۰٪ تا بیش از ۴۲٪ از ژنومهای پروکاریوتی، از تکرارها تشکیل شدهاند[۲۵] و سهچهارم ژنوم انسان نیز از عناصر تکراری تشکیل شده است.[۲۶]
شناسایی تکرارها به دو دلیل اصلی دشوار است: آنها بهخوبی حفاظت نشدهاند و مرزهای مشخصی ندارند. به همین دلیل، لازم است که کتابخانههای تکرار برای ژنوم مورد نظر ساخته شوند، که این کار میتواند با استفاده از یکی از روشهای زیر انجام شود:[۲۴]
- روشهای de novo. تکرارها را با شناسایی و گروهبندی جفتهای توالی در مکانهای مختلف که میزان شباهت آنها از یک حداقل آستانهٔ توالی حفاظت شده در مقایسهٔ خود-ژنومی بیشتر است، شناسایی میکنند. این روشها نیازی به اطلاعات قبلی درباره ساختار یا توالیهای تکراری ندارند. نقطهضعف این روشها این است که میتوانند هر توالی تکراری را شناسایی کنند، نه فقط ترنسپوزونها، و ممکن است شامل توالیهای کدکننده (CDS) حافظتشده نیز باشند، بنابراین پردازشِ پس از شناسایی برای حذف این توالیها ضروری است. همچنین، این روش ممکن است نواحی مرتبطی را که در طول زمان تخریب شدهاند، کنار بگذارد و عناصری را که هیچ ارتباطی در تاریخچهٔ تکاملی خود ندارند، در یک گروه قرار دهد.[۲۷]
- روشهای مبتنی بر همولوژی. تکرارها بر اساس شباهت (همولوژی) به تکرارهای شناختهشدهٔ ذخیرهشده در یک پایگاه دادهٔ معتبر، شناسایی میشوند. این روشها، در مقایسه با روشهای de novo، حتی اگر تعداد کمتری از ترنسپوزونها را بیابند، با احتمال بیشتری ترنسپوزونهای واقعی را شناسایی میکنند. البته باید دقت شود که نسبت به خانوادههای از پیش شناساییشده، دچار سوگیری هستند.
- روشهای مبتنی بر ساختار. این روشها تکرارها را به جای تکرار یا شباهت، بر اساس مدلهایی از ساختار آنها شناسایی میکنند.
آنها قادر به شناسایی ترنسپوزونهای واقعی هستند (همانند روشهای مبتنی بر همولوژی)، اما دچار سوگیری نسبت به عناصر شناختهشده نیستند. بااینحال، این روشها بهشدت برای هر کلاس خاصی از تکرار، اختصاصی هستند و در نتیجه، کاربرد عمومی کمتری دارند.
- روشهای ژنومیک مقایسهای. تکرارها بهعنوان نواحی دارای اختلال در یک همترازسازی چند توالی که در اثر درجهای بزرگ ایجاد شدهاند، شناسایی میشوند. این استراتژی از مشکل مرزهای نامشخص که در سایر روشها وجود دارد، اجتناب میکند، اما بهشدت به کیفیت سرهمبندیژنوم و میزان فعالیت ترنسپوزونها در ژنومهای مورد مطالعه وابسته است.
پس از شناسایی نواحی تکراری در یک ژنوم، آنها پوشانده میشوند. پوشاندن به معنای جایگزینی حروف مربوط به نوکلئوتیدها (A، C، G یا T) با حروف دیگر است. با این کار، این نواحی بهعنوان تکراری علامتگذاری میشوند و آنالیزهای بعدی آنها را بهعنوان نواحی تکراری در نظر خواهند گرفت. در صورتی که این نواحی پوشانده نشوند، ممکن است مشکلاتی در عملکرد پردازش ایجاد کنند و حتی شواهد نادرستی برای شناسهگذاری ژنی تولید کنند (برای مثال، در نظر گرفتن یک چارچوب خوانش باز (ORF) در یک ترنسپوزون بهعنوان یک اگزون).[۲۴] بسته به حروفی که برای جایگزینی استفاده میشود، پوشاندن را میتوان به دو دسته تقسیم کرد:
- در پوشاندن نرم، نواحی تکراری با حروف کوچک (a، c، g یا t) نشان داده میشوند.
- در پوشاندن سخت، حروف این نواحی با N جایگزین میشوند.
به این ترتیب، پوشاندن نرم میتواند برای حذف تطابقهای حروف نوکلئوتیدی و جلوگیری از انجام همترازسازی در این نواحی استفاده شود. پوشاندن سخت، علاوه بر همهٔ این موارد، میتواند نواحی پوشاندهشده را از امتیازات همترازسازی نیز حذف کند.[۲۸][۲۹]
همترازی شواهد
[ویرایش]مرحلهٔ بعدی پس از پوشاندن ژنوم، معمولاً شامل همترازسازی تمامی شواهد موجود از رونویسی و پروتئینی با ژنوم مورد بررسی است. به عبارت دیگر، تمامی برچسبهای توالی بیان شده (ESTها)، آرانایها و پروتئینهای شناختهشدهٔ موجودات در حال شناسهگذاری، با ژنوم همردیف میشوند.[۳۰] با وجود اختیاری بودن، چون آرانایها و پروتئینها محصولات مستقیم توالیهای کدکننده هستند، این مرحله میتواند به روشنسازی توالیهای ژنی کمک کند.[۱۹]
اگر دادههای RNA-seq در دسترس باشند، میتوان از آنها برای شناسهگذاری و تعیین کمیت تمام ژنها و ایزوفرمهای مربوطه در ژنوم استفاده کرد. این کار نهتنها مکان ژنها بلکه میزان بیانشان را نیز مشخص میکند.[۳۱] با این حال، رونوشتها اطلاعات کافی برای پیشبینی ژن فراهم نمیکنند، زیرا ممکن است از برخی ژنها به دست نیایند، ممکن است اپرونهایی با بیش از یک ژن را کد کنند، و همچنین به دلیل تغییر چارچوب خوانش و فاکتورهای آغاز ترجمه، کدونهای شروع و پایان آنها را نمیتوان بهطور دقیق تعیین کرد.[۱۹] برای حل این مشکل، روشهای مبتنی بر پروتئوژنومیکس به کار گرفته میشوند. برای این کار، معمولا از اطلاعات مربوط به پروتئینهای بیانشده که توسط طیفسنجی جرمی بهدست میآید، استفاده میکنند.[۳۲]
شناسایی جایگاههای برش
[ویرایش]شناسهگذاری ژنومهای یوکاریوتی به دلیل فرآیند پیرایش آرانای که یک فرآیند پس از رونویسی است، پیچیدگی بیشتری دارد. در این فرآیند، اینترونها (ناحیههای غیرکدکننده) حذف شده و اگزونها (ناحیههای کدکننده) به هم متصل میشوند.[۲۳] در نتیجه، توالیهای کدکننده (CDS) در یوکاریوتها ناپیوسته هستند و برای شناسایی صحیح آنها، باید نواحی اینترونی فیلتر و جدا شوند. برای این منظور، سامانههای شناسهگذاری باید مرزهای اگزون-اینترون را پیدا کنند و روشهای مختلفی برای این کار توسعه یافته است. یکی از راهحلها، استفاده از مرزهای اگزونی شناختهشده برای ترازسازی است؛ برای مثال، بسیاری از اینترونها با "GT" شروع شده و با "AG" پایان مییابند.[۳۰] با این حال، این روش نمیتواند مرزهای جدید را شناسایی کند. برای حل این مشکل، از الگوریتمهای یادگیری ماشینی استفاده میشود که با استفاده از مرزهای شناختهشده و اطلاعات کیفیتی (مانند امتیاز کیفیت)، مرزهای جدید را پیشبینی میکنند.[۳۳] پیشبینیکنندههای مرزهای اگزونی جدید معمولاً نیاز به الگوریتمهای کارآمد فشردهسازی داده و ترازسازی دارند، اما در تعیین مرزهایی که در نواحی دارای پوشش توالییابی پایین قرار دارند یا دارای نرخ خطای بالایی هستند، ممکن است دچار خطا شوند.[۳۴][۳۵]
پیشبینی ویژگیها
[ویرایش]ژنوم به دو بخش توالی کدکننده و توالی غیرکدکننده تقسیم میشود و آخرین مرحله در شناسهگذاری ساختاری، شناسایی این ویژگیها در ژنوم است. در واقع، وظیفهٔ اصلی در شناسهگذاری ژنوم، پیشبینی ژن است و به همین دلیل روشهای متعددی برای این منظور توسعه یافتهاند.[۱۹] اصطلاح "پیشبینی ژن" ممکن است گمراهکننده باشد، زیرا بیشتر ابزارهای پیشبینی ژن، تنها توالی کدکننده (CDS) را شناسایی میکنند و ناحیههای ترجمهنشده (UTRs) را گزارش نمیدهند. به همین دلیل، اصطلاح "پیشبینی CDS" به عنوان اصطلاحی دقیقتر پیشنهاد شده است.[۲۴] پیشبینیکنندههای CDS، ویژگیهای ژنومی را از طریق روشهایی به نام سنسورها شناسایی میکنند. این روشها شامل سنسورهای سیگنال هستند که جایگاههای عملکردی مانند پروموترها و جایگاههای پلیآدنیلاسیون را شناسایی میکنند، و سنسورهای محتوا که توالیهای دیانای را به بخشهای کدکننده و غیرکدکننده طبقهبندی میکنند.[۳۶] پیشبینیکنندههای CDS در پروکاریوتها عمدتاً با چارچوبهای خوانش باز (ORFs) سروکار دارند. چارچوب خوانش باز، بخشهایی از دیانای است که بین کدونهای آغاز و پایان هستند. پیشبینی CDS در یوکاریوتها با چالشهای بیشتری روبهرو است، زیرا ژنهای یوکاریوتی دارای ساختار پیچیدهتری هستند.[۳]
روشهای پیشبینی CDS را میتوان به سه دستهٔ کلی تقسیم کرد:[۲][۳۰]
- روشهای از ابتدا (که به آنها روشهای آماری، درونی، یا de novo نیز گفته میشود). پیشبینی CDS تنها بر اساس اطلاعاتی انجام میشود که میتوان از توالی DNA استخراج کرد. این روشها به روشهای آماری مانند مدل مارکوف پنهان (HMM) متکی هستند. برخی روشها از دو یا چند ژنوم برای استنتاج نرخهای جهش موضعی و الگوهای تغییر در سراسر ژنوم استفاده میکنند.[۳۷]
- روشهای مبتنی بر همولوژی (که به آنها روشهای تجربی، مبتنی بر شواهد، یا بیرونی نیز گفته میشود). پیشبینی CDS بر اساس شباهت به توالیهای شناختهشده انجام میشود. این روش بهطور خاص، توالی مورد بررسی را با برچسب توالی بیان شده (ESTs)، دیانای مکمل (cDNA) یا توالیهای پروتئین همتراز میکند.
- ترکیبکنندهها. پیشبینی CDS با ترکیبی از هر دو روش ذکرشده در بالا انجام میشود.
شناسهگذاری عملکردی
[ویرایش]شناسهگذاری عملکردی، عملکرد عناصر ژنومی که در شناسهگذاری ساختاری شناسایی شدهاند را تعیین میکند،[۷] و آنها را به فرآیندهای زیستی مانند چرخه سلولی، مرگ سلولی، تکوین، متابولیسم و غیره مرتبط میسازد.[۳] همچنین میتواند بهعنوان یک بررسی کیفی اضافی برای شناسایی عناصری که ممکن است به اشتباه شناسهگذاری شده باشند، مورد استفاده قرار گیرد.[۲]
پانویس
[ویرایش]- ↑ Zheng S, Poczai P, Hyvönen J, Tang J, Amiryousefi A (2020). "Chloroplot: An Online Program for the Versatile Plotting of Organelle Genomes". Frontiers in Genetics. 11 (576124): 576124. doi:10.3389/fgene.2020.576124. PMC 7545089. PMID 33101394.
- ↑ ۲٫۰ ۲٫۱ ۲٫۲ ۲٫۳ ۲٫۴ Dominguez Del Angel V, Hjerde E, Sterck L, Capella-Gutierrez S, Notredame C, Vinnere Pettersson O, et al. (5 February 2018). "Ten steps to get started in Genome Assembly and Annotation". F1000Research. 7 (148): 148. doi:10.12688/f1000research.13598.1. PMC 5850084. PMID 29568489.
- ↑ ۳٫۰ ۳٫۱ ۳٫۲ ۳٫۳ Stein L (July 2001). "Genome annotation: from sequence to biology". Nature Reviews. Genetics. 2 (7): 493–503. doi:10.1038/35080529. PMID 11433356. S2CID 12044602.
- ↑ Davis CP (29 March 2021). "Medical Definition of Genome annotation". MedicineNet. Archived from the original on 9 February 2023. Retrieved 17 April 2023.
- ↑ Koonin E, Galperin MY (2003). "Genome Annotation and Analysis". Sequence — Evolution — Function (1st ed.). Springer US. pp. 193–226. doi:10.1007/978-1-4757-3783-7_6. ISBN 978-1-4757-3783-7.
- ↑ ۶٫۰ ۶٫۱ Mishra P, Maurya R, Avashthi H, Mittal S, Chandra M, Ramteke PW (2021). "Genome assembly and annotation". In Singh DB, Pathak RK (eds.). Bioinformatics: Methods and Applications (1st ed.). Elsevier Science. pp. 49–66. doi:10.1016/B978-0-323-89775-4.00013-4. ISBN 978-0-323-89775-4.
- ↑ ۷٫۰ ۷٫۱ Bright LA, Burgess SC, Chowdhary B, Swiderski CE, McCarthy FM (October 2009). "Structural and functional-annotation of an equine whole genome oligoarray". BMC Bioinformatics. 10 (Suppl 11): S8. doi:10.1186/1471-2105-10-S11-S8. PMC 3226197. PMID 19811692.
- ↑ Reed JL, Famili I, Thiele I, Palsson BO (February 2006). "Towards multidimensional genome annotation". Nature Reviews. Genetics. 7 (2): 130–141. doi:10.1038/nrg1769. PMID 16418748. S2CID 13107786.
- ↑ ۹٫۰ ۹٫۱ ۹٫۲ ۹٫۳ Abril JF, Castellano S (2019). "Genome Annotation". In Ranganathan S, Nakai K, Schonbach C, Gribskov M (eds.). Encyclopedia of Bioinformatics and Computational Biology (1st ed.). Elsevier Science. pp. 195–209. doi:10.1016/B978-0-12-809633-8.20226-4. ISBN 978-0-12-811432-2. S2CID 226248103.
- ↑ ۱۰٫۰ ۱۰٫۱ ۱۰٫۲ ۱۰٫۳ Tatusova T, DiCuccio M, Badretdin A, Chetvernin V, Nawrocki EP, Zaslavsky L, et al. (August 2016). "NCBI prokaryotic genome annotation pipeline". Nucleic Acids Research. 44 (14): 6614–6624. doi:10.1093/nar/gkw569. PMC 5001611. PMID 27342282.
- ↑ Staden R (November 1977). "Sequence data handling by computer". Nucleic Acids Research. 4 (11): 4037–4051. doi:10.1093/nar/4.11.4037. PMC 343220. PMID 593900.
- ↑ Staden R, McLachlan AD (January 1982). "Codon preference and its use in identifying protein coding regions in long DNA sequences". Nucleic Acids Research. 10 (1): 141–156. doi:10.1093/nar/10.1.141. PMC 326122. PMID 7063399.
- ↑ ۱۳٫۰ ۱۳٫۱ Gribskov M, Devereux J, Burgess RR (January 1984). "The codon preference plot: graphic analysis of protein coding sequences and prediction of gene expression". Nucleic Acids Research. 12 (1 Pt 2): 539–549. doi:10.1093/nar/12.1part2.539. PMC 321069. PMID 6694906.
- ↑ Fickett JW (August 1996). "Finding genes by computer: the state of the art". Trends in Genetics. 12 (8): 316–320. doi:10.1016/0168-9525(96)10038-X. PMID 8783942.
- ↑ Grosjean H, Fiers W (June 1982). "Preferential codon usage in prokaryotic genes: the optimal codon-anticodon interaction energy and the selective codon usage in efficiently expressed genes". Gene. 18 (3): 199–209. doi:10.1016/0378-1119(82)90157-3. PMID 6751939.
- ↑ Grantham R, Gautier C, Gouy M, Mercier R, Pavé A (January 1980). "Codon catalog usage and the genome hypothesis". Nucleic Acids Research. 8 (1): r49–r62. doi:10.1093/nar/8.1.197-c. PMC 327256. PMID 6986610.
- ↑ Lukashin AV, Borodovsky M (February 1998). "GeneMark.hmm: new solutions for gene finding". Nucleic Acids Research. 26 (4): 1107–1115. doi:10.1093/nar/26.4.1107. PMC 147337. PMID 9461475.
- ↑ Salzberg SL, Delcher AL, Kasif S, White O (January 1998). "Microbial gene identification using interpolated Markov models". Nucleic Acids Research. 26 (2): 544–548. doi:10.1093/nar/26.2.544. PMC 147303. PMID 9421513.
- ↑ ۱۹٫۰ ۱۹٫۱ ۱۹٫۲ ۱۹٫۳ Soh J, Gordon PM, Sensen CW (4 September 2012). Genome Annotation. New York: Chapman and Hall/CRC. doi:10.1201/b12682. ISBN 978-0-429-06401-2. Archived from the original on 18 April 2023. Retrieved 18 April 2023.
- ↑ Brent MR (December 2005). "Genome annotation past, present, and future: how to define an ORF at each locus". Genome Research. 15 (12): 1777–1786. doi:10.1101/gr.3866105. PMID 16339376.
- ↑ ENCODE Project Consortium (April 2011). Becker PB (ed.). "A user's guide to the encyclopedia of DNA elements (ENCODE)". PLOS Biology. 9 (4): e1001046. doi:10.1371/journal.pbio.1001046. PMC 3079585. PMID 21526222.
- ↑ Abecasis GR, Auton A, Brooks LD, DePristo MA, Durbin RM, Handsaker RE, et al. (November 2012). "An integrated map of genetic variation from 1,092 human genomes". Nature. 491 (7422): 56–65. Bibcode:2012Natur.491...56T. doi:10.1038/nature11632. PMC 3498066. PMID 23128226.
- ↑ ۲۳٫۰ ۲۳٫۱ Kahl G (2015). The dictionary of genomics, transcriptomics and proteomics (Fifth ed.). Weinheim: Wiley. doi:10.1002/9783527678679. ISBN 9783527678679. Archived from the original on 4 August 2022. Retrieved 24 April 2023.
- ↑ ۲۴٫۰ ۲۴٫۱ ۲۴٫۲ ۲۴٫۳ Yandell M, Ence D (April 2012). "A beginner's guide to eukaryotic genome annotation". Nature Reviews. Genetics. 13 (5): 329–342. doi:10.1038/nrg3174. PMID 22510764. S2CID 3352427.
- ↑ Treangen TJ, Abraham AL, Touchon M, Rocha EP (May 2009). "Genesis, effects and fates of repeats in prokaryotic genomes". FEMS Microbiology Reviews. 33 (3): 539–571. doi:10.1111/j.1574-6976.2009.00169.x. PMID 19396957.
- ↑ Liehr T (February 2021). "Repetitive Elements in Humans". International Journal of Molecular Sciences. 22 (4): 2072. doi:10.3390/ijms22042072. PMC 7922087. PMID 33669810.
- ↑ Alexander RP, Fang G, Rozowsky J, Snyder M, Gerstein MB (August 2010). "Annotating non-coding regions of the genome". Nature Reviews. Genetics. 11 (8): 559–571. doi:10.1038/nrg2814. PMID 20628352. S2CID 6617359.
- ↑ Edgar RC (October 2010). "Search and clustering orders of magnitude faster than BLAST". Bioinformatics. 26 (19): 2460–2461. doi:10.1093/bioinformatics/btq461. PMID 20709691.
- ↑ Edgar R. "Sequence masking". drive5.com (به انگلیسی). Archived from the original on 3 February 2020. Retrieved 25 April 2023.
- ↑ ۳۰٫۰ ۳۰٫۱ ۳۰٫۲ Ejigu GF, Jung J (September 2020). "Review on the Computational Genome Annotation of Sequences Obtained by Next-Generation Sequencing". Biology. 9 (9): 295. doi:10.3390/biology9090295. PMC 7565776. PMID 32962098.
- ↑ Garber M, Grabherr MG, Guttman M, Trapnell C (June 2011). "Computational methods for transcriptome annotation and quantification using RNA-seq". Nature Methods. 8 (6): 469–477. doi:10.1038/nmeth.1613. PMID 21623353. S2CID 205419756.
- ↑ Gupta N, Tanner S, Jaitly N, Adkins JN, Lipton M, Edwards R, et al. (September 2007). "Whole proteome analysis of post-translational modifications: applications of mass-spectrometry for proteogenomic annotation". Genome Research. 17 (9): 1362–1377. doi:10.1101/gr.6427907. PMC 1950905. PMID 17690205.
- ↑ De Bona F, Ossowski S, Schneeberger K, Rätsch G (August 2008). "Optimal spliced alignments of short sequence reads". Bioinformatics. 24 (16): i174–i180. doi:10.1093/bioinformatics/btn300. PMID 18689821.
- ↑ Trapnell C, Pachter L, Salzberg SL (May 2009). "TopHat: discovering splice junctions with RNA-Seq". Bioinformatics. 25 (9): 1105–1111. doi:10.1093/bioinformatics/btp120. PMC 2672628. PMID 19289445.
- ↑ Križanovic K, Echchiki A, Roux J, Šikic M (March 2018). "Evaluation of tools for long read RNA-seq splice-aware alignment". Bioinformatics. 34 (5): 748–754. doi:10.1093/bioinformatics/btx668. PMC 6192213. PMID 29069314.
- ↑ McHardy AC, Kloetgen A (2017). "Finding Genes in Genome Sequence". In Keith JM (ed.). Bioinformatics. Methods in Molecular Biology. Vol. 1525 (Second ed.). New York: Springer. pp. 271–291. doi:10.1007/978-1-4939-6622-6_11. ISBN 978-1-4939-6622-6. PMID 27896725.
- ↑ Brent MR, Guigó R (June 2004). "Recent advances in gene structure prediction". Current Opinion in Structural Biology. 14 (3): 264–272. doi:10.1016/j.sbi.2004.05.007. PMID 15193305.
منبع
[ویرایش]- مشارکتکنندگان ویکیپدیا. «DNA annotation». در دانشنامهٔ ویکیپدیای انگلیسی، بازبینیشده در ۳۱ ژانویه ۲۰۲۵.