اینترپرو

اینترپرو (به انگلیسی: InterPro) پایگاه داده‌ای است که تجزیه و تحلیل دنباله‌های پروتئین‌ها را با طبقه‌بندی آنها در گروه‌های متفاوت و پیش‌بینی حضور دامنه‌ها و سایت‌های مهم ارائه می‌دهد. برای گروه‌بندی‌ها، اینترپرو از مدل‌های پیش‌بینی کننده (امضا) که توسط پایگاه داده‌های دیگر ارائه شده‌است، استفاده می‌کند. این امضاها از مدل‌های ساده (مانند عبارت باقاعده) یا مدل‌های پیچیده (مانند مدل پنهان مارکوف) تشکیل می‌شوند که می‌توانند معرف گروه‌ها، دامنه‌ها یا موقعیت‌های پروتئین‌ها باشند. اطلاعات در اینترپرو از نظر دسته‌بندی می‌توانند عضو یک پایگاه داده، نوع ورودی (خانواده، دامنه و غیره) یا گونه دسته‌بندی شوند.

هدف بنیان اینترپرو، دسترسی به چند پایگاه داده متفاوت و کاهش افزونگی‌های آنهاست. این کار به کاربران در تفسیر نتایج تحلیل دنباله‌ها کمک می‌کند. اینترپرو با متحد کردن پایگاه داده‌ها به ابزار قدرتمندی برای تشخیص و پیش‌بینی تبدیل شده‌است.

اعضای اینترپرو

اینترپرو از تعدادی پایگاه داده تشکیل شده‌است. کار اصلی اینترپرو ادغام و همسان سازی این پایگاه داده‌ها است. گروه‌های مختلفی از محققان هر کدام از این پایگاه داده‌ها را جمع‌آوری کرده‌اند. این پایگاه داده‌ها شباهت‌هایی به هم دارند که در ادامه می‌بینید:

CATH-Gene3D: این پایگاه داده از دو قسمت تشکیل شده‌است:
- CATH یک طبقه‌بندی ساختار پروتئین‌های بانک دادهٔ پروتئین است.
- Gene3D از اطلاعات موجود در CATH برای پیش‌بینی موقعیت‌های حوزه‌های ساختاری بر روی میلیون‌ها دنبالهٔ پروتئین‌ها در بانک اطلاعاتی استفاده می‌کند.
CCD: مخفف Conserved Domain Database است. این پایگاه داده مجموعه ای از مدل‌های هم‌ترازسازی چند توالی تفسیر شده برای خوزه‌های باستانی و پروتئین‌های تمام طول تشکیل شده‌است.
HAMAP: این پایگاه داده نیز برای طبقه‌بندی و تفسیر دنباله‌های پروتئینی تشکیل شده‌است. در این پایگاه داده مجموعه پروفایل‌های طراحی شده برای دسته‌بندی پروتئین‌ها و قوانین تفسیری وجود دارند که اعضای خانواده‌های پروتئین‌ها به کار می‌روند.
PANTHER: این پایگاه داده برای طبقه‌بندی پروتئین‌ها و ژن آنها به منظور تسهیل و توان بالا در تجزیه و تحلیل طراحی شده‌است. برای هر خانواده مدل پنهان مارکو برای هر خانواده و زیرخانواده تشکیل شده‌است تا به تشخیص کمک کند.
Pfam: همانند سایر پایگاه داده‌های یادشده در این قسمت، این پایگاه داده نیز پروتئین‌ها را با کمک هم‌ترازسازی چند توالی (که خود از مدل پنهان مارکو کمک می‌گیرد) تفسیر و دسته‌بندی می‌کند.
PIRSF: این پایگاه داده، سیستم طبقه‌بندی پروتئین یک شبکه با سطوح مختلفی از تنوع توالی از خانواده‌های خانوادگی به زیر خانواده‌ها است که منعکس کننده رابطه تکاملی پروتئین‌ها و دامنه‌های تمام طول است.
PRINTS: در این پایگاه داده، برای هر خانواده پروتئین یک اثر انگشت مطرح می‌شود. اثر انگشت هر گروه از تعدادی نقوش خاص تشکیل شده‌است. معمولاً این نقوش با یکدیگر همپوشانی ندارند، اما می‌توانند در کنار هم بیایند تا در فضای ۳ بعدی یک شکل اتصال مولکولی را بسازند.
PROSITE: در این پایگاه داده با استفاده از الگوها و مشخصات بیولوژیکی، می‌توان تشخیص داد که یک دنبالهٔ جدید به کدام خانوادهٔ پروتئینی تعلق دارد.
SFLD: این پایگاه داده بر روی شناسایی ویژگی و ساختارهای خاص هر دنباله که گونه‌های مختلفی از واکنش‌ها یا ویژگی‌های بستر هستند، تمرکز می‌کند. در این پایگاه داده، دنباله‌های آنزیم، ساختار و مأموریت مولکولی را به طرح طبقه‌بندی سلسله مراتبی توسط خانواده‌های آنزیمی پیوند می‌دهد.
SUPERFAMILY: کتابخانه ای از مدل‌های مارکوف پنهان است که نشان دهندهٔ تمام پروتئین‌های ساختار-شناخته شده‌است. این کتابخانه براساس طبقه‌بندی SCOP پروتئین‌ها ساخته شده‌است: هر مدل با یک دامنه SCOP مطابقت دارد و قصد دارد کلیه خانواده‌های SCOP را که دامنه به آن تعلق دارد را نشان دهد.
TIGRFAMs: مجموعه ای از خانواده‌های پروتئینی است، که شامل ترازهای متوالی چندگانه، مدل‌های مارکوف پنهان و یادداشت‌هایی است که ابزاری برای شناسایی پروتئین‌های مرتبط با عملکردی بر اساس همسانی دنباله‌ها فراهم می‌کند.

منابع

"What is CATH-Gene3D?" (به انگلیسی). Retrieved 1 June 2020.
"Conserved Domains and Protein Classification" (به انگلیسی). Retrieved 1 June 2020.
"What is HAMAP?" (به انگلیسی). Retrieved 1 June 2020.
"InterPro" (به انگلیسی). Retrieved 1 June 2020.
"SFLD" (به انگلیسی). Archived from the original on 5 June 2020. Retrieved 1 June 2020.

پیوند به بیرون

وبگاه اینترپرو

ن ب و بیوانفورماتیک
پایگاه‌های داده	Sequence databases: ژن‌بانک, European Nucleotide Archive and DNA Data Bank of Japan Secondary databases: یونی‌پروت, database of protein sequences grouping together یونی‌پروت, یونی‌پروت and Protein Information Resource Other databases: بانک داده پروتئین, پروژه پایگاه داده ژنوم آنسامبل and اینترپرو Specialised genomic databases: BOLD, Saccharomyces Genome Database, FlyBase, VectorBase, WormBase, Rat Genome Database, PHI-base, Arabidopsis Information Resource and Zebrafish Information Network
نرم‌افزارها	بلاست Bowtie کلاستال EMBOSS HMMER MUSCLE SAMtools SOAP suite TopHat
سایر	Server: اکسپسی Ontology: هستی‌شناسی ژن Rosalind (education platform)
مؤسسات	Broad Institute China National GeneBank (CNGB) Computational Biology Department (CBD) Microsoft Research - University of Trento Centre for Computational and Systems Biology (COSBI) Database Center for Life Science (DBCLS) DNA Data Bank of Japan (DDBJ) European Bioinformatics Institute (EMBL-EBI) European Molecular Biology Laboratory (EMBL) Flatiron Institute J. Craig Venter Institute (JCVI) Max Planck Institute of Molecular Cell Biology and Genetics (MPI-CBG) مرکز ملی اطلاعات زیست‌فناوری (NCBI) مؤسسه ملی ژنتیک (ژاپن) Netherlands Bioinformatics Centre (NBIC) Philippine Genome Center (PGC) مؤسسه پژوهشی اسکریپس Swiss Institute of Bioinformatics (SIB) Wellcome Sanger Institute Whitehead Institute
سازمان‌ها	African Society for Bioinformatics and Computational Biology (ASBCB) Australia Bioinformatics Resource (EMBL-AR) European Molecular Biology network (EMBnet) International Nucleotide Sequence Database Collaboration (INSDC) International Society for Biocuration (ISB) International Society for Computational Biology (ISCB) Student Council (ISCB-SC) Institute of Genomics and Integrative Biology (CSIR-IGIB) Japanese Society for Bioinformatics (JSBi)
اجلاس‌ها	Basel Computational Biology Conference‎ ([BC²]) European Conference on Computational Biology (ECCB) Intelligent Systems for Molecular Biology (ISMB) International Conference on Bioinformatics (InCoB) ISCB Africa ASBCB Conference on Bioinformatics Pacific Symposium on Biocomputing (PSB) Research in Computational Molecular Biology (RECOMB)
فرمت‌های فایلی	CRAM format قالب فستا قالب فستک NeXML format Nexus format Pileup format SAM format Stockholm format VCF format
موضوعات مرتبط	زیست‌شناسی محاسباتی List of biobanks List of biological databases فیلوژنتیک مولکولی توالی‌یابی پایگاه داده توالی‌ها هم‌ترازسازی توالی
'