Pfam — база даних сімейств білкових доменів. Кожне сімейство в ній представлено множинним вирівнюванням фрагментів білкових послідовностей і прихованої марковської моделлю (HMM). На березень 2017 року Pfam містилося 16 712 записів (сімейств), об'єднаних в 604 клани.
Історія
База даних Pfam заснована в 1997 році дослідниками з і активно підтримується консорціумом вчених з різних країн. З 2011 року для записів з відомої функціональної анотацією існують статті в англомовній Wikipedia . За даними 2014 року, майже для 80% послідовностей бази UniProt є інформація в Pfam .
У журналі «Nucleic Acids Research» періодично виходять статті, що описують розвиток і стан Pfam . Версія Pfam 31.0 побудована по базі даних Pfamseq, заснованої на релізі UniProtKB 2016_10 . Pfamseq містить 26,7 млн послідовностей.
Структура Pfam
У Pfam існує дві категорії сімейств: Pfam-A та Pfam-B. Сімейства не перекривають одне одного - в базі даних немає таких білків, в яких хоча б одна амінокислота належиала одночасно до двох різних доменів. Деякі сімейства, що мають загальне еволюційне походження і зберегли схожість на рівні послідовностей або структур, об'єднані в клани.
Pfam-A
Pfam-A містить сімейства, які контролюються вручну. Для формування кожного сімейства Pfam-A будується вихідне вирівнювання (seed alignment) з його найбільш репрезентативних представників. На його основі створюється прихована марковська модель (HMM), також має назву профіль. Вона складається з станів «зіставлення», «вставка» і «делеція» для кожної колонки множинного вирівнювання з присвоєними емісійними ймовірностями для всіх амінокислот в першому з цих станів . Дані емісійні ймовірності представлені для кожного сімейства на його сторінці у вигляді .
Після цього здійснюється пошук за допомогою отриманої HMM по базі даних Pfamseq, відповідної останньому релізу UniProtKB. Усі послідовності, для яких рейтинг відповідності HMM перевищує певний поріг, встановлюваний вручну для кожного сімейства, включаються в повне вирівнювання (full alignment). Якщо виявляється, що деякі представники сімейства не знаходяться при пошуку за допомогою HMM, вихідне множинне вирівнювання редагується до досягнення оптимального результату . Отримані HMM зберігаються в базі даних Pfam і можуть бути використані для пошуку доменів в нових білкових послідовностях через вебінтерфейс [ 22 березня 2019 у Wayback Machine.].
Описи сімейств переважно містяться в Wikipedia і відкриті для публічного редагування. Однак, слід зазначити, що понад чверть усіх сімейств не має функціональної анотації, такі домени позначаються як DUF (англ. Domain of unknown function). Також для кожного сімейства міститься інформація про його представленості в різних таксонах, варіанти доменної структури маючих його білки і філогенетичне дерево вихідного вирівнювання. У тих випадках, коли це можливо, присутні дані про білок-білкових взаємодіях, отримані за допомогою iPfam, і посилання на тривимірні структури в базі даних PDB.
Pfam-B
На додаток до сімейств, що контролюються вручну, база даних Pfam також містить сімейства Pfam-B, які генеруються автоматично з використанням алгоритму кластеризації доменів . Вони не мають функціональної анотації, і, як правило, мають значно гіршу якість в порівнянні з родинами Pfam-A. Деякі з них представляють собою регіони низької складності і не відображають дійсної спорідненості білкових послідовностей, тому рекомендується перевірка гомології представників сімейств Pfam-B за допомогою інших методів, наприклад, . Починаючи з Pfam 24.0, для 20000 найбільших сімейств Pfam-B побудовані HMM, і по ним можливо проводити пошук.
Підтримка Pfam-B закінчилася після Pfam 27.0.
Клани
Клани — це об'єднання родин білкових доменів, що мають загальне еволюційне походження. Для формування кланів золотим стандартом служить порівняння тривимірних структур доменів, при їх відсутності також може використовуватися помітне перекриття профілів, схожість профілів (яке може бути визначене за допомогою алгоритму HHsearch) або схожість результатів пошуку по базі даних з використанням різних профілів (визначається за методом SCOOP). Для кланів, також як і для родин Pfam-A, надається загальне вирівнювання всіх його представників, інформація про розподіл по таксонам, дані про білок-білкових взаємодіях і посилання на тривимірні структури.
Класифікація записів
Запис Pfam - це набір схожих ділянок білкових послідовностей. Всі записи відносять до одного з шести типів:
- Family (Сімейство) - базовий тип, набір родинних (гомологічних) ділянок;
- Domain (Домен) - стійка структурна одиниця, або функціональна ділянка, зустрічається в різноманітних білкових архитектурах;
- Repeat (Повтор) - коротка ділянка, яка є нестійкою у ізоляції, але утворює стабільну структуру, коли присутні кілька його копій;
- Motif (Мотив) - коротка консервативна ділянка поза глобулярних доменів;
- Coiled-Coil (суперспіральний блок) - області, що формують суперспіралі, тобто пучки з 2-7 скручених альфа-спіралей;
- Disordered (неструктурований блок) - консервативні ділянки зі зміщеним амінокислотним складом, що не формують стійкої (глобулярної) структури.
Найчастіше термін family (сімейство) використовується, в тому числі на сайті Pfam, замість терміна entry (запис), що створює значну плутанину.
Можливості
Сайт Pfam надає інтерактивний доступ до даних, а також можливість переглядати дані в графічному вигляді.
Вікно «Jump to...», присутнє на більшості сторінок Pfam, дозволяє швидко провести пошук родин чи кланів за ідентифікатором (ID) або коду доступу (accession). В верхній частині будь-якої сторінки Pfam є також вікно пошуку сімейств за ключовим словом, «keyword search».
Шляхом пошуку послідовності білка по бібліотеці HMM в Pfam можна з'ясувати його доменну архітектуру. Для багатьох відомих білкових послідовностей вона вже обчислена: щоб переглянути її, потрібно ввести ідентифікатор або код доступу послідовності у вікні вкладки «view a sequence» на головній сторінці сайта. Якщо ж послідовність не розпізнає Pfam, можна скористатися сторінкою пошуку [ 22 березня 2019 у Wayback Machine.], де потрібно ввести амінокислотну або нуклеотидну послідовність.
Якщо потрібно провести пошук великої кількості послідовностей, на вкладці «Batch search» [ 22 березня 2019 у Wayback Machine.] сторінки пошуку можна завантажити файл з послідовностями в форматі FASTA, при цьому в кожному файлі має бути не більше 5000 послідовностей. У цьому випадку користувач отримує результати протягом 48 годин на e-mail адресу, яку потрібно також вказати на сторінці пошуку Також є можливість провести пошук локально, за допомогою скрипту «pfam_scan.pl». Для цього потрібно програмне забезпечення HMMER3, бібліотеки HMM і деякі інші додаткові файли, які можна знайти на сайті Pfam.
У Pfam є обчислені доменні архітектури для протеомів бази Integr. Доступ до цих даних відкритий в графі «Proteomes» на сторінці «Browse» [ 16 січня 2019 у Wayback Machine.]. Для представлених тут організмів є інформація про доменний склад і доменні архитектури їх білків.
Pfam також надає можливість пошуку білків по доменній архітектурі. Для цього на вкладці «Domain architecture» [ 22 березня 2019 у Wayback Machine.] сторінки пошуку в спеціальному вікні потрібно вибрати домени, що входять або не входять до цільового білок, а також можна використовувати Java-аплет PfamAlyzer, що володіє більш широкими можливостями .
Див. також
Література
- Robert D. Finn, Alex Bateman, Jody Clements, Penelope Coggill, Ruth Y. Eberhardt, Sean R. Eddy, Andreas Heger, Kirstie Hetherington, Liisa Holm, Jaina Mistry, Erik L. L. Sonnhammer, John Tate, Marco Punta. Pfam: the protein families database // Nucleic Acids Research. — Oxford Journals, 2014. — № 42(Database issue). — С. D222–D230.
- Erik L. L. Sonnhammer, Sean R. Eddy, Richard Durbin. Pfam: a comprehensive database of protein domain families based on seed alignments. // Proteins. — New York, NY : Wiley-Liss, 1997. — № 28(3). — С. 405-420.
- Marco Punta, Penny C. Coggill, Ruth Y. Eberhardt, Jaina Mistry, John Tate, Chris Boursnell, Ningze Pang, Kristoffer Forslund, Goran Ceric, Jody Clements,Andreas Heger, Liisa Holm, Erik L. L. Sonnhammer, Sean R. Eddy, Alex Bateman, Robert D. Finn. The Pfam protein families database // Nucleic Acids Research. — Oxford Journals, 2012. — № 40(Database issue). — С. D290–D301.
- Volker Hollich, Erik L. L. Sonnhammer. PfamAlyzer: domain-centric homology search // Bioinformatics. — Oxford Journals, 2007. — № 23(24). — С. 3382-3.
Примітки
- . Архів оригіналу за 16 січня 2019. Процитовано 15 січня 2019.
- Sonnhammer et al, 1997.
- . Архів оригіналу за 16 січня 2019. Процитовано 15 січня 2019.
- Punta et al, 2012.
- Finn et al, 2014.
- . Архів оригіналу за 16 січня 2019. Процитовано 15 січня 2019.
- . Архів оригіналу за 16 січня 2019. Процитовано 15 січня 2019.
- Sonnhammer et al та +1997.
- . Архів оригіналу за 16 січня 2019. Процитовано 15 січня 2019.
- releases Pfam31. 0.
- . Архів оригіналу за 17 січня 2019. Процитовано 15 січня 2019.
- . Архів оригіналу за 7 листопада 2018. Процитовано 15 січня 2019.
- Hollich & Sonnhammer, 2007.
Вікіпедія, Українська, Україна, книга, книги, бібліотека, стаття, читати, завантажити, безкоштовно, безкоштовно завантажити, mp3, відео, mp4, 3gp, jpg, jpeg, gif, png, малюнок, музика, пісня, фільм, книга, гра, ігри, мобільний, телефон, android, ios, apple, мобільний телефон, samsung, iphone, xiomi, xiaomi, redmi, honor, oppo, nokia, sonya, mi, ПК, web, Інтернет
Pfam baza danih simejstv bilkovih domeniv Kozhne simejstvo v nij predstavleno mnozhinnim virivnyuvannyam fragmentiv bilkovih poslidovnostej i prihovanoyi markovskoyi modellyu HMM Na berezen 2017 roku Pfam mistilosya 16 712 zapisiv simejstv ob yednanih v 604 klani IstoriyaBaza danih Pfam zasnovana v 1997 roci doslidnikami z i aktivno pidtrimuyetsya konsorciumom vchenih z riznih krayin Z 2011 roku dlya zapisiv z vidomoyi funkcionalnoyi anotaciyeyu isnuyut statti v anglomovnij Wikipedia Za danimi 2014 roku majzhe dlya 80 poslidovnostej bazi UniProt ye informaciya v Pfam U zhurnali Nucleic Acids Research periodichno vihodyat statti sho opisuyut rozvitok i stan Pfam Versiya Pfam 31 0 pobudovana po bazi danih Pfamseq zasnovanoyi na relizi UniProtKB 2016 10 Pfamseq mistit 26 7 mln poslidovnostej Struktura PfamU Pfam isnuye dvi kategoriyi simejstv Pfam A ta Pfam B Simejstva ne perekrivayut odne odnogo v bazi danih nemaye takih bilkiv v yakih hocha b odna aminokislota nalezhiala odnochasno do dvoh riznih domeniv Deyaki simejstva sho mayut zagalne evolyucijne pohodzhennya i zberegli shozhist na rivni poslidovnostej abo struktur ob yednani v klani Pfam A Pfam A mistit simejstva yaki kontrolyuyutsya vruchnu Dlya formuvannya kozhnogo simejstva Pfam A buduyetsya vihidne virivnyuvannya seed alignment z jogo najbilsh reprezentativnih predstavnikiv Na jogo osnovi stvoryuyetsya prihovana markovska model HMM takozh maye nazvu profil Vona skladayetsya z staniv zistavlennya vstavka i deleciya dlya kozhnoyi kolonki mnozhinnogo virivnyuvannya z prisvoyenimi emisijnimi jmovirnostyami dlya vsih aminokislot v pershomu z cih staniv Dani emisijni jmovirnosti predstavleni dlya kozhnogo simejstva na jogo storinci u viglyadi Pislya cogo zdijsnyuyetsya poshuk za dopomogoyu otrimanoyi HMM po bazi danih Pfamseq vidpovidnoyi ostannomu relizu UniProtKB Usi poslidovnosti dlya yakih rejting vidpovidnosti HMM perevishuye pevnij porig vstanovlyuvanij vruchnu dlya kozhnogo simejstva vklyuchayutsya v povne virivnyuvannya full alignment Yaksho viyavlyayetsya sho deyaki predstavniki simejstva ne znahodyatsya pri poshuku za dopomogoyu HMM vihidne mnozhinne virivnyuvannya redaguyetsya do dosyagnennya optimalnogo rezultatu Otrimani HMM zberigayutsya v bazi danih Pfam i mozhut buti vikoristani dlya poshuku domeniv v novih bilkovih poslidovnostyah cherez vebinterfejs 22 bereznya 2019 u Wayback Machine Opisi simejstv perevazhno mistyatsya v Wikipedia i vidkriti dlya publichnogo redaguvannya Odnak slid zaznachiti sho ponad chvert usih simejstv ne maye funkcionalnoyi anotaciyi taki domeni poznachayutsya yak DUF angl Domain of unknown function Takozh dlya kozhnogo simejstva mistitsya informaciya pro jogo predstavlenosti v riznih taksonah varianti domennoyi strukturi mayuchih jogo bilki i filogenetichne derevo vihidnogo virivnyuvannya U tih vipadkah koli ce mozhlivo prisutni dani pro bilok bilkovih vzayemodiyah otrimani za dopomogoyu iPfam i posilannya na trivimirni strukturi v bazi danih PDB Pfam B Na dodatok do simejstv sho kontrolyuyutsya vruchnu baza danih Pfam takozh mistit simejstva Pfam B yaki generuyutsya avtomatichno z vikoristannyam algoritmu klasterizaciyi domeniv Voni ne mayut funkcionalnoyi anotaciyi i yak pravilo mayut znachno girshu yakist v porivnyanni z rodinami Pfam A Deyaki z nih predstavlyayut soboyu regioni nizkoyi skladnosti i ne vidobrazhayut dijsnoyi sporidnenosti bilkovih poslidovnostej tomu rekomenduyetsya perevirka gomologiyi predstavnikiv simejstv Pfam B za dopomogoyu inshih metodiv napriklad Pochinayuchi z Pfam 24 0 dlya 20000 najbilshih simejstv Pfam B pobudovani HMM i po nim mozhlivo provoditi poshuk Pidtrimka Pfam B zakinchilasya pislya Pfam 27 0 Klani Klani ce ob yednannya rodin bilkovih domeniv sho mayut zagalne evolyucijne pohodzhennya Dlya formuvannya klaniv zolotim standartom sluzhit porivnyannya trivimirnih struktur domeniv pri yih vidsutnosti takozh mozhe vikoristovuvatisya pomitne perekrittya profiliv shozhist profiliv yake mozhe buti viznachene za dopomogoyu algoritmu HHsearch abo shozhist rezultativ poshuku po bazi danih z vikoristannyam riznih profiliv viznachayetsya za metodom SCOOP Dlya klaniv takozh yak i dlya rodin Pfam A nadayetsya zagalne virivnyuvannya vsih jogo predstavnikiv informaciya pro rozpodil po taksonam dani pro bilok bilkovih vzayemodiyah i posilannya na trivimirni strukturi Klasifikaciya zapisiv Zapis Pfam ce nabir shozhih dilyanok bilkovih poslidovnostej Vsi zapisi vidnosyat do odnogo z shesti tipiv Family Simejstvo bazovij tip nabir rodinnih gomologichnih dilyanok Domain Domen stijka strukturna odinicya abo funkcionalna dilyanka zustrichayetsya v riznomanitnih bilkovih arhitekturah Repeat Povtor korotka dilyanka yaka ye nestijkoyu u izolyaciyi ale utvoryuye stabilnu strukturu koli prisutni kilka jogo kopij Motif Motiv korotka konservativna dilyanka poza globulyarnih domeniv Coiled Coil superspiralnij blok oblasti sho formuyut superspirali tobto puchki z 2 7 skruchenih alfa spiralej Disordered nestrukturovanij blok konservativni dilyanki zi zmishenim aminokislotnim skladom sho ne formuyut stijkoyi globulyarnoyi strukturi Najchastishe termin family simejstvo vikoristovuyetsya v tomu chisli na sajti Pfam zamist termina entry zapis sho stvoryuye znachnu plutaninu MozhlivostiSajt Pfam nadaye interaktivnij dostup do danih a takozh mozhlivist pereglyadati dani v grafichnomu viglyadi Vikno Jump to prisutnye na bilshosti storinok Pfam dozvolyaye shvidko provesti poshuk rodin chi klaniv za identifikatorom ID abo kodu dostupu accession V verhnij chastini bud yakoyi storinki Pfam ye takozh vikno poshuku simejstv za klyuchovim slovom keyword search Shlyahom poshuku poslidovnosti bilka po biblioteci HMM v Pfam mozhna z yasuvati jogo domennu arhitekturu Dlya bagatoh vidomih bilkovih poslidovnostej vona vzhe obchislena shob pereglyanuti yiyi potribno vvesti identifikator abo kod dostupu poslidovnosti u vikni vkladki view a sequence na golovnij storinci sajta Yaksho zh poslidovnist ne rozpiznaye Pfam mozhna skoristatisya storinkoyu poshuku 22 bereznya 2019 u Wayback Machine de potribno vvesti aminokislotnu abo nukleotidnu poslidovnist Yaksho potribno provesti poshuk velikoyi kilkosti poslidovnostej na vkladci Batch search 22 bereznya 2019 u Wayback Machine storinki poshuku mozhna zavantazhiti fajl z poslidovnostyami v formati FASTA pri comu v kozhnomu fajli maye buti ne bilshe 5000 poslidovnostej U comu vipadku koristuvach otrimuye rezultati protyagom 48 godin na e mail adresu yaku potribno takozh vkazati na storinci poshuku Takozh ye mozhlivist provesti poshuk lokalno za dopomogoyu skriptu pfam scan pl Dlya cogo potribno programne zabezpechennya HMMER3 biblioteki HMM i deyaki inshi dodatkovi fajli yaki mozhna znajti na sajti Pfam U Pfam ye obchisleni domenni arhitekturi dlya proteomiv bazi Integr Dostup do cih danih vidkritij v grafi Proteomes na storinci Browse 16 sichnya 2019 u Wayback Machine Dlya predstavlenih tut organizmiv ye informaciya pro domennij sklad i domenni arhitekturi yih bilkiv Pfam takozh nadaye mozhlivist poshuku bilkiv po domennij arhitekturi Dlya cogo na vkladci Domain architecture 22 bereznya 2019 u Wayback Machine storinki poshuku v specialnomu vikni potribno vibrati domeni sho vhodyat abo ne vhodyat do cilovogo bilok a takozh mozhna vikoristovuvati Java aplet PfamAlyzer sho volodiye bilsh shirokimi mozhlivostyami Div takozhBilkovij domen Gomologiya biologiya LiteraturaRobert D Finn Alex Bateman Jody Clements Penelope Coggill Ruth Y Eberhardt Sean R Eddy Andreas Heger Kirstie Hetherington Liisa Holm Jaina Mistry Erik L L Sonnhammer John Tate Marco Punta Pfam the protein families database Nucleic Acids Research Oxford Journals 2014 42 Database issue S D222 D230 Erik L L Sonnhammer Sean R Eddy Richard Durbin Pfam a comprehensive database of protein domain families based on seed alignments Proteins New York NY Wiley Liss 1997 28 3 S 405 420 Marco Punta Penny C Coggill Ruth Y Eberhardt Jaina Mistry John Tate Chris Boursnell Ningze Pang Kristoffer Forslund Goran Ceric Jody Clements Andreas Heger Liisa Holm Erik L L Sonnhammer Sean R Eddy Alex Bateman Robert D Finn The Pfam protein families database Nucleic Acids Research Oxford Journals 2012 40 Database issue S D290 D301 Volker Hollich Erik L L Sonnhammer PfamAlyzer domain centric homology search Bioinformatics Oxford Journals 2007 23 24 S 3382 3 Primitki Arhiv originalu za 16 sichnya 2019 Procitovano 15 sichnya 2019 Sonnhammer et al 1997 Arhiv originalu za 16 sichnya 2019 Procitovano 15 sichnya 2019 Punta et al 2012 Finn et al 2014 Arhiv originalu za 16 sichnya 2019 Procitovano 15 sichnya 2019 Arhiv originalu za 16 sichnya 2019 Procitovano 15 sichnya 2019 Sonnhammer et al ta 1997 Arhiv originalu za 16 sichnya 2019 Procitovano 15 sichnya 2019 releases Pfam31 0 Arhiv originalu za 17 sichnya 2019 Procitovano 15 sichnya 2019 Arhiv originalu za 7 listopada 2018 Procitovano 15 sichnya 2019 Hollich amp Sonnhammer 2007