Складання геному — процес об'єднання великої кількості коротких фрагментів ДНК (рідів) у одну або кілька довгих послідовностей (контигів і скаффолдів) з метою відновлення послідовностей ДНК хромосом, з яких виникли ці фрагменти в процесі секвенування.
Складання геному є дуже складною обчислювальною задачею, зокрема, ускладненої тим, що геноми часто містять багато однакових повторюваних послідовностей (так звані геномні повтори). Ці повтори можуть мати довжину кілька тисяч нуклеотидів, а також зустрічатися у геномі в тисячі різних місць. Особливо багаті повторами великі геноми рослин і тварин, зокрема й геном людини.
Алгоритмічні підходи
Існує два підходи для складання геномів — заснований на перекритті overlap-layout-consensus (застосовується для довгих фрагментів), а також заснований на графах де Брейна (застосовується для коротких фрагментів).
Overlap-Layout-Consensus
При секвенуванні всі ДНК організму спочатку розрізають на мільйони маленьких фрагментів довжиною до 1000 нуклеотидів. Потім алгоритми складання геному розглядають отримані фрагменти одночасно, знаходячи їх перекриття (overlap), об'єднуючи їх за перекриттями (layout) і виправляючи помилки в об'єднаному рядку (consensus). Ці кроки в процесі складання можуть повторюватися кілька разів.
Цей підхід до складання геномів був найпоширенішим до появи методів секвенування наступного покоління.
Графи де Брейна
З розвитком технологій секвенування наступного покоління отримання фрагментів стало на порядок дешевшим, але розмір фрагментів став меншим (до 150 нуклеотидів), а кількість помилок при читанні фрагментів зросла (до 3 %). При складанні таких даних набули поширення методи, засновані на графах де Брейна.
Доступні складальники
Список популярних геномових складальників:
Назва | Підтримувані технології | Автори | Представлений | Оновлений | Ліцензія* | Домашня сторінка |
---|---|---|---|---|---|---|
ABySS | Solexa, SOLiD | Simpson, J. та інші | 2008 | 2011 | NC-A | |
ALLPATHS-LG | Solexa, SOLiD | Gnerre, S. et та інші | 2011 | 2011 | OS | посилання |
CLC Genomics Workbench | Sanger, 454, Solexa, SOLiD | CLC bio | 2008 | 2010 | C | посилання |
Euler | Sanger, 454 (, Solexa ?) | Pevzner, P. та інші | 2001 | 2006 | (C/NC-A?) | |
Euler-sr | 454, Solexa | Chaisson, MJ. та інші | 2008 | 2008 | NC-A | |
IDBA | Sanger, 454, Solexa | Yu Peng, Henry CM Leung, Siu-Ming Yiu, Francis YL Chin | 2010 | 2010 | (C/NC-A?) | посилання |
MIRA | Sanger, 454, Solexa | Chevreux, B. | 1998 | 2011 | OS | |
Newbler | 454, Sanger | 454 / Roche | 2009 | 2009 | C | |
SOPRA | Illumina, SOLiD, Sanger, 454 | Dayarian, A. та інші | 2010 | 2011 | OS | посилання |
SOAPdenovo | Solexa | Li, R. та інші | 2009 | 2009 | OS | |
SPAdes | Illumina, Solexa | Bankevich, A та інші | 2012 | 2012 | OS | посилання |
Velvet | Sanger, 454, Solexa, SOLiD | Zerbino, D. та інші | 2007 | 2009 | OS | посилання |
Canu | PacBio, Oxford Nanopore | Koren, S. та інші | 2017 | 2020 | OS | посилання |
* Ліцензії: OS = Open Source; C = комерційна; C/NC-A = комерційна, але безплатна для використання в некомерційних і наукових цілях; в дужках = невідомо, але найпевніше C/NC-A |
Примітки
- Zhenyu Li et al. Comparison of the two major classes of assembly algorithms: overlap–layout–consensus and de-bruijn-graph // Briefings in Functional Genomics : journal. — 2012. — Vol. 11, no. 1 (3 July). — P. 25—37. — DOI: .
- Miller J. R., Koren S., Sutton G. Assembly algorithms for next-generation sequencing data // : journal. — , 2010. — Vol. 95, no. 6 (3 July). — P. 315—327.
- Pavel A. Pevzner, Haixu Tang, Michael S. Waterman. An Eulerian path approach to DNA fragment assembly // Proceedings of the National Academy of Sciences of the United States of America : journal. — 2001. — Vol. 98, no. 17 (3 July). — P. 9748—9753. — DOI: .
Вікіпедія, Українська, Україна, книга, книги, бібліотека, стаття, читати, завантажити, безкоштовно, безкоштовно завантажити, mp3, відео, mp4, 3gp, jpg, jpeg, gif, png, малюнок, музика, пісня, фільм, книга, гра, ігри, мобільний, телефон, android, ios, apple, мобільний телефон, samsung, iphone, xiomi, xiaomi, redmi, honor, oppo, nokia, sonya, mi, ПК, web, Інтернет
Skladannya genomu proces ob yednannya velikoyi kilkosti korotkih fragmentiv DNK ridiv u odnu abo kilka dovgih poslidovnostej kontigiv i skaffoldiv z metoyu vidnovlennya poslidovnostej DNK hromosom z yakih vinikli ci fragmenti v procesi sekvenuvannya Fragmenti sho perekrivayutsya utvoryuyut kontigi kontigi z promizhkami vidomoyi dovzhini utvoryuyut skaffoldi Skladannya genomu ye duzhe skladnoyu obchislyuvalnoyu zadacheyu zokrema uskladnenoyi tim sho genomi chasto mistyat bagato odnakovih povtoryuvanih poslidovnostej tak zvani genomni povtori Ci povtori mozhut mati dovzhinu kilka tisyach nukleotidiv a takozh zustrichatisya u genomi v tisyachi riznih misc Osoblivo bagati povtorami veliki genomi roslin i tvarin zokrema j genom lyudini Algoritmichni pidhodiIsnuye dva pidhodi dlya skladannya genomiv zasnovanij na perekritti overlap layout consensus zastosovuyetsya dlya dovgih fragmentiv a takozh zasnovanij na grafah de Brejna zastosovuyetsya dlya korotkih fragmentiv Overlap Layout Consensus Pri sekvenuvanni vsi DNK organizmu spochatku rozrizayut na miljoni malenkih fragmentiv dovzhinoyu do 1000 nukleotidiv Potim algoritmi skladannya genomu rozglyadayut otrimani fragmenti odnochasno znahodyachi yih perekrittya overlap ob yednuyuchi yih za perekrittyami layout i vipravlyayuchi pomilki v ob yednanomu ryadku consensus Ci kroki v procesi skladannya mozhut povtoryuvatisya kilka raziv Cej pidhid do skladannya genomiv buv najposhirenishim do poyavi metodiv sekvenuvannya nastupnogo pokolinnya Grafi de Brejna Div takozh Poslidovnist de Brejna Z rozvitkom tehnologij sekvenuvannya nastupnogo pokolinnya otrimannya fragmentiv stalo na poryadok deshevshim ale rozmir fragmentiv stav menshim do 150 nukleotidiv a kilkist pomilok pri chitanni fragmentiv zrosla do 3 Pri skladanni takih danih nabuli poshirennya metodi zasnovani na grafah de Brejna Dostupni skladalnikiSpisok populyarnih genomovih skladalnikiv Nazva Pidtrimuvani tehnologiyi Avtori Predstavlenij Onovlenij Licenziya Domashnya storinka ABySS Solexa SOLiD Simpson J ta inshi 2008 2011 NC A ALLPATHS LG Solexa SOLiD Gnerre S et ta inshi 2011 2011 OS posilannya CLC Genomics Workbench Sanger 454 Solexa SOLiD CLC bio 2008 2010 C posilannya Euler Sanger 454 Solexa Pevzner P ta inshi 2001 2006 C NC A Euler sr 454 Solexa Chaisson MJ ta inshi 2008 2008 NC A IDBA Sanger 454 Solexa Yu Peng Henry CM Leung Siu Ming Yiu Francis YL Chin 2010 2010 C NC A posilannya MIRA Sanger 454 Solexa Chevreux B 1998 2011 OS Newbler 454 Sanger 454 Roche 2009 2009 C SOPRA Illumina SOLiD Sanger 454 Dayarian A ta inshi 2010 2011 OS posilannya SOAPdenovo Solexa Li R ta inshi 2009 2009 OS SPAdes Illumina Solexa Bankevich A ta inshi 2012 2012 OS posilannya Velvet Sanger 454 Solexa SOLiD Zerbino D ta inshi 2007 2009 OS posilannya Canu PacBio Oxford Nanopore Koren S ta inshi 2017 2020 OS posilannya Licenziyi OS Open Source C komercijna C NC A komercijna ale bezplatna dlya vikoristannya v nekomercijnih i naukovih cilyah v duzhkah nevidomo ale najpevnishe C NC APrimitkiZhenyu Li et al Comparison of the two major classes of assembly algorithms overlap layout consensus and de bruijn graph Briefings in Functional Genomics journal 2012 Vol 11 no 1 3 July P 25 37 DOI 10 1093 bfgp elr035 Miller J R Koren S Sutton G Assembly algorithms for next generation sequencing data journal 2010 Vol 95 no 6 3 July P 315 327 Pavel A Pevzner Haixu Tang Michael S Waterman An Eulerian path approach to DNA fragment assembly Proceedings of the National Academy of Sciences of the United States of America journal 2001 Vol 98 no 17 3 July P 9748 9753 DOI 10 1073 pnas 171285098