У біоінформатиці метод приєднання сусідів − кластерний метод для створення філогенетичних дерев, запропонований і в 1987 році. Алгоритм звичайно використовується для дерев, заснованих на ДНК або білкових послідовностях, і вимагає знання відстаней між кожною парою таксонів (напр., видів або послідовностей) для побудови дерева.
Алгоритм
Метод приєднання сусідів на вхід приймає , де задаються відстані між кожною парою таксонів. Алгоритм починає роботу з цілком невирішеного дерева с топологією , і виконує ітерації, що складаються з описаних далі кроків, до моменту, коли дерево цілком вирішене і довжини усі гілок відомі:
- По поточній матриці відстаней вираховується -матриця (визначена нижче)
- Відшукується пара різних таксонів і (тобто ), для яких значення − найменше. Ці таксони приєднуються до нового вузла, який, в свою чергу, з'єднується p центральним вузлом. На рисунку праворуч і приєднані до нового вузла
- Розраховується відстань від кожного з приєднаних таксонів до нового вузла
- Розраховується відстань від кожного з залишених таксонів до нового вузла
- Алгоритм запускається знову, замінюючи пару приєднаних сусідів на новий вузол і використовуючи відстані, обраховані на попередніх кроках.
Q-матриця
-матриця розраховується за матрицею відстаней між таксонами наступним чином:
де − відстань між таксонами і .
Відстань між парою приєднаних сусідів і новим вузлом
Для кожного з приєднаних таксонів використовується наступна формула для обчислення відстаней до нового вузла:
і:
Таксони і − пара приєднаних таксонів і − новий вузол. Гілки і і їх довжина і − тепер фіксована частина дерева; вони не зміняться і ні на що не вплинуть на наступних кроках алгоритму.
Відстань між залишеними таксонами і новим вузлом
Для кожного таксона, що не брав участі у попередньому кроці, розраховується відстань до нового вузла:
де − новий вузол, − вузол, до якого ми хочемо обрахувати відстань, і − таксони тільки-но приєднаної пари.
Складність
Метод приєднання сусідів для таксонів потребує ітерацій. На кожній ітерації потрібно обчислити -матрицю. На першому кроці розмір -матриці − , на наступному кроці − і т. д. Реалізація алгоритму без оптимізації має складність ; існують реалізації, що використовують евристичний підхід з меншим часом виконання в середньому.
Приклад
Припустимо, у нас є п'ять таксонів з такою матрицею відстаней:
a | b | c | d | e | |
---|---|---|---|---|---|
a | 0 | 5 | 9 | 9 | 8 |
b | 5 | 0 | 10 | 10 | 9 |
c | 9 | 10 | 0 | 8 | 7 |
d | 9 | 10 | 8 | 0 | 3 |
e | 8 | 9 | 7 | 3 | 0 |
Ми одержимо наступні значення -матриці (діагональні елементи матриці не використовуються і тут не наводяться):
a | b | c | d | e | |
---|---|---|---|---|---|
a | −50 | −38 | −34 | −34 | |
b | −50 | −38 | −34 | −34 | |
c | −38 | −38 | −40 | −40 | |
d | −34 | −34 | −40 | −48 | |
e | −34 | −34 | −40 | −48 |
У наведеному прикладі . Це найменше значення , тому ми об'єднуємо вузли і . Назовемо новий вузол ; гілки, що з'єднують i з новим вузлом , мають довжину і − по наведеній вище формулі.
Далі ми знов перераховуємо матрицю відстаней: ми обраховуєм відстань від до кожного з вузлів, що залишилися, крім та . Одержуєм , і . Перерахована матриця відстаней має такий вигляд:
u | c | d | e | |
---|---|---|---|---|
u | 0 | 7 | 7 | 6 |
c | 7 | 0 | 8 | 7 |
d | 7 | 8 | 0 | 3 |
e | 6 | 7 | 3 | 0 |
Відповідна до неї -матриця:
u | c | d | e | |
---|---|---|---|---|
u | −28 | −24 | −24 | |
c | −28 | −24 | −24 | |
d | −24 | −24 | −28 | |
e | −24 | −24 | −28 |
Тепер ми можем зробити вибір: з'єднувати і або з'єднувати і ; обидві пари мають найменше в -матриці значення , і будь-який вибір дасть однаковий результат. Для визначеності, оберемо і , приєднаємо їх до нового вузла ; одержані гілки мають довжину і , як показано на малюнку. Матриця відстаней для трьох вузлів, що залишилися , і наступна:
v | d | e | |
---|---|---|---|
v | 0 | 4 | 3 |
d | 4 | 0 | 3 |
e | 3 | 3 | 0 |
Дерево цілком вирішено на цьому кроці, тому можна не обчислювати матрицю і не виконувати подальші приєднання. Однак, ми використаємо ці відстані, щоб одержати довжину трьох гілок дерева, що залишилися — див. малюнок.
Наведений приклад є ідеальним випадком: зазначимо, що, якщо рухатися від одного таксона до іншого по гілках дерева і підсумовувати довжини пройдених гілок, результат буде дорівнювати відстані між таксонами у вихідній матриці відстаней. Напр., пройшовши від вузла до вузла , одержимо . Про матрицю, в якій відстані узгоджені таким чином з будь-яким деревом, кажуть, що вона адитивна − властивість, яка рідко зустрічається на практиці. Однак варто зауважити: якщо на вхід методу приєднання сусідів подати адитивну матрицю відстаней, гарантується, що в результаті роботи методу буде побудоване дерево, узгоджене з цією матрицею.
Метод приєднання сусідів як мінімальна еволюція
Метод приєднання сусідів можливо розглядати як для оптимізації дерева у відповідності з критерієм «збалансованої мінімальної еволюції» (БМЕ). Для кожної топології БМЕ визначає довжину дерева (суму довжин гілок) як зважену суму відстаней з матриці відстаней, з вагами, що залежать від топології дерева. Оптимальна топологія БМЕ — та, при якій довжина дерева мінімальна. Метод приєднання сусідів на кожній ітерації з'єднує пару таксонів, які дадуть найменший вклад у довжину побудованого дерева. Ця процедура не гарантує, що буде знайдено дерево з топологією, оптимальною за критерієм БМЕ, тим не менше, вона часто знаходить оптимальне або близьке до оптимального дерево.
Переваги і недоліки
Головна перевага методу в тому, що він швидкий — зокрема, через те, що алгоритм працює за поліноміальний час. Це робить його прийнятним для аналізу великих обсягів даних (сотні або й тисячі таксонів) і для [en], для яких використання інших методів аналізу (наприклад, [en], метод максимальної правдоподібності) може бути неможливим з точки зору кількості обчислень.
Метод приєднання сусідів має властивість видавати правильне дерево на виході, якщо на вхід подається правильна матриця відстаней. До того ж, правильну топологію дерева гарантовано, якщо матриця відстаней «приблизно адитивна», тобто, якщо кожне значення в матриці відстаней відрізняється від справжньої відстані менше, ніж на половину довжини найкоротшої гілки дерева. На практиці матриця відстаней рідко задовольняє цій умові, але метод приєднання сусідів часто видає дерево з правильною топологією у будь-якому випадку. Метод приєднання сусідів коректно працює з приблизно адитивною матрицею відстаней тому, що вона статистично спроможна для багатьох еволюційних моделей; маючи вхідні дані придатної довжини, метод з високою ймовірністю відновить справжнє дерево. У порівнянні з [en] метод приєднання сусідів має перевагу: він не передбачає, що всі покоління еволюціонують з однаковою швидкістю (гіпотеза молекулярного годинника).
А втім, замість методу приєднання сусідів часто застосовують інші філогенетичні методи, які не покладаються на матрицю відстаней і забезпечують більшу точність у більшості випадків. Метод приєднання сусідів має небажану рису — часто присвоює негативні значення деяким гілкам дерева.
Реалізації і варіанти
Існує багато програм, що реалізують метод приєднання сусідів. RapidNJ и — швидкі реалізації, час роботи яких звичайно приблизно пропорційний квадрату числа таксонів. BIONJ і — варіанти методу приєднання сусідів, що підвищують його точність шляхом використання факту, що менші відстані в матриці відстаней звичайно краще вивчені, ніж великі. FastME — реалізація близького методу збалансованої мінімальної еволюції.
Див. також
- [en]
- Пошук найближчого сусіда
- [en]
Посилання
- The Neighbor-Joining Method — a tutorial
Примітки
- . Архів оригіналу за вересень 6, 2013. Процитовано грудень 11, 2014.
- . Архів оригіналу за 25 грудня 2014. Процитовано 11 грудня 2014.
- Xavier Didelot (2010). Sequence-Based Analysis of Bacterial Population Structures. У D. Ashley Robinson, Daniel Falush, Edward J. Feil (ред.). . John Wiley and Sons. с. 46—47. ISBN . Архів оригіналу за 1 липня 2014. Процитовано 11 грудня 2014.
- Gascuel O, (2006). Neighbor-joining revealed. Mol Biol Evol. 23 (11): 1997—2000. doi:10.1093/molbev/msl072. PMID 16877499.
- Atteson K (1997). «The performance of neighbor-joining algorithms of phylogeny reconstruction», pp. 101–110. In Jiang, T., and Lee, D., eds., Lecture Notes in Computer Science, 1276, Springer-Verlag, Berlin. COCOON '97.
- Mihaescu R, Levy D, Pachter L (2009). Why neighbor-joining works. Algorithmica. 54 (1): 1—24. doi:10.1007/s00453-007-9116-4.
- Інші джерела
- Studier JA, Keppler KJ (1988). A note on the Neighbor-Joining algorithm of Saitou and Nei (PDF). Mol Biol Evol. 5 (6): 729—731. PMID 3221794.
- Martin Simonsen, Thomas Mailund, Christian N. S. Pedersen (2008). Rapid Neighbour Joining (PDF). Proceedings of WABI. 5251: 113—122. doi:10.1007/978-3-540-87361-7_10.[недоступне посилання з квітня 2019]
Вікіпедія, Українська, Україна, книга, книги, бібліотека, стаття, читати, завантажити, безкоштовно, безкоштовно завантажити, mp3, відео, mp4, 3gp, jpg, jpeg, gif, png, малюнок, музика, пісня, фільм, книга, гра, ігри, мобільний, телефон, android, ios, apple, мобільний телефон, samsung, iphone, xiomi, xiaomi, redmi, honor, oppo, nokia, sonya, mi, ПК, web, Інтернет
U bioinformatici metod priyednannya susidiv klasternij metod dlya stvorennya filogenetichnih derev zaproponovanij i v 1987 roci Algoritm zvichajno vikoristovuyetsya dlya derev zasnovanih na DNK abo bilkovih poslidovnostyah i vimagaye znannya vidstanej mizh kozhnoyu paroyu taksoniv napr vidiv abo poslidovnostej dlya pobudovi dereva Karta genetichnih vidstanej stvorena v 2002 roci ocinka 18 grup lyudej za dopomogoyu metodu priyednannya susidiv sho gruntuyetsya na 23 tipah genetichnoyi informaciyi Kartu bulo stvoreno Naruya Sajtou 斎藤成也 profesorom v Yaponskomu Nacionalnomu instituti genetiki AlgoritmMetod priyednannya susidiv na vhid prijmaye de zadayutsya vidstani mizh kozhnoyu paroyu taksoniv Algoritm pochinaye robotu z cilkom nevirishenogo dereva s topologiyeyu i vikonuye iteraciyi sho skladayutsya z opisanih dali krokiv do momentu koli derevo cilkom virishene i dovzhini usi gilok vidomi Po potochnij matrici vidstanej virahovuyetsya Q displaystyle Q matricya viznachena nizhche Vidshukuyetsya para riznih taksoniv i displaystyle i i j displaystyle j tobto i j displaystyle i neq j dlya yakih znachennya Q i j displaystyle Q i j najmenshe Ci taksoni priyednuyutsya do novogo vuzla yakij v svoyu chergu z yednuyetsya p centralnim vuzlom Na risunku pravoruch f displaystyle f i g displaystyle g priyednani do novogo vuzla u displaystyle u Rozrahovuyetsya vidstan vid kozhnogo z priyednanih taksoniv do novogo vuzla Rozrahovuyetsya vidstan vid kozhnogo z zalishenih taksoniv do novogo vuzla Algoritm zapuskayetsya znovu zaminyuyuchi paru priyednanih susidiv na novij vuzol i vikoristovuyuchi vidstani obrahovani na poperednih krokah Q matricya Q displaystyle Q matricya rozrahovuyetsya za matriceyu vidstanej mizh n displaystyle n taksonami nastupnim chinom Q i j n 2 d i j k 1 n d i k k 1 n d j k displaystyle Q i j n 2 d i j sum k 1 n d i k sum k 1 n d j k de d i j displaystyle d i j vidstan mizh taksonami i displaystyle i i j displaystyle j Vidstan mizh paroyu priyednanih susidiv i novim vuzlom Dlya kozhnogo z priyednanih taksoniv vikoristovuyetsya nastupna formula dlya obchislennya vidstanej do novogo vuzla d f u 1 2 d f g 1 2 n 2 k 1 n d f k k 1 n d g k displaystyle delta f u frac 1 2 d f g frac 1 2 n 2 left sum k 1 n d f k sum k 1 n d g k right quad i d g u d f g d f u displaystyle delta g u d f g delta f u quad Taksoni f displaystyle f i g displaystyle g para priyednanih taksoniv i u displaystyle u novij vuzol Gilki f u displaystyle f u i g u displaystyle g u i yih dovzhina d f u displaystyle delta f u i d g u displaystyle delta g u teper fiksovana chastina dereva voni ne zminyatsya i ni na sho ne vplinut na nastupnih krokah algoritmu Vidstan mizh zalishenimi taksonami i novim vuzlom Dlya kozhnogo taksona sho ne brav uchasti u poperednomu kroci rozrahovuyetsya vidstan do novogo vuzla d u k 1 2 d f k d g k d f g displaystyle d u k frac 1 2 d f k d g k d f g de u displaystyle u novij vuzol k displaystyle k vuzol do yakogo mi hochemo obrahuvati vidstan f displaystyle f i g displaystyle g taksoni tilki no priyednanoyi pari Skladnist Metod priyednannya susidiv dlya n displaystyle n taksoniv potrebuye n 3 displaystyle n 3 iteracij Na kozhnij iteraciyi potribno obchisliti Q displaystyle Q matricyu Na pershomu kroci rozmir Q displaystyle Q matrici n n displaystyle n times n na nastupnomu kroci n 1 n 1 displaystyle n 1 times n 1 i t d Realizaciya algoritmu bez optimizaciyi maye skladnist O n 3 displaystyle O n 3 isnuyut realizaciyi sho vikoristovuyut evristichnij pidhid z menshim chasom vikonannya v serednomu PrikladPripustimo u nas ye p yat taksoniv a b c d e displaystyle a b c d e z takoyu matriceyu vidstanej a b c d e a 0 5 9 9 8 b 5 0 10 10 9 c 9 10 0 8 7 d 9 10 8 0 3 e 8 9 7 3 0 Mi oderzhimo nastupni znachennya Q displaystyle Q matrici diagonalni elementi matrici ne vikoristovuyutsya i tut ne navodyatsya a b c d e a 50 38 34 34 b 50 38 34 34 c 38 38 40 40 d 34 34 40 48 e 34 34 40 48 U navedenomu prikladi Q a b 50 displaystyle Q a b 50 Ce najmenshe znachennya Q displaystyle Q tomu mi ob yednuyemo vuzli a displaystyle a i b displaystyle b Nazovemo novij vuzol u displaystyle u gilki sho z yednuyut a displaystyle a i b displaystyle b z novim vuzlom u displaystyle u mayut dovzhinu d a u 2 displaystyle delta a u 2 i d b u 3 displaystyle delta b u 3 po navedenij vishe formuli Dali mi znov pererahovuyemo matricyu vidstanej mi obrahovuyem vidstan vid u displaystyle u do kozhnogo z vuzliv sho zalishilisya krim a displaystyle a ta b displaystyle b Oderzhuyem d u c 7 displaystyle d u c 7 d u d 7 displaystyle d u d 7 i d u e 6 displaystyle d u e 6 Pererahovana matricya vidstanej maye takij viglyad u c d e u 0 7 7 6 c 7 0 8 7 d 7 8 0 3 e 6 7 3 0 Vidpovidna do neyi Q displaystyle Q matricya u c d e u 28 24 24 c 28 24 24 d 24 24 28 e 24 24 28 Teper mi mozhem zrobiti vibir z yednuvati u displaystyle u i c displaystyle c abo z yednuvati d displaystyle d i e displaystyle e obidvi pari mayut najmenshe v Q displaystyle Q matrici znachennya 28 displaystyle 28 i bud yakij vibir dast odnakovij rezultat Dlya viznachenosti oberemo u displaystyle u i c displaystyle c priyednayemo yih do novogo vuzla v displaystyle v oderzhani gilki mayut dovzhinu d u v 3 displaystyle delta u v 3 i d c v 4 displaystyle delta c v 4 yak pokazano na malyunku Matricya vidstanej dlya troh vuzliv sho zalishilisya v displaystyle v d displaystyle d i e displaystyle e nastupna v d e v 0 4 3 d 4 0 3 e 3 3 0 Derevo cilkom virisheno na comu kroci tomu mozhna ne obchislyuvati matricyu Q displaystyle Q i ne vikonuvati podalshi priyednannya Odnak mi vikoristayemo ci vidstani shob oderzhati dovzhinu troh gilok dereva sho zalishilisya div malyunok Navedenij priklad ye idealnim vipadkom zaznachimo sho yaksho ruhatisya vid odnogo taksona do inshogo po gilkah dereva i pidsumovuvati dovzhini projdenih gilok rezultat bude dorivnyuvati vidstani mizh taksonami u vihidnij matrici vidstanej Napr projshovshi vid vuzla d displaystyle d do vuzla b displaystyle b oderzhimo 2 2 3 3 10 displaystyle 2 2 3 3 10 Pro matricyu v yakij vidstani uzgodzheni takim chinom z bud yakim derevom kazhut sho vona aditivna vlastivist yaka ridko zustrichayetsya na praktici Odnak varto zauvazhiti yaksho na vhid metodu priyednannya susidiv podati aditivnu matricyu vidstanej garantuyetsya sho v rezultati roboti metodu bude pobudovane derevo uzgodzhene z ciyeyu matriceyu Metod priyednannya susidiv yak minimalna evolyuciyaMetod priyednannya susidiv mozhlivo rozglyadati yak dlya optimizaciyi dereva u vidpovidnosti z kriteriyem zbalansovanoyi minimalnoyi evolyuciyi BME Dlya kozhnoyi topologiyi BME viznachaye dovzhinu dereva sumu dovzhin gilok yak zvazhenu sumu vidstanej z matrici vidstanej z vagami sho zalezhat vid topologiyi dereva Optimalna topologiya BME ta pri yakij dovzhina dereva minimalna Metod priyednannya susidiv na kozhnij iteraciyi z yednuye paru taksoniv yaki dadut najmenshij vklad u dovzhinu pobudovanogo dereva Cya procedura ne garantuye sho bude znajdeno derevo z topologiyeyu optimalnoyu za kriteriyem BME tim ne menshe vona chasto znahodit optimalne abo blizke do optimalnogo derevo Perevagi i nedolikiGolovna perevaga metodu v tomu sho vin shvidkij zokrema cherez te sho algoritm pracyuye za polinomialnij chas Ce robit jogo prijnyatnim dlya analizu velikih obsyagiv danih sotni abo j tisyachi taksoniv i dlya en dlya yakih vikoristannya inshih metodiv analizu napriklad en metod maksimalnoyi pravdopodibnosti mozhe buti nemozhlivim z tochki zoru kilkosti obchislen Metod priyednannya susidiv maye vlastivist vidavati pravilne derevo na vihodi yaksho na vhid podayetsya pravilna matricya vidstanej Do togo zh pravilnu topologiyu dereva garantovano yaksho matricya vidstanej priblizno aditivna tobto yaksho kozhne znachennya v matrici vidstanej vidriznyayetsya vid spravzhnoyi vidstani menshe nizh na polovinu dovzhini najkorotshoyi gilki dereva Na praktici matricya vidstanej ridko zadovolnyaye cij umovi ale metod priyednannya susidiv chasto vidaye derevo z pravilnoyu topologiyeyu u bud yakomu vipadku Metod priyednannya susidiv korektno pracyuye z priblizno aditivnoyu matriceyu vidstanej tomu sho vona statistichno spromozhna dlya bagatoh evolyucijnih modelej mayuchi vhidni dani pridatnoyi dovzhini metod z visokoyu jmovirnistyu vidnovit spravzhnye derevo U porivnyanni z en metod priyednannya susidiv maye perevagu vin ne peredbachaye sho vsi pokolinnya evolyucionuyut z odnakovoyu shvidkistyu gipoteza molekulyarnogo godinnika A vtim zamist metodu priyednannya susidiv chasto zastosovuyut inshi filogenetichni metodi yaki ne pokladayutsya na matricyu vidstanej i zabezpechuyut bilshu tochnist u bilshosti vipadkiv Metod priyednannya susidiv maye nebazhanu risu chasto prisvoyuye negativni znachennya deyakim gilkam dereva Realizaciyi i variantiIsnuye bagato program sho realizuyut metod priyednannya susidiv RapidNJ i shvidki realizaciyi chas roboti yakih zvichajno priblizno proporcijnij kvadratu chisla taksoniv BIONJ i varianti metodu priyednannya susidiv sho pidvishuyut jogo tochnist shlyahom vikoristannya faktu sho menshi vidstani v matrici vidstanej zvichajno krashe vivcheni nizh veliki FastME realizaciya blizkogo metodu zbalansovanoyi minimalnoyi evolyuciyi Div takozh en Poshuk najblizhchogo susida en PosilannyaThe Neighbor Joining Method a tutorialPrimitki Arhiv originalu za veresen 6 2013 Procitovano gruden 11 2014 Arhiv originalu za 25 grudnya 2014 Procitovano 11 grudnya 2014 Xavier Didelot 2010 Sequence Based Analysis of Bacterial Population Structures U D Ashley Robinson Daniel Falush Edward J Feil red John Wiley and Sons s 46 47 ISBN 978 0 470 42474 2 Arhiv originalu za 1 lipnya 2014 Procitovano 11 grudnya 2014 Gascuel O 2006 Neighbor joining revealed Mol Biol Evol 23 11 1997 2000 doi 10 1093 molbev msl072 PMID 16877499 Atteson K 1997 The performance of neighbor joining algorithms of phylogeny reconstruction pp 101 110 In Jiang T and Lee D eds Lecture Notes in Computer Science 1276 Springer Verlag Berlin COCOON 97 Mihaescu R Levy D Pachter L 2009 Why neighbor joining works Algorithmica 54 1 1 24 doi 10 1007 s00453 007 9116 4 Inshi dzherela Studier JA Keppler KJ 1988 A note on the Neighbor Joining algorithm of Saitou and Nei PDF Mol Biol Evol 5 6 729 731 PMID 3221794 Martin Simonsen Thomas Mailund Christian N S Pedersen 2008 Rapid Neighbour Joining PDF Proceedings of WABI 5251 113 122 doi 10 1007 978 3 540 87361 7 10 nedostupne posilannya z kvitnya 2019