У біології модель заміщення нуклеотидів, яку також називають модель еволюції послідовності ДНК, — модель Маркова, яка описує зміни протягом еволюційного часу. Ці моделі описують еволюційні зміни в макромолекулах (наприклад, послідовності ДНК), представлених у вигляді послідовності символів (A, C, G і T у випадку ДНК). Моделі заміщення використовуються для обчислення ймовірності отримання філогенетичних дерев з використанням даних вирівнювання кількох послідовностей. Таким чином, калькуляція моделі заміщення є важливим етапом для оцінки максимальної правдоподібності філогенезу, а також баєсового висновування. Оцінки еволюційних відстаней (кількість замін, які відбулися після того, як пара послідовностей розійшлися від спільного предка) зазвичай розраховуються з використанням моделей заміщення або ж підстановки (еволюційні відстані використовуються як вхідні дані для таких як приєднання сусідів). Моделі підстановки також є центральними для , оскільки їх можна використовувати для прогнозування частоти частот шаблону сайту з урахуванням топології дерева. Моделі заміни необхідні для моделювання даних послідовності для групи організмів, пов'язаних філогенетичними зв'язками.
Топології філогенетичного дерева та інші параметри
Топології філогенетичного дерева власне параметром, що цікавить дослідника. Виходячи з цього, довжина гілок та будь-які інші параметри, що описують процес заміни, часто ігноруються. Однак ці параметри також важливі, наприклад, при аналізі інформації викопних реток організмів з літопису скам'янілостей і використанням моделі для оцінки часових рамок еволюції. Інші параметри моделі були використані, щоб отримати уявлення про різні аспекти процесу еволюції. Відношення K <sub id="mwKg">a</sub> /K <sub id="mwKw">s</sub> (також зване ω в моделях заміщення кодонів) є параметром, який цікавить багатьох дослідників. Відношення K a /K s можна використовувати для дослідження дії природного добору на ділянки, що кодують білок; він надає інформацію про відносні швидкості нуклеотидних замін, які змінюють амінокислоти (несинонімічні заміни) на ті, які не змінюють кодовану амінокислоту (синонімічні заміни).
Застосування до даних послідовності
Більша частина роботи над моделями заміни зосереджена на еволюції між різними послідовності ДНК/ РНК та білка. Моделі еволюції послідовності ДНК, де алфавіт відповідає чотирьом нуклеотидам (A, C, G і T), є, мабуть, найпростішими моделями для розуміння. Моделі, розроблені для анілузу ДНК також можна використовувати для дослідження еволюції РНК-вірусу тому, що РНК також має чотиринуклеотидний алфавіт (A, C, G і U). Проте моделі підстановки можна використовувати для алфавітів будь-якого розміру; як алфавіт можєна розглядати алфавіт — це 20 протеїногенних амінокислот для білків і смислові кодони (тобто 61 кодон, який кодує амінокислоти в стандартному генетичному коді) для вирівняних послідовностей генів, що кодують білок. Фактично, моделі заміщення можуть бути розроблені для будь-яких біологічних ознак, які можуть бути закодовані за допомогою певного алфавіту (наприклад, амінокислотні послідовності в поєднанні з інформацією про конформацію цих амінокислот у тривимірних білкових структурах).
Більшість моделей заміщення, що використовуються для еволюційного дослідження, припускають незалежність між сайтами (тобто ймовірність спостереження будь-якого конкретного шаблону сайту ідентична незалежно від того, де знаходиться шаблон сайту у вирівнюванні послідовності). Це спрощує обчислення ймовірності, оскільки необхідно лише обчислити ймовірність усіх шаблонів сайту, які з'являються у вирівнюванні, а потім використати ці значення для обчислення загальної ймовірності вирівнювання (наприклад, ймовірність трьох шаблонів сайту «GGGG» за певною моделлю еволюції послідовності ДНК — це ймовірність одного сайту «GGGG», піднята до третього ступеня). Це означає, що моделі підстановки можна розглядати як такі, що підтримують специфічний мультиноміальний розподіл для частот шаблонів сайту. Якщо ми розглянемо множинне вирівнювання послідовностей чотирьох послідовностей ДНК, то існує 256 можливих шаблонів сайтів, тож існує 255 ступенів свободи для частот шаблону сайту. Однак можна вказати очікувані частоти шаблону сайту, використовуючи п'ять ступенів свободи, якщо використовувати модель еволюції ДНК Джукса-Кантора, яка є простою моделлю заміни, яка дозволяє обчислювати очікувані частоти шаблону сайту для топології дерева та довжину гілок (враховуючи чотири таксони, неукорінене роздвоєне дерево має п'ять довжин гілок).
Моделі заміщення нуклеотидів також дозволяють моделювати дані послідовності за допомогою методів Монте-Карло. Змодельовані множинні вирівнювання послідовностей можна використовувати для оцінки ефективності філогенетичних методів та створення нульового розподілу для певних статистичних тестів у галузях молекулярної еволюції та молекулярної філогенетики. Приклади цих тестів включають тести відповідності моделі та «тест SOWH», який можна використовувати для дослідження топологій дерева.
Застосування до морфологічних даних
Той факт, що моделі заміщення можуть бути використані для аналізу будь-якого біологічного алфавіту, дає можливість розробити моделі еволюції для фенотипових наборів даних (наприклад, морфологічних і поведінкових ознак). Як правило, «0». використовується для вказівки на відсутність ознаки, а «1» використовується для вказівки на її наявність, хоча також можна оцінювати символи за допомогою кількох станів для континуальних або варіабельних ознак. Використовуючи цю структуру, ми можемо закодувати набір фенотипів як двійкові рядки (це можна узагальнити до рядків k -state для символів з більш ніж двома станами) перед аналізом за допомогою відповідного режиму. Це можна проілюструвати на прикладі простої моделі: ми можемо використовувати двійковий алфавіт, щоб побудувати просту філогенію багатоклітинних тварин за фенотиповими ознаками «має пір'я», «кладе яйця», «має хутро», «є теплокровним» і «здатний політ». У цьому прикладі іграшки колібрі матиме послідовність 11011 (більшість інших птахів матиме таку саму нитку), страуси — 11010, велика рогата худоба (та більшість інших наземних ссавців) — 00110, а кажани — 00111. Імовірність філогенетичного дерева потім може бути розрахована за допомогою цих бінарних послідовностей і відповідної моделі заміни. Існування цих морфологічних моделей дає змогу аналізувати матриці даних з викопними таксонами, використовуючи лише морфологічні дані або комбінацію морфологічних і молекулярних даних (при цьому останні були оцінені як відсутні дані для викопних таксонів). .
Існує очевидна схожість між використанням молекулярних або фенотипічних даних у сфері кладистики та аналізом морфологічних ознак за допомогою моделі заміщення. Однак у суспільстві систематичних систем точилися гучні дебати [ 5 листопада 2021 у Wayback Machine.] щодо питання про те, чи слід розглядати кладистичний аналіз як «безмодельний». Сфера кладистики (визначена в найсуворішому сенсі) сприяє використанню критерію максимальної парсимонії для філогенетичного висновку. Багато кладистів відкидають позицію про те, що максимальна парсимонія заснована на моделі заміни, і (у багатьох випадках) вони виправдовують використання економії, використовуючи філософію Карла Поппера . Однак існування моделей «еквівалентної парсимонії» (тобто моделей підстановки, які дають максимальне дерево парсимонії при використанні для аналізу) дає змогу розглядати парсимонію як модель підстановки.
Молекулярний годинник і одиниці часу
Як правило, довжина гілки філогенетичного дерева трактується як очікувана кількість замін на сайт; якщо еволюційна модель вказує, що кожен сайт у родовій послідовності зазвичай зазнає x замін до того часу, коли він еволюціонує до послідовності конкретного нащадка, то предок і нащадок вважаються розділеними довжиною гілки x.
Іноді довжину гілки вимірюють у геологічних роках. Наприклад, дані скам'янілостей можуть дати можливість визначити кількість років між видом предків і видами-нащадками. Оскільки деякі види еволюціонують швидше, ніж інші, показники довжини гілок не завжди знаходяться в прямій пропорції. Очікувана кількість замін на сайт на рік часто позначається грецькою літерою mu (μ).
Вважається, що модель має суворий молекулярний годинник, якщо очікувана кількість замін на рік μ є постійною незалежно від того, еволюція якого виду досліджується. Важливим наслідком суворого молекулярного годинника є те, що кількість очікуваних замін між видом-предком і будь-яким із його сучасних нащадків має бути незалежною від того, який вид нащадків досліджується.
Варто зазначити, що припущення про суворий молекулярний годинник часто нереалістичне, особливо протягом тривалих періодів еволюції. Наприклад, незважаючи на те, що гризуни генетично дуже схожі на приматів, вони зазнали набагато більшої кількості замін за оцінений час після розбіжності в деяких областях геному. Це може бути пов'язано з меншим часом генерації, більш високою швидкістю метаболізму, збільшеною структурою популяції, збільшенням швидкості видоутворення або меншим розміром тіла . При вивченні давніх подій, таких як кембрійський вибух, за припущенням молекулярного годинника, часто спостерігається низький збіг між кладистичними та філогенетичними даними. Існує кілька досліджень щодо варіабельності швидкість еволюції.
Моделі, які можуть враховувати мінливість швидкості молекулярного годинника між різними еволюційними лініями у філогенезі, називаються «розслабленими» на противагу «суворим». У таких моделях враховується, чи швидкість еволюції корелює між предками та нащадками, а варіація швидкості у генеології може бути отримана з багатьох розподілів, але зазвичай застосовуються експоненційні та логнормальні розподіли. Існує окремий випадок, який називається «локальним молекулярним годинником», коли філогенез поділено щонайменше на два розділи (набори еволюційних ліній) і в кожному використовується строгий молекулярний годинник, але з різними темпами.
Реверсивні відносно часу та стаціонарні моделі
Багато корисних моделей заміни є оборотними в часі; з точки зору математики, для моделі не має значення, яка послідовність є предком, а яка нащадком, доки всі інші параметри (наприклад, кількість замін на сайт, яка очікується між двома послідовностями) залишаються незмінними.
При аналізі реальних біологічних даних, як правило, немає доступу до послідовностей предків, а лише до сучасних видів. Однак, коли модель є оборотною в часі, який вид був родоначальни, не має значення. Натомість філогенетичне дерево можна вкорінити за допомогою будь-якого з видів, пізніше вкорінити на основі нових знань або залишити без вкорінення. Це тому, що не існує «особливих» видів, усі види в кінцевому підсумку походять один від одного з однаковою ймовірністю.
Модель є оборотною в часі тоді і тільки тоді, коли вона задовольняє розраховану математично властивість (позначення пояснюється нижче)
або, еквівалентно, властивість детального балансу ,
для кожного i, j і t .
Зворотність у часі не слід плутати зі стаціонарністю. Модель є стаціонарною, якщо Q не змінюється з часом. Аналіз нижче передбачає стаціонарну модель.
Математика моделей заміщення нуклеотидів
Стаціонарні, нейтральні, незалежні моделі для ділянок вирівнювання (за умови постійної швидкості еволюції) мають два параметри, π, рівноважний вектор базових (або характерних) частот і матрицю швидкостей Q, яка описує швидкість, з якою основи одного типу можуть перейти на основи іншого типу; елемент для я ≠ j — швидкість, з якою основа i переходить до основи j . Діагоналі Q -матриці вибираються так, щоб сума рядків дорівнювала нулю:
Функція матриці переходів — це функція залежності довжин гілок (в деяких одиницях часу, можливо, у підстановках) до матриці умовних ймовірностей. Це позначається як . Запис в i -му стовпці та j -му рядку, , — ймовірність того, що після часу t є основа j у даній позиції, за умови, що в цій позиції в момент 0 є основа i . Коли модель є оборотною в часі, це можна вирахувати між будь-якими двома послідовностями, навіть якщо одна не є предком для іншої, якщо відома загальна довжина гілок між ними.
Асимптотичні властивості P ij (t) такі, що P ij (0) = δ ij, де δ ij — дельта-функція Кронекера . Тобто не існує розбіжностей у секвенованих основах між самою послідовністю та її секвенованим варінтом. В іншому відношенні, або, іншими словами, коли час йде до нескінченності, ймовірність знайти основу j у положенні, якщо в цьому положенні була основа i, спочатку переходить до рівноважної ймовірності того, що в цьому положенні є основа j, незалежно від початкової основи. Крім того, з цього випливає для всіх t .
Матрицю переходів можна обрахувати з матриці швидкостей за допомогою підведення до степеня матриці :
де Q n — матриця Q, помножена сама на себе в достатню кількість разів, щоб отримати її n-ступінь.
Якщо Q можна діагоналізувати, матричну експоненцію можна обчислити безпосередньо з припущення: нехай Q = U −1 Λ U — діагоналізація Q, з
де Λ — діагональна матриця і де є власне значеннями Q, кожне повторюється відповідно до його множинності. Тоді
де діагональна матриця e Λt задається як
Узагальнена оборотна в часі модель
Узагальнена оборотна в часі (GTR) є найбільш загальною нейтральною, незалежною моделлю зі скінченними вузлами. Вперше її описав у загальній формі Саймон Таваре у 1986 році . Модель GTR в публікаціях часто називають загальною оборотною моделлю за часом; її також називають моделлю REV.
Параметри GTR для нуклеотидів складаються з рівноважного вектора основної частоти, , вказуючи частоту, з якою кожна нуклеотидна основа трапляється на кожному сайті, і матрицю швидкості
Оскільки модель має бути оборотною в часі і повинна наближатися до рівноважних нуклеотидних частот за довгі часи, кожна швидкість нижче діагоналі дорівнює зворотній швидкості вище діагоналі, помноженій на рівноважне співвідношення двох основ. Таким чином, нуклеотидна модель GTR вимагає 6 параметрів швидкості заміщення і 4 рівноважних параметрів частоти трапляння нуклеотидів. Оскільки 4 параметри частоти повинні сууватися до 1, є лише 3 вільних частотних параметра. Загальна кількість 9 вільних параметрів часто додатково зменшується до 8 параметрів . При вимірюванні часу в замінах ( =1) залишилося лише 8 вільних параметрів.
Загалом, щоб обчислити кількість параметрів, необхідно вирахувати кількість записів над діагоналлю в матриці, тобто для n значень ознак на сайт , а потім додати n-1 для рівноважних частот і відняти 1, оскільки є сталою величиною. З цього отримуємо:
Наприклад, для амінокислотної послідовності (є 20 «стандартних» амінокислот, які складають білки), може бути обраховано 208 параметрів. Однак при вивченні кодуючих ділянок геному частіше працюють з моделлю заміщення кодона (кодон — це три основи, що кодують одну амінокислоту в білку). Існує кодони, в результаті чого кількість вільних параметрів дорвінює 2078. Однак швидкість переходів між кодонами, які відрізняються більш ніж на одну основу, часто вважаються рівною нулю, зменшуючи кількість вільних параметрів до лише параметрів. Іншою поширеною практикою є зменшення кількості кодонів, забороняючи стоп-кодони (або безглузді). Це біологічно обґрунтоване припущення, оскільки включення стоп-кодонів означало б, що обчислюється ймовірність знайти смисловий кодон через час враховуючи, що родоначальний кодон включатиме можливість проходження через стан з передчасним стоп-кодоном.
Альтернативний та широко вживанийспосіб запису миттєвої матриці швидкості ( матриця) для нуклеотидної моделі GTR:
Цей запис легше зрозуміти, ніж запис, який спочатку використовував Таваре, оскільки всі параметри моделі відповідають параметрам «обмінюваності» ( через , який також можна записати за допомогою позначення ) або до рівноважних нуклеотидних частот . Зверніть увагу, що нуклеотиди в матриці записані в алфавітному порядку. Іншими словами, матриця ймовірності переходу для -матриці вище буде:
Деякі публікації пишуть нуклеотиди в іншому порядку (наприклад, деякі автори обирають згрупувати два пурини разом і два піримідини разом; див. також моделі еволюції ДНК). Ця різниця в записах має бути зрозумілою під час написання матриці.
Значення цього запису в тому, що миттєву швидкість зміни від нуклеотиду до нуклеотиду завжди можна записати як , де є обмінюваність нуклеотидів і і — рівноважна частота нуклеотидів. У наведеній вище матриці використовуються літери через для параметрів обмінюваності в інтересах читабельності, але ці параметри також можуть бути записані систематично за допомогою позначення (наприклад, , , і так далі).
Зауважте, що впорядкування нуклеотидних індексів для параметрів обмінюваності не має значення (наприклад, ), але значення матриці ймовірності переходу має значенн, (тобто це ймовірність спостереження A в послідовності 1 і C в послідовності 2, коли еволюційна відстань між цими послідовностями дорівнює , тоді як — ймовірність спостереження C в послідовності 1 і A в послідовності 2 на однаковій еволюційній відстані).
Довільно обрані параметри обмінюваності (наприклад, ) зазвичай встановлюється на значення 1, щоб збільшити читабельність оцінок параметрів обмінюваності (оскільки він дозволяє користувачам висловлювати ці значення відносно вибраного параметра обмінюваності). Практика вираження параметрів обмінюваності у відносних показниках не є проблемою, оскільки матриця нормалізована. Нормалізація дозволяє виражати (час) у підведенні до степеня матриці в одиницях очікуваних замін на сайт (стандартна практика молекулярної філогенетики). Це еквівалентно твердженням, що встановлюється швидкість мутації до 1) і зменшення кількості вільних параметрів до восьми. Зокрема, існує п'ять вільних параметрів обміну ( через , які виражаються відносно фіксованого у цьому прикладі) і три рівноважних параметри базової частоти (як описано вище, лише три значення потрібно вказати, оскільки сума повинна складати 1).
Альтернативне позначення також полегшує розуміння підмоделей моделі GTR, які просто відповідають випадкам, коли параметри обмінної та/або рівноважної частоти нуклеотидних основ обмежено приймають однакові значення. Було названо ряд конкретних підмоделей, в основному на основі їх оригінальних публікацій:
Модель | Обчислювальні параметри | Параметри базової частоти | Посилання |
---|---|---|---|
JC69 (or JC) | Jukes and Cantor (1969) | ||
F81 | all values free | Felsenstein (1981) | |
K2P (or K80) | (трансверсії), (транзитні мутації) | Kimura (1980) | |
HKY85 | (трансверсіїтрансверсії), (транзитні мутації) | all values free | Hasegawa et al. (1985) |
K3ST (or K81) | ( трансверсіїтрансверсії), ( трансверсіїтрансверсії), (транзитні мутації) | Kimura (1981) | |
TN93 | (трансверсіїтрансверсіїтрансверсії), ( транзитні мутації), ( транзитні мутації) | all values free | Tamura and Nei (1993) |
SYM | вільно задіяні всі параметри звміни | Zharkikh (1994) | |
GTR (or REV) | вільно задіяні всі параметри звміни | all values free | Tavaré (1986) |
Існує 203 можливі способи обмеження параметрів обмінюваності для формування підмоделей GTR, починаючи від моделей JC69 і F81 (де всі параметри обмінюваності рівноцінні) до SYM модель і повна модель GTR (або REV) (де всі параметри обміну вільні). Рівноважні базові частоти зазвичай розглядаються двома різними способами: 1) всіма значення обмежені рівними (тобто, ); або 2) всі значення розглядаються як вільні параметри. Хоча рівноважні частоти нуклеотидів можуть бути обмежені іншими способами, більшість обмежень нереальні з біологічної точки зору. Можливим винятком є забезпечення симетрії ланцюга (тобто обмеження і але дозволяє ).
Альтернативне позначення також дозволяє легко побачити, як модель GTR можна застосувати до біологічних алфавітів з більшим простором станів (наприклад, амінокислоти або кодони). Набір частот станів рівноваги можна записати як , , … і набір параметрів обмінюваності () для будь-якого алфавіту стану характеристик. Ці значення можна використовувати для заповнення матриці шляхом встановлення недіагональних елементів, як показано вище (загальне позначення буде таким ), встановлення діагональних елементів до від'ємної суми недіагональних елементів у тому ж рядку і нормування. Очевидно, для амінокислот і для кодонів (за умови стандартного генетичного коду). Однак загальність цього позначення є вигідною, оскільки для амінокислот можна використовувати скорочені алфавіти. Наприклад, можна використовувати і кодувати амінокислоти шляхом перекодування амінокислот за допомогою шести категорій, запропонованих Маргарет Дейхофф . Зменшені алфавіти амінокислот розглядаються як спосіб зменшити варіацію укладання нуклеотидів та насиченості.
Механістичні та емпіричні моделі
Основна відмінність еволюційних моделей полягає в тому, скільки параметрів щоразу оцінюється для набору даних, що розглядається, і скільки з них оцінюється один раз на великому наборі даних. Механістичні моделі описують усі заміни як функцію ряду параметрів, які оцінюються для кожного аналізованого набору даних, переважно з використанням максимальної ймовірності. Це має перевагу в тому, що модель можна пристосувати до особливостей конкретного набору даних (наприклад, різні відхилення складу ДНК). Проблеми можуть виникнути, коли використовується занадто багато параметрів, особливо якщо вони можуть компенсувати один одного (це може призвести до дезідентифікації). Тоді часто буває, що набір даних занадто малий, щоб бути достатьо репрезентативним для точної оцінки всіх параметрів.
Емпіричні моделі створюються шляхом оцінки багатьох параметрів (як правило, всіх записів матриці швидкостей еволюції, а також частоти символів нуклеотидів, див. модель GTR вище) з великого набору даних. Ці параметри потім фіксуються і будуть повторно використовуватися для кожного набору даних. Це має перевагу в тому, що ці параметри можна оцінити більш точно. Зазвичай неможливо оцінити всі записи матриці підстановки лише з поточного набору даних. З іншого боку, параметри, оцінені на основі навчальних даних, можуть бути занадто загальними і, отже, погано підходять для будь-якого конкретного набору даних. Потенційним рішенням цієї проблеми є оцінка деяких параметрів на основі даних за допомогою максимальної правдоподібності (або іншого методу). У дослідженнях еволюції білків рівноважні частоти амінокислот (з використанням однолітерних кодів IUPAC для амінокислот для вказівки їх рівноважних частот) часто оцінюються за даними, зберігаючи фіксовану матрицю заміни нуклеотидів. Крім загальноприйнятої практики оцінки частоти амінокислот на основі даних, методи оцінки параметрів обмінюваності або коригування було запропоновано матрицю для еволюції білка іншими способами.
Оскільки широкомасштабне секвенування геному все ще продукує дуже велику кількість послідовностей ДНК і білків, доступних даних достатньо для створення емпіричних моделей з будь-якою кількістю параметрів, включаючи емпіричні моделі кодонів. Через проблеми, згадані вище, два підходи часто поєднуються, оцінюючи більшість параметрів одноразово на великомасштабних даних, тоді як кілька параметрів, що залишилися, потім коригуються до набору даних, що розглядається. У наступних розділах наведено огляд різних підходів, використаних для моделей на основі ДНК, білків або кодонів.
Моделі заміщення ДНК
Перші моделі еволюції ДНК були запропоновані Джуксом і Кантором в 1969 році. Модель Джукса-Кантора (JC або JC69) передбачає рівноважні швидкості переходів, а також рівноважні частоти для всіх основ, і це найпростіша підмодель моделі GTR. У 1980 році Motoo Kimura представив модель з двома параметрами (K2P або K80): один для переходу і один для швидкості . Через рік Кімура представив другу модель (K3ST, K3P або K81) з трьома типами заміни: один для швидкості переходу, інший для швидкості трансверсій, які зберігають сильні/слабкі властивості нуклеотидів ( і , призначений Кімура), і один для швидкості трансверсій, які зберігають аміно/кето властивості нуклеотидів ( і , призначений Кімура). У 1981 році запропонував чотирипараметричну модель (F81), в якій швидкість заміщення відповідає рівноважній частоті цільового нуклеотиду. Хасегава, Кішіно та Яно об'єднали дві останні моделі в п'ятипараметральну модель (HKY). Після цих піонерських зусиль багато додаткових підмоделей моделі GTR були введені в літературу (і загальновживані) у 1990-х роках. Інші моделі, які виходять за рамки моделі GTR особливим чином, також були розроблені та вдосконалені кількома дослідниками.
Майже всі моделі заміщення нуклеотидів є механістичними моделями (як описано вище). Невелика кількість параметрів, які необхідно оцінити для цих моделей, робить можливим оцінити ці розрахунки на основі даних. Це також необхідно, оскільки моделі еволюції послідовності ДНК часто відрізняються між організмами та між генами всередині організмів. Останній може відображати оптимізацію шляхом дії відбору для конкретних цілей (наприклад, швидка експресія або стабільність інформаційної РНК) або може відображати нейтральні варіації моделей заміщення. Таким чином, залежно від організму та типу гена, ймовірно, необхідно адаптувати модель до цих обставин.
Моделі заміщення двох станів
Альтернативним способом аналізу даних послідовності ДНК є перекодування нуклеотидів у пурини (R) і піримідини (Y); цю практику часто називають RY-кодуванням. Вставки та делеції в множинних вирівнюваннях послідовностей також можуть бути закодовані як двійкові дані та проаналізовані за допомогою моделі з двома можливими станами.
Найпростіша модель еволюції послідовності з двома станами називається моделлю Кавендера-Фарріса або моделлю Кавендера-Фарріса- Неймана (CFN); назва цієї моделі відображає той факт, що вона була окремо описана в кількох різних публікаціях. Модель CFN ідентична моделі Jukes-Cantor, адаптована до двох станів характаристики, і навіть була реалізована як модель «JC2» в популярному програмному забезпеченні IQ-TREE (використання цієї моделі в IQ-TREE вимагає кодування даних як 0 і 1, а не R і Y; популярний програмне забезпечення PAUP* може інтерпретувати матрицю даних, що містить тільки R і Y, як дані для аналізу за допомогою моделі CFN). Також легко аналізувати двійкові дані за допомогою філогенетичного перетворення Адамара . Альтернативна модель двох станів дозволяє рівноважним параметрам частоти R і Y (або 0 і 1) приймати значення, відмінні від 0,5, шляхом додавання одного вільного параметра; ця модель по-різному називається CFu або GTR2 (в IQ-TREE).
Моделі амінокислотного заміщення
Для багатьох аналізів, особливо для більших еволюційних відстаней, еволюція моделюється на рівні амінокислот. Враховуючи те, що не всі заміни ДНК також змінюють кодовану амінокислоту, інформація втрачається, якщо дивитися на амінокислоти замість нуклеотидних основ. Однак кілька переваг вказує на потребу використання інформації про амінокислоти: ДНК набагато більше схильна виявляти збій у складі, ніж амінокислоти, не всі позиції в ДНК розвиваються з однаковою швидкістю (несинонімічні мутації менш імовірно фіксуються в населення, ніж синонімічні), але, мабуть, найважливіше, через ці позиції, що швидко розвиваються, та обмежений розмір алфавіту (всього чотири можливі стани), ДНК страждає від більшої кількості зворотних замін, що ускладнює точну оцінку еволюційних більших відстаней.
На відміну від моделей ДНК, моделі амінокислот традиційно є емпіричними моделями. Вони були започатковані в 1960-х і 1970-х роках Дейхоффом і його співробітниками, оцінюючи коефіцієнти заміни у амінокислотних вирівнюваннях з принаймні 85 % ідентичності (спочатку з дуже обмеженими даними і в кінцевому підсумку досягли своєї кульмінації в моделі Дайхофа PAM 1978 року). Це зводило до мінімуму шанси спостерігати численні заміни на сайті. З матриці оцінки швидкості було отримано серію матриць ймовірності заміни, відомих під такими назвами, як PAM 250. Матриці логарифмічних шансів, засновані на моделі Дайхофа PAM, зазвичай використовувалися для оцінки значущості результатів пошуку гомології, хоча матриці BLOSUM замінили матриці логарифмічних шансів PAM в цьому контексті, оскільки матриці BLOSUM виявляються більш чутливими для різноманітні еволюційні відстані, на відміну від матриць логарифмічних шансів PAM .
Матриця Дайхофа PAM була джерелом параметрів обмінюваності, використаних в одному з перших аналізів філогенезу з максимальною імовірністю, який використовував дані про білок, а модель PAM (або покращена версія моделі PAM під назвою DCMut) й надалі використовується у філогенетиці. Однак обмежена кількість вирівнювань, використовуваних для створення моделі PAM (відображаючи обмежену кількість даних про послідовність, доступних у 1970-х роках), майже напевно збільшувала дисперсію деяких параметрів матриці швидкості (як альтернатива, білки, використані для створення моделі PAM, могли бути теж нерепрезентативним набором. Незважаючи на це, зрозуміло, що модель PAM рідко так добре підходить до більшості наборів даних, як більш сучасні емпіричні моделі (Keane et al. 2006 перевірили тисячі білків хребетних, протеобактеріальних і архейних і виявили, що Дайфова PAM модель найкраще підходила до щонайбільше <4 % білків).
Починаючи з 1990-х років, швидкий розвиток баз даних послідовностей завдяки вдосконаленим технологіям секвенування призвів до вираховування багатьох нових емпіричних матриць (повний список див. у). Перші спроби використовували методи, подібні до тих, які використовував Дейхоф, використовуючи широкомасштабне зіставлення бази даних білків для створення нової матриці логарифмічних шансів та моделі JTT (Джонс-Тейлор-Торнтон). Швидке зростання обчислювальної потужності протягом цього часу (що відбиває такі фактори, як закон Мура) зробило можливим оцінити параметри для емпіричних моделей з використанням максимальної ймовірності (наприклад, моделі WAG і LG) та інших методів (наприклад, моделі VT і PMB).
Модель без загального механізму (NCM)
У 1997 році Таффлі і Стіл описали модель, яку вони назвали моделлю без узагальнюючого механізму. Топологія дерева максимальної правдоподібності для конкретного набору даних з урахуванням моделі NCM ідентична топології оптимального дерева для тих самих даних з урахуванням критерію парсимонії. Модель NCM передбачає, що всі дані (наприклад, гомологічні нуклеотиди, амінокислоти або морфологічні ознаки) пов'язані загальним філогенетичним деревом. Тоді для кожного гомологічного символу вводяться параметри, де — кількість послідовностей. Це можна розглядати як оцінку окремого параметра швидкості для кожної пари символ × гілки в наборі даних (варто звернути увагу, що кількість гілок у повністю розв'язаному філогенетичному дереві дорівнює ). Таким чином, кількість вільних параметрів у моделі NCM завжди перевищує кількість гомологічних символів у матриці даних, і модель NCM піддається критиці як постійно «надмірно параметризована».
Посилання
Посилання
- Емпіричні моделі заміни амінокислот [ 9 жовтня 2020 у Wayback Machine.]
Примітки
- The link describes the #ParsimonyGate controversy, which provides a concrete example of the debate regarding the philosophical nature of the maximum parsimony criterion. #ParsimonyGate was the reaction on Twitter to an editorial in the journal Cladistics, published by the Willi Hennig Society. The editorial states that the "...epistemological paradigm of this journal is parsimony" and stating that there are philosophical reasons to prefer parsimony to other methods of phylogenetic inference. Since other methods (i.e., maximum likelihood, Bayesian inference, phylogenetic invariants, and most distance methods) of phylogenetic inference are model-based this statement implicitly rejects the notion that parsimony is a model.
- Steel M, Penny D (June 2000). Parsimony, likelihood, and the role of models in molecular phylogenetics. Molecular Biology and Evolution. 17 (6): 839—50. doi:10.1093/oxfordjournals.molbev.a026364. PMID 10833190.
- Bromham L (May 2019). Six Impossible Things before Breakfast: Assumptions, Models, and Belief in Molecular Dating. Trends in Ecology & Evolution. 34 (5): 474—486. doi:10.1016/j.tree.2019.01.017. PMID 30904189.
- Yang Z, Bielawski JP (December 2000). Statistical methods for detecting molecular adaptation. Trends in Ecology & Evolution. 15 (12): 496—503. doi:10.1016/s0169-5347(00)01994-7. PMC 7134603. PMID 11114436.
- Perron U, Kozlov AM, Stamatakis A, Goldman N, Moal IH (September 2019). Modeling Structural Constraints on Protein Evolution via Side-Chain Conformational States. Molecular Biology and Evolution. 36 (9): 2086—2103. doi:10.1093/molbev/msz122. PMC 6736381. PMID 31114882.
- Evolution of Protein Molecules. Mammalian Protein Metabolism. Т. 3. Elsevier. 1969. с. 21—132. doi:10.1016/b978-1-4832-3211-9.50009-7. ISBN .
- Huelsenbeck JP, Hillis DM (1 вересня 1993). . Systematic Biology (англ.). 42 (3): 247—264. doi:10.1093/sysbio/42.3.247. ISSN 1063-5157. Архів оригіналу за 11 березня 2022. Процитовано 12 квітня 2022.
- Goldman N (February 1993). Statistical tests of models of DNA substitution. Journal of Molecular Evolution. 36 (2): 182—98. Bibcode:1993JMolE..36..182G. doi:10.1007/BF00166252. PMID 7679448.
- Swofford D.L. Olsen G.J. Waddell P.J. Hillis D.M. 1996. «Phylogenetic inference.» in Molecular systematics (ed. Hillis D.M. Moritz C. Mable B.K.) 2nd ed. Sunderland, MA: Sinauer. p. 407—514.
- Church SH, Ryan JF, Dunn CW (November 2015). Automation and Evaluation of the SOWH Test with SOWHAT. Systematic Biology. 64 (6): 1048—58. doi:10.1093/sysbio/syv055. PMC 4604836. PMID 26231182.
- Lewis PO (1 листопада 2001). A likelihood approach to estimating phylogeny from discrete morphological character data. Systematic Biology. 50 (6): 913—25. doi:10.1080/106351501753462876. PMID 12116640.
- Lee MS, Cau A, Naish D, Dyke GJ (May 2014). Morphological clocks in paleontology, and a mid-Cretaceous origin of crown Aves. Systematic Biology. 63 (3): 442—9. doi:10.1093/sysbio/syt110. PMID 24449041.
- Ronquist F, Klopfstein S, Vilhelmsen L, Schulmeister S, Murray DL, Rasnitsyn AP (December 2012). A total-evidence approach to dating with fossils, applied to the early radiation of the hymenoptera. Systematic Biology. 61 (6): 973—99. doi:10.1093/sysbio/sys058. PMC 3478566. PMID 22723471.
- Brower, A. V .Z. (2016). «Are we all cladists?» in Williams, D., Schmitt, M., & Wheeler, Q. (Eds.). The future of phylogenetic systematics: The legacy of Willi Hennig (Systematics Association Special Volume Series Book 86). Cambridge University Press. pp. 88-114
- Farris JS, Kluge AG, Carpenter JM (1 травня 2001). Olmstead, R. (ред.). Popper and Likelihood Versus "Popper*". Systematic Biology (англ.). 50 (3): 438—444. doi:10.1080/10635150119150. ISSN 1076-836X. PMID 12116585.
- Goldman, Nick (December 1990). . Systematic Zoology. 39 (4): 345—361. doi:10.2307/2992355. JSTOR 2992355. Архів оригіналу за 21 січня 2022. Процитовано 12 квітня 2022.
- Gu X, Li WH (September 1992). Higher rates of amino acid substitution in rodents than in humans. Molecular Phylogenetics and Evolution. 1 (3): 211—4. doi:10.1016/1055-7903(92)90017-B. PMID 1342937.
- Li WH, Ellsworth DL, Krushkal J, Chang BH, Hewett-Emmett D (February 1996). Rates of nucleotide substitution in primates and rodents and the generation-time effect hypothesis. Molecular Phylogenetics and Evolution. 5 (1): 182—7. doi:10.1006/mpev.1996.0012. PMID 8673286.
- Martin AP, Palumbi SR (May 1993). Body size, metabolic rate, generation time, and the molecular clock. Proceedings of the National Academy of Sciences of the United States of America. 90 (9): 4087—91. Bibcode:1993PNAS...90.4087M. doi:10.1073/pnas.90.9.4087. PMC 46451. PMID 8483925.
- Yang Z, Nielsen R (April 1998). Synonymous and nonsynonymous rate variation in nuclear genes of mammals. Journal of Molecular Evolution. 46 (4): 409—18. Bibcode:1998JMolE..46..409Y. CiteSeerX 10.1.1.19.7744. doi:10.1007/PL00006320. PMID 9541535.
- Kishino H, Thorne JL, Bruno WJ (March 2001). Performance of a divergence time estimation method under a probabilistic model of rate evolution. Molecular Biology and Evolution. 18 (3): 352—61. doi:10.1093/oxfordjournals.molbev.a003811. PMID 11230536.
- Thorne JL, Kishino H, Painter IS (December 1998). Estimating the rate of evolution of the rate of molecular evolution. Molecular Biology and Evolution. 15 (12): 1647—57. doi:10.1093/oxfordjournals.molbev.a025892. PMID 9866200.
- Tavaré S. (PDF). Lectures on Mathematics in the Life Sciences. 17: 57—86. Архів оригіналу (PDF) за 25 лютого 2009. Процитовано 12 квітня 2022.
- Yang, Ziheng (2006). Computational molecular evolution. Oxford: Oxford University Press. ISBN . OCLC 99664975.
- Yang Z (July 1994). Estimating the pattern of nucleotide substitution. Journal of Molecular Evolution. 39 (1): 105—11. Bibcode:1994JMolE..39..105Y. doi:10.1007/BF00178256. PMID 8064867.
- Swofford, D.L., Olsen, G.J., Waddell, P.J. and Hillis, D.M. (1996) Phylogenetic Inference. In: Hillis, D.M., Moritz, C. and Mable, B.K., Eds., Molecular Systematics, 2nd Edition, Sinauer Associates, Sunderland (MA), 407—514.
- Felsenstein, Joseph (2004). Inferring phylogenies. Sunderland, Mass.: Sinauer Associates. ISBN . OCLC 52127769.
- . 1997. Архів оригіналу за 31 грудня 2019. Процитовано 31 грудня 2019.
- Felsenstein J (November 1981). Evolutionary trees from DNA sequences: a maximum likelihood approach. Journal of Molecular Evolution. 17 (6): 368—76. Bibcode:1981JMolE..17..368F. doi:10.1007/BF01734359. PMID 7288891.
- Kimura M (December 1980). A simple method for estimating evolutionary rates of base substitutions through comparative studies of nucleotide sequences. Journal of Molecular Evolution. 16 (2): 111—20. Bibcode:1980JMolE..16..111K. doi:10.1007/BF01731581. PMID 7463489.
- Hasegawa M, Kishino H, Yano T (October 1985). Dating of the human-ape splitting by a molecular clock of mitochondrial DNA. Journal of Molecular Evolution. 22 (2): 160—74. Bibcode:1985JMolE..22..160H. doi:10.1007/BF02101694. PMID 3934395.
- Kimura M (January 1981). Estimation of evolutionary distances between homologous nucleotide sequences. Proceedings of the National Academy of Sciences of the United States of America. 78 (1): 454—8. Bibcode:1981PNAS...78..454K. doi:10.1073/pnas.78.1.454. PMC 319072. PMID 6165991.
- Tamura K, Nei M (May 1993). Estimation of the number of nucleotide substitutions in the control region of mitochondrial DNA in humans and chimpanzees. Molecular Biology and Evolution. 10 (3): 512—26. doi:10.1093/oxfordjournals.molbev.a040023. PMID 8336541.
- Zharkikh A (September 1994). Estimation of evolutionary distances between nucleotide sequences. Journal of Molecular Evolution. 39 (3): 315—29. Bibcode:1994JMolE..39..315Z. doi:10.1007/BF00160155. PMID 7932793.
- Huelsenbeck JP, Larget B, Alfaro ME (June 2004). Bayesian phylogenetic model selection using reversible jump Markov chain Monte Carlo. Molecular Biology and Evolution. 21 (6): 1123—33. doi:10.1093/molbev/msh123. PMID 15034130.
- Yap VB, Pachter L (April 2004). Identification of evolutionary hotspots in the rodent genomes. Genome Research. 14 (4): 574—9. doi:10.1101/gr.1967904. PMC 383301. PMID 15059998.
- Susko E, Roger AJ (September 2007). On reduced amino acid alphabets for phylogenetic inference. Molecular Biology and Evolution. 24 (9): 2139—50. doi:10.1093/molbev/msm144. PMID 17652333.
- Ponciano JM, Burleigh JG, Braun EL, Taper ML (December 2012). Assessing parameter identifiability in phylogenetic models using data cloning. Systematic Biology. 61 (6): 955—72. doi:10.1093/sysbio/sys055. PMC 3478565. PMID 22649181.
- Whelan S, Goldman N (May 2001). A general empirical model of protein evolution derived from multiple protein families using a maximum-likelihood approach. Molecular Biology and Evolution. 18 (5): 691—9. doi:10.1093/oxfordjournals.molbev.a003851. PMID 11319253.
- Braun EL (July 2018). An evolutionary model motivated by physicochemical properties of amino acids reveals variation among proteins. Bioinformatics. 34 (13): i350—i356. doi:10.1093/bioinformatics/bty261. PMC 6022633. PMID 29950007.
- Goldman N, Whelan S (November 2002). A novel use of equilibrium frequencies in models of sequence evolution. Molecular Biology and Evolution. 19 (11): 1821—31. doi:10.1093/oxfordjournals.molbev.a004007. PMID 12411592.
- Kosiol C, Holmes I, Goldman N (July 2007). An empirical codon model for protein sequence evolution. Molecular Biology and Evolution. 24 (7): 1464—79. doi:10.1093/molbev/msm064. PMID 17400572.
- Tamura K (July 1992). Estimation of the number of nucleotide substitutions when there are strong transition-transversion and G+C-content biases. Molecular Biology and Evolution. 9 (4): 678—87. doi:10.1093/oxfordjournals.molbev.a040752. PMID 1630306.
- Halpern AL, Bruno WJ (July 1998). Evolutionary distances for protein-coding sequences: modeling site-specific residue frequencies. Molecular Biology and Evolution. 15 (7): 910—7. doi:10.1093/oxfordjournals.molbev.a025995. PMID 9656490.
- Braun EL, Kimball RT (August 2002). Examining Basal avian divergences with mitochondrial sequences: model complexity, taxon sampling, and sequence length. Systematic Biology. 51 (4): 614—25. doi:10.1080/10635150290102294. PMID 12228003.
- Phillips MJ, Delsuc F, Penny D (July 2004). Genome-scale phylogeny and the detection of systematic biases. Molecular Biology and Evolution. 21 (7): 1455—8. doi:10.1093/molbev/msh137. PMID 15084674.
- Ishikawa SA, Inagaki Y, Hashimoto T (January 2012). RY-Coding and Non-Homogeneous Models Can Ameliorate the Maximum-Likelihood Inferences From Nucleotide Sequence Data with Parallel Compositional Heterogeneity. Evolutionary Bioinformatics Online. 8: 357—71. doi:10.4137/EBO.S9017. PMC 3394461. PMID 22798721.
- Simmons MP, Ochoterena H (June 2000). Gaps as characters in sequence-based phylogenetic analyses. Systematic Biology. 49 (2): 369—81. doi:10.1093/sysbio/49.2.369. PMID 12118412.
- Yuri T, Kimball RT, Harshman J, Bowie RC, Braun MJ, Chojnowski JL та ін. (March 2013). Parsimony and model-based analyses of indels in avian nuclear genes reveal congruent and incongruent phylogenetic signals. Biology. 2 (1): 419—44. doi:10.3390/biology2010419. PMC 4009869. PMID 24832669.
- Houde P, Braun EL, Narula N, Minjares U, Mirarab S (6 липня 2019). Phylogenetic Signal of Indels and the Neoavian Radiation. Diversity. 11 (7): 108. doi:10.3390/d11070108.
- Cavender JA (August 1978). Taxonomy with confidence. Mathematical Biosciences (англ.). 40 (3–4): 271—280. doi:10.1016/0025-5564(78)90089-5.
- Farris JS (1 вересня 1973). . Systematic Biology (англ.). 22 (3): 250—256. doi:10.1093/sysbio/22.3.250. ISSN 1063-5157. Архів оригіналу за 20 січня 2022. Процитовано 12 квітня 2022.
- Neyman, J. Molecular studies of evolution: A source of novel statistical problems. In Molecular Studies of Evolution: A Source of Novel Statistical Problems; Gupta, S.S., Yackel, J., Eds.; New York Academic Press: New York, NY, USA, 1971; pp. 1–27.
- Waddell PJ, Penny D, Moore T (August 1997). Hadamard conjugations and modeling sequence evolution with unequal rates across sites. Molecular Phylogenetics and Evolution. 8 (1): 33—50. doi:10.1006/mpev.1997.0405. PMID 9242594.
- A model of evolutionary change in proteins. Atlas of Protein Sequence and Structure. Т. 4. 1969. с. 75—84.
- A model of evolutionary change in proteins. Atlas of Protein Sequence and Structure. Т. 5. 1978. с. 345—352.
- Henikoff S, Henikoff JG (November 1992). Amino acid substitution matrices from protein blocks. Proceedings of the National Academy of Sciences of the United States of America. 89 (22): 10915—9. Bibcode:1992PNAS...8910915H. doi:10.1073/pnas.89.22.10915. PMC 50453. PMID 1438297.
- Altschul SF (March 1993). A protein alignment scoring system sensitive at all evolutionary distances. Journal of Molecular Evolution. 36 (3): 290—300. Bibcode:1993JMolE..36..290A. doi:10.1007/BF00160485. PMID 8483166.
- Kishino, Hirohisa; Miyata, Takashi; Hasegawa, Masami (August 1990). Maximum likelihood inference of protein phylogeny and the origin of chloroplasts. Journal of Molecular Evolution. 31 (2): 151—160. Bibcode:1990JMolE..31..151K. doi:10.1007/BF02109483.
- Kosiol C, Goldman N (February 2005). Different versions of the Dayhoff rate matrix. Molecular Biology and Evolution. 22 (2): 193—9. doi:10.1093/molbev/msi005. PMID 15483331.
- Keane TM, Creevey CJ, Pentony MM, Naughton TJ, Mclnerney JO (March 2006). Assessment of methods for amino acid matrix selection and their use on empirical data shows that ad hoc assumptions for choice of matrix are not justified. BMC Evolutionary Biology. 6 (1): 29. doi:10.1186/1471-2148-6-29. PMC 1435933. PMID 16563161.
{{}}
: Обслуговування CS1: Сторінки із непозначеним DOI з безкоштовним доступом () - Bigot T, Guglielmini J, Criscuolo A (July 2019). Simulation data for the estimation of numerical constants for approximating pairwise evolutionary distances between amino acid sequences. Data in Brief. 25: 104212. doi:10.1016/j.dib.2019.104212. PMC 6699465. PMID 31440543.
- Gonnet GH, Cohen MA, Benner SA (June 1992). Exhaustive matching of the entire protein sequence database. Science. 256 (5062): 1443—5. Bibcode:1992Sci...256.1443G. doi:10.1126/science.1604319. PMID 1604319.
- Jones DT, Taylor WR, Thornton JM (June 1992). The rapid generation of mutation data matrices from protein sequences. Computer Applications in the Biosciences. 8 (3): 275—82. doi:10.1093/bioinformatics/8.3.275. PMID 1633570.
- Le SQ, Gascuel O (July 2008). An improved general amino acid replacement matrix. Molecular Biology and Evolution. 25 (7): 1307—20. doi:10.1093/molbev/msn067. PMID 18367465.
- Müller T, Vingron M (December 2000). Modeling amino acid replacement. Journal of Computational Biology. 7 (6): 761—76. doi:10.1089/10665270050514918. PMID 11382360.
- Veerassamy S, Smith A, Tillier ER (December 2003). A transition probability model for amino acid substitutions from blocks. Journal of Computational Biology. 10 (6): 997—1010. doi:10.1089/106652703322756195. PMID 14980022.
- Tuffley C, Steel M (May 1997). Links between maximum likelihood and maximum parsimony under a simple model of site substitution. Bulletin of Mathematical Biology. 59 (3): 581—607. doi:10.1007/bf02459467. PMID 9172826.
- Holder MT, Lewis PO, Swofford DL (July 2010). The akaike information criterion will not choose the no common mechanism model. Systematic Biology. 59 (4): 477—85. doi:10.1093/sysbio/syq028. PMID 20547783.
A good model for phylogenetic inference must be rich enough to deal with sources of noise in the data, but ML estimation conducted using models that are clearly overparameterized can lead to drastically wrong conclusions. The NCM model certainly falls in the realm of being too parameter rich to serve as a justification of the use of parsimony based on it being an ML estimator under a general model.
Вікіпедія, Українська, Україна, книга, книги, бібліотека, стаття, читати, завантажити, безкоштовно, безкоштовно завантажити, mp3, відео, mp4, 3gp, jpg, jpeg, gif, png, малюнок, музика, пісня, фільм, книга, гра, ігри, мобільний, телефон, android, ios, apple, мобільний телефон, samsung, iphone, xiomi, xiaomi, redmi, honor, oppo, nokia, sonya, mi, ПК, web, Інтернет
U biologiyi model zamishennya nukleotidiv yaku takozh nazivayut model evolyuciyi poslidovnosti DNK model Markova yaka opisuye zmini protyagom evolyucijnogo chasu Ci modeli opisuyut evolyucijni zmini v makromolekulah napriklad poslidovnosti DNK predstavlenih u viglyadi poslidovnosti simvoliv A C G i T u vipadku DNK Modeli zamishennya vikoristovuyutsya dlya obchislennya jmovirnosti otrimannya filogenetichnih derev z vikoristannyam danih virivnyuvannya kilkoh poslidovnostej Takim chinom kalkulyaciya modeli zamishennya ye vazhlivim etapom dlya ocinki maksimalnoyi pravdopodibnosti filogenezu a takozh bayesovogo visnovuvannya Ocinki evolyucijnih vidstanej kilkist zamin yaki vidbulisya pislya togo yak para poslidovnostej rozijshlisya vid spilnogo predka zazvichaj rozrahovuyutsya z vikoristannyam modelej zamishennya abo zh pidstanovki evolyucijni vidstani vikoristovuyutsya yak vhidni dani dlya takih yak priyednannya susidiv Modeli pidstanovki takozh ye centralnimi dlya oskilki yih mozhna vikoristovuvati dlya prognozuvannya chastoti chastot shablonu sajtu z urahuvannyam topologiyi dereva Modeli zamini neobhidni dlya modelyuvannya danih poslidovnosti dlya grupi organizmiv pov yazanih filogenetichnimi zv yazkami Mnozhinne virivnyuvannya poslidovnostej u comu vipadku poslidovnosti DNK ta ilyustraciyi vikoristannya modelej zamishennya dlya evolyucijnih visnovkiv Dani v comu virivnyuvanni predstavlenij shematichnij priklad z 18 sajtami peretvoryuyutsya na nabir shabloniv sajtu Shabloni sajtu vidobrazhayutsya razom iz kilkistyu yih virivnyuvannya Ci shabloni sajtiv vikoristovuyutsya dlya obchislennya jmovirnosti z urahuvannyam modeli zamishennya ta filogenetichnogo dereva u comu vipadku neukorinene derevo z chotiroh taksoniv Takozh neobhidno vrahovuvati model zamishennya dlya ocinki evolyucijnih vidstanej dlya par poslidovnostej vidstani ce kilkist zamin yaki vidbulisya z tih pir yak poslidovnosti mali spilnogo predka Evolyucijne rivnyannya vidstani d 12 zasnovane na prostij modeli zaproponovanij i u 1969 roci Rivnyannya peretvoryuye chastku nukleotidnih vidminnostej mizh taksonami 1 i 2 p 12 4 18 chotiri modeli sajtiv yaki vidriznyayutsya mizh taksonami 1 i 2 poznacheni zirochkami v evolyucijnu vidstan u comu vipadku d 12 0 2635 zamin na sajt Topologiyi filogenetichnogo dereva ta inshi parametriTopologiyi filogenetichnogo dereva vlasne parametrom sho cikavit doslidnika Vihodyachi z cogo dovzhina gilok ta bud yaki inshi parametri sho opisuyut proces zamini chasto ignoruyutsya Odnak ci parametri takozh vazhlivi napriklad pri analizi informaciyi vikopnih retok organizmiv z litopisu skam yanilostej i vikoristannyam modeli dlya ocinki chasovih ramok evolyuciyi Inshi parametri modeli buli vikoristani shob otrimati uyavlennya pro rizni aspekti procesu evolyuciyi Vidnoshennya K lt sub id mwKg gt a lt sub gt K lt sub id mwKw gt s lt sub gt takozh zvane w v modelyah zamishennya kodoniv ye parametrom yakij cikavit bagatoh doslidnikiv Vidnoshennya K a K s mozhna vikoristovuvati dlya doslidzhennya diyi prirodnogo doboru na dilyanki sho koduyut bilok vin nadaye informaciyu pro vidnosni shvidkosti nukleotidnih zamin yaki zminyuyut aminokisloti nesinonimichni zamini na ti yaki ne zminyuyut kodovanu aminokislotu sinonimichni zamini Zastosuvannya do danih poslidovnostiBilsha chastina roboti nad modelyami zamini zoseredzhena na evolyuciyi mizh riznimi poslidovnosti DNK RNK ta bilka Modeli evolyuciyi poslidovnosti DNK de alfavit vidpovidaye chotirom nukleotidam A C G i T ye mabut najprostishimi modelyami dlya rozuminnya Modeli rozrobleni dlya aniluzu DNK takozh mozhna vikoristovuvati dlya doslidzhennya evolyuciyi RNK virusu tomu sho RNK takozh maye chotirinukleotidnij alfavit A C G i U Prote modeli pidstanovki mozhna vikoristovuvati dlya alfavitiv bud yakogo rozmiru yak alfavit mozhyena rozglyadati alfavit ce 20 proteyinogennih aminokislot dlya bilkiv i smislovi kodoni tobto 61 kodon yakij koduye aminokisloti v standartnomu genetichnomu kodi dlya virivnyanih poslidovnostej geniv sho koduyut bilok Faktichno modeli zamishennya mozhut buti rozrobleni dlya bud yakih biologichnih oznak yaki mozhut buti zakodovani za dopomogoyu pevnogo alfavitu napriklad aminokislotni poslidovnosti v poyednanni z informaciyeyu pro konformaciyu cih aminokislot u trivimirnih bilkovih strukturah Bilshist modelej zamishennya sho vikoristovuyutsya dlya evolyucijnogo doslidzhennya pripuskayut nezalezhnist mizh sajtami tobto jmovirnist sposterezhennya bud yakogo konkretnogo shablonu sajtu identichna nezalezhno vid togo de znahoditsya shablon sajtu u virivnyuvanni poslidovnosti Ce sproshuye obchislennya jmovirnosti oskilki neobhidno lishe obchisliti jmovirnist usih shabloniv sajtu yaki z yavlyayutsya u virivnyuvanni a potim vikoristati ci znachennya dlya obchislennya zagalnoyi jmovirnosti virivnyuvannya napriklad jmovirnist troh shabloniv sajtu GGGG za pevnoyu modellyu evolyuciyi poslidovnosti DNK ce jmovirnist odnogo sajtu GGGG pidnyata do tretogo stupenya Ce oznachaye sho modeli pidstanovki mozhna rozglyadati yak taki sho pidtrimuyut specifichnij multinomialnij rozpodil dlya chastot shabloniv sajtu Yaksho mi rozglyanemo mnozhinne virivnyuvannya poslidovnostej chotiroh poslidovnostej DNK to isnuye 256 mozhlivih shabloniv sajtiv tozh isnuye 255 stupeniv svobodi dlya chastot shablonu sajtu Odnak mozhna vkazati ochikuvani chastoti shablonu sajtu vikoristovuyuchi p yat stupeniv svobodi yaksho vikoristovuvati model evolyuciyi DNK Dzhuksa Kantora yaka ye prostoyu modellyu zamini yaka dozvolyaye obchislyuvati ochikuvani chastoti shablonu sajtu dlya topologiyi dereva ta dovzhinu gilok vrahovuyuchi chotiri taksoni neukorinene rozdvoyene derevo maye p yat dovzhin gilok Modeli zamishennya nukleotidiv takozh dozvolyayut modelyuvati dani poslidovnosti za dopomogoyu metodiv Monte Karlo Zmodelovani mnozhinni virivnyuvannya poslidovnostej mozhna vikoristovuvati dlya ocinki efektivnosti filogenetichnih metodiv ta stvorennya nulovogo rozpodilu dlya pevnih statistichnih testiv u galuzyah molekulyarnoyi evolyuciyi ta molekulyarnoyi filogenetiki Prikladi cih testiv vklyuchayut testi vidpovidnosti modeli ta test SOWH yakij mozhna vikoristovuvati dlya doslidzhennya topologij dereva Zastosuvannya do morfologichnih danihToj fakt sho modeli zamishennya mozhut buti vikoristani dlya analizu bud yakogo biologichnogo alfavitu daye mozhlivist rozrobiti modeli evolyuciyi dlya fenotipovih naboriv danih napriklad morfologichnih i povedinkovih oznak Yak pravilo 0 vikoristovuyetsya dlya vkazivki na vidsutnist oznaki a 1 vikoristovuyetsya dlya vkazivki na yiyi nayavnist hocha takozh mozhna ocinyuvati simvoli za dopomogoyu kilkoh staniv dlya kontinualnih abo variabelnih oznak Vikoristovuyuchi cyu strukturu mi mozhemo zakoduvati nabir fenotipiv yak dvijkovi ryadki ce mozhna uzagalniti do ryadkiv k state dlya simvoliv z bilsh nizh dvoma stanami pered analizom za dopomogoyu vidpovidnogo rezhimu Ce mozhna proilyustruvati na prikladi prostoyi modeli mi mozhemo vikoristovuvati dvijkovij alfavit shob pobuduvati prostu filogeniyu bagatoklitinnih tvarin za fenotipovimi oznakami maye pir ya klade yajcya maye hutro ye teplokrovnim i zdatnij polit U comu prikladi igrashki kolibri matime poslidovnist 11011 bilshist inshih ptahiv matime taku samu nitku strausi 11010 velika rogata hudoba ta bilshist inshih nazemnih ssavciv 00110 a kazhani 00111 Imovirnist filogenetichnogo dereva potim mozhe buti rozrahovana za dopomogoyu cih binarnih poslidovnostej i vidpovidnoyi modeli zamini Isnuvannya cih morfologichnih modelej daye zmogu analizuvati matrici danih z vikopnimi taksonami vikoristovuyuchi lishe morfologichni dani abo kombinaciyu morfologichnih i molekulyarnih danih pri comu ostanni buli ocineni yak vidsutni dani dlya vikopnih taksoniv Isnuye ochevidna shozhist mizh vikoristannyam molekulyarnih abo fenotipichnih danih u sferi kladistiki ta analizom morfologichnih oznak za dopomogoyu modeli zamishennya Odnak u suspilstvi sistematichnih sistem tochilisya guchni debati 5 listopada 2021 u Wayback Machine shodo pitannya pro te chi slid rozglyadati kladistichnij analiz yak bezmodelnij Sfera kladistiki viznachena v najsuvorishomu sensi spriyaye vikoristannyu kriteriyu maksimalnoyi parsimoniyi dlya filogenetichnogo visnovku Bagato kladistiv vidkidayut poziciyu pro te sho maksimalna parsimoniya zasnovana na modeli zamini i u bagatoh vipadkah voni vipravdovuyut vikoristannya ekonomiyi vikoristovuyuchi filosofiyu Karla Poppera Odnak isnuvannya modelej ekvivalentnoyi parsimoniyi tobto modelej pidstanovki yaki dayut maksimalne derevo parsimoniyi pri vikoristanni dlya analizu daye zmogu rozglyadati parsimoniyu yak model pidstanovki Molekulyarnij godinnik i odinici chasuYak pravilo dovzhina gilki filogenetichnogo dereva traktuyetsya yak ochikuvana kilkist zamin na sajt yaksho evolyucijna model vkazuye sho kozhen sajt u rodovij poslidovnosti zazvichaj zaznaye x zamin do togo chasu koli vin evolyucionuye do poslidovnosti konkretnogo nashadka to predok i nashadok vvazhayutsya rozdilenimi dovzhinoyu gilki x Inodi dovzhinu gilki vimiryuyut u geologichnih rokah Napriklad dani skam yanilostej mozhut dati mozhlivist viznachiti kilkist rokiv mizh vidom predkiv i vidami nashadkami Oskilki deyaki vidi evolyucionuyut shvidshe nizh inshi pokazniki dovzhini gilok ne zavzhdi znahodyatsya v pryamij proporciyi Ochikuvana kilkist zamin na sajt na rik chasto poznachayetsya greckoyu literoyu mu m Vvazhayetsya sho model maye suvorij molekulyarnij godinnik yaksho ochikuvana kilkist zamin na rik m ye postijnoyu nezalezhno vid togo evolyuciya yakogo vidu doslidzhuyetsya Vazhlivim naslidkom suvorogo molekulyarnogo godinnika ye te sho kilkist ochikuvanih zamin mizh vidom predkom i bud yakim iz jogo suchasnih nashadkiv maye buti nezalezhnoyu vid togo yakij vid nashadkiv doslidzhuyetsya Varto zaznachiti sho pripushennya pro suvorij molekulyarnij godinnik chasto nerealistichne osoblivo protyagom trivalih periodiv evolyuciyi Napriklad nezvazhayuchi na te sho grizuni genetichno duzhe shozhi na primativ voni zaznali nabagato bilshoyi kilkosti zamin za ocinenij chas pislya rozbizhnosti v deyakih oblastyah genomu Ce mozhe buti pov yazano z menshim chasom generaciyi bilsh visokoyu shvidkistyu metabolizmu zbilshenoyu strukturoyu populyaciyi zbilshennyam shvidkosti vidoutvorennya abo menshim rozmirom tila Pri vivchenni davnih podij takih yak kembrijskij vibuh za pripushennyam molekulyarnogo godinnika chasto sposterigayetsya nizkij zbig mizh kladistichnimi ta filogenetichnimi danimi Isnuye kilka doslidzhen shodo variabelnosti shvidkist evolyuciyi Modeli yaki mozhut vrahovuvati minlivist shvidkosti molekulyarnogo godinnika mizh riznimi evolyucijnimi liniyami u filogenezi nazivayutsya rozslablenimi na protivagu suvorim U takih modelyah vrahovuyetsya chi shvidkist evolyuciyi korelyuye mizh predkami ta nashadkami a variaciya shvidkosti u geneologiyi mozhe buti otrimana z bagatoh rozpodiliv ale zazvichaj zastosovuyutsya eksponencijni ta lognormalni rozpodili Isnuye okremij vipadok yakij nazivayetsya lokalnim molekulyarnim godinnikom koli filogenez podileno shonajmenshe na dva rozdili nabori evolyucijnih linij i v kozhnomu vikoristovuyetsya strogij molekulyarnij godinnik ale z riznimi tempami Reversivni vidnosno chasu ta stacionarni modeliBagato korisnih modelej zamini ye oborotnimi v chasi z tochki zoru matematiki dlya modeli ne maye znachennya yaka poslidovnist ye predkom a yaka nashadkom doki vsi inshi parametri napriklad kilkist zamin na sajt yaka ochikuyetsya mizh dvoma poslidovnostyami zalishayutsya nezminnimi Pri analizi realnih biologichnih danih yak pravilo nemaye dostupu do poslidovnostej predkiv a lishe do suchasnih vidiv Odnak koli model ye oborotnoyu v chasi yakij vid buv rodonachalni ne maye znachennya Natomist filogenetichne derevo mozhna vkoriniti za dopomogoyu bud yakogo z vidiv piznishe vkoriniti na osnovi novih znan abo zalishiti bez vkorinennya Ce tomu sho ne isnuye osoblivih vidiv usi vidi v kincevomu pidsumku pohodyat odin vid odnogo z odnakovoyu jmovirnistyu Model ye oborotnoyu v chasi todi i tilki todi koli vona zadovolnyaye rozrahovanu matematichno vlastivist poznachennya poyasnyuyetsya nizhche piQij pjQji displaystyle pi i Q ij pi j Q ji abo ekvivalentno vlastivist detalnogo balansu piP t ij pjP t ji displaystyle pi i P t ij pi j P t ji dlya kozhnogo i j i t Zvorotnist u chasi ne slid plutati zi stacionarnistyu Model ye stacionarnoyu yaksho Q ne zminyuyetsya z chasom Analiz nizhche peredbachaye stacionarnu model Matematika modelej zamishennya nukleotidivStacionarni nejtralni nezalezhni modeli dlya dilyanok virivnyuvannya za umovi postijnoyi shvidkosti evolyuciyi mayut dva parametri p rivnovazhnij vektor bazovih abo harakternih chastot i matricyu shvidkostej Q yaka opisuye shvidkist z yakoyu osnovi odnogo tipu mozhut perejti na osnovi inshogo tipu element Qij displaystyle Q ij dlya ya j shvidkist z yakoyu osnova i perehodit do osnovi j Diagonali Q matrici vibirayutsya tak shob suma ryadkiv dorivnyuvala nulyu Qii j j i Qij displaystyle Q ii sum lbrace j mid j neq i rbrace Q ij pQ 0 displaystyle pi Q 0 Funkciya matrici perehodiv ce funkciya zalezhnosti dovzhin gilok v deyakih odinicyah chasu mozhlivo u pidstanovkah do matrici umovnih jmovirnostej Ce poznachayetsya yak P t displaystyle P t Zapis v i mu stovpci ta j mu ryadku Pij t displaystyle P ij t jmovirnist togo sho pislya chasu t ye osnova j u danij poziciyi za umovi sho v cij poziciyi v moment 0 ye osnova i Koli model ye oborotnoyu v chasi ce mozhna virahuvati mizh bud yakimi dvoma poslidovnostyami navit yaksho odna ne ye predkom dlya inshoyi yaksho vidoma zagalna dovzhina gilok mizh nimi Asimptotichni vlastivosti P ij t taki sho P ij 0 d ij de d ij delta funkciya Kronekera Tobto ne isnuye rozbizhnostej u sekvenovanih osnovah mizh samoyu poslidovnistyu ta yiyi sekvenovanim varintom V inshomu vidnoshenni limt Pij t pj displaystyle lim t rightarrow infty P ij t pi j abo inshimi slovami koli chas jde do neskinchennosti jmovirnist znajti osnovu j u polozhenni yaksho v comu polozhenni bula osnova i spochatku perehodit do rivnovazhnoyi jmovirnosti togo sho v comu polozhenni ye osnova j nezalezhno vid pochatkovoyi osnovi Krim togo z cogo viplivaye pP t p displaystyle pi P t pi dlya vsih t Matricyu perehodiv mozhna obrahuvati z matrici shvidkostej za dopomogoyu pidvedennya do stepenya matrici P t eQt n 0 Qntnn displaystyle P t e Qt sum n 0 infty Q n frac t n n de Q n matricya Q pomnozhena sama na sebe v dostatnyu kilkist raziv shob otrimati yiyi n stupin Yaksho Q mozhna diagonalizuvati matrichnu eksponenciyu mozhna obchisliti bezposeredno z pripushennya nehaj Q U 1 L U diagonalizaciya Q z L l1 0 0 l4 displaystyle Lambda begin pmatrix lambda 1 amp ldots amp 0 vdots amp ddots amp vdots 0 amp ldots amp lambda 4 end pmatrix de L diagonalna matricya i de li displaystyle lbrace lambda i rbrace ye vlasne znachennyami Q kozhne povtoryuyetsya vidpovidno do jogo mnozhinnosti Todi P t eQt eU 1 Lt U U 1eLtU displaystyle P t e Qt e U 1 Lambda t U U 1 e Lambda t U de diagonalna matricya e Lt zadayetsya yak eLt el1t 0 0 el4t displaystyle e Lambda t begin pmatrix e lambda 1 t amp ldots amp 0 vdots amp ddots amp vdots 0 amp ldots amp e lambda 4 t end pmatrix Uzagalnena oborotna v chasi modelUzagalnena oborotna v chasi GTR ye najbilsh zagalnoyu nejtralnoyu nezalezhnoyu modellyu zi skinchennimi vuzlami Vpershe yiyi opisav u zagalnij formi Sajmon Tavare u 1986 roci Model GTR v publikaciyah chasto nazivayut zagalnoyu oborotnoyu modellyu za chasom yiyi takozh nazivayut modellyu REV Parametri GTR dlya nukleotidiv skladayutsya z rivnovazhnogo vektora osnovnoyi chastoti p p1 p2 p3 p4 displaystyle vec pi pi 1 pi 2 pi 3 pi 4 vkazuyuchi chastotu z yakoyu kozhna nukleotidna osnova traplyayetsya na kozhnomu sajti i matricyu shvidkosti Q x1 x2 x3 x1x2x3p1x1p2 p1x1p2 x4 x5 x4x5p1x2p3p2x4p3 p1x2p3 p2x4p3 x6 x6p1x3p4p2x5p4p3x6p4 p1x3p4 p2x5p4 p3x6p4 displaystyle Q begin pmatrix x 1 x 2 x 3 amp x 1 amp x 2 amp x 3 pi 1 x 1 over pi 2 amp pi 1 x 1 over pi 2 x 4 x 5 amp x 4 amp x 5 pi 1 x 2 over pi 3 amp pi 2 x 4 over pi 3 amp pi 1 x 2 over pi 3 pi 2 x 4 over pi 3 x 6 amp x 6 pi 1 x 3 over pi 4 amp pi 2 x 5 over pi 4 amp pi 3 x 6 over pi 4 amp pi 1 x 3 over pi 4 pi 2 x 5 over pi 4 pi 3 x 6 over pi 4 end pmatrix Oskilki model maye buti oborotnoyu v chasi i povinna nablizhatisya do rivnovazhnih nukleotidnih chastot za dovgi chasi kozhna shvidkist nizhche diagonali dorivnyuye zvorotnij shvidkosti vishe diagonali pomnozhenij na rivnovazhne spivvidnoshennya dvoh osnov Takim chinom nukleotidna model GTR vimagaye 6 parametriv shvidkosti zamishennya i 4 rivnovazhnih parametriv chastoti traplyannya nukleotidiv Oskilki 4 parametri chastoti povinni suuvatisya do 1 ye lishe 3 vilnih chastotnih parametra Zagalna kilkist 9 vilnih parametriv chasto dodatkovo zmenshuyetsya do 8 parametriv m displaystyle mu Pri vimiryuvanni chasu v zaminah m displaystyle mu 1 zalishilosya lishe 8 vilnih parametriv Zagalom shob obchisliti kilkist parametriv neobhidno virahuvati kilkist zapisiv nad diagonallyu v matrici tobto dlya n znachen oznak na sajt n2 n2 displaystyle n 2 n over 2 a potim dodati n 1 dlya rivnovazhnih chastot i vidnyati 1 oskilki m displaystyle mu ye staloyu velichinoyu Z cogo otrimuyemo n2 n2 n 1 1 12n2 12n 2 displaystyle n 2 n over 2 n 1 1 1 over 2 n 2 1 over 2 n 2 Napriklad dlya aminokislotnoyi poslidovnosti ye 20 standartnih aminokislot yaki skladayut bilki mozhe buti obrahovano 208 parametriv Odnak pri vivchenni koduyuchih dilyanok genomu chastishe pracyuyut z modellyu zamishennya kodona kodon ce tri osnovi sho koduyut odnu aminokislotu v bilku Isnuye 43 64 displaystyle 4 3 64 kodoni v rezultati chogo kilkist vilnih parametriv dorvinyuye 2078 Odnak shvidkist perehodiv mizh kodonami yaki vidriznyayutsya bilsh nizh na odnu osnovu chasto vvazhayutsya rivnoyu nulyu zmenshuyuchi kilkist vilnih parametriv do lishe 20 19 32 63 1 632 displaystyle 20 times 19 times 3 over 2 63 1 632 parametriv Inshoyu poshirenoyu praktikoyu ye zmenshennya kilkosti kodoniv zaboronyayuchi stop kodoni abo bezgluzdi Ce biologichno obgruntovane pripushennya oskilki vklyuchennya stop kodoniv oznachalo b sho obchislyuyetsya jmovirnist znajti smislovij kodon j displaystyle j cherez chas t displaystyle t vrahovuyuchi sho rodonachalnij kodon i displaystyle i vklyuchatime mozhlivist prohodzhennya cherez stan z peredchasnim stop kodonom Alternativnij ta shiroko vzhivanijsposib zapisu mittyevoyi matrici shvidkosti Q displaystyle Q matricya dlya nukleotidnoyi modeli GTR Q apC bpG cpT apCbpGcpTapA apA dpG epT dpGepTbpAdpC bpA dpC fpT fpTcpAepCfpG cpA epC fpG displaystyle Q begin pmatrix a pi C b pi G c pi T amp a pi C amp b pi G amp c pi T a pi A amp a pi A d pi G e pi T amp d pi G amp e pi T b pi A amp d pi C amp b pi A d pi C f pi T amp f pi T c pi A amp e pi C amp f pi G amp c pi A e pi C f pi G end pmatrix Cej zapis legshe zrozumiti nizh zapis yakij spochatku vikoristovuvav Tavare oskilki vsi parametri modeli vidpovidayut parametram obminyuvanosti a displaystyle a cherez f displaystyle f yakij takozh mozhna zapisati za dopomogoyu poznachennya rij displaystyle r ij abo do rivnovazhnih nukleotidnih chastot p pA pC pG pT displaystyle vec pi pi A pi C pi G pi T Zvernit uvagu sho nukleotidi v Q displaystyle Q matrici zapisani v alfavitnomu poryadku Inshimi slovami matricya jmovirnosti perehodu dlya Q displaystyle Q matrici vishe bude P t eQt pAA t pAC t pAG t pAT t pCA t pCC t pCG t pCT t pGA t pGC t pGG t pGT t pTA t pTC t pTG t pTT t displaystyle P t e Qt begin pmatrix p mathrm AA t amp p mathrm AC t amp p mathrm AG t amp p mathrm AT t p mathrm CA t amp p mathrm CC t amp p mathrm CG t amp p mathrm CT t p mathrm GA t amp p mathrm GC t amp p mathrm GG t amp p mathrm GT t p mathrm TA t amp p mathrm TC t amp p mathrm TG t amp p mathrm TT t end pmatrix Deyaki publikaciyi pishut nukleotidi v inshomu poryadku napriklad deyaki avtori obirayut zgrupuvati dva purini razom i dva pirimidini razom div takozh modeli evolyuciyi DNK Cya riznicya v zapisah maye buti zrozumiloyu pid chas napisannya Q displaystyle Q matrici Znachennya cogo zapisu v tomu sho mittyevu shvidkist zmini vid nukleotidu i displaystyle i do nukleotidu j displaystyle j zavzhdi mozhna zapisati yak rijpj displaystyle r ij pi j de rij displaystyle r ij ye obminyuvanist nukleotidiv i displaystyle i i j displaystyle j i pj displaystyle pi j rivnovazhna chastota jth displaystyle j th nukleotidiv U navedenij vishe matrici vikoristovuyutsya literi a displaystyle a cherez f displaystyle f dlya parametriv obminyuvanosti v interesah chitabelnosti ale ci parametri takozh mozhut buti zapisani sistematichno za dopomogoyu rij displaystyle r ij poznachennya napriklad a rAC displaystyle a r AC b rAG displaystyle b r AG i tak dali Zauvazhte sho vporyadkuvannya nukleotidnih indeksiv dlya parametriv obminyuvanosti ne maye znachennya napriklad rAC rCA displaystyle r AC r CA ale znachennya matrici jmovirnosti perehodu maye znachenn tobto pAC t displaystyle p mathrm AC t ce jmovirnist sposterezhennya A v poslidovnosti 1 i C v poslidovnosti 2 koli evolyucijna vidstan mizh cimi poslidovnostyami dorivnyuye t displaystyle t todi yak pCA t displaystyle p mathrm CA t jmovirnist sposterezhennya C v poslidovnosti 1 i A v poslidovnosti 2 na odnakovij evolyucijnij vidstani Dovilno obrani parametri obminyuvanosti napriklad f rGT displaystyle f r GT zazvichaj vstanovlyuyetsya na znachennya 1 shob zbilshiti chitabelnist ocinok parametriv obminyuvanosti oskilki vin dozvolyaye koristuvacham vislovlyuvati ci znachennya vidnosno vibranogo parametra obminyuvanosti Praktika virazhennya parametriv obminyuvanosti u vidnosnih pokaznikah ne ye problemoyu oskilki Q displaystyle Q matricya normalizovana Normalizaciya dozvolyaye virazhati t displaystyle t chas u pidvedenni do stepenya matrici P t eQt displaystyle P t e Qt v odinicyah ochikuvanih zamin na sajt standartna praktika molekulyarnoyi filogenetiki Ce ekvivalentno tverdzhennyam sho vstanovlyuyetsya shvidkist mutaciyi m displaystyle mu do 1 i zmenshennya kilkosti vilnih parametriv do vosmi Zokrema isnuye p yat vilnih parametriv obminu a displaystyle a cherez e displaystyle e yaki virazhayutsya vidnosno fiksovanogo f rGT 1 displaystyle f r GT 1 u comu prikladi i tri rivnovazhnih parametri bazovoyi chastoti yak opisano vishe lishe tri pi displaystyle pi i znachennya potribno vkazati oskilki p displaystyle vec pi suma povinna skladati 1 Alternativne poznachennya takozh polegshuye rozuminnya pidmodelej modeli GTR yaki prosto vidpovidayut vipadkam koli parametri obminnoyi ta abo rivnovazhnoyi chastoti nukleotidnih osnov obmezheno prijmayut odnakovi znachennya Bulo nazvano ryad konkretnih pidmodelej v osnovnomu na osnovi yih originalnih publikacij Vibrani modeli evolyuciyi DNK chasto vikoristovuyutsya v molekulyarnij filogenetici Model Obchislyuvalni parametri Parametri bazovoyi chastoti PosilannyaJC69 or JC a b c d e f displaystyle a b c d e f pA pC pG pT 0 25 displaystyle pi A pi C pi G pi T 0 25 Jukes and Cantor 1969 F81 a b c d e f displaystyle a b c d e f all pi displaystyle pi i values free Felsenstein 1981 K2P or K80 a c d f displaystyle a c d f transversiyi b e displaystyle b e tranzitni mutaciyi pA pC pG pT 0 25 displaystyle pi A pi C pi G pi T 0 25 Kimura 1980 HKY85 a c d f displaystyle a c d f transversiyitransversiyi b e displaystyle b e tranzitni mutaciyi all pi displaystyle pi i values free Hasegawa et al 1985 K3ST or K81 a f displaystyle a f g displaystyle gamma transversiyitransversiyi c d displaystyle c d b displaystyle beta transversiyitransversiyi b e displaystyle b e tranzitni mutaciyi pA pC pG pT 0 25 displaystyle pi A pi C pi G pi T 0 25 Kimura 1981 TN93 a c d f displaystyle a c d f transversiyitransversiyitransversiyi b displaystyle b A G displaystyle A leftrightarrow G tranzitni mutaciyi e displaystyle e C T displaystyle C leftrightarrow T tranzitni mutaciyi all pi displaystyle pi i values free Tamura and Nei 1993 SYM vilno zadiyani vsi parametri zvmini pA pC pG pT 0 25 displaystyle pi A pi C pi G pi T 0 25 Zharkikh 1994 GTR or REV vilno zadiyani vsi parametri zvmini all pi displaystyle pi i values free Tavare 1986 Isnuye 203 mozhlivi sposobi obmezhennya parametriv obminyuvanosti dlya formuvannya pidmodelej GTR pochinayuchi vid modelej JC69 i F81 de vsi parametri obminyuvanosti rivnocinni do SYM model i povna model GTR abo REV de vsi parametri obminu vilni Rivnovazhni bazovi chastoti zazvichaj rozglyadayutsya dvoma riznimi sposobami 1 vsima pi displaystyle pi i znachennya obmezheni rivnimi tobto pA pC pG pT 0 25 displaystyle pi A pi C pi G pi T 0 25 abo 2 vsi pi displaystyle pi i znachennya rozglyadayutsya yak vilni parametri Hocha rivnovazhni chastoti nukleotidiv mozhut buti obmezheni inshimi sposobami bilshist obmezhen nerealni z biologichnoyi tochki zoru Mozhlivim vinyatkom ye zabezpechennya simetriyi lancyuga tobto obmezhennya pA pT displaystyle pi A pi T i pC pG displaystyle pi C pi G ale dozvolyaye pA pT pC pG displaystyle pi A pi T neq pi C pi G Alternativne poznachennya takozh dozvolyaye legko pobachiti yak model GTR mozhna zastosuvati do biologichnih alfavitiv z bilshim prostorom staniv napriklad aminokisloti abo kodoni Nabir chastot staniv rivnovagi mozhna zapisati yak p1 displaystyle pi 1 p2 displaystyle pi 2 pk displaystyle pi k i nabir parametriv obminyuvanosti rij displaystyle r ij dlya bud yakogo alfavitu k displaystyle k stanu harakteristik Ci znachennya mozhna vikoristovuvati dlya zapovnennya Q displaystyle Q matrici shlyahom vstanovlennya nediagonalnih elementiv yak pokazano vishe zagalne poznachennya bude takim Qij rijpj displaystyle Q ij r ij pi j vstanovlennya diagonalnih elementiv Qii displaystyle Q ii do vid yemnoyi sumi nediagonalnih elementiv u tomu zh ryadku i normuvannya Ochevidno k 20 displaystyle k 20 dlya aminokislot i k 61 displaystyle k 61 dlya kodoniv za umovi standartnogo genetichnogo kodu Odnak zagalnist cogo poznachennya ye vigidnoyu oskilki dlya aminokislot mozhna vikoristovuvati skorocheni alfaviti Napriklad mozhna vikoristovuvati k 6 displaystyle k 6 i koduvati aminokisloti shlyahom perekoduvannya aminokislot za dopomogoyu shesti kategorij zaproponovanih Margaret Dejhoff Zmensheni alfaviti aminokislot rozglyadayutsya yak sposib zmenshiti variaciyu ukladannya nukleotidiv ta nasichenosti Mehanistichni ta empirichni modeliOsnovna vidminnist evolyucijnih modelej polyagaye v tomu skilki parametriv shorazu ocinyuyetsya dlya naboru danih sho rozglyadayetsya i skilki z nih ocinyuyetsya odin raz na velikomu nabori danih Mehanistichni modeli opisuyut usi zamini yak funkciyu ryadu parametriv yaki ocinyuyutsya dlya kozhnogo analizovanogo naboru danih perevazhno z vikoristannyam maksimalnoyi jmovirnosti Ce maye perevagu v tomu sho model mozhna pristosuvati do osoblivostej konkretnogo naboru danih napriklad rizni vidhilennya skladu DNK Problemi mozhut viniknuti koli vikoristovuyetsya zanadto bagato parametriv osoblivo yaksho voni mozhut kompensuvati odin odnogo ce mozhe prizvesti do dezidentifikaciyi Todi chasto buvaye sho nabir danih zanadto malij shob buti dostato reprezentativnim dlya tochnoyi ocinki vsih parametriv Empirichni modeli stvoryuyutsya shlyahom ocinki bagatoh parametriv yak pravilo vsih zapisiv matrici shvidkostej evolyuciyi a takozh chastoti simvoliv nukleotidiv div model GTR vishe z velikogo naboru danih Ci parametri potim fiksuyutsya i budut povtorno vikoristovuvatisya dlya kozhnogo naboru danih Ce maye perevagu v tomu sho ci parametri mozhna ociniti bilsh tochno Zazvichaj nemozhlivo ociniti vsi zapisi matrici pidstanovki lishe z potochnogo naboru danih Z inshogo boku parametri ocineni na osnovi navchalnih danih mozhut buti zanadto zagalnimi i otzhe pogano pidhodyat dlya bud yakogo konkretnogo naboru danih Potencijnim rishennyam ciyeyi problemi ye ocinka deyakih parametriv na osnovi danih za dopomogoyu maksimalnoyi pravdopodibnosti abo inshogo metodu U doslidzhennyah evolyuciyi bilkiv rivnovazhni chastoti aminokislot p pA pR pN pV displaystyle vec pi pi A pi R pi N pi V z vikoristannyam odnoliternih kodiv IUPAC dlya aminokislot dlya vkazivki yih rivnovazhnih chastot chasto ocinyuyutsya za danimi zberigayuchi fiksovanu matricyu zamini nukleotidiv Krim zagalnoprijnyatoyi praktiki ocinki chastoti aminokislot na osnovi danih metodi ocinki parametriv obminyuvanosti abo koriguvannya Q displaystyle Q bulo zaproponovano matricyu dlya evolyuciyi bilka inshimi sposobami Oskilki shirokomasshtabne sekvenuvannya genomu vse she produkuye duzhe veliku kilkist poslidovnostej DNK i bilkiv dostupnih danih dostatno dlya stvorennya empirichnih modelej z bud yakoyu kilkistyu parametriv vklyuchayuchi empirichni modeli kodoniv Cherez problemi zgadani vishe dva pidhodi chasto poyednuyutsya ocinyuyuchi bilshist parametriv odnorazovo na velikomasshtabnih danih todi yak kilka parametriv sho zalishilisya potim koriguyutsya do naboru danih sho rozglyadayetsya U nastupnih rozdilah navedeno oglyad riznih pidhodiv vikoristanih dlya modelej na osnovi DNK bilkiv abo kodoniv Modeli zamishennya DNKPershi modeli evolyuciyi DNK buli zaproponovani Dzhuksom i Kantorom v 1969 roci Model Dzhuksa Kantora JC abo JC69 peredbachaye rivnovazhni shvidkosti perehodiv a takozh rivnovazhni chastoti dlya vsih osnov i ce najprostisha pidmodel modeli GTR U 1980 roci Motoo Kimura predstaviv model z dvoma parametrami K2P abo K80 odin dlya perehodu i odin dlya shvidkosti Cherez rik Kimura predstaviv drugu model K3ST K3P abo K81 z troma tipami zamini odin dlya shvidkosti perehodu inshij dlya shvidkosti transversij yaki zberigayut silni slabki vlastivosti nukleotidiv A T displaystyle A leftrightarrow T i C G displaystyle C leftrightarrow G priznachenij b displaystyle beta Kimura i odin dlya shvidkosti transversij yaki zberigayut amino keto vlastivosti nukleotidiv A C displaystyle A leftrightarrow C i G T displaystyle G leftrightarrow T priznachenij g displaystyle gamma Kimura U 1981 roci zaproponuvav chotiriparametrichnu model F81 v yakij shvidkist zamishennya vidpovidaye rivnovazhnij chastoti cilovogo nukleotidu Hasegava Kishino ta Yano ob yednali dvi ostanni modeli v p yatiparametralnu model HKY Pislya cih pionerskih zusil bagato dodatkovih pidmodelej modeli GTR buli vvedeni v literaturu i zagalnovzhivani u 1990 h rokah Inshi modeli yaki vihodyat za ramki modeli GTR osoblivim chinom takozh buli rozrobleni ta vdoskonaleni kilkoma doslidnikami Majzhe vsi modeli zamishennya nukleotidiv ye mehanistichnimi modelyami yak opisano vishe Nevelika kilkist parametriv yaki neobhidno ociniti dlya cih modelej robit mozhlivim ociniti ci rozrahunki na osnovi danih Ce takozh neobhidno oskilki modeli evolyuciyi poslidovnosti DNK chasto vidriznyayutsya mizh organizmami ta mizh genami vseredini organizmiv Ostannij mozhe vidobrazhati optimizaciyu shlyahom diyi vidboru dlya konkretnih cilej napriklad shvidka ekspresiya abo stabilnist informacijnoyi RNK abo mozhe vidobrazhati nejtralni variaciyi modelej zamishennya Takim chinom zalezhno vid organizmu ta tipu gena jmovirno neobhidno adaptuvati model do cih obstavin Modeli zamishennya dvoh stanivAlternativnim sposobom analizu danih poslidovnosti DNK ye perekoduvannya nukleotidiv u purini R i pirimidini Y cyu praktiku chasto nazivayut RY koduvannyam Vstavki ta deleciyi v mnozhinnih virivnyuvannyah poslidovnostej takozh mozhut buti zakodovani yak dvijkovi dani ta proanalizovani za dopomogoyu modeli z dvoma mozhlivimi stanami Najprostisha model evolyuciyi poslidovnosti z dvoma stanami nazivayetsya modellyu Kavendera Farrisa abo modellyu Kavendera Farrisa Nejmana CFN nazva ciyeyi modeli vidobrazhaye toj fakt sho vona bula okremo opisana v kilkoh riznih publikaciyah Model CFN identichna modeli Jukes Cantor adaptovana do dvoh staniv haraktaristiki i navit bula realizovana yak model JC2 v populyarnomu programnomu zabezpechenni IQ TREE vikoristannya ciyeyi modeli v IQ TREE vimagaye koduvannya danih yak 0 i 1 a ne R i Y populyarnij programne zabezpechennya PAUP mozhe interpretuvati matricyu danih sho mistit tilki R i Y yak dani dlya analizu za dopomogoyu modeli CFN Takozh legko analizuvati dvijkovi dani za dopomogoyu filogenetichnogo peretvorennya Adamara Alternativna model dvoh staniv dozvolyaye rivnovazhnim parametram chastoti R i Y abo 0 i 1 prijmati znachennya vidminni vid 0 5 shlyahom dodavannya odnogo vilnogo parametra cya model po riznomu nazivayetsya CFu abo GTR2 v IQ TREE Modeli aminokislotnogo zamishennyaDlya bagatoh analiziv osoblivo dlya bilshih evolyucijnih vidstanej evolyuciya modelyuyetsya na rivni aminokislot Vrahovuyuchi te sho ne vsi zamini DNK takozh zminyuyut kodovanu aminokislotu informaciya vtrachayetsya yaksho divitisya na aminokisloti zamist nukleotidnih osnov Odnak kilka perevag vkazuye na potrebu vikoristannya informaciyi pro aminokisloti DNK nabagato bilshe shilna viyavlyati zbij u skladi nizh aminokisloti ne vsi poziciyi v DNK rozvivayutsya z odnakovoyu shvidkistyu nesinonimichni mutaciyi mensh imovirno fiksuyutsya v naselennya nizh sinonimichni ale mabut najvazhlivishe cherez ci poziciyi sho shvidko rozvivayutsya ta obmezhenij rozmir alfavitu vsogo chotiri mozhlivi stani DNK strazhdaye vid bilshoyi kilkosti zvorotnih zamin sho uskladnyuye tochnu ocinku evolyucijnih bilshih vidstanej Na vidminu vid modelej DNK modeli aminokislot tradicijno ye empirichnimi modelyami Voni buli zapochatkovani v 1960 h i 1970 h rokah Dejhoffom i jogo spivrobitnikami ocinyuyuchi koeficiyenti zamini u aminokislotnih virivnyuvannyah z prinajmni 85 identichnosti spochatku z duzhe obmezhenimi danimi i v kincevomu pidsumku dosyagli svoyeyi kulminaciyi v modeli Dajhofa PAM 1978 roku Ce zvodilo do minimumu shansi sposterigati chislenni zamini na sajti Z matrici ocinki shvidkosti bulo otrimano seriyu matric jmovirnosti zamini vidomih pid takimi nazvami yak PAM 250 Matrici logarifmichnih shansiv zasnovani na modeli Dajhofa PAM zazvichaj vikoristovuvalisya dlya ocinki znachushosti rezultativ poshuku gomologiyi hocha matrici BLOSUM zaminili matrici logarifmichnih shansiv PAM v comu konteksti oskilki matrici BLOSUM viyavlyayutsya bilsh chutlivimi dlya riznomanitni evolyucijni vidstani na vidminu vid matric logarifmichnih shansiv PAM Matricya Dajhofa PAM bula dzherelom parametriv obminyuvanosti vikoristanih v odnomu z pershih analiziv filogenezu z maksimalnoyu imovirnistyu yakij vikoristovuvav dani pro bilok a model PAM abo pokrashena versiya modeli PAM pid nazvoyu DCMut j nadali vikoristovuyetsya u filogenetici Odnak obmezhena kilkist virivnyuvan vikoristovuvanih dlya stvorennya modeli PAM vidobrazhayuchi obmezhenu kilkist danih pro poslidovnist dostupnih u 1970 h rokah majzhe napevno zbilshuvala dispersiyu deyakih parametriv matrici shvidkosti yak alternativa bilki vikoristani dlya stvorennya modeli PAM mogli buti tezh nereprezentativnim naborom Nezvazhayuchi na ce zrozumilo sho model PAM ridko tak dobre pidhodit do bilshosti naboriv danih yak bilsh suchasni empirichni modeli Keane et al 2006 perevirili tisyachi bilkiv hrebetnih proteobakterialnih i arhejnih i viyavili sho Dajfova PAM model najkrashe pidhodila do shonajbilshe lt 4 bilkiv Pochinayuchi z 1990 h rokiv shvidkij rozvitok baz danih poslidovnostej zavdyaki vdoskonalenim tehnologiyam sekvenuvannya prizviv do virahovuvannya bagatoh novih empirichnih matric povnij spisok div u Pershi sprobi vikoristovuvali metodi podibni do tih yaki vikoristovuvav Dejhof vikoristovuyuchi shirokomasshtabne zistavlennya bazi danih bilkiv dlya stvorennya novoyi matrici logarifmichnih shansiv ta modeli JTT Dzhons Tejlor Tornton Shvidke zrostannya obchislyuvalnoyi potuzhnosti protyagom cogo chasu sho vidbivaye taki faktori yak zakon Mura zrobilo mozhlivim ociniti parametri dlya empirichnih modelej z vikoristannyam maksimalnoyi jmovirnosti napriklad modeli WAG i LG ta inshih metodiv napriklad modeli VT i PMB Model bez zagalnogo mehanizmu NCM U 1997 roci Taffli i Stil opisali model yaku voni nazvali modellyu bez uzagalnyuyuchogo mehanizmu Topologiya dereva maksimalnoyi pravdopodibnosti dlya konkretnogo naboru danih z urahuvannyam modeli NCM identichna topologiyi optimalnogo dereva dlya tih samih danih z urahuvannyam kriteriyu parsimoniyi Model NCM peredbachaye sho vsi dani napriklad gomologichni nukleotidi aminokisloti abo morfologichni oznaki pov yazani zagalnim filogenetichnim derevom Todi 2T 3 displaystyle 2T 3 dlya kozhnogo gomologichnogo simvolu vvodyatsya parametri de T displaystyle T kilkist poslidovnostej Ce mozhna rozglyadati yak ocinku okremogo parametra shvidkosti dlya kozhnoyi pari simvol gilki v nabori danih varto zvernuti uvagu sho kilkist gilok u povnistyu rozv yazanomu filogenetichnomu derevi dorivnyuye 2T 3 displaystyle 2T 3 Takim chinom kilkist vilnih parametriv u modeli NCM zavzhdi perevishuye kilkist gomologichnih simvoliv u matrici danih i model NCM piddayetsya kritici yak postijno nadmirno parametrizovana PosilannyaPosilannyaEmpirichni modeli zamini aminokislot 9 zhovtnya 2020 u Wayback Machine PrimitkiThe link describes the ParsimonyGate controversy which provides a concrete example of the debate regarding the philosophical nature of the maximum parsimony criterion ParsimonyGate was the reaction on Twitter to an editorial in the journal Cladistics published by the Willi Hennig Society The editorial states that the epistemological paradigm of this journal is parsimony and stating that there are philosophical reasons to prefer parsimony to other methods of phylogenetic inference Since other methods i e maximum likelihood Bayesian inference phylogenetic invariants and most distance methods of phylogenetic inference are model based this statement implicitly rejects the notion that parsimony is a model Steel M Penny D June 2000 Parsimony likelihood and the role of models in molecular phylogenetics Molecular Biology and Evolution 17 6 839 50 doi 10 1093 oxfordjournals molbev a026364 PMID 10833190 Bromham L May 2019 Six Impossible Things before Breakfast Assumptions Models and Belief in Molecular Dating Trends in Ecology amp Evolution 34 5 474 486 doi 10 1016 j tree 2019 01 017 PMID 30904189 Yang Z Bielawski JP December 2000 Statistical methods for detecting molecular adaptation Trends in Ecology amp Evolution 15 12 496 503 doi 10 1016 s0169 5347 00 01994 7 PMC 7134603 PMID 11114436 Perron U Kozlov AM Stamatakis A Goldman N Moal IH September 2019 Modeling Structural Constraints on Protein Evolution via Side Chain Conformational States Molecular Biology and Evolution 36 9 2086 2103 doi 10 1093 molbev msz122 PMC 6736381 PMID 31114882 Evolution of Protein Molecules Mammalian Protein Metabolism T 3 Elsevier 1969 s 21 132 doi 10 1016 b978 1 4832 3211 9 50009 7 ISBN 978 1 4832 3211 9 Huelsenbeck JP Hillis DM 1 veresnya 1993 Systematic Biology angl 42 3 247 264 doi 10 1093 sysbio 42 3 247 ISSN 1063 5157 Arhiv originalu za 11 bereznya 2022 Procitovano 12 kvitnya 2022 Goldman N February 1993 Statistical tests of models of DNA substitution Journal of Molecular Evolution 36 2 182 98 Bibcode 1993JMolE 36 182G doi 10 1007 BF00166252 PMID 7679448 Swofford D L Olsen G J Waddell P J Hillis D M 1996 Phylogenetic inference in Molecular systematics ed Hillis D M Moritz C Mable B K 2nd ed Sunderland MA Sinauer p 407 514 ISBN 978 0878932825 Church SH Ryan JF Dunn CW November 2015 Automation and Evaluation of the SOWH Test with SOWHAT Systematic Biology 64 6 1048 58 doi 10 1093 sysbio syv055 PMC 4604836 PMID 26231182 Lewis PO 1 listopada 2001 A likelihood approach to estimating phylogeny from discrete morphological character data Systematic Biology 50 6 913 25 doi 10 1080 106351501753462876 PMID 12116640 Lee MS Cau A Naish D Dyke GJ May 2014 Morphological clocks in paleontology and a mid Cretaceous origin of crown Aves Systematic Biology 63 3 442 9 doi 10 1093 sysbio syt110 PMID 24449041 Ronquist F Klopfstein S Vilhelmsen L Schulmeister S Murray DL Rasnitsyn AP December 2012 A total evidence approach to dating with fossils applied to the early radiation of the hymenoptera Systematic Biology 61 6 973 99 doi 10 1093 sysbio sys058 PMC 3478566 PMID 22723471 Brower A V Z 2016 Are we all cladists in Williams D Schmitt M amp Wheeler Q Eds The future of phylogenetic systematics The legacy of Willi Hennig Systematics Association Special Volume Series Book 86 Cambridge University Press pp 88 114 ISBN 978 1107117648 Farris JS Kluge AG Carpenter JM 1 travnya 2001 Olmstead R red Popper and Likelihood Versus Popper Systematic Biology angl 50 3 438 444 doi 10 1080 10635150119150 ISSN 1076 836X PMID 12116585 Goldman Nick December 1990 Systematic Zoology 39 4 345 361 doi 10 2307 2992355 JSTOR 2992355 Arhiv originalu za 21 sichnya 2022 Procitovano 12 kvitnya 2022 Gu X Li WH September 1992 Higher rates of amino acid substitution in rodents than in humans Molecular Phylogenetics and Evolution 1 3 211 4 doi 10 1016 1055 7903 92 90017 B PMID 1342937 Li WH Ellsworth DL Krushkal J Chang BH Hewett Emmett D February 1996 Rates of nucleotide substitution in primates and rodents and the generation time effect hypothesis Molecular Phylogenetics and Evolution 5 1 182 7 doi 10 1006 mpev 1996 0012 PMID 8673286 Martin AP Palumbi SR May 1993 Body size metabolic rate generation time and the molecular clock Proceedings of the National Academy of Sciences of the United States of America 90 9 4087 91 Bibcode 1993PNAS 90 4087M doi 10 1073 pnas 90 9 4087 PMC 46451 PMID 8483925 Yang Z Nielsen R April 1998 Synonymous and nonsynonymous rate variation in nuclear genes of mammals Journal of Molecular Evolution 46 4 409 18 Bibcode 1998JMolE 46 409Y CiteSeerX 10 1 1 19 7744 doi 10 1007 PL00006320 PMID 9541535 Kishino H Thorne JL Bruno WJ March 2001 Performance of a divergence time estimation method under a probabilistic model of rate evolution Molecular Biology and Evolution 18 3 352 61 doi 10 1093 oxfordjournals molbev a003811 PMID 11230536 Thorne JL Kishino H Painter IS December 1998 Estimating the rate of evolution of the rate of molecular evolution Molecular Biology and Evolution 15 12 1647 57 doi 10 1093 oxfordjournals molbev a025892 PMID 9866200 Tavare S PDF Lectures on Mathematics in the Life Sciences 17 57 86 Arhiv originalu PDF za 25 lyutogo 2009 Procitovano 12 kvitnya 2022 Yang Ziheng 2006 Computational molecular evolution Oxford Oxford University Press ISBN 978 1 4294 5951 8 OCLC 99664975 Yang Z July 1994 Estimating the pattern of nucleotide substitution Journal of Molecular Evolution 39 1 105 11 Bibcode 1994JMolE 39 105Y doi 10 1007 BF00178256 PMID 8064867 Swofford D L Olsen G J Waddell P J and Hillis D M 1996 Phylogenetic Inference In Hillis D M Moritz C and Mable B K Eds Molecular Systematics 2nd Edition Sinauer Associates Sunderland MA 407 514 ISBN 0878932828 ISBN 978 0878932825 Felsenstein Joseph 2004 Inferring phylogenies Sunderland Mass Sinauer Associates ISBN 0 87893 177 5 OCLC 52127769 1997 Arhiv originalu za 31 grudnya 2019 Procitovano 31 grudnya 2019 Felsenstein J November 1981 Evolutionary trees from DNA sequences a maximum likelihood approach Journal of Molecular Evolution 17 6 368 76 Bibcode 1981JMolE 17 368F doi 10 1007 BF01734359 PMID 7288891 Kimura M December 1980 A simple method for estimating evolutionary rates of base substitutions through comparative studies of nucleotide sequences Journal of Molecular Evolution 16 2 111 20 Bibcode 1980JMolE 16 111K doi 10 1007 BF01731581 PMID 7463489 Hasegawa M Kishino H Yano T October 1985 Dating of the human ape splitting by a molecular clock of mitochondrial DNA Journal of Molecular Evolution 22 2 160 74 Bibcode 1985JMolE 22 160H doi 10 1007 BF02101694 PMID 3934395 Kimura M January 1981 Estimation of evolutionary distances between homologous nucleotide sequences Proceedings of the National Academy of Sciences of the United States of America 78 1 454 8 Bibcode 1981PNAS 78 454K doi 10 1073 pnas 78 1 454 PMC 319072 PMID 6165991 Tamura K Nei M May 1993 Estimation of the number of nucleotide substitutions in the control region of mitochondrial DNA in humans and chimpanzees Molecular Biology and Evolution 10 3 512 26 doi 10 1093 oxfordjournals molbev a040023 PMID 8336541 Zharkikh A September 1994 Estimation of evolutionary distances between nucleotide sequences Journal of Molecular Evolution 39 3 315 29 Bibcode 1994JMolE 39 315Z doi 10 1007 BF00160155 PMID 7932793 Huelsenbeck JP Larget B Alfaro ME June 2004 Bayesian phylogenetic model selection using reversible jump Markov chain Monte Carlo Molecular Biology and Evolution 21 6 1123 33 doi 10 1093 molbev msh123 PMID 15034130 Yap VB Pachter L April 2004 Identification of evolutionary hotspots in the rodent genomes Genome Research 14 4 574 9 doi 10 1101 gr 1967904 PMC 383301 PMID 15059998 Susko E Roger AJ September 2007 On reduced amino acid alphabets for phylogenetic inference Molecular Biology and Evolution 24 9 2139 50 doi 10 1093 molbev msm144 PMID 17652333 Ponciano JM Burleigh JG Braun EL Taper ML December 2012 Assessing parameter identifiability in phylogenetic models using data cloning Systematic Biology 61 6 955 72 doi 10 1093 sysbio sys055 PMC 3478565 PMID 22649181 Whelan S Goldman N May 2001 A general empirical model of protein evolution derived from multiple protein families using a maximum likelihood approach Molecular Biology and Evolution 18 5 691 9 doi 10 1093 oxfordjournals molbev a003851 PMID 11319253 Braun EL July 2018 An evolutionary model motivated by physicochemical properties of amino acids reveals variation among proteins Bioinformatics 34 13 i350 i356 doi 10 1093 bioinformatics bty261 PMC 6022633 PMID 29950007 Goldman N Whelan S November 2002 A novel use of equilibrium frequencies in models of sequence evolution Molecular Biology and Evolution 19 11 1821 31 doi 10 1093 oxfordjournals molbev a004007 PMID 12411592 Kosiol C Holmes I Goldman N July 2007 An empirical codon model for protein sequence evolution Molecular Biology and Evolution 24 7 1464 79 doi 10 1093 molbev msm064 PMID 17400572 Tamura K July 1992 Estimation of the number of nucleotide substitutions when there are strong transition transversion and G C content biases Molecular Biology and Evolution 9 4 678 87 doi 10 1093 oxfordjournals molbev a040752 PMID 1630306 Halpern AL Bruno WJ July 1998 Evolutionary distances for protein coding sequences modeling site specific residue frequencies Molecular Biology and Evolution 15 7 910 7 doi 10 1093 oxfordjournals molbev a025995 PMID 9656490 Braun EL Kimball RT August 2002 Examining Basal avian divergences with mitochondrial sequences model complexity taxon sampling and sequence length Systematic Biology 51 4 614 25 doi 10 1080 10635150290102294 PMID 12228003 Phillips MJ Delsuc F Penny D July 2004 Genome scale phylogeny and the detection of systematic biases Molecular Biology and Evolution 21 7 1455 8 doi 10 1093 molbev msh137 PMID 15084674 Ishikawa SA Inagaki Y Hashimoto T January 2012 RY Coding and Non Homogeneous Models Can Ameliorate the Maximum Likelihood Inferences From Nucleotide Sequence Data with Parallel Compositional Heterogeneity Evolutionary Bioinformatics Online 8 357 71 doi 10 4137 EBO S9017 PMC 3394461 PMID 22798721 Simmons MP Ochoterena H June 2000 Gaps as characters in sequence based phylogenetic analyses Systematic Biology 49 2 369 81 doi 10 1093 sysbio 49 2 369 PMID 12118412 Yuri T Kimball RT Harshman J Bowie RC Braun MJ Chojnowski JL ta in March 2013 Parsimony and model based analyses of indels in avian nuclear genes reveal congruent and incongruent phylogenetic signals Biology 2 1 419 44 doi 10 3390 biology2010419 PMC 4009869 PMID 24832669 Houde P Braun EL Narula N Minjares U Mirarab S 6 lipnya 2019 Phylogenetic Signal of Indels and the Neoavian Radiation Diversity 11 7 108 doi 10 3390 d11070108 Cavender JA August 1978 Taxonomy with confidence Mathematical Biosciences angl 40 3 4 271 280 doi 10 1016 0025 5564 78 90089 5 Farris JS 1 veresnya 1973 Systematic Biology angl 22 3 250 256 doi 10 1093 sysbio 22 3 250 ISSN 1063 5157 Arhiv originalu za 20 sichnya 2022 Procitovano 12 kvitnya 2022 Neyman J Molecular studies of evolution A source of novel statistical problems In Molecular Studies of Evolution A Source of Novel Statistical Problems Gupta S S Yackel J Eds New York Academic Press New York NY USA 1971 pp 1 27 Waddell PJ Penny D Moore T August 1997 Hadamard conjugations and modeling sequence evolution with unequal rates across sites Molecular Phylogenetics and Evolution 8 1 33 50 doi 10 1006 mpev 1997 0405 PMID 9242594 A model of evolutionary change in proteins Atlas of Protein Sequence and Structure T 4 1969 s 75 84 A model of evolutionary change in proteins Atlas of Protein Sequence and Structure T 5 1978 s 345 352 Henikoff S Henikoff JG November 1992 Amino acid substitution matrices from protein blocks Proceedings of the National Academy of Sciences of the United States of America 89 22 10915 9 Bibcode 1992PNAS 8910915H doi 10 1073 pnas 89 22 10915 PMC 50453 PMID 1438297 Altschul SF March 1993 A protein alignment scoring system sensitive at all evolutionary distances Journal of Molecular Evolution 36 3 290 300 Bibcode 1993JMolE 36 290A doi 10 1007 BF00160485 PMID 8483166 Kishino Hirohisa Miyata Takashi Hasegawa Masami August 1990 Maximum likelihood inference of protein phylogeny and the origin of chloroplasts Journal of Molecular Evolution 31 2 151 160 Bibcode 1990JMolE 31 151K doi 10 1007 BF02109483 Kosiol C Goldman N February 2005 Different versions of the Dayhoff rate matrix Molecular Biology and Evolution 22 2 193 9 doi 10 1093 molbev msi005 PMID 15483331 Keane TM Creevey CJ Pentony MM Naughton TJ Mclnerney JO March 2006 Assessment of methods for amino acid matrix selection and their use on empirical data shows that ad hoc assumptions for choice of matrix are not justified BMC Evolutionary Biology 6 1 29 doi 10 1186 1471 2148 6 29 PMC 1435933 PMID 16563161 a href wiki D0 A8 D0 B0 D0 B1 D0 BB D0 BE D0 BD Cite journal title Shablon Cite journal cite journal a Obslugovuvannya CS1 Storinki iz nepoznachenim DOI z bezkoshtovnim dostupom posilannya Bigot T Guglielmini J Criscuolo A July 2019 Simulation data for the estimation of numerical constants for approximating pairwise evolutionary distances between amino acid sequences Data in Brief 25 104212 doi 10 1016 j dib 2019 104212 PMC 6699465 PMID 31440543 Gonnet GH Cohen MA Benner SA June 1992 Exhaustive matching of the entire protein sequence database Science 256 5062 1443 5 Bibcode 1992Sci 256 1443G doi 10 1126 science 1604319 PMID 1604319 Jones DT Taylor WR Thornton JM June 1992 The rapid generation of mutation data matrices from protein sequences Computer Applications in the Biosciences 8 3 275 82 doi 10 1093 bioinformatics 8 3 275 PMID 1633570 Le SQ Gascuel O July 2008 An improved general amino acid replacement matrix Molecular Biology and Evolution 25 7 1307 20 doi 10 1093 molbev msn067 PMID 18367465 Muller T Vingron M December 2000 Modeling amino acid replacement Journal of Computational Biology 7 6 761 76 doi 10 1089 10665270050514918 PMID 11382360 Veerassamy S Smith A Tillier ER December 2003 A transition probability model for amino acid substitutions from blocks Journal of Computational Biology 10 6 997 1010 doi 10 1089 106652703322756195 PMID 14980022 Tuffley C Steel M May 1997 Links between maximum likelihood and maximum parsimony under a simple model of site substitution Bulletin of Mathematical Biology 59 3 581 607 doi 10 1007 bf02459467 PMID 9172826 Holder MT Lewis PO Swofford DL July 2010 The akaike information criterion will not choose the no common mechanism model Systematic Biology 59 4 477 85 doi 10 1093 sysbio syq028 PMID 20547783 A good model for phylogenetic inference must be rich enough to deal with sources of noise in the data but ML estimation conducted using models that are clearly overparameterized can lead to drastically wrong conclusions The NCM model certainly falls in the realm of being too parameter rich to serve as a justification of the use of parsimony based on it being an ML estimator under a general model