Прихо́вана ма́рковська моде́ль, ПММ (англ. hidden Markov model, HMM) — це статистична марковська модель, у якій система, що моделюється, розглядається як марковський процес із неспостережуваними (прихованими) станами. ПММ може бути представлено як найпростішу динамічну баєсову мережу. Математичний апарат для ПММ було розроблено [en] зі співробітниками. Він тісно пов'язаний з більш ранньою працею про оптимальну нелінійну [en] Руслана Стратоновича, який першим описав [en].
У простіших марковських моделях (таких як ланцюги Маркова) стан є безпосередньо видимим спостерігачеві, і тому ймовірності переходу станів є єдиними параметрами. У прихованій марковській моделі стан не є видимим безпосередньо, але вихід, залежний від стану, видимим є. Кожен стан має ймовірнісний розподіл усіх можливих вихідних значень. Отже, послідовність символів, згенерована ПММ, дає якусь інформацію про послідовність станів. Прикметник «прихований» стосується послідовності станів, якою проходить модель, а не параметрів моделі; модель все одно називають «прихованою» марковською моделлю, навіть якщо ці параметри відомі точно.
Приховані марковські моделі відомі в першу чергу завдяки їхньому застосуванню в розпізнаванні часових шаблонів, таких як розпізнавання мовлення, рукописного введення, [en], морфологічної розмітки, мелодій для акомпонуваня, [en] та в біоінформатиці.
Приховані марковські моделі можуть розглядатися як узагальнення [en], де приховані (або латентні) змінні, що контролюють, яка складова суміші обиратиметься для кожного спостереження, пов'язані марковським процесом, а не є незалежними одна від одної. Нещодавно приховані марковські моделі було узагальнено до подвійних марковських моделей (англ. pairwise Markov models) та триплетних марковських моделей (англ. triplet Markov models), що дозволяє розглядати складніші структури даних та моделювати нестаціонарні дані.
Опис у термінах урн
У своїй дискретній формі прихований марковський процес може бути представлено як узагальнення [en] із поверненням (де кожен елемент з урни перед наступним кроком повертається до своєї урни). Розгляньмо цей приклад. У невидимій для спостерігача кімнаті знаходиться джин. Кімната містить урни X1, X2, X3, … кожна з яких містить відому суміш куль, кожну кулю позначено як y1, y2, y3, … . Джин обирає урну в цій кімнаті, та витягує випадкову кулю з цієї урни. Потім він кладе цю кулю на конвеєрну стрічку, на якій спостерігач може бачити послідовність куль, але не послідовність урн, з яких їх було витягнуто. Джин має певну процедуру для обирання урн; вибір урни для n-тої кулі залежить лише від випадкового числа та вибору урни для (n − 1)-ї кулі. Вибір урни не залежить безпосередньо від урн, обраних перед цією однією попередньою урною; отже, це називається марковським процесом. Його може бути зображено верхньою частиною малюнку 1.
Самого марковського процесу не видно, лише послідовність позначених куль, тому цей механізм називатися «прихованим марковським процесом». Це проілюстровано нижньою частиною діаграми, зображеної на малюнку 1, де можна бачити, що кулі y1, y2, y3, y4 може бути витягнуто у кожному стані. Навіть якщо спостерігач знає вміст урн, і щойно побачив на конвеєрній стрічці послідовність трьох куль, наприклад, y1, y2 та y3, він все ще не може бути впевненим з якої урни (тобто, в якому стані) джин витягнув третю кулю. Однак, спостерігач може опрацювати іншу інформацію, таку як ймовірність того, що третю кулю було витягнуто з кожної з урн.
Архітектура
Діаграма нижче показує загальну архітектуру прикладу ПММ. Кожен овал представляє випадкову змінну, що може приймати будь-яке число значень. Випадкова змінна x(t) є прихованим станом у момент часу t (у моделі з діаграми вище x(t) ∈ { x1, x2, x3 }). Випадкова змінна y(t) є спостереженням у момент часу t (де y(t) ∈ { y1, y2, y3, y4 }). Стрілки у цій діаграмі (що часто називають [en]) позначають ймовірнісні залежності.
З цієї діаграми видно, що умовний розподіл прихованої змінної x(t) у момент часу t, якщо дано значення прихованої змінної x в усі моменти часу, залежить лише від значення прихованої змінної x(t − 1): значення у момент часу t − 2 та раніші не мають впливу. Це називається марковською властивістю. Так само, значення спостережуваної змінної y(t) залежить лише від значення прихованої змінної x(t) (у той же момент часу t).
У стандартному типі прихованої марковської моделі, що тут розглядається, простір станів прихованих змінних є дискретним, тоді як самі спостереження можуть бути або дискретними (що зазвичай генеруються з категорійного розподілу) або неперервними (зазвичай з нормального розподілу). Параметри прихованої марковської моделі належать до двох типів, ймовірності переходів та ймовірності виходів. Ймовірності переходів керують тим, яким чином прихований стан у момент часу t обирається на підставі прихованого стану в момент часу .
Вважається, що простір прихованих станів складається з одного з N можливих значень, змодельований як категорійний розподіл. (Див. розділ нижче про розширення для інших можливостей.) Це означає, що для кожного з N можливих станів, у якому прихована змінна може бути в момент часу t, є ймовірність переходу з цього стану до кожного з N можливих станів прихованої змінної в момент часу , загалом ймовірностей переходів. Зауважте, що набір ймовірностей переходів для переходів з будь-якого заданого стану мусить в сумі дорівнювати 1. Отже, матриця ймовірностей переходів є марковською матрицею. Оскільки будь-яку одну ймовірність переходу може бути визначено, коли відомо решту, загальна кількість параметрів переходу складає .
До того ж, для кожного з N можливих станів є набір ймовірностей виходів, що керує розподілом спостережуваної змінної у певний момент часу для заданого стану прихованої змінної в цей момент часу. Розмір цього набору залежить від природи спостережуваної змінної. Наприклад, якщо спостережувана змінна є дискретною з M можливих значень, що регулюються категорійним розподілом, то буде окремих параметрів, загальним числом параметрів виходу для всіх прихованих станів. З іншого боку, якщо спостережувана змінна є M-мірним вектором з розподілом відповідно до довільного багатовимірного нормального розподілу, то буде M параметрів, що контролюють середні, та параметрів, що контролюють коваріаційну матрицю, загальним числом параметрів виходу. (В такому випадку, якщо значення M не є малим, може бути зручніше обмежити природу коваріацій між індивідуальними елементами вектора спостережень, наприклад, припустивши, що елементи не залежать один від одного, або, менш обмежуюче, не залежать від всіх, крім фіксованого числа сусідніх елементів.)
Висновування
З прихованими марковськими моделями пов'язані деякі задачі висновування, як окреслено нижче.
Ймовірність спостережуваної послідовності
Задача полягає в обчисленні найкращим чином, при заданих параметрах моделі, ймовірності певної вихідної послідовності. Це вимагає сумування за всіма можливими послідовностями станів:
Ймовірність спостереження послідовності
довжиною L задається формулою
де сума пробігає усіма можливими послідовностями прихованих вузлів
При застосуванні принципу динамічного програмування ця задача також може розв'язуватися ефективно з використанням [en].
Імовірність латентних змінних
Ряд пов'язаних задач про ймовірність однієї або більше латентних змінних при заданих параметрах моделі та послідовності спостережень
Фільтрування
Задача полягає в обчисленні, при заданих параметрах моделі та послідовності спостережень, розподілу над прихованими станами останньої латентної змінної в кінці послідовності, тобто в обчисленні . Ця задача зазвичай застосовується, коли послідовність латентних змінних розглядається як базові стані, якими проходить процес у послідовності моментів часу, із відповідними спостереженнями у кожен момент часу. Тоді природно спитати про стан процесу в кінці.
Ця задача може ефективно розв'язуватися із застосуванням [en].
Згладжування
Ця задача схожа на фільтрування, але в ній питається про розподіл латентної змінної десь у середині послідовності, тобто, потрібно обчислити для деякого . З огляду на описане вище, це може розглядатися як розподіл ймовірностей над прихованими станами для моменту часу k у минулому, по відношенню до часу t.
Ефективним методом обчислення згладжених значень для всіх змінних прихованого стану є [en].
Найбільш правдоподібне пояснення
У цій задачі, на відміну від двох попередніх, питається про спільну ймовірність всієї послідовності прихованих станів, що згенерувала певну послідовність спостережень (див. ілюстрацію праворуч). Ця задача, як правило, можна застосовувати тоді, коли ПММ застосовується до різних типів проблем з тих, для яких застосовуються задачі фільтрування та згладжування. Прикладом є морфологічна розмітка, де приховані стани представляють гадані частини мови, що відповідають спостережуваній послідовності слів. У цьому випадку інтерес становить повна послідовність частин мови, а не просто частина мови для одного слова, що її обчислювали би фільтрування чи згладжування.
Задача вимагає знаходження максимуму над усіма можливими послідовностями станів, і може ефективно розв'язуватися алгоритмом Вітербі.
Статистична значущість
Для деяких із наведених вище задач може бути цікаво спитати про статистичну значущість. Якою є ймовірність того, що послідовність, витягнута з якогось [en], матиме ПММ-ймовірність (у випадку послідовного алгоритму) або максимальну ймовірність послідовності станів (у випадку алгоритму Вітербі), не меншу за таку ймовірність певної послідовності? Коли ПММ використовується для оцінювання доречності гіпотези для певної послідовності виходу, статистична значимість показує рівень похибки першого роду, пов'язаною зі слабкістю можливості спростування цієї гіпотези для цієї послідовності виходу.
Конкретний приклад
Розгляньмо двох приятелів, Алісу та Боба, які живуть далеко один від одного, і які щодня спілкуються телефоном про те, що вони робили цього дня. Боб цікавиться лише трьома заняттями: гулянням в парку, купівлями та прибиранням своєї квартири. Вибір, чим зайнятися, визначається виключно погодою цього дня. Аліса не має чіткої інформації про погоду в місці проживання Боба, але вона знає загальні тенденції. На підставі того, що Боб каже їй про те, що він робив кожного дня, Аліса намагається вгадати, якою, швидше за все, була погода.
Аліса вважає, що погода діє, як дискретний марковський ланцюг. Є два стани, «Сонячно» та «Дощ», але вона не може спостерігати їх безпосередньо, тобто, вони приховані від неї. Кожного дня є певний шанс, що Боб займатиметься одним із наступних занять, в залежності від погоди: «гуляння», «купівлі» та «прибирання». Оскільки Боб каже Алісі про свої заняття, вони є спостереженнями. Вся система в цілому є тим же, що й прихована марковська модель (ПММ).
Аліса знає загальні тенденції погоди в тій місцевості, і що Боб любить робити в середньому. Іншими словами, параметри ПММ відомі. Їх можна представити мовою програмування Python наступним чином:
# стани states = ('Дощ', 'Сонячно') # спостереження observations = ('гуляння', 'купівлі', 'прибирання') # початкова ймовірність start_probability = {'Дощ': 0.6, 'Сонячно': 0.4} # ймовірність переходу transition_probability = { 'Дощ' : {'Дощ': 0.7, 'Сонячно': 0.3}, 'Сонячно' : {'Дощ': 0.4, 'Сонячно': 0.6}, } # ймовірність виходу emission_probability = { 'Дощ' : {'гуляння': 0.1, 'купівлі': 0.4, 'прибирання': 0.5}, 'Сонячно' : {'гуляння': 0.6, 'купівлі': 0.3, 'прибирання': 0.1}, }
У цьому фрагменті коду start_probability
представляє думку Аліси про те, в якому стані знаходиться ПММ, коли Боб телефонує їй вперше (все, що вона знає, це те, що там зазвичай дощить). Конкретний розподіл ймовірності, що тут використовується, не є рівноважним, що є (при заданих ймовірностях переходів) приблизно {'Дощ': 0.57, 'Сонячно': 0.43}
. transition_probability
представляє зміну погоди в основному марковському ланцюгові. У цьому прикладі є лише 30% шансів, що завтра буде сонячно, якщо сьогодні дощить. emission_probability
представляє, наскільки ймовірно Боб займатиметься певною справою за кожної погоди. Якщо дощить, є ймовірність 50%, що він прибиратиме у квартирі; якщо сонячно, є ймовірність 60%, що він гуляє надворі.
Подібний приклад розбирається далі на сторінці Viterbi algorithm.
Навчання
Задача навчання параметрів у ПММ полягає в знаходженні для заданої послідовності виходів або набору таких послідовностей найкращого набору ймовірностей переходів станів та виходів. Ця задача зазвичай полягає у виведенні оцінки максимальної правдоподібності цих параметрів ПММ для заданого набору послідовностей виходів. Не відомо жодного легкорозв'язного алгоритму для точного розв'язання цієї задачі, але локальну максимальну правдоподібність може бути дієво виведено із застосуванням Алгоритма Баума — Велша або алгоритму Бальді — Шовена. Алгоритм Баума — Велша є окремим випадком алгоритму очікування-максимізації.
Математичний опис
Загальний опис
Базову (не баєсову) приховану марковську модель може бути описано таким чином:
кількість станів | ||||||
кількість спостережень | ||||||
параметр виходу для спостереження, пов'язаного зі станом | ||||||
ймовірність переходу зі стану до стану | ||||||
-мірний вектор, що складається з ; в сумі має дорівнювати , рядок матриці | ||||||
(прихований) стан у момент часу | ||||||
спостереження в момент часу | ||||||
розподіл ймовірностей спостережень, параметризований за | ||||||
Зауважте що в наведеній вище моделі (а також і в наведеній нижче), апріорний розподіл початкового стану не вказано. Типові моделі навчання відповідають припусканню дискретного рівномірного розподілу можливих станів (тобто, припускається відсутність певного апріорного розподілу).
У баєсовому варіанті всі параметри пов'язано з випадковими змінними, а саме:
як вище | ||||||
як вище | ||||||
як вище | ||||||
спільний гіперпараметр для параметрів виходу | ||||||
спільний гіперпараметр для параметрів переходу | ||||||
апріорний розподіл ймовірності параметрів виходу, параметризований за | ||||||
Ці описи використовують та для опису довільних розподілів над спостереженнями та параметрами відповідно. Зазвичай буде спряженим апріорним розподілом . Двома найпоширенішими варіантами є нормальний та категорійний розподіли; див. нижче.
У порівнянні з простою сумішевою моделлю
Як зазначено вище, розподіл кожного спостереження у прихованій марковській моделі є сумішевою щільністю, де стани відповідають складовим суміші. Корисно порівняти наведені вище описи ПММ з відповідними характеристиками [en], використовуючи той самий запис.
Небаєсова сумішева модель:
кількість складових суміші | ||||||
кількість спостережень | ||||||
параметр розподілу спостереження, пов'язаний зі складовою | ||||||
сумішева вага, тобто, апріорна ймовірність складової | ||||||
-мірний вектор, що складається з ; в сумі має дорівнювати 1 | ||||||
складова спостереження | ||||||
спостереження | ||||||
розподіл ймовірності спостереження, параметризований за | ||||||
Баєсова сумішева модель:
як вище | ||||||
як вище | ||||||
як вище | ||||||
спільний гіперпараметр для параметрів складових | ||||||
спільний гіперпараметр для сумішевих ваг | ||||||
апріорний розподіл ймовірності параметрів складових, параметризований за | ||||||
Приклади
Наступні математичні описи повністю розписано та пояснено для полегшення втілення.
Типова небаєсова ПММ з нормальним розподілом спостережень виглядає так:
кількість станів | ||||||
кількість спостережень | ||||||
ймовірність переходу зі стану до стану | ||||||
-мірний вектор, що складається з ; в сумі має дорівнювати 1 | ||||||
середнє спостережень, пов'язане зі станом | ||||||
дисперсія спостережень, пов'язана зі станом | ||||||
стан спостереження у момент часу | ||||||
спостереження у момент часу | ||||||
Типова баєсова ПММ з нормальним розподілом спостережень виглядає так:
кількість станів | ||||||
кількість спостережень | ||||||
ймовірність переходу зі стану до стану | ||||||
-мірний вектор, що складається з ; в сумі має дорівнювати 1 | ||||||
середнє спостережень, пов'язане зі станом | ||||||
дисперсія спостережень, пов'язана зі станом | ||||||
стан спостереження у момент часу | ||||||
спостереження у момент часу | ||||||
гіперпараметр концентрації, що контролює щільність матриці переходу | ||||||
спільні гіперпараметри для середніх для кожного стану | ||||||
спільні гіперпараметри для дисперсій для кожного стану | ||||||
Типова небаєсова ПММ з категорійними спостереженнями виглядає так:
кількість станів | ||||||
кількість спостережень | ||||||
ймовірність переходу зі стану до стану | ||||||
-мірний вектор, що складається з ; в сумі має дорівнювати 1 | ||||||
розмірність категорійних спостережень, наприклад, розмір словника | ||||||
ймовірність спостереження -того елементу в стані | ||||||
-мірний вектор, що складається з ; в сумі має дорівнювати 1 | ||||||
стан спостереження у момент часу | ||||||
спостереження у момент часу | ||||||
Типова баєсова ПММ з категорійними спостереженнями виглядає так:
кількість станів | ||||||
кількість спостережень | ||||||
ймовірність переходу зі стану до стану | ||||||
-мірний вектор, що складається з ; в сумі має дорівнювати 1 | ||||||
розмірність категорійних спостережень, наприклад, розмір словника | ||||||
ймовірність спостереження -того елементу в стані | ||||||
-мірний вектор, що складається з ; в сумі має дорівнювати 1 | ||||||
стан спостереження у момент часу | ||||||
спостереження у момент часу | ||||||
спільний гіперпараметр концентрації для кожного стану | ||||||
гіперпараметр концентрації, що контролює щільність матриці переходу | ||||||
Зауважте, що в наведених вище баєсових описах ([en]) контролює щільність матриці переходу. Тобто, при високому значенні (значно більше 1) ймовірності, що контролюють перехід з певного конкретного стану, будуть схожими між собою, що означає, що буде суттєва ймовірність переходу до будь-якого іншого стану. Іншими словами, шлях, пройдений ланцюгом Маркова прихованими станами, буде сильно випадковим. При низькому значенні (значно менше 1) лише мала кількість можливих переходів з певного заданого стану матиме значну ймовірність, що означає, що шлях, пройдений прихованими станами, буде до деякої міри передбачуваним.
Дворівнева баєсова ПММ
Альтернативою двох до наведених вище баєсових прикладів буде додавання до матриці переходу додаткового рівня апріорних параметрів. Тобто, замінити рядки
гіперпараметр концентрації, що контролює щільність матриці переходу | ||||||
наступними:
гіперпараметр концентрації, що контролює, як багато станів є притаманно ймовірними | ||||||
гіперпараметр концентрації, що контролює щільність матриці переходу | ||||||
-мірний вектор ймовірностей, що визначає притаманну ймовірність заданого стану | ||||||
Це означає наступне:
- є розподілом ймовірностей станів, що визначає, які стани є притаманно ймовірними. Що більшою є ймовірність заданого стану в цьому векторі, то більшою є ймовірність переходу до цього стану (незалежно від початкового стану).
- контролює щільність . Значення, значно більші за 1, призводять до такого вектора щільності, в якому всі стани мають схожі апріорні ймовірності. Значення, значно менші за 1, призводять до розрідженого вектора, де лише деякі стани притаманно ймовірні (мають апріорні ймовірності значно більше 0).
- контролює щільність матриці переходу, або, конкретніше, щільність різних векторів ймовірності , що визначають ймовірність переходів зі стану до будь-якого іншого стану.
Уявіть, що значення є значно більшим за 1. Тоді різні вектори будуть щільними, тобто, масу ймовірності буде розкидано досить порівну між всіма станами. Однак, в тій мірі, в якій цю масу розкидано нерівномірно, контролює, які стани ймовірніше отримають більше маси за інші.
Тепер замість цього уявіть, що є значно меншим за 1. Це зробить вектори розрідженими, тобто, майже всю масу ймовірності розподілено між невеликою кількістю станів, а щодо решти, то перехід до таких станів буде вельми малоймовірним. Зверніть увагу, що є різні вектори для кожного з початкових станів, і отже, навіть якщо всі вектори є розрідженими, різні вектори можуть перерозподіляти масу до різних кінцевих станів. Однак, для всіх векторів контролює, які кінцеві стани ймовірніше отримають призначення маси собі. Наприклад, якщо дорівнює 0.1, то кожен буде розрідженим, і, для будь-якого заданого початкового стану множина станів , переходи до яких будуть ймовірними, буде дуже маленькою, зазвичай з одним або двома елементами. Тепер, якщо ймовірності в є всі однаковими (або, рівноцінно, використовується одна з наведених вище моделей без ), то для різних будуть різні стани у відповідних , так що всі стани матимуть однакову ймовірність опинитися у довільно взятому . З іншого боку, якщо значення у є незбалансованими, так що один стан має значно більшу ймовірність за інші, то майже всі міститимуть цей стан; отже, незалежно від початкового стану, переходи майже завжди вестимуть до цього заданого стану.
Отже, така дворівнева модель, якщо щойно описано, дає можливість незалежного контролю над (1) загальною щільністю матриці переходів та (2) щільністю станів, переходи до яких є ймовірними (тобто, щільністю апріорного розподілу станів у будь-якій окремій прихованій змінній ). В обох випадках це робиться із збереженням припущення про невідомість того, які конкретні стани є ймовірнішими за інші. Якщо є бажання ввести цю інформацію до моделі, то можна безпосередньо задати вектор ймовірності ; або, якщо немає такої впевненості про ці відносні ймовірності, як апріорний розподіл над може бути використано несиметричний розподіл Діріхле. Тобто, замість використання симетричного розподілу Діріхле з єдиним параметром (або, рівноцінно, звичайного Діріхле з вектором, чиї значення всі дорівнюють ), використовувати звичайний Діріхле зі значеннями, що є по-різному більшими або меншими за , відповідно до того, якому станові віддається більше або менше переваги.
Пуассонівська прихована марковська модель
Пуассонівські приховані марковські моделі (ППММ, англ. Poisson hidden Markov models, PHMM) — це особливі випадки прихованих марковських моделей, в яких пуассонівський процес має темп, що варіюється у зв'язку зі змінами станів марковської моделі. ППММ самі по собі не обов'язково є марковськими процесами, оскільки марковський ланцюг або марковський процес, що лежить в основі, спостерігати неможливо, а можливо спостерігати лише пуассонівський сигнал.
Застосування
ПММ можуть застосовуватися у багатьох сферах, де метою є виявлення послідовності даних, що не є безпосередньо спостережуваною (але інші дані, що залежать від цієї послідовності, є). До застосування входять:
- Кінетичний аналіз однієї молекули
- Криптоаналіз
- Розпізнавання мовлення
- Синтез мовлення
- Розмічування частин мови
- Розділення документів у рішеннях для сканування
- Машинний переклад
- [en]
- [en]
- Вирівнювання біопослідовностей
- Аналіз часових рядів
- [en]
- Згортання білків
- Виявлення метаморфних вірусів
- Виявлення [en] ДНК
Історія
Послідовну та зворотню рекурсії, що використовуються у ПММ, так само як і розрахунки відособлених згладжувальних ймовірностей, було описано вперше Русланом Стратоновичем у 1960 році (сторінки 160–162) та у пізніх 1950-х у його працях російською. Приховані марковські моделі було пізніше описано в низці статистичних робіт [en] та інших авторів у другій половині 1960-х. Одним з перших застосувань ПММ було розпізнавання мовлення, починаючи з середини 1970-х.
У другій половині 1980-х ПММ почали застосовуватися до аналізу біологічних послідовностей, зокрема, ДНК. Відтоді у сфері біоінформатики вони стали всюдисущими.
Типи
Приховані марковські моделі можуть моделювати складні марковські процеси, де стани видають спостереження відповідно до якогось розподілу ймовірностей. Одним з таких прикладів є нормальний розподіл, у такій прихованій марковській моделі вихід станів представлено нормальним розподілом.
Крім того, вони можуть представляти ще складнішу поведінку, коли вихід станів представлено сумішшю двох або більше нормальних розподілів, у такому випадку ймовірність генерації спостереження є добутком ймовірності спочатку вибору одного з нормальних розподілів, і ймовірності генерації цього спостереження з цього нормального розподілу.
Розширення
У розглянутих вище прихованих марковських моделях простір станів прихованих змінних є дискретним, тоді як самі спостереження можуть бути або дискретними (зазвичай згенерованими з категорійного розподілу), або неперервним (зазвичай з нормального розподілу). Приховані марковські моделі також може бути узагальнено, щоби дозволяти неперервні простори станів. Прикладами таких моделей є ті, де марковський процес над прихованими змінними є лінійною динамічною системою з лінійним зв'язком між пов'язаними змінними, і де всі приховані й спостережувані змінні слідують нормальному розподілові. В простих випадках, таких як щойно зазначені лінійні динамічні системи, точне висновування є легкорозв'язним (у цьому випадку з використанням фільтру Калмана); однак у загальному випадку точне висновування в ПММ з неперервними латентними змінними є нездійсненним, і можуть застосовуватися наближені методи, такі як розширений фільтр Калмана або [en].
Приховані марковські моделі є породжувальними моделями, в яких моделюється спільний розподіл спостережень та прихованих станів, або, еквівалентно, як апріорний розподіл прихованих станів (ймовірності переходу), так і умовний розподіл спостережень для заданих станів (ймовірності виходу). Наведені вище алгоритми неявно припускають рівномірний апріорний розподіл ймовірностей переходу. Однак, також можливо створити приховані марковські моделі з іншими типами апріорних розподілів. Очевидним кандидатом, при категорійному розподілі ймовірностей переходу, є розподіл Діріхле, що є спряженим апріорним розподілом категорійного розподілу. Зазвичай обирається симетричний розподіл Діріхле, що відображає незнання того, які стани є притаманно ймовірнішими за інші. Єдиний параметр цього розподілу (що називається параметром концентрації) контролює відносну щільність або розрідженість отримуваної матриці переходу. Вибір 1 породжує рівномірний розподіл. Значення, більші за 1, породжують щільну матрицю, в якій імовірності переходів між парами станів, ймовірно, будуть майже рівними. Значення, менші за 1, породжують розріджену матрицю, в якій для кожного заданого початкового стану лише невелика кількість кінцевих станів має не незначні ймовірності переходу. Також можливе використання дворівневого апріорного розподілу Діріхле, в якому один розподіл Діріхле (верхній розподіл) керує параметрами іншого розподілу Діріхле (нижнього розподілу), який, у свою чергу, керує ймовірностями переходу. Верхній розподіл керує загальним розподілом станів, визначаючи, наскільки ймовірно для кожного стану, що він трапиться; його концентраційний параметр визначає щільність або розрідженість станів. Такий дворівневий апріорний розподіл, де обидва концентраційні параметри встановлено на породження розріджених розподілів, можуть бути корисними, наприклад, у некерованій морфологічній розмітці, де деякі частини мови трапляються значно частіше за інші; алгоритми навчання, що припускають рівномірний апріорний розподіл, загалом погано працюють з цією задачею. Параметри моделей такого роду, з нерівномірними апріорними розподілами, можуть отримуватися [en] або розширеними версіями алгоритму очікування-максимізації.
Розширення описаних вище прихованих марковських моделей з апріорними Діріхле використовує [en] замість розподілу Діріхле. Цей тип моделей дозволяє невідому, і потенційно нескінченну кількість станів. Загальноприйнято використовувати дворівневий процес Діріхле, подібно до описаної вище моделі з двома рівнями розподілів Діріхле. Така модель називається прихованою марковською моделлю з ієрархічним процесом Діріхле (ПММ-ІПД, англ. hierarchical Dirichlet process hidden Markov model, HDP-HMM). Початково її було описано під назвою «Нескінченна прихована марковська модель» і було формалізовано далі у .
Інший тип розширень використовує розрізнювальну модель замість породжувальної моделі стандартної ПММ. Цей тип моделі моделює безпосередньо умовний розподіл прихованих станів при заданих спостереженнях, замість моделювання спільного розподілу. Прикладом цієї моделі є так звана [en] (МММЕ, англ. maximum entropy Markov model, MEMM), що моделює умовний розподіл станів за допомогою логістичної регресії (відома також як «модель [en]»). Перевагою цього типу моделі є те, що вона дозволяє моделювати довільні властивості (тобто, функції) спостережень, що дозволяє введення до моделі предметно-орієнтованого знання задачі, яке є під руками. Моделі цього роду не обмежені моделюванням прямих залежностей між прихованими станами та пов'язаними з ними спостереженнями; швидше, для визначення значення прихованого стану до процесу можуть включатися властивості близьких спостережень, комбінацій пов'язаного спостереження і близьких спостережень, або факти довільних спостережень на будь-якій відстані від заданого прихованого стану. До того ж, не потрібно, щоби ці властивості були статистично незалежними одна від одної, як було би у випадку, якби такі властивості використовувалися у породжувальній моделі. Насамкінець, можуть використовуватися довільні властивості над парами суміжних прихованих станів, а не лише ймовірності переходів. Недоліками таких моделей є: (1) Типи апріорних розподілів, що може бути встановлено над прихованими станами, суворо обмежено; (2) Неможливо передрікти ймовірність побачити певне спостереження. Це друге обмеження часто не є проблемою на практиці, оскільки багато звичайних застосувань ПММ не вимагають таких передбачувальних можливостей.
Варіантом описаної вище розрізнювальної моделі є нерозгалужена умовна мережа (англ. linear-chain conditional random field). Вона використовує неспрямовану графічну модель (відому як марковська мережа) замість спрямованих графічних моделей марковської моделі максимальної ентропії, та подібних моделей. Перевагою цього типу моделей є те, що він не страждає від так званої проблеми міткової схильності (англ. label bias) марковських моделей максимальної ентропії, і тому може робити точніші передбачення. Недоліком є те, що навчання може бути повільнішим, ніж в марковських моделях максимальної ентропії.
Ще одним варіантом є факторіальна прихована марковська модель (англ. factorial hidden Markov model), що дозволяє єдиному спостереженню бути обумовленим відповідними прихованими змінними набору незалежних марковських ланцюгів, а не єдиного марковського ланцюга. Це еквівалентно єдиній ПММ з станів (за припущення, що кожен ланцюг має станів), і тому навчання такої моделі є складним: для послідовності довжиною прямолінійний алгор
Вікіпедія, Українська, Україна, книга, книги, бібліотека, стаття, читати, завантажити, безкоштовно, безкоштовно завантажити, mp3, відео, mp4, 3gp, jpg, jpeg, gif, png, малюнок, музика, пісня, фільм, книга, гра, ігри, мобільний, телефон, android, ios, apple, мобільний телефон, samsung, iphone, xiomi, xiaomi, redmi, honor, oppo, nokia, sonya, mi, ПК, web, Інтернет
Priho vana ma rkovska mode l PMM angl hidden Markov model HMM ce statistichna markovska model u yakij sistema sho modelyuyetsya rozglyadayetsya yak markovskij proces iz nesposterezhuvanimi prihovanimi stanami PMM mozhe buti predstavleno yak najprostishu dinamichnu bayesovu merezhu Matematichnij aparat dlya PMM bulo rozrobleno en zi spivrobitnikami Vin tisno pov yazanij z bilsh rannoyu praceyu pro optimalnu nelinijnu en Ruslana Stratonovicha yakij pershim opisav en U prostishih markovskih modelyah takih yak lancyugi Markova stan ye bezposeredno vidimim sposterigachevi i tomu jmovirnosti perehodu staniv ye yedinimi parametrami U prihovanij markovskij modeli stan ne ye vidimim bezposeredno ale vihid zalezhnij vid stanu vidimim ye Kozhen stan maye jmovirnisnij rozpodil usih mozhlivih vihidnih znachen Otzhe poslidovnist simvoliv zgenerovana PMM daye yakus informaciyu pro poslidovnist staniv Prikmetnik prihovanij stosuyetsya poslidovnosti staniv yakoyu prohodit model a ne parametriv modeli model vse odno nazivayut prihovanoyu markovskoyu modellyu navit yaksho ci parametri vidomi tochno Prihovani markovski modeli vidomi v pershu chergu zavdyaki yihnomu zastosuvannyu v rozpiznavanni chasovih shabloniv takih yak rozpiznavannya movlennya rukopisnogo vvedennya en morfologichnoyi rozmitki melodij dlya akomponuvanya en ta v bioinformatici Prihovani markovski modeli mozhut rozglyadatisya yak uzagalnennya en de prihovani abo latentni zminni sho kontrolyuyut yaka skladova sumishi obiratimetsya dlya kozhnogo sposterezhennya pov yazani markovskim procesom a ne ye nezalezhnimi odna vid odnoyi Neshodavno prihovani markovski modeli bulo uzagalneno do podvijnih markovskih modelej angl pairwise Markov models ta tripletnih markovskih modelej angl triplet Markov models sho dozvolyaye rozglyadati skladnishi strukturi danih ta modelyuvati nestacionarni dani Opis u terminah urnMalyunok 1 Jmovirnisni parametri prihovanoyi markovskoyi modeli priklad X stani y mozhlivi sposterezhennya a jmovirnosti perehodiv staniv b jmovirnosti vihodiv U svoyij diskretnij formi prihovanij markovskij proces mozhe buti predstavleno yak uzagalnennya en iz povernennyam de kozhen element z urni pered nastupnim krokom povertayetsya do svoyeyi urni Rozglyanmo cej priklad U nevidimij dlya sposterigacha kimnati znahoditsya dzhin Kimnata mistit urni X1 X2 X3 kozhna z yakih mistit vidomu sumish kul kozhnu kulyu poznacheno yak y1 y2 y3 Dzhin obiraye urnu v cij kimnati ta vityaguye vipadkovu kulyu z ciyeyi urni Potim vin klade cyu kulyu na konveyernu strichku na yakij sposterigach mozhe bachiti poslidovnist kul ale ne poslidovnist urn z yakih yih bulo vityagnuto Dzhin maye pevnu proceduru dlya obirannya urn vibir urni dlya n toyi kuli zalezhit lishe vid vipadkovogo chisla ta viboru urni dlya n 1 yi kuli Vibir urni ne zalezhit bezposeredno vid urn obranih pered ciyeyu odniyeyu poperednoyu urnoyu otzhe ce nazivayetsya markovskim procesom Jogo mozhe buti zobrazheno verhnoyu chastinoyu malyunku 1 Samogo markovskogo procesu ne vidno lishe poslidovnist poznachenih kul tomu cej mehanizm nazivatisya prihovanim markovskim procesom Ce proilyustrovano nizhnoyu chastinoyu diagrami zobrazhenoyi na malyunku 1 de mozhna bachiti sho kuli y1 y2 y3 y4 mozhe buti vityagnuto u kozhnomu stani Navit yaksho sposterigach znaye vmist urn i shojno pobachiv na konveyernij strichci poslidovnist troh kul napriklad y1 y2 ta y3 vin vse she ne mozhe buti vpevnenim z yakoyi urni tobto v yakomu stani dzhin vityagnuv tretyu kulyu Odnak sposterigach mozhe opracyuvati inshu informaciyu taku yak jmovirnist togo sho tretyu kulyu bulo vityagnuto z kozhnoyi z urn ArhitekturaDiagrama nizhche pokazuye zagalnu arhitekturu prikladu PMM Kozhen oval predstavlyaye vipadkovu zminnu sho mozhe prijmati bud yake chislo znachen Vipadkova zminna x t ye prihovanim stanom u moment chasu t u modeli z diagrami vishe x t x1 x2 x3 Vipadkova zminna y t ye sposterezhennyam u moment chasu t de y t y1 y2 y3 y4 Strilki u cij diagrami sho chasto nazivayut en poznachayut jmovirnisni zalezhnosti Z ciyeyi diagrami vidno sho umovnij rozpodil prihovanoyi zminnoyi x t u moment chasu t yaksho dano znachennya prihovanoyi zminnoyi x v usi momenti chasu zalezhit lishe vid znachennya prihovanoyi zminnoyi x t 1 znachennya u moment chasu t 2 ta ranishi ne mayut vplivu Ce nazivayetsya markovskoyu vlastivistyu Tak samo znachennya sposterezhuvanoyi zminnoyi y t zalezhit lishe vid znachennya prihovanoyi zminnoyi x t u toj zhe moment chasu t U standartnomu tipi prihovanoyi markovskoyi modeli sho tut rozglyadayetsya prostir staniv prihovanih zminnih ye diskretnim todi yak sami sposterezhennya mozhut buti abo diskretnimi sho zazvichaj generuyutsya z kategorijnogo rozpodilu abo neperervnimi zazvichaj z normalnogo rozpodilu Parametri prihovanoyi markovskoyi modeli nalezhat do dvoh tipiv jmovirnosti perehodiv ta jmovirnosti vihodiv Jmovirnosti perehodiv keruyut tim yakim chinom prihovanij stan u moment chasu t obirayetsya na pidstavi prihovanogo stanu v moment chasu t 1 displaystyle t 1 Vvazhayetsya sho prostir prihovanih staniv skladayetsya z odnogo z N mozhlivih znachen zmodelovanij yak kategorijnij rozpodil Div rozdil nizhche pro rozshirennya dlya inshih mozhlivostej Ce oznachaye sho dlya kozhnogo z N mozhlivih staniv u yakomu prihovana zminna mozhe buti v moment chasu t ye jmovirnist perehodu z cogo stanu do kozhnogo z N mozhlivih staniv prihovanoyi zminnoyi v moment chasu t 1 displaystyle t 1 zagalom N 2 displaystyle N 2 jmovirnostej perehodiv Zauvazhte sho nabir jmovirnostej perehodiv dlya perehodiv z bud yakogo zadanogo stanu musit v sumi dorivnyuvati 1 Otzhe matricya N N displaystyle N times N jmovirnostej perehodiv ye markovskoyu matriceyu Oskilki bud yaku odnu jmovirnist perehodu mozhe buti viznacheno koli vidomo reshtu zagalna kilkist parametriv perehodu skladaye N N 1 displaystyle N N 1 Do togo zh dlya kozhnogo z N mozhlivih staniv ye nabir jmovirnostej vihodiv sho keruye rozpodilom sposterezhuvanoyi zminnoyi u pevnij moment chasu dlya zadanogo stanu prihovanoyi zminnoyi v cej moment chasu Rozmir cogo naboru zalezhit vid prirodi sposterezhuvanoyi zminnoyi Napriklad yaksho sposterezhuvana zminna ye diskretnoyu z M mozhlivih znachen sho regulyuyutsya kategorijnim rozpodilom to bude M 1 displaystyle M 1 okremih parametriv zagalnim chislom N M 1 displaystyle N M 1 parametriv vihodu dlya vsih prihovanih staniv Z inshogo boku yaksho sposterezhuvana zminna ye M mirnim vektorom z rozpodilom vidpovidno do dovilnogo bagatovimirnogo normalnogo rozpodilu to bude M parametriv sho kontrolyuyut seredni ta M M 1 2 displaystyle frac M M 1 2 parametriv sho kontrolyuyut kovariacijnu matricyu zagalnim chislom N M M M 1 2 N M M 3 2 O N M 2 displaystyle N left M frac M M 1 2 right frac NM M 3 2 O NM 2 parametriv vihodu V takomu vipadku yaksho znachennya M ne ye malim mozhe buti zruchnishe obmezhiti prirodu kovariacij mizh individualnimi elementami vektora sposterezhen napriklad pripustivshi sho elementi ne zalezhat odin vid odnogo abo mensh obmezhuyuche ne zalezhat vid vsih krim fiksovanogo chisla susidnih elementiv Chasova evolyuciya prihovanoyi markovskoyi modeliVisnovuvannyaJmovirnosti perehodiv staniv ta vihodiv PMM na verhnij chastini diagrami poznacheno neprozoristyu linij Mayuchi ce mi prosposterigali vihidnu poslidovnist u nizhnij chastini diagrami nas mozhe cikaviti najbilsh pravdopodibna poslidovnist staniv sho mogla ce virobiti Na pidstavi predstavlenih na diagrami strilok kandidatami ye nastupni poslidovnosti staniv 5 3 2 5 3 2 4 3 2 5 3 2 3 1 2 5 3 2 Mi mozhemo znajti najbilsh pravdopodibnu poslidovnist obchislivshi spilnu jmovirnist poslidovnostej staniv ta sposterezhen dlya kozhnogo vipadku prosto peremnozhivshi znachennya jmovirnostej sho vidpovidayut neprozorosti zadiyanih strilok Zagalom cej tip zadach tobto znahodzhennya najbilsh pravdopodibnogo poyasnennya sposterezhuvanoyi poslidovnosti mozhe efektivno rozv yazuvatisya algoritmom Viterbi Z prihovanimi markovskimi modelyami pov yazani deyaki zadachi visnovuvannya yak okresleno nizhche Jmovirnist sposterezhuvanoyi poslidovnosti Zadacha polyagaye v obchislenni najkrashim chinom pri zadanih parametrah modeli jmovirnosti pevnoyi vihidnoyi poslidovnosti Ce vimagaye sumuvannya za vsima mozhlivimi poslidovnostyami staniv Jmovirnist sposterezhennya poslidovnosti Y y 0 y 1 y L 1 displaystyle Y y 0 y 1 dots y L 1 dovzhinoyu L zadayetsya formuloyu P Y X P Y X P X displaystyle P Y sum X P Y mid X P X de suma probigaye usima mozhlivimi poslidovnostyami prihovanih vuzliv X x 0 x 1 x L 1 displaystyle X x 0 x 1 dots x L 1 Pri zastosuvanni principu dinamichnogo programuvannya cya zadacha takozh mozhe rozv yazuvatisya efektivno z vikoristannyam en Imovirnist latentnih zminnih Ryad pov yazanih zadach pro jmovirnist odniyeyi abo bilshe latentnih zminnih pri zadanih parametrah modeli ta poslidovnosti sposterezhen y 1 y t displaystyle y 1 dots y t Filtruvannya Zadacha polyagaye v obchislenni pri zadanih parametrah modeli ta poslidovnosti sposterezhen rozpodilu nad prihovanimi stanami ostannoyi latentnoyi zminnoyi v kinci poslidovnosti tobto v obchislenni P x t y 1 y t displaystyle P x t y 1 dots y t Cya zadacha zazvichaj zastosovuyetsya koli poslidovnist latentnih zminnih rozglyadayetsya yak bazovi stani yakimi prohodit proces u poslidovnosti momentiv chasu iz vidpovidnimi sposterezhennyami u kozhen moment chasu Todi prirodno spitati pro stan procesu v kinci Cya zadacha mozhe efektivno rozv yazuvatisya iz zastosuvannyam en Zgladzhuvannya Cya zadacha shozha na filtruvannya ale v nij pitayetsya pro rozpodil latentnoyi zminnoyi des u seredini poslidovnosti tobto potribno obchisliti P x k y 1 y t displaystyle P x k y 1 dots y t dlya deyakogo k lt t displaystyle k lt t Z oglyadu na opisane vishe ce mozhe rozglyadatisya yak rozpodil jmovirnostej nad prihovanimi stanami dlya momentu chasu k u minulomu po vidnoshennyu do chasu t Efektivnim metodom obchislennya zgladzhenih znachen dlya vsih zminnih prihovanogo stanu ye en Najbilsh pravdopodibne poyasnennya U cij zadachi na vidminu vid dvoh poperednih pitayetsya pro spilnu jmovirnist vsiyeyi poslidovnosti prihovanih staniv sho zgeneruvala pevnu poslidovnist sposterezhen div ilyustraciyu pravoruch Cya zadacha yak pravilo mozhna zastosovuvati todi koli PMM zastosovuyetsya do riznih tipiv problem z tih dlya yakih zastosovuyutsya zadachi filtruvannya ta zgladzhuvannya Prikladom ye morfologichna rozmitka de prihovani stani predstavlyayut gadani chastini movi sho vidpovidayut sposterezhuvanij poslidovnosti sliv U comu vipadku interes stanovit povna poslidovnist chastin movi a ne prosto chastina movi dlya odnogo slova sho yiyi obchislyuvali bi filtruvannya chi zgladzhuvannya Zadacha vimagaye znahodzhennya maksimumu nad usima mozhlivimi poslidovnostyami staniv i mozhe efektivno rozv yazuvatisya algoritmom Viterbi Statistichna znachushist Dlya deyakih iz navedenih vishe zadach mozhe buti cikavo spitati pro statistichnu znachushist Yakoyu ye jmovirnist togo sho poslidovnist vityagnuta z yakogos en matime PMM jmovirnist u vipadku poslidovnogo algoritmu abo maksimalnu jmovirnist poslidovnosti staniv u vipadku algoritmu Viterbi ne menshu za taku jmovirnist pevnoyi poslidovnosti Koli PMM vikoristovuyetsya dlya ocinyuvannya dorechnosti gipotezi dlya pevnoyi poslidovnosti vihodu statistichna znachimist pokazuye riven pohibki pershogo rodu pov yazanoyu zi slabkistyu mozhlivosti sprostuvannya ciyeyi gipotezi dlya ciyeyi poslidovnosti vihodu Konkretnij prikladRozglyanmo dvoh priyateliv Alisu ta Boba yaki zhivut daleko odin vid odnogo i yaki shodnya spilkuyutsya telefonom pro te sho voni robili cogo dnya Bob cikavitsya lishe troma zanyattyami gulyannyam v parku kupivlyami ta pribirannyam svoyeyi kvartiri Vibir chim zajnyatisya viznachayetsya viklyuchno pogodoyu cogo dnya Alisa ne maye chitkoyi informaciyi pro pogodu v misci prozhivannya Boba ale vona znaye zagalni tendenciyi Na pidstavi togo sho Bob kazhe yij pro te sho vin robiv kozhnogo dnya Alisa namagayetsya vgadati yakoyu shvidshe za vse bula pogoda Alisa vvazhaye sho pogoda diye yak diskretnij markovskij lancyug Ye dva stani Sonyachno ta Dosh ale vona ne mozhe sposterigati yih bezposeredno tobto voni prihovani vid neyi Kozhnogo dnya ye pevnij shans sho Bob zajmatimetsya odnim iz nastupnih zanyat v zalezhnosti vid pogodi gulyannya kupivli ta pribirannya Oskilki Bob kazhe Alisi pro svoyi zanyattya voni ye sposterezhennyami Vsya sistema v cilomu ye tim zhe sho j prihovana markovska model PMM Alisa znaye zagalni tendenciyi pogodi v tij miscevosti i sho Bob lyubit robiti v serednomu Inshimi slovami parametri PMM vidomi Yih mozhna predstaviti movoyu programuvannya Python nastupnim chinom stani states Dosh Sonyachno sposterezhennya observations gulyannya kupivli pribirannya pochatkova jmovirnist start probability Dosh 0 6 Sonyachno 0 4 jmovirnist perehodu transition probability Dosh Dosh 0 7 Sonyachno 0 3 Sonyachno Dosh 0 4 Sonyachno 0 6 jmovirnist vihodu emission probability Dosh gulyannya 0 1 kupivli 0 4 pribirannya 0 5 Sonyachno gulyannya 0 6 kupivli 0 3 pribirannya 0 1 U comu fragmenti kodu start probability predstavlyaye dumku Alisi pro te v yakomu stani znahoditsya PMM koli Bob telefonuye yij vpershe vse sho vona znaye ce te sho tam zazvichaj doshit Konkretnij rozpodil jmovirnosti sho tut vikoristovuyetsya ne ye rivnovazhnim sho ye pri zadanih jmovirnostyah perehodiv priblizno Dosh 0 57 Sonyachno 0 43 transition probability predstavlyaye zminu pogodi v osnovnomu markovskomu lancyugovi U comu prikladi ye lishe 30 shansiv sho zavtra bude sonyachno yaksho sogodni doshit emission probability predstavlyaye naskilki jmovirno Bob zajmatimetsya pevnoyu spravoyu za kozhnoyi pogodi Yaksho doshit ye jmovirnist 50 sho vin pribiratime u kvartiri yaksho sonyachno ye jmovirnist 60 sho vin gulyaye nadvori Grafichne predstavlennya danoyi PMM Podibnij priklad rozbirayetsya dali na storinci Viterbi algorithm NavchannyaZadacha navchannya parametriv u PMM polyagaye v znahodzhenni dlya zadanoyi poslidovnosti vihodiv abo naboru takih poslidovnostej najkrashogo naboru jmovirnostej perehodiv staniv ta vihodiv Cya zadacha zazvichaj polyagaye u vivedenni ocinki maksimalnoyi pravdopodibnosti cih parametriv PMM dlya zadanogo naboru poslidovnostej vihodiv Ne vidomo zhodnogo legkorozv yaznogo algoritmu dlya tochnogo rozv yazannya ciyeyi zadachi ale lokalnu maksimalnu pravdopodibnist mozhe buti diyevo vivedeno iz zastosuvannyam Algoritma Bauma Velsha abo algoritmu Baldi Shovena Algoritm Bauma Velsha ye okremim vipadkom algoritmu ochikuvannya maksimizaciyi Matematichnij opisZagalnij opis Bazovu ne bayesovu prihovanu markovsku model mozhe buti opisano takim chinom N displaystyle N displaystyle kilkist staniv T displaystyle T displaystyle kilkist sposterezhen 8 i 1 N displaystyle theta i 1 dots N displaystyle parametr vihodu dlya sposterezhennya pov yazanogo zi stanom i displaystyle i ϕ i 1 N j 1 N displaystyle phi i 1 dots N j 1 dots N displaystyle jmovirnist perehodu zi stanu i displaystyle i do stanu j displaystyle j ϕ i 1 N displaystyle boldsymbol phi i 1 dots N displaystyle N displaystyle N mirnij vektor sho skladayetsya z ϕ i 1 N displaystyle phi i 1 dots N v sumi maye dorivnyuvati 1 displaystyle 1 ryadok matrici ϕ i 1 N j 1 N displaystyle phi i 1 dots N j 1 dots N x t 1 T displaystyle x t 1 dots T displaystyle prihovanij stan u moment chasu t displaystyle t y t 1 T displaystyle y t 1 dots T displaystyle sposterezhennya v moment chasu t displaystyle t F y 8 displaystyle F y theta displaystyle rozpodil jmovirnostej sposterezhen parametrizovanij za 8 displaystyle theta x t 2 T displaystyle x t 2 dots T displaystyle sim Categorical ϕ x t 1 displaystyle operatorname Categorical boldsymbol phi x t 1 y t 1 T displaystyle y t 1 dots T displaystyle sim F 8 x t displaystyle F theta x t Zauvazhte sho v navedenij vishe modeli a takozh i v navedenij nizhche apriornij rozpodil pochatkovogo stanu x 1 displaystyle x 1 ne vkazano Tipovi modeli navchannya vidpovidayut pripuskannyu diskretnogo rivnomirnogo rozpodilu mozhlivih staniv tobto pripuskayetsya vidsutnist pevnogo apriornogo rozpodilu U bayesovomu varianti vsi parametri pov yazano z vipadkovimi zminnimi a same N T displaystyle N T displaystyle yak vishe 8 i 1 N ϕ i 1 N j 1 N ϕ i 1 N displaystyle theta i 1 dots N phi i 1 dots N j 1 dots N boldsymbol phi i 1 dots N displaystyle yak vishe x t 1 T y t 1 T F y 8 displaystyle x t 1 dots T y t 1 dots T F y theta displaystyle yak vishe a displaystyle alpha displaystyle spilnij giperparametr dlya parametriv vihodu b displaystyle beta displaystyle spilnij giperparametr dlya parametriv perehodu H 8 a displaystyle H theta alpha displaystyle apriornij rozpodil jmovirnosti parametriv vihodu parametrizovanij za a displaystyle alpha 8 i 1 N displaystyle theta i 1 dots N displaystyle sim H a displaystyle H alpha ϕ i 1 N displaystyle boldsymbol phi i 1 dots N displaystyle sim S y m m e t r i c D i r i c h l e t N b displaystyle operatorname Symmetric Dirichlet N beta x t 2 T displaystyle x t 2 dots T displaystyle sim Categorical ϕ x t 1 displaystyle operatorname Categorical boldsymbol phi x t 1 y t 1 T displaystyle y t 1 dots T displaystyle sim F 8 x t displaystyle F theta x t Ci opisi vikoristovuyut F displaystyle F ta H displaystyle H dlya opisu dovilnih rozpodiliv nad sposterezhennyami ta parametrami vidpovidno Zazvichaj H displaystyle H bude spryazhenim apriornim rozpodilom F displaystyle F Dvoma najposhirenishimi variantami F displaystyle F ye normalnij ta kategorijnij rozpodili div nizhche U porivnyanni z prostoyu sumishevoyu modellyu Yak zaznacheno vishe rozpodil kozhnogo sposterezhennya u prihovanij markovskij modeli ye sumishevoyu shilnistyu de stani vidpovidayut skladovim sumishi Korisno porivnyati navedeni vishe opisi PMM z vidpovidnimi harakteristikami en vikoristovuyuchi toj samij zapis Nebayesova sumisheva model N displaystyle N displaystyle kilkist skladovih sumishi T displaystyle T displaystyle kilkist sposterezhen 8 i 1 N displaystyle theta i 1 dots N displaystyle parametr rozpodilu sposterezhennya pov yazanij zi skladovoyu i displaystyle i ϕ i 1 N displaystyle phi i 1 dots N displaystyle sumisheva vaga tobto apriorna jmovirnist skladovoyi i displaystyle i ϕ displaystyle boldsymbol phi displaystyle N displaystyle N mirnij vektor sho skladayetsya z ϕ 1 N displaystyle phi 1 dots N v sumi maye dorivnyuvati 1 x t 1 T displaystyle x t 1 dots T displaystyle skladova sposterezhennya t displaystyle t y t 1 T displaystyle y t 1 dots T displaystyle sposterezhennya t displaystyle t F y 8 displaystyle F y theta displaystyle rozpodil jmovirnosti sposterezhennya parametrizovanij za 8 displaystyle theta x t 1 T displaystyle x t 1 dots T displaystyle sim Categorical ϕ displaystyle operatorname Categorical boldsymbol phi y t 1 T displaystyle y t 1 dots T displaystyle sim F 8 x t displaystyle F theta x t Bayesova sumisheva model N T displaystyle N T displaystyle yak vishe 8 i 1 N ϕ i 1 N ϕ displaystyle theta i 1 dots N phi i 1 dots N boldsymbol phi displaystyle yak vishe x t 1 T y t 1 T F y 8 displaystyle x t 1 dots T y t 1 dots T F y theta displaystyle yak vishe a displaystyle alpha displaystyle spilnij giperparametr dlya parametriv skladovih b displaystyle beta displaystyle spilnij giperparametr dlya sumishevih vag H 8 a displaystyle H theta alpha displaystyle apriornij rozpodil jmovirnosti parametriv skladovih parametrizovanij za a displaystyle alpha 8 i 1 N displaystyle theta i 1 dots N displaystyle sim H a displaystyle H alpha ϕ displaystyle boldsymbol phi displaystyle sim S y m m e t r i c D i r i c h l e t N b displaystyle operatorname Symmetric Dirichlet N beta x t 1 T displaystyle x t 1 dots T displaystyle sim Categorical ϕ displaystyle operatorname Categorical boldsymbol phi y t 1 T displaystyle y t 1 dots T displaystyle sim F 8 x t displaystyle F theta x t Prikladi Nastupni matematichni opisi povnistyu rozpisano ta poyasneno dlya polegshennya vtilennya Tipova nebayesova PMM z normalnim rozpodilom sposterezhen viglyadaye tak N displaystyle N displaystyle kilkist staniv T displaystyle T displaystyle kilkist sposterezhen ϕ i 1 N j 1 N displaystyle phi i 1 dots N j 1 dots N displaystyle jmovirnist perehodu zi stanu i displaystyle i do stanu j displaystyle j ϕ i 1 N displaystyle boldsymbol phi i 1 dots N displaystyle N displaystyle N mirnij vektor sho skladayetsya z ϕ i 1 N displaystyle phi i 1 dots N v sumi maye dorivnyuvati 1 m i 1 N displaystyle mu i 1 dots N displaystyle serednye sposterezhen pov yazane zi stanom i displaystyle i s i 1 N 2 displaystyle sigma i 1 dots N 2 displaystyle dispersiya sposterezhen pov yazana zi stanom i displaystyle i x t 1 T displaystyle x t 1 dots T displaystyle stan sposterezhennya u moment chasu t displaystyle t y t 1 T displaystyle y t 1 dots T displaystyle sposterezhennya u moment chasu t displaystyle t x t 2 T displaystyle x t 2 dots T displaystyle sim Categorical ϕ x t 1 displaystyle operatorname Categorical boldsymbol phi x t 1 y t 1 T displaystyle y t 1 dots T displaystyle sim N m x t s x t 2 displaystyle mathcal N mu x t sigma x t 2 Tipova bayesova PMM z normalnim rozpodilom sposterezhen viglyadaye tak N displaystyle N displaystyle kilkist staniv T displaystyle T displaystyle kilkist sposterezhen ϕ i 1 N j 1 N displaystyle phi i 1 dots N j 1 dots N displaystyle jmovirnist perehodu zi stanu i displaystyle i do stanu j displaystyle j ϕ i 1 N displaystyle boldsymbol phi i 1 dots N displaystyle N displaystyle N mirnij vektor sho skladayetsya z ϕ i 1 N displaystyle phi i 1 dots N v sumi maye dorivnyuvati 1 m i 1 N displaystyle mu i 1 dots N displaystyle serednye sposterezhen pov yazane zi stanom i displaystyle i s i 1 N 2 displaystyle sigma i 1 dots N 2 displaystyle dispersiya sposterezhen pov yazana zi stanom i displaystyle i x t 1 T displaystyle x t 1 dots T displaystyle stan sposterezhennya u moment chasu t displaystyle t y t 1 T displaystyle y t 1 dots T displaystyle sposterezhennya u moment chasu t displaystyle t b displaystyle beta displaystyle giperparametr koncentraciyi sho kontrolyuye shilnist matrici perehodu m 0 l displaystyle mu 0 lambda displaystyle spilni giperparametri dlya serednih dlya kozhnogo stanu n s 0 2 displaystyle nu sigma 0 2 displaystyle spilni giperparametri dlya dispersij dlya kozhnogo stanu ϕ i 1 N displaystyle boldsymbol phi i 1 dots N displaystyle sim S y m m e t r i c D i r i c h l e t N b displaystyle operatorname Symmetric Dirichlet N beta x t 2 T displaystyle x t 2 dots T displaystyle sim Categorical ϕ x t 1 displaystyle operatorname Categorical boldsymbol phi x t 1 m i 1 N displaystyle mu i 1 dots N displaystyle sim N m 0 l s i 2 displaystyle mathcal N mu 0 lambda sigma i 2 s i 1 N 2 displaystyle sigma i 1 dots N 2 displaystyle sim I n v e r s e G a m m a n s 0 2 displaystyle operatorname Inverse Gamma nu sigma 0 2 y t 1 T displaystyle y t 1 dots T displaystyle sim N m x t s x t 2 displaystyle mathcal N mu x t sigma x t 2 Tipova nebayesova PMM z kategorijnimi sposterezhennyami viglyadaye tak N displaystyle N displaystyle kilkist staniv T displaystyle T displaystyle kilkist sposterezhen ϕ i 1 N j 1 N displaystyle phi i 1 dots N j 1 dots N displaystyle jmovirnist perehodu zi stanu i displaystyle i do stanu j displaystyle j ϕ i 1 N displaystyle boldsymbol phi i 1 dots N displaystyle N displaystyle N mirnij vektor sho skladayetsya z ϕ i 1 N displaystyle phi i 1 dots N v sumi maye dorivnyuvati 1 V displaystyle V displaystyle rozmirnist kategorijnih sposterezhen napriklad rozmir slovnika 8 i 1 N j 1 V displaystyle theta i 1 dots N j 1 dots V displaystyle jmovirnist sposterezhennya j displaystyle j togo elementu v stani i displaystyle i 8 i 1 N displaystyle boldsymbol theta i 1 dots N displaystyle V displaystyle V mirnij vektor sho skladayetsya z 8 i 1 V displaystyle theta i 1 dots V v sumi maye dorivnyuvati 1 x t 1 T displaystyle x t 1 dots T displaystyle stan sposterezhennya u moment chasu t displaystyle t y t 1 T displaystyle y t 1 dots T displaystyle sposterezhennya u moment chasu t displaystyle t x t 2 T displaystyle x t 2 dots T displaystyle sim Categorical ϕ x t 1 displaystyle operatorname Categorical boldsymbol phi x t 1 y t 1 T displaystyle y t 1 dots T displaystyle sim Categorical 8 x t displaystyle text Categorical boldsymbol theta x t Tipova bayesova PMM z kategorijnimi sposterezhennyami viglyadaye tak N displaystyle N displaystyle kilkist staniv T displaystyle T displaystyle kilkist sposterezhen ϕ i 1 N j 1 N displaystyle phi i 1 dots N j 1 dots N displaystyle jmovirnist perehodu zi stanu i displaystyle i do stanu j displaystyle j ϕ i 1 N displaystyle boldsymbol phi i 1 dots N displaystyle N displaystyle N mirnij vektor sho skladayetsya z ϕ i 1 N displaystyle phi i 1 dots N v sumi maye dorivnyuvati 1 V displaystyle V displaystyle rozmirnist kategorijnih sposterezhen napriklad rozmir slovnika 8 i 1 N j 1 V displaystyle theta i 1 dots N j 1 dots V displaystyle jmovirnist sposterezhennya j displaystyle j togo elementu v stani i displaystyle i 8 i 1 N displaystyle boldsymbol theta i 1 dots N displaystyle V displaystyle V mirnij vektor sho skladayetsya z 8 i 1 V displaystyle theta i 1 dots V v sumi maye dorivnyuvati 1 x t 1 T displaystyle x t 1 dots T displaystyle stan sposterezhennya u moment chasu t displaystyle t y t 1 T displaystyle y t 1 dots T displaystyle sposterezhennya u moment chasu t displaystyle t a displaystyle alpha displaystyle spilnij giperparametr koncentraciyi 8 displaystyle boldsymbol theta dlya kozhnogo stanu b displaystyle beta displaystyle giperparametr koncentraciyi sho kontrolyuye shilnist matrici perehodu ϕ i 1 N displaystyle boldsymbol phi i 1 dots N displaystyle sim S y m m e t r i c D i r i c h l e t N b displaystyle operatorname Symmetric Dirichlet N beta 8 1 V displaystyle boldsymbol theta 1 dots V displaystyle sim Symmetric Dirichlet V a displaystyle text Symmetric Dirichlet V alpha x t 2 T displaystyle x t 2 dots T displaystyle sim Categorical ϕ x t 1 displaystyle operatorname Categorical boldsymbol phi x t 1 y t 1 T displaystyle y t 1 dots T displaystyle sim Categorical 8 x t displaystyle operatorname Categorical boldsymbol theta x t Zauvazhte sho v navedenih vishe bayesovih opisah b displaystyle beta en kontrolyuye shilnist matrici perehodu Tobto pri visokomu znachenni b displaystyle beta znachno bilshe 1 jmovirnosti sho kontrolyuyut perehid z pevnogo konkretnogo stanu budut shozhimi mizh soboyu sho oznachaye sho bude suttyeva jmovirnist perehodu do bud yakogo inshogo stanu Inshimi slovami shlyah projdenij lancyugom Markova prihovanimi stanami bude silno vipadkovim Pri nizkomu znachenni b displaystyle beta znachno menshe 1 lishe mala kilkist mozhlivih perehodiv z pevnogo zadanogo stanu matime znachnu jmovirnist sho oznachaye sho shlyah projdenij prihovanimi stanami bude do deyakoyi miri peredbachuvanim Dvorivneva bayesova PMM Alternativoyu dvoh do navedenih vishe bayesovih prikladiv bude dodavannya do matrici perehodu dodatkovogo rivnya apriornih parametriv Tobto zaminiti ryadki b displaystyle beta displaystyle giperparametr koncentraciyi sho kontrolyuye shilnist matrici perehodu ϕ i 1 N displaystyle boldsymbol phi i 1 dots N displaystyle sim S y m m e t r i c D i r i c h l e t N b displaystyle operatorname Symmetric Dirichlet N beta nastupnimi g displaystyle gamma displaystyle giperparametr koncentraciyi sho kontrolyuye yak bagato staniv ye pritamanno jmovirnimi b displaystyle beta displaystyle giperparametr koncentraciyi sho kontrolyuye shilnist matrici perehodu h displaystyle boldsymbol eta displaystyle N displaystyle N mirnij vektor jmovirnostej sho viznachaye pritamannu jmovirnist zadanogo stanu h displaystyle boldsymbol eta displaystyle sim S y m m e t r i c D i r i c h l e t N g displaystyle operatorname Symmetric Dirichlet N gamma ϕ i 1 N displaystyle boldsymbol phi i 1 dots N displaystyle sim Dirichlet N b N h displaystyle operatorname Dirichlet N beta N boldsymbol eta Ce oznachaye nastupne h displaystyle boldsymbol eta ye rozpodilom jmovirnostej staniv sho viznachaye yaki stani ye pritamanno jmovirnimi Sho bilshoyu ye jmovirnist zadanogo stanu v comu vektori to bilshoyu ye jmovirnist perehodu do cogo stanu nezalezhno vid pochatkovogo stanu g displaystyle gamma kontrolyuye shilnist h displaystyle boldsymbol eta Znachennya znachno bilshi za 1 prizvodyat do takogo vektora shilnosti v yakomu vsi stani mayut shozhi apriorni jmovirnosti Znachennya znachno menshi za 1 prizvodyat do rozridzhenogo vektora de lishe deyaki stani pritamanno jmovirni mayut apriorni jmovirnosti znachno bilshe 0 b displaystyle beta kontrolyuye shilnist matrici perehodu abo konkretnishe shilnist N displaystyle N riznih vektoriv jmovirnosti ϕ i 1 N displaystyle boldsymbol phi i 1 dots N sho viznachayut jmovirnist perehodiv zi stanu i displaystyle i do bud yakogo inshogo stanu Uyavit sho znachennya b displaystyle beta ye znachno bilshim za 1 Todi rizni vektori ϕ displaystyle boldsymbol phi budut shilnimi tobto masu jmovirnosti bude rozkidano dosit porivnu mizh vsima stanami Odnak v tij miri v yakij cyu masu rozkidano nerivnomirno h displaystyle boldsymbol eta kontrolyuye yaki stani jmovirnishe otrimayut bilshe masi za inshi Teper zamist cogo uyavit sho b displaystyle beta ye znachno menshim za 1 Ce zrobit vektori ϕ displaystyle boldsymbol phi rozridzhenimi tobto majzhe vsyu masu jmovirnosti rozpodileno mizh nevelikoyu kilkistyu staniv a shodo reshti to perehid do takih staniv bude velmi malojmovirnim Zvernit uvagu sho ye rizni vektori ϕ displaystyle boldsymbol phi dlya kozhnogo z pochatkovih staniv i otzhe navit yaksho vsi vektori ye rozridzhenimi rizni vektori mozhut pererozpodilyati masu do riznih kincevih staniv Odnak dlya vsih vektoriv h displaystyle boldsymbol eta kontrolyuye yaki kincevi stani jmovirnishe otrimayut priznachennya masi sobi Napriklad yaksho b displaystyle beta dorivnyuye 0 1 to kozhen ϕ displaystyle boldsymbol phi bude rozridzhenim i dlya bud yakogo zadanogo pochatkovogo stanu i displaystyle i mnozhina staniv J i displaystyle mathbf J i perehodi do yakih budut jmovirnimi bude duzhe malenkoyu zazvichaj z odnim abo dvoma elementami Teper yaksho jmovirnosti v h displaystyle boldsymbol eta ye vsi odnakovimi abo rivnocinno vikoristovuyetsya odna z navedenih vishe modelej bez h displaystyle boldsymbol eta to dlya riznih i displaystyle i budut rizni stani u vidpovidnih J i displaystyle mathbf J i tak sho vsi stani matimut odnakovu jmovirnist opinitisya u dovilno vzyatomu J i displaystyle mathbf J i Z inshogo boku yaksho znachennya u h displaystyle boldsymbol eta ye nezbalansovanimi tak sho odin stan maye znachno bilshu jmovirnist za inshi to majzhe vsi J i displaystyle mathbf J i mistitimut cej stan otzhe nezalezhno vid pochatkovogo stanu perehodi majzhe zavzhdi vestimut do cogo zadanogo stanu Otzhe taka dvorivneva model yaksho shojno opisano daye mozhlivist nezalezhnogo kontrolyu nad 1 zagalnoyu shilnistyu matrici perehodiv ta 2 shilnistyu staniv perehodi do yakih ye jmovirnimi tobto shilnistyu apriornogo rozpodilu staniv u bud yakij okremij prihovanij zminnij x i displaystyle x i V oboh vipadkah ce robitsya iz zberezhennyam pripushennya pro nevidomist togo yaki konkretni stani ye jmovirnishimi za inshi Yaksho ye bazhannya vvesti cyu informaciyu do modeli to mozhna bezposeredno zadati vektor jmovirnosti h displaystyle boldsymbol eta abo yaksho nemaye takoyi vpevnenosti pro ci vidnosni jmovirnosti yak apriornij rozpodil nad h displaystyle boldsymbol eta mozhe buti vikoristano nesimetrichnij rozpodil Dirihle Tobto zamist vikoristannya simetrichnogo rozpodilu Dirihle z yedinim parametrom g displaystyle gamma abo rivnocinno zvichajnogo Dirihle z vektorom chiyi znachennya vsi dorivnyuyut g displaystyle gamma vikoristovuvati zvichajnij Dirihle zi znachennyami sho ye po riznomu bilshimi abo menshimi za g displaystyle gamma vidpovidno do togo yakomu stanovi viddayetsya bilshe abo menshe perevagi Puassonivska prihovana markovska model Puassonivski prihovani markovski modeli PPMM angl Poisson hidden Markov models PHMM ce osoblivi vipadki prihovanih markovskih modelej v yakih puassonivskij proces maye temp sho variyuyetsya u zv yazku zi zminami staniv markovskoyi modeli PPMM sami po sobi ne obov yazkovo ye markovskimi procesami oskilki markovskij lancyug abo markovskij proces sho lezhit v osnovi sposterigati nemozhlivo a mozhlivo sposterigati lishe puassonivskij signal ZastosuvannyaPMM mozhut zastosovuvatisya u bagatoh sferah de metoyu ye viyavlennya poslidovnosti danih sho ne ye bezposeredno sposterezhuvanoyu ale inshi dani sho zalezhat vid ciyeyi poslidovnosti ye Do zastosuvannya vhodyat Kinetichnij analiz odniyeyi molekuli Kriptoanaliz Rozpiznavannya movlennya Sintez movlennya Rozmichuvannya chastin movi Rozdilennya dokumentiv u rishennyah dlya skanuvannya Mashinnij pereklad en en Virivnyuvannya bioposlidovnostej Analiz chasovih ryadiv en Zgortannya bilkiv Viyavlennya metamorfnih virusiv Viyavlennya en DNKIstoriyaPoslidovnu ta zvorotnyu rekursiyi sho vikoristovuyutsya u PMM tak samo yak i rozrahunki vidosoblenih zgladzhuvalnih jmovirnostej bulo opisano vpershe Ruslanom Stratonovichem u 1960 roci storinki 160 162 ta u piznih 1950 h u jogo pracyah rosijskoyu Prihovani markovski modeli bulo piznishe opisano v nizci statistichnih robit en ta inshih avtoriv u drugij polovini 1960 h Odnim z pershih zastosuvan PMM bulo rozpiznavannya movlennya pochinayuchi z seredini 1970 h U drugij polovini 1980 h PMM pochali zastosovuvatisya do analizu biologichnih poslidovnostej zokrema DNK Vidtodi u sferi bioinformatiki voni stali vsyudisushimi TipiPrihovani markovski modeli mozhut modelyuvati skladni markovski procesi de stani vidayut sposterezhennya vidpovidno do yakogos rozpodilu jmovirnostej Odnim z takih prikladiv ye normalnij rozpodil u takij prihovanij markovskij modeli vihid staniv predstavleno normalnim rozpodilom Krim togo voni mozhut predstavlyati she skladnishu povedinku koli vihid staniv predstavleno sumishshyu dvoh abo bilshe normalnih rozpodiliv u takomu vipadku jmovirnist generaciyi sposterezhennya ye dobutkom jmovirnosti spochatku viboru odnogo z normalnih rozpodiliv i jmovirnosti generaciyi cogo sposterezhennya z cogo normalnogo rozpodilu RozshirennyaU rozglyanutih vishe prihovanih markovskih modelyah prostir staniv prihovanih zminnih ye diskretnim todi yak sami sposterezhennya mozhut buti abo diskretnimi zazvichaj zgenerovanimi z kategorijnogo rozpodilu abo neperervnim zazvichaj z normalnogo rozpodilu Prihovani markovski modeli takozh mozhe buti uzagalneno shobi dozvolyati neperervni prostori staniv Prikladami takih modelej ye ti de markovskij proces nad prihovanimi zminnimi ye linijnoyu dinamichnoyu sistemoyu z linijnim zv yazkom mizh pov yazanimi zminnimi i de vsi prihovani j sposterezhuvani zminni sliduyut normalnomu rozpodilovi V prostih vipadkah takih yak shojno zaznacheni linijni dinamichni sistemi tochne visnovuvannya ye legkorozv yaznim u comu vipadku z vikoristannyam filtru Kalmana odnak u zagalnomu vipadku tochne visnovuvannya v PMM z neperervnimi latentnimi zminnimi ye nezdijsnennim i mozhut zastosovuvatisya nablizheni metodi taki yak rozshirenij filtr Kalmana abo en Prihovani markovski modeli ye porodzhuvalnimi modelyami v yakih modelyuyetsya spilnij rozpodil sposterezhen ta prihovanih staniv abo ekvivalentno yak apriornij rozpodil prihovanih staniv jmovirnosti perehodu tak i umovnij rozpodil sposterezhen dlya zadanih staniv jmovirnosti vihodu Navedeni vishe algoritmi neyavno pripuskayut rivnomirnij apriornij rozpodil jmovirnostej perehodu Odnak takozh mozhlivo stvoriti prihovani markovski modeli z inshimi tipami apriornih rozpodiliv Ochevidnim kandidatom pri kategorijnomu rozpodili jmovirnostej perehodu ye rozpodil Dirihle sho ye spryazhenim apriornim rozpodilom kategorijnogo rozpodilu Zazvichaj obirayetsya simetrichnij rozpodil Dirihle sho vidobrazhaye neznannya togo yaki stani ye pritamanno jmovirnishimi za inshi Yedinij parametr cogo rozpodilu sho nazivayetsya parametrom koncentraciyi kontrolyuye vidnosnu shilnist abo rozridzhenist otrimuvanoyi matrici perehodu Vibir 1 porodzhuye rivnomirnij rozpodil Znachennya bilshi za 1 porodzhuyut shilnu matricyu v yakij imovirnosti perehodiv mizh parami staniv jmovirno budut majzhe rivnimi Znachennya menshi za 1 porodzhuyut rozridzhenu matricyu v yakij dlya kozhnogo zadanogo pochatkovogo stanu lishe nevelika kilkist kincevih staniv maye ne neznachni jmovirnosti perehodu Takozh mozhlive vikoristannya dvorivnevogo apriornogo rozpodilu Dirihle v yakomu odin rozpodil Dirihle verhnij rozpodil keruye parametrami inshogo rozpodilu Dirihle nizhnogo rozpodilu yakij u svoyu chergu keruye jmovirnostyami perehodu Verhnij rozpodil keruye zagalnim rozpodilom staniv viznachayuchi naskilki jmovirno dlya kozhnogo stanu sho vin trapitsya jogo koncentracijnij parametr viznachaye shilnist abo rozridzhenist staniv Takij dvorivnevij apriornij rozpodil de obidva koncentracijni parametri vstanovleno na porodzhennya rozridzhenih rozpodiliv mozhut buti korisnimi napriklad u nekerovanij morfologichnij rozmitci de deyaki chastini movi traplyayutsya znachno chastishe za inshi algoritmi navchannya sho pripuskayut rivnomirnij apriornij rozpodil zagalom pogano pracyuyut z ciyeyu zadacheyu Parametri modelej takogo rodu z nerivnomirnimi apriornimi rozpodilami mozhut otrimuvatisya en abo rozshirenimi versiyami algoritmu ochikuvannya maksimizaciyi Rozshirennya opisanih vishe prihovanih markovskih modelej z apriornimi Dirihle vikoristovuye en zamist rozpodilu Dirihle Cej tip modelej dozvolyaye nevidomu i potencijno neskinchennu kilkist staniv Zagalnoprijnyato vikoristovuvati dvorivnevij proces Dirihle podibno do opisanoyi vishe modeli z dvoma rivnyami rozpodiliv Dirihle Taka model nazivayetsya prihovanoyu markovskoyu modellyu z iyerarhichnim procesom Dirihle PMM IPD angl hierarchical Dirichlet process hidden Markov model HDP HMM Pochatkovo yiyi bulo opisano pid nazvoyu Neskinchenna prihovana markovska model i bulo formalizovano dali u Inshij tip rozshiren vikoristovuye rozriznyuvalnu model zamist porodzhuvalnoyi modeli standartnoyi PMM Cej tip modeli modelyuye bezposeredno umovnij rozpodil prihovanih staniv pri zadanih sposterezhennyah zamist modelyuvannya spilnogo rozpodilu Prikladom ciyeyi modeli ye tak zvana en MMME angl maximum entropy Markov model MEMM sho modelyuye umovnij rozpodil staniv za dopomogoyu logistichnoyi regresiyi vidoma takozh yak model en Perevagoyu cogo tipu modeli ye te sho vona dozvolyaye modelyuvati dovilni vlastivosti tobto funkciyi sposterezhen sho dozvolyaye vvedennya do modeli predmetno oriyentovanogo znannya zadachi yake ye pid rukami Modeli cogo rodu ne obmezheni modelyuvannyam pryamih zalezhnostej mizh prihovanimi stanami ta pov yazanimi z nimi sposterezhennyami shvidshe dlya viznachennya znachennya prihovanogo stanu do procesu mozhut vklyuchatisya vlastivosti blizkih sposterezhen kombinacij pov yazanogo sposterezhennya i blizkih sposterezhen abo fakti dovilnih sposterezhen na bud yakij vidstani vid zadanogo prihovanogo stanu Do togo zh ne potribno shobi ci vlastivosti buli statistichno nezalezhnimi odna vid odnoyi yak bulo bi u vipadku yakbi taki vlastivosti vikoristovuvalisya u porodzhuvalnij modeli Nasamkinec mozhut vikoristovuvatisya dovilni vlastivosti nad parami sumizhnih prihovanih staniv a ne lishe jmovirnosti perehodiv Nedolikami takih modelej ye 1 Tipi apriornih rozpodiliv sho mozhe buti vstanovleno nad prihovanimi stanami suvoro obmezheno 2 Nemozhlivo peredrikti jmovirnist pobachiti pevne sposterezhennya Ce druge obmezhennya chasto ne ye problemoyu na praktici oskilki bagato zvichajnih zastosuvan PMM ne vimagayut takih peredbachuvalnih mozhlivostej Variantom opisanoyi vishe rozriznyuvalnoyi modeli ye nerozgaluzhena umovna merezha angl linear chain conditional random field Vona vikoristovuye nespryamovanu grafichnu model vidomu yak markovska merezha zamist spryamovanih grafichnih modelej markovskoyi modeli maksimalnoyi entropiyi ta podibnih modelej Perevagoyu cogo tipu modelej ye te sho vin ne strazhdaye vid tak zvanoyi problemi mitkovoyi shilnosti angl label bias markovskih modelej maksimalnoyi entropiyi i tomu mozhe robiti tochnishi peredbachennya Nedolikom ye te sho navchannya mozhe buti povilnishim nizh v markovskih modelyah maksimalnoyi entropiyi She odnim variantom ye faktorialna prihovana markovska model angl factorial hidden Markov model sho dozvolyaye yedinomu sposterezhennyu buti obumovlenim vidpovidnimi prihovanimi zminnimi naboru K displaystyle K nezalezhnih markovskih lancyugiv a ne yedinogo markovskogo lancyuga Ce ekvivalentno yedinij PMM z N K displaystyle N K staniv za pripushennya sho kozhen lancyug maye N displaystyle N staniv i tomu navchannya takoyi modeli ye skladnim dlya poslidovnosti dovzhinoyu T displaystyle T pryamolinijnij algor