Принцип мінімальної довжини опису (МДО, англ. minimum description length principle, MDL) — формалізація леза Оккама, в якій найкращою гіпотезою для заданого набору даних є та, яка веде до найкращого стиснення даних. МДО запропонував Йорма Ріссанен 1978 року. Вона є важливим поняттям в теорії інформації та [en].
Огляд
Будь-який набір даних може бути представлено як стрічку символів зі скінченної (скажімо, двійкової) абетки.
[Принцип МДО] ґрунтується на такій інтуїції: будь-яку закономірність в заданому наборі даних може бути використано для стиснення цих даних, тобто для опису їх із застосуванням меншого числа символів, ніж потрібно для опису цих даних буквально.— Петер Грюнвальд, MDL Tutorial
Щоби обрати гіпотезу, яка схоплює найбільше закономірності в даних, науковці шукають таку гіпотезу, з якою можна досягти найкращого стиснення. Для цього фіксують код для стиснення даних, найчастіше за допомогою (повної за Тюрінгом) комп'ютерної мови. Цією мовою пишуть програму для виведення даних; таким чином, програма ефективно представляє ці дані. Довжину найкоротшої програми, яка виводить дані, називають колмогоровською складністю цих даних. Це є центральною ідеєю [en] [en].
Висновування
Проте ця математична теорія не дає практичного шляху досягання висновування. Найважливішими причинами цього є наступні:
- Колмогоровська складність є необчислюваною: такого алгоритму, який для довільної послідовності даних на вході видавав би на виході програму, що виводить ці дані, не існує.
- Колмогоровська складність залежить від того, яку комп'ютерну мову використовують. Вибір мови є вільним, але він впливає на цю складність з точністю до деякого сталого адитивного члену. З цієї причини сталі члени в теорії колмогоровської складності, як правило, не враховують. Проте на практиці, коли доступним є лише невеликий обсяг даних, такі сталі можуть мати дуже великий вплив на результати висновування: при роботі з обмеженими даними добрі результати гарантовано бути не може.
МДО намагається зараджувати цьому шляхом:
- Обмеження набору дозволених кодів таким чином, що стає можливим (обчислюваним) знаходження найкоротшої кодової довжини даних відносно дозволених кодів, і
- Обирання коду, який є достатньо дієвим незалежно від наявних даних. Цей пункт є дещо невиразним, і в цій області все ще триває багато досліджень.
Замість «програм» в теорії МДО зазвичай говорять про кандидатури гіпотез, моделей або кодів. Набір дозволених кодів тоді називають класом моделей. (Деякі автори називають клас моделей моделлю.) Відтак обирають такий код, для якого сума опису коду та опису даних із застосуванням цього коду є мінімальною.
Однією з важливих властивостей методів МДО є те, що вони забезпечують природний захист від перенавчання, оскільки вони втілюють компроміс між складністю гіпотези (класу моделей) та складністю даних за заданої гіпотези. Це показано в наступному прикладі.
Приклад МДО
Цей розділ має кілька недоліків. Будь ласка, допоможіть удосконалити його або обговоріть ці проблеми на .
|
Монету підкидають 1 000 разів, і записують кількості аверсів та реверсів. Розгляньмо два класи моделей:
- Перший є кодом, який представляє результати через 0 для аверсів та 1 для реверсів. Цей код представляє гіпотезу того, що монета є справедливою. Довжина коду за цього кодування завжди дорівнює 1 000 біт.
- Другий складається з усіх кодів, що є ефективними для монети з певним зсувом, представляючи гіпотезу того, що монета не є справедливою. Скажімо, ми спостерігаємо 510 аверсів та 490 реверсів. Тоді довжина коду відповідно до найкращого кодування в другій моделі є коротшою за 1 000 біт.
З цієї причини наївний статистичний метод міг би обрати другу модель як краще пояснення для даних. Проте підхід МДО будуватиме єдиний код на основі гіпотези замість просто обирання найкращого. Для цього найпростішим є застосовувати код із двох частин, в якому вказувати елемент класу моделей з найкращою продуктивністю. А потім вказувати дані із застосуванням цього коду. Для вказання того, який код застосовувати, потрібно багато біт, тому загальна кодова довжина на основі другого класу моделей може бути більшою за 1 000 біт. Отже, висновок при застосуванні підходу МДО неминуче є таким, що не існує достатньо свідчень для підтвердження гіпотези монети зі зсувом, незважаючи на те, що найкращий елемент другого класу моделей забезпечує краще пристосування до даних.
Позначення МДО
Центральною для теорії МДО є взаємно однозначна відповідність між функціями довжини коду та розподілами ймовірності. (Це випливає з нерівності Крафта — Макміллана.) Для будь-якого розподілу ймовірності можливо побудувати такий код , що довжина (в бітах) дорівнює ; цей код мінімізує очікувану довжину коду. І навпаки, для заданого коду можливо побудувати такий розподіл ймовірності , що виконуватиметься те саме. (Проблеми з округленнями тут ігноровано.) Іншими словами, пошук ефективного коду зводиться до пошуку доброго розподілу ймовірності, й навпаки.
Пов'язані поняття
МДО має тісний зв'язок з теорією ймовірності та статистикою через зазначений вище взаємозв'язок між кодами та розподілами ймовірності. Це призвело до розгляду МДО деякими дослідниками як рівнозначного баєсовому висновуванню: довжина коду моделі та даних разом в МДО відповідають апріорній імовірності та відособленій правдподібності відповідно в баєсовій системі.
В той час як баєсів механізм часто є корисним для побудови ефективних кодів МДО, система МДО також допомагає з іншими кодами, які не є баєсовими. Одним з прикладів є код унормованої максимальної правдоподібності (англ. normalized maximum likelihood code) Штаркова, що відіграє центральну роль у поточній теорії МДО, але не має еквіваленту в баєсовому висновуванні. Крім того, Ріссанен наголошує, що ми не повинні робити жодних припущень про істинний процес породжування даних: на практиці клас моделей зазвичай є спрощенням дійсності, і відтак не містить коду або розподілу ймовірності, що є істинним в будь-якому об'єктивному сенсі. У крайньому згаданому посиланні Ріссанен спирається в математичному обґрунтуванні МДО на [en].
Згідно філософії МДО, баєсові методи слід відхиляти, якщо вони ґрунтуються на небезпечних апріорних, що вели би до поганих результатів. Апріорним, що є прийнятними з точки зору МДО, також як правило віддають перевагу в так званому об'єктивному баєсовому аналізі, проте мотивація там зазвичай відрізняється.
Інші системи
МДО не була першим підходом до навчання в теорії інформації; це 1968 року Воллес та Бултон започаткувати пов'язане поняття, назване мінімальною довжиною повідомлення (МДП). Відмінність між МДО та МДП є джерелом постійної плутанини. З поверхневої точки зору, ці методи здаються переважно рівнозначними, але є деякі суттєві відмінності, особливо в інтерпретуванні:
- МДП є цілком суб'єктивним баєсовим підходом: він починається з ідеї, що хтось представляє свої переконання про процес породжування даних у вигляді апріорного розподілу. МДО уникає припущень про процес породжування даних.
- Обидва методи використовують двочастинні коди: перша частина завжди представляє інформацію, якої намагаються навчитися, таку як номер класу моделей (обирання моделі) або значення параметрів (оцінювання параметрів); друга частина є кодуванням даних за заданої інформації в першій частині. Відмінність між цими двома методами полягає в тім, що працях з МДО відстоюють необхідність переміщення небажаних параметрів до другої частини коду, де їх може бути представлено разом з даними шляхом застосування так званого [en], що часто є ефективнішим за двочастинний. У первинному описі МДП всі параметри кодують в першій частині, тож вчаться всіх параметрів.
- В рамках МДП кожен параметр вказувано з рівно такою точністю, яка дає в результаті оптимальну загальну довжину повідомлення: попередній приклад міг виникнути, якщо якийсь параметр первинно розглядали як «можливо корисний» для моделі, але згодом було з'ясовано, що він не здатен допомогти в поясненні даних (такому параметрові буде призначено довжину коду, що відповідає (баєсовій) апріорній імовірності того, що параметр виявиться некорисним). В рамках МДО основну увагу приділяють порівнянню радше класів моделей, ніж моделей, і є природнішим підходити до такого ж питання шляхом порівняння класу моделей, що явно включає такий параметр, з іншим класом, який не включає його. Відмінність полягає в механізмі, що застосовують для досягнення одного й того ж висновку.
Ключові люди
Див. також
Примітки
- Rissanen, J. (1978). Modeling by shortest data description. Automatica. 14 (5): 465—658. doi:10.1016/0005-1098(78)90005-5. (англ.)
- . University of Helsinki. Архів оригіналу за 18 лютого 2010. Процитовано 3 липня 2010. (англ.)
- Grünwald, P. (June 2007). . MIT Press. Архів оригіналу за 16 червня 2010. Процитовано 3 липня 2010. (англ.)
- Grünwald, P (April 2005). . MIT Press. Архів оригіналу за 19 червня 2006. Процитовано 3 липня 2010. (англ.)
- Grünwald, Peter. (PDF). Архів оригіналу (PDF) за 29 серпня 2017. Процитовано 3 липня 2010. (англ.)
- MacKay, David (2003). . Cambridge University Press. Архів оригіналу за 6 лютого 2015. Процитовано 3 липня 2010. (англ.)
- Rissanen, Jorma. . Архів оригіналу за 10 грудня 2015. Процитовано 3 липня 2010. (англ.)
- Rissanen, J. (2007). Information and Complexity in Statistical Modeling. Springer. Процитовано 3 липня 2010. (англ.)
- Nannen, Volker. (PDF). Архів оригіналу (PDF) за 2 червня 2010. Процитовано 3 липня 2010. (англ.)
Література
- Minimum Description Length on the Web [ 9 січня 2019 у Wayback Machine.] від Університету Гельсінкі. Містить матеріали для читання, демонстрації, події та посилання на дослідників МДО. (англ.)
- Homepage of Jorma Rissanen [ 10 грудня 2015 у Wayback Machine.], містить конспекти лекцій та інші недавні матеріали з МДО. (англ.)
- Advances in Minimum Description Length, MIT Press, . (англ.)
Вікіпедія, Українська, Україна, книга, книги, бібліотека, стаття, читати, завантажити, безкоштовно, безкоштовно завантажити, mp3, відео, mp4, 3gp, jpg, jpeg, gif, png, малюнок, музика, пісня, фільм, книга, гра, ігри, мобільний, телефон, android, ios, apple, мобільний телефон, samsung, iphone, xiomi, xiaomi, redmi, honor, oppo, nokia, sonya, mi, ПК, web, Інтернет
Princip minimalnoyi dovzhini opisu MDO angl minimum description length principle MDL formalizaciya leza Okkama v yakij najkrashoyu gipotezoyu dlya zadanogo naboru danih ye ta yaka vede do najkrashogo stisnennya danih MDO zaproponuvav Jorma Rissanen 1978 roku Vona ye vazhlivim ponyattyam v teoriyi informaciyi ta en OglyadBud yakij nabir danih mozhe buti predstavleno yak strichku simvoliv zi skinchennoyi skazhimo dvijkovoyi abetki Princip MDO gruntuyetsya na takij intuyiciyi bud yaku zakonomirnist v zadanomu nabori danih mozhe buti vikoristano dlya stisnennya cih danih tobto dlya opisu yih iz zastosuvannyam menshogo chisla simvoliv nizh potribno dlya opisu cih danih bukvalno Peter Gryunvald MDL Tutorial Shobi obrati gipotezu yaka shoplyuye najbilshe zakonomirnosti v danih naukovci shukayut taku gipotezu z yakoyu mozhna dosyagti najkrashogo stisnennya Dlya cogo fiksuyut kod dlya stisnennya danih najchastishe za dopomogoyu povnoyi za Tyuringom komp yuternoyi movi Ciyeyu movoyu pishut programu dlya vivedennya danih takim chinom programa efektivno predstavlyaye ci dani Dovzhinu najkorotshoyi programi yaka vivodit dani nazivayut kolmogorovskoyu skladnistyu cih danih Ce ye centralnoyu ideyeyu en en Visnovuvannya Prote cya matematichna teoriya ne daye praktichnogo shlyahu dosyagannya visnovuvannya Najvazhlivishimi prichinami cogo ye nastupni Kolmogorovska skladnist ye neobchislyuvanoyu takogo algoritmu yakij dlya dovilnoyi poslidovnosti danih na vhodi vidavav bi na vihodi programu sho vivodit ci dani ne isnuye Kolmogorovska skladnist zalezhit vid togo yaku komp yuternu movu vikoristovuyut Vibir movi ye vilnim ale vin vplivaye na cyu skladnist z tochnistyu do deyakogo stalogo aditivnogo chlenu Z ciyeyi prichini stali chleni v teoriyi kolmogorovskoyi skladnosti yak pravilo ne vrahovuyut Prote na praktici koli dostupnim ye lishe nevelikij obsyag danih taki stali mozhut mati duzhe velikij vpliv na rezultati visnovuvannya pri roboti z obmezhenimi danimi dobri rezultati garantovano buti ne mozhe MDO namagayetsya zaradzhuvati comu shlyahom Obmezhennya naboru dozvolenih kodiv takim chinom sho staye mozhlivim obchislyuvanim znahodzhennya najkorotshoyi kodovoyi dovzhini danih vidnosno dozvolenih kodiv i Obirannya kodu yakij ye dostatno diyevim nezalezhno vid nayavnih danih Cej punkt ye desho neviraznim i v cij oblasti vse she trivaye bagato doslidzhen Zamist program v teoriyi MDO zazvichaj govoryat pro kandidaturi gipotez modelej abo kodiv Nabir dozvolenih kodiv todi nazivayut klasom modelej Deyaki avtori nazivayut klas modelej modellyu Vidtak obirayut takij kod dlya yakogo suma opisu kodu ta opisu danih iz zastosuvannyam cogo kodu ye minimalnoyu Odniyeyu z vazhlivih vlastivostej metodiv MDO ye te sho voni zabezpechuyut prirodnij zahist vid perenavchannya oskilki voni vtilyuyut kompromis mizh skladnistyu gipotezi klasu modelej ta skladnistyu danih za zadanoyi gipotezi Ce pokazano v nastupnomu prikladi Priklad MDOCej rozdil maye kilka nedolikiv Bud laska dopomozhit udoskonaliti jogo abo obgovorit ci problemi na storinci obgovorennya Cej rozdil mozhe buti en dlya chitachiv Bud laska dopomozhit en Mozhlivo storinka obgovorennya mistit zauvazhennya shodo potribnih zmin lipen 2017 Cej rozdil potrebuye dodatkovih posilan na dzherela dlya polipshennya jogo perevirnosti Bud laska dopomozhit udoskonaliti cej rozdil dodavshi posilannya na nadijni avtoritetni dzherela Zvernitsya na storinku obgovorennya za poyasnennyami ta dopomozhit vipraviti nedoliki Material bez dzherel mozhe buti piddano sumnivu ta vilucheno lipen 2017 Monetu pidkidayut 1 000 raziv i zapisuyut kilkosti aversiv ta reversiv Rozglyanmo dva klasi modelej Pershij ye kodom yakij predstavlyaye rezultati cherez 0 dlya aversiv ta 1 dlya reversiv Cej kod predstavlyaye gipotezu togo sho moneta ye spravedlivoyu Dovzhina kodu za cogo koduvannya zavzhdi dorivnyuye 1 000 bit Drugij skladayetsya z usih kodiv sho ye efektivnimi dlya moneti z pevnim zsuvom predstavlyayuchi gipotezu togo sho moneta ne ye spravedlivoyu Skazhimo mi sposterigayemo 510 aversiv ta 490 reversiv Todi dovzhina kodu vidpovidno do najkrashogo koduvannya v drugij modeli ye korotshoyu za 1 000 bit Z ciyeyi prichini nayivnij statistichnij metod mig bi obrati drugu model yak krashe poyasnennya dlya danih Prote pidhid MDO buduvatime yedinij kod na osnovi gipotezi zamist prosto obirannya najkrashogo Dlya cogo najprostishim ye zastosovuvati kod iz dvoh chastin v yakomu vkazuvati element klasu modelej z najkrashoyu produktivnistyu A potim vkazuvati dani iz zastosuvannyam cogo kodu Dlya vkazannya togo yakij kod zastosovuvati potribno bagato bit tomu zagalna kodova dovzhina na osnovi drugogo klasu modelej mozhe buti bilshoyu za 1 000 bit Otzhe visnovok pri zastosuvanni pidhodu MDO neminuche ye takim sho ne isnuye dostatno svidchen dlya pidtverdzhennya gipotezi moneti zi zsuvom nezvazhayuchi na te sho najkrashij element drugogo klasu modelej zabezpechuye krashe pristosuvannya do danih Poznachennya MDOCentralnoyu dlya teoriyi MDO ye vzayemno odnoznachna vidpovidnist mizh funkciyami dovzhini kodu ta rozpodilami jmovirnosti Ce viplivaye z nerivnosti Krafta Makmillana Dlya bud yakogo rozpodilu jmovirnosti P displaystyle P mozhlivo pobuduvati takij kod C displaystyle C sho dovzhina v bitah C x displaystyle C x dorivnyuye log 2 P x displaystyle log 2 P x cej kod minimizuye ochikuvanu dovzhinu kodu I navpaki dlya zadanogo kodu C displaystyle C mozhlivo pobuduvati takij rozpodil jmovirnosti P displaystyle P sho vikonuvatimetsya te same Problemi z okruglennyami tut ignorovano Inshimi slovami poshuk efektivnogo kodu zvoditsya do poshuku dobrogo rozpodilu jmovirnosti j navpaki Pov yazani ponyattyaMDO maye tisnij zv yazok z teoriyeyu jmovirnosti ta statistikoyu cherez zaznachenij vishe vzayemozv yazok mizh kodami ta rozpodilami jmovirnosti Ce prizvelo do rozglyadu MDO deyakimi doslidnikami yak rivnoznachnogo bayesovomu visnovuvannyu dovzhina kodu modeli ta danih razom v MDO vidpovidayut apriornij imovirnosti ta vidosoblenij pravdpodibnosti vidpovidno v bayesovij sistemi V toj chas yak bayesiv mehanizm chasto ye korisnim dlya pobudovi efektivnih kodiv MDO sistema MDO takozh dopomagaye z inshimi kodami yaki ne ye bayesovimi Odnim z prikladiv ye kod unormovanoyi maksimalnoyi pravdopodibnosti angl normalized maximum likelihood code Shtarkova sho vidigraye centralnu rol u potochnij teoriyi MDO ale ne maye ekvivalentu v bayesovomu visnovuvanni Krim togo Rissanen nagoloshuye sho mi ne povinni robiti zhodnih pripushen pro istinnij proces porodzhuvannya danih na praktici klas modelej zazvichaj ye sproshennyam dijsnosti i vidtak ne mistit kodu abo rozpodilu jmovirnosti sho ye istinnim v bud yakomu ob yektivnomu sensi U krajnomu zgadanomu posilanni Rissanen spirayetsya v matematichnomu obgruntuvanni MDO na en Zgidno filosofiyi MDO bayesovi metodi slid vidhilyati yaksho voni gruntuyutsya na nebezpechnih apriornih sho veli bi do poganih rezultativ Apriornim sho ye prijnyatnimi z tochki zoru MDO takozh yak pravilo viddayut perevagu v tak zvanomu ob yektivnomu bayesovomu analizi prote motivaciya tam zazvichaj vidriznyayetsya Inshi sistemi MDO ne bula pershim pidhodom do navchannya v teoriyi informaciyi ce 1968 roku Volles ta Bulton zapochatkuvati pov yazane ponyattya nazvane minimalnoyu dovzhinoyu povidomlennya MDP Vidminnist mizh MDO ta MDP ye dzherelom postijnoyi plutanini Z poverhnevoyi tochki zoru ci metodi zdayutsya perevazhno rivnoznachnimi ale ye deyaki suttyevi vidminnosti osoblivo v interpretuvanni MDP ye cilkom sub yektivnim bayesovim pidhodom vin pochinayetsya z ideyi sho htos predstavlyaye svoyi perekonannya pro proces porodzhuvannya danih u viglyadi apriornogo rozpodilu MDO unikaye pripushen pro proces porodzhuvannya danih Obidva metodi vikoristovuyut dvochastinni kodi persha chastina zavzhdi predstavlyaye informaciyu yakoyi namagayutsya navchitisya taku yak nomer klasu modelej obirannya modeli abo znachennya parametriv ocinyuvannya parametriv druga chastina ye koduvannyam danih za zadanoyi informaciyi v pershij chastini Vidminnist mizh cimi dvoma metodami polyagaye v tim sho pracyah z MDO vidstoyuyut neobhidnist peremishennya nebazhanih parametriv do drugoyi chastini kodu de yih mozhe buti predstavleno razom z danimi shlyahom zastosuvannya tak zvanogo en sho chasto ye efektivnishim za dvochastinnij U pervinnomu opisi MDP vsi parametri koduyut v pershij chastini tozh vchatsya vsih parametriv V ramkah MDP kozhen parametr vkazuvano z rivno takoyu tochnistyu yaka daye v rezultati optimalnu zagalnu dovzhinu povidomlennya poperednij priklad mig viniknuti yaksho yakijs parametr pervinno rozglyadali yak mozhlivo korisnij dlya modeli ale zgodom bulo z yasovano sho vin ne zdaten dopomogti v poyasnenni danih takomu parametrovi bude priznacheno dovzhinu kodu sho vidpovidaye bayesovij apriornij imovirnosti togo sho parametr viyavitsya nekorisnim V ramkah MDO osnovnu uvagu pridilyayut porivnyannyu radshe klasiv modelej nizh modelej i ye prirodnishim pidhoditi do takogo zh pitannya shlyahom porivnyannya klasu modelej sho yavno vklyuchaye takij parametr z inshim klasom yakij ne vklyuchaye jogo Vidminnist polyagaye v mehanizmi sho zastosovuyut dlya dosyagnennya odnogo j togo zh visnovku Klyuchovi lyudiJorma RissanenDiv takozh en Algoritmichna teoriya informaciyi Induktivne visnovuvannya en Minimalna dovzhina povidomlennya Lezo OkkamaPrimitkiRissanen J 1978 Modeling by shortest data description Automatica 14 5 465 658 doi 10 1016 0005 1098 78 90005 5 angl University of Helsinki Arhiv originalu za 18 lyutogo 2010 Procitovano 3 lipnya 2010 angl Grunwald P June 2007 MIT Press Arhiv originalu za 16 chervnya 2010 Procitovano 3 lipnya 2010 angl Grunwald P April 2005 MIT Press Arhiv originalu za 19 chervnya 2006 Procitovano 3 lipnya 2010 angl Grunwald Peter PDF Arhiv originalu PDF za 29 serpnya 2017 Procitovano 3 lipnya 2010 angl MacKay David 2003 Cambridge University Press Arhiv originalu za 6 lyutogo 2015 Procitovano 3 lipnya 2010 angl Rissanen Jorma Arhiv originalu za 10 grudnya 2015 Procitovano 3 lipnya 2010 angl Rissanen J 2007 Information and Complexity in Statistical Modeling Springer Procitovano 3 lipnya 2010 angl Nannen Volker PDF Arhiv originalu PDF za 2 chervnya 2010 Procitovano 3 lipnya 2010 angl LiteraturaMinimum Description Length on the Web 9 sichnya 2019 u Wayback Machine vid Universitetu Gelsinki Mistit materiali dlya chitannya demonstraciyi podiyi ta posilannya na doslidnikiv MDO angl Homepage of Jorma Rissanen 10 grudnya 2015 u Wayback Machine mistit konspekti lekcij ta inshi nedavni materiali z MDO angl Advances in Minimum Description Length MIT Press ISBN 0 262 07262 9 angl