У статистиці та машинному навчанні, компромі́с (або диле́ма) зсу́ву та диспе́рсії (англ. bias–variance tradeoff or dilemma) — це задача одночасної мінімізації двох джерел похибки, які перешкоджають алгоритмам керованого навчання робити узагальнення на основі їхніх тренувальних наборів:
- Зсув (англ. bias) — це похибка, викликана помилковими припущеннями в алгоритмі навчання. Великий зсув може спричиняти нездатність алгоритму знаходити доречні взаємозв'язки між ознаками та цільовими виходами (недонавчання).
- Дисперсія (англ. variance) — це похибка від чутливості до малих флуктуацій в тренувальному наборі. Висока дисперсія може спричиняти перенавчання: моделювання випадкового [en] в тренувальних даних замість моделювання бажаних виходів.
Ро́зклад на зсув та диспе́рсію (англ. bias–variance decomposition) — це спосіб аналізувати очікувану похибку узагальнення алгоритму навчання по відношенню до тієї чи іншої задачі як суму трьох членів: зсуву, дисперсії, та величини, що називається незнижуваною похибкою (англ. irreducible error), яка виникає внаслідок шуму в самій задачі.
Цей компроміс застосовується до всіх видів керованого навчання: класифікації, регресії (узгодження функцій) та навчання структурованого виходу. Його також залучали для пояснення дієвості евристик у людському навчанні.
Задача
Компроміс зсуву та дисперсії є центральною задачею в керованому навчанні. В ідеалі потрібно обирати модель, яка і закономірності в своїх тренувальних даних схоплює добре, але й добре узагальнює їх для ще не бачених даних. На жаль, зазвичай неможливо робити те і друге одночасно. Методи навчання з високою дисперсією можуть бути здатними добре представляти свої тренувальні набори, але перебувають під загрозою перенавчання зашумлених або нехарактерних тренувальних даних. На противагу їм, алгоритми з великим зсувом зазвичай видають простіші моделі, не схильні до перенавчання, але можуть недопідлаштовуватися до своїх тренувальних даних, виявляючись нездатними схопити важливі закономірності.
Моделі з малим зсувом зазвичай є складнішими (наприклад, регресійними многочленами високого порядку), що дозволяє їм представляти тренувальний набір точніше. Проте в процесі вони можуть також представляти й велику складову [en], присутню в тренувальному наборі, роблячи свої передбачення менш точними — незважаючи на свою додану складність. З іншого боку, моделі з великим зсувом схильні бути відносно простими (регресійними многочленами низького порядку, або навіть лінійними), але можуть видавати передбачення з нижчою дисперсією при застосуванні поза межами тренувального набору.
Розклад квадратичної помилки на зсув та дисперсію
Припустімо, що в нас є тренувальний набір, який складається з набору точок та дійсних значень , пов'язаних з кожною із точок . Ми виходимо з того, що існує функційний, але зашумлений взаємозв'язок , в якому шум має нульове середнє значення та дисперсію .
Нам треба знайти функцію , що якомога краще наближує справжню функцію засобами якогось алгоритму навчання на навчальній вибірці . Ми робимо «якомога краще» точним поняттям, вимірюючи середньоквадратичну похибку відносно : ми хочемо, щоби було мінімальним, як для , так і для точок за межами нашої вибірки. Звісно, ми не можемо сподіватися зробити це досконало, оскільки містять шум ; це означає, що ми мусимо бути готові допустити незнижувану похибку в будь-якій функції, яку б ми не придумали.
Пошук , яка узагальнюється на точки за межами тренувального набору, може бути здійснено за допомогою будь-якого із багатьох алгоритмів, що застосовуються для керованого навчання. Виявляється, що яку би функцію ми не обрали, ми можемо розкласти математичне сподівання її похибки на небаченому зразкові наступним чином:
Де
а
Математичне сподівання пробігає різні варіанти вибору тренувального набору , всі вибрані з одного й того ж (умовного) розподілу . Ці три члени представляють:
- квадрат зсуву методу навчання, що можна розглядати як похибку, спричинену спрощувальними припущеннями, вбудованих до цього методу. Наприклад, при наближуванні нелінійної функції із застосуванням методу навчання для [en] в оцінках буде присутня похибка внаслідок припущення лінійності;
- дисперсію методу навчання, або, інтуїтивно, наскільки сильно метод навчання рухатиметься навколо свого середнього значення;
- незнижувану похибку . Оскільки всі три члени є невід'ємними, вона формує обмеження знизу для математичного сподівання похибки на небачених зразках.
Що складнішою є модель , то більше точок даних вона схоплюватиме, і то меншим буде зсув. Проте, складність робитиме так, що модель більше «рухатиметься», щоби захопити точки даних, і відтак її дисперсія буде вищою.
Виведення
Виведення розкладу на зсув та дисперсію для квадратичних помилок відбувається наступним чином. Для зручності позначення введімо скорочення та та опустимо індекс . По-перше, зауважте, що для будь-якої випадкової змінної ми маємо
Перегрупувавши, отримуємо
Оскільки є детермінованою,
З цього, за умови та (оскільки — це шум), випливає, що
Також, оскільки
Отже, оскільки та є незалежними, ми можемо записати, що
Остаточно, функція втрат середньо-квадратичної похибки MSE (або від'ємна (лог-функція правдомодібності)) отримується шляхом взяття математичного сподівання :
Застосування до класифікації
Розклад на зсув та дисперсію спершу було сформульованого для регресії методом найменших квадратів. Можливо знайти подібний розклад і для випадку класифікації за втрат 0-1 (коефіцієнт помилок класифікації). Як альтернатива, якщо задачу класифікації може бути перефразовано як імовірнісну класифікацію, то математичне сподівання квадрату похибки передбачуваних імовірностей по відношенню до справжніх імовірностей може бути розкладено, як і раніше.
Підходи
Зниження розмірності та обирання ознак можуть знижувати дисперсію шляхом спрощення моделей. Аналогічно, зниженню дисперсії сприяє більший тренувальний набір. Додавання ознак (провісників) сприяє зниженню зсуву, ціною введення додаткової дисперсії. Алгоритми навчання зазвичай мають деякі налагоджувані параметри, які контролюють зсув та дисперсію, наприклад:
- ([en]) лінійні моделі може бути регуляризовано, щоби знизити їхню дисперсію ціною збільшення їхнього зсуву.
- У штучних нейронних мережах дисперсія збільшується, а зсув зменшується з числом прихованих вузлів. Як і в УЛМ, зазвичай застосовується регуляризація.
- В моделях k-найближчих сусідів велике значення k призводить до великого зсуву та низької дисперсії (див. нижче).
- У навчанні з прикладів регуляризація може досягатися варіюванням суміші прототипів та екземплярів.
- У деревах рішень глибина дерева визначає дисперсію. Зазвичай, для контролю дисперсії дерева рішень підрізують.
Одним зі шляхів розв'язання цієї дилеми є застосування [en] та ансамблевого навчання. Наприклад, підсилювання багато «слабких» моделей (із великим зсувом) поєднує в ансамбль, який має менший зсув, ніж окремі моделі, тоді як натяжкове агрегування поєднує «сильні» системи навчання таким чином, що знижує їхню дисперсію.
k-найближчі сусіди
У випадку регресії k-найближчих сусідів існує вираз замкненого вигляду, який ставить у відповідність розклад на зсув та дисперсію до параметру k:
де є k найближчими сусідами x у тренувальному наборі. Зсув (перший член) є монотонно зростаючою функцією від k, тоді як дисперсія (другий член) при збільшенні k спадає. Справді, за «розсудливих припущень» зсув оцінки першого-найближчого сусіда (1-НС, англ. 1-NN) зникає повністю, оскільки розмір тренувальної вибірки наближується до нескінченності.
Застосування до людського навчання
В той час як дилему зсуву та дисперсії широко обговорювали в контексті машинного навчання, її розглядали і в контексті людського пізнання, перш за все [en] зі співробітниками в контексті навчених евристик. Вони переконували (див. посилання нижче), що людський мозок розв'язує цю дилему в випадку зазвичай розріджених, погано виражених тренувальних наборів, забезпечених досвідом, шляхом обрання евристики сильного зсуву/низької дисперсії. Це віддзеркалює той факт, що підхід нульового зсуву має погану узагальнюваність на нові ситуації, а також нерозсудливо припускає точне знання справжнього стану світу. Отримувані в результаті евристики є відносно простими, але дають кращі висновки в ширшому розмаїтті ситуацій.
[en] та ін. переконують, що дилема зсуву та дисперсії означає, що таких здібностей, як узагальнене розпізнавання об'єктів, не може бути навчено з нуля, що вони вимагають певної міри «жорсткої розводки», яка потім налаштовується досвідом. Причиною цього є те, що безмодельні підходи до отримання висновків для уникнення високої дисперсії вимагають непрактично великих тренувальних наборів.
Див. також
Примітки
- ; E. Bienenstock; R. Doursat (1992). (PDF). Neural Computation. 4: 1—58. doi:10.1162/neco.1992.4.1.1. Архів оригіналу (PDF) за 10 Жовтня 2016. Процитовано 6 Листопада 2016. (англ.)
- Bias–variance decomposition, In Encyclopedia of Machine Learning. Eds. Claude Sammut, Geoffrey I. Webb. Springer 2011. pp. 100-101 (англ.)
- Gareth James; Daniela Witten; Trevor Hastie; Robert Tibshirani (2013). . Springer. Архів оригіналу за 23 Червня 2019. Процитовано 6 Листопада 2016. (англ.)
- Hastie, Trevor; Tibshirani, Robert; Friedman, Jerome (2009). . Архів оригіналу за 26 січня 2015. Процитовано 6 листопада 2016. (англ.)
- Vijayakumar, Sethu (2007). (PDF). University Edinburgh. Архів оригіналу (PDF) за 9 Вересня 2016. Процитовано 19 серпня 2014. (англ.)
- Shakhnarovich, Greg (2011). (PDF). Архів оригіналу (PDF) за 21 August 2014. Процитовано 20 серпня 2014. (англ.)
- Domingos, Pedro (2000). (PDF). ICML. Архів оригіналу (PDF) за 7 Жовтня 2016. Процитовано 6 Листопада 2016. (англ.)
- Valentini, Giorgio; Dietterich, Thomas G. (2004). Bias–variance analysis of support vector machines for the development of SVM-based ensemble methods. JMLR. 5: 725—775. (англ.)
- Manning, Christopher D.; Raghavan, Prabhakar; Schütze, Hinrich (2008). . Cambridge University Press. с. 308—314. Архів оригіналу за 4 Травня 2021. Процитовано 6 Листопада 2016. (англ.)
- Belsley, David (1991). Conditioning diagnostics : collinearity and weak data in regression. New York: Wiley. ISBN . (англ.)
- Gagliardi, F (2011). Instance-based classifiers applied to medical databases: diagnosis and knowledge extraction. Artificial Intelligence in Medicine. 52 (3): 123—139. doi:10.1016/j.artmed.2011.04.002. (англ.)
- Jo-Anne Ting, Sethu Vijaykumar, Stefan Schaal, Locally Weighted Regression for Control. In Encyclopedia of Machine Learning. Eds. Claude Sammut, Geoffrey I. Webb. Springer 2011. p. 615 (англ.)
- Scott Fortmann-Roe. Understanding the Bias–Variance Tradeoff [ 29 Жовтня 2016 у Wayback Machine.]. 2012. (англ.)
- Gigerenzer, Gerd; Brighton, Henry (2009). Homo Heuristicus: Why Biased Minds Make Better Inferences. Topics in Cognitive Science. 1: 107—143. doi:10.1111/j.1756-8765.2008.01006.x. PMID 25164802. (англ.)
Посилання
- Fortmann-Roe, Scott (June 2012). . Архів оригіналу за 29 Жовтня 2016. Процитовано 6 Листопада 2016. (англ.)
Вікіпедія, Українська, Україна, книга, книги, бібліотека, стаття, читати, завантажити, безкоштовно, безкоштовно завантажити, mp3, відео, mp4, 3gp, jpg, jpeg, gif, png, малюнок, музика, пісня, фільм, книга, гра, ігри, мобільний, телефон, android, ios, apple, мобільний телефон, samsung, iphone, xiomi, xiaomi, redmi, honor, oppo, nokia, sonya, mi, ПК, web, Інтернет
U statistici ta mashinnomu navchanni kompromi s abo dile ma zsu vu ta dispe rsiyi angl bias variance tradeoff or dilemma ce zadacha odnochasnoyi minimizaciyi dvoh dzherel pohibki yaki pereshkodzhayut algoritmam kerovanogo navchannya robiti uzagalnennya na osnovi yihnih trenuvalnih naboriv Zsuv angl bias ce pohibka viklikana pomilkovimi pripushennyami v algoritmi navchannya Velikij zsuv mozhe sprichinyati nezdatnist algoritmu znahoditi dorechni vzayemozv yazki mizh oznakami ta cilovimi vihodami nedonavchannya Dispersiya angl variance ce pohibka vid chutlivosti do malih fluktuacij v trenuvalnomu nabori Visoka dispersiya mozhe sprichinyati perenavchannya modelyuvannya vipadkovogo en v trenuvalnih danih zamist modelyuvannya bazhanih vihodiv Funkciya ta zashumleni dani rozmah 5rozmah 1rozmah 0 1Funkciyu chervonu nablizhuyut iz zastosuvannyam radialnih bazisnih funkcij sinih Na kozhnomu grafiku pokazano kilka sprob Dlya kozhnoyi zi sprob yak navchalnij nabir nadayetsya kilka iz zashumlenih tochok danih nagori Dlya shirokogo rozmahu mal 2 zsuv ye silnim RBF ne mozhut povnistyu nablizhuvati funkciyu osoblivo u centralnomu zagliblenni ale dispersiya mizh riznimi nablizhennyami ye nizkoyu Zi znizhennyam rozmahu mal 3 ta 4 zsuv zmenshuyetsya sini krivi nablizhuyut chervonu shilnishe Prote v zalezhnosti vid shumu v riznih sprobah dispersiya mizh sprobami zrostaye U najnizhchomu zobrazhenni nablizheni znachennya dlya x 0 riznyatsya diko v zalezhnosti vid togo de buli roztashovani tochki danih Ro zklad na zsuv ta dispe rsiyu angl bias variance decomposition ce sposib analizuvati ochikuvanu pohibku uzagalnennya algoritmu navchannya po vidnoshennyu do tiyeyi chi inshoyi zadachi yak sumu troh chleniv zsuvu dispersiyi ta velichini sho nazivayetsya neznizhuvanoyu pohibkoyu angl irreducible error yaka vinikaye vnaslidok shumu v samij zadachi Cej kompromis zastosovuyetsya do vsih vidiv kerovanogo navchannya klasifikaciyi regresiyi uzgodzhennya funkcij ta navchannya strukturovanogo vihodu Jogo takozh zaluchali dlya poyasnennya diyevosti evristik u lyudskomu navchanni ZadachaKompromis zsuvu ta dispersiyi ye centralnoyu zadacheyu v kerovanomu navchanni V ideali potribno obirati model yaka i zakonomirnosti v svoyih trenuvalnih danih shoplyuye dobre ale j dobre uzagalnyuye yih dlya she ne bachenih danih Na zhal zazvichaj nemozhlivo robiti te i druge odnochasno Metodi navchannya z visokoyu dispersiyeyu mozhut buti zdatnimi dobre predstavlyati svoyi trenuvalni nabori ale perebuvayut pid zagrozoyu perenavchannya zashumlenih abo neharakternih trenuvalnih danih Na protivagu yim algoritmi z velikim zsuvom zazvichaj vidayut prostishi modeli ne shilni do perenavchannya ale mozhut nedopidlashtovuvatisya do svoyih trenuvalnih danih viyavlyayuchis nezdatnimi shopiti vazhlivi zakonomirnosti Modeli z malim zsuvom zazvichaj ye skladnishimi napriklad regresijnimi mnogochlenami visokogo poryadku sho dozvolyaye yim predstavlyati trenuvalnij nabir tochnishe Prote v procesi voni mozhut takozh predstavlyati j veliku skladovu en prisutnyu v trenuvalnomu nabori roblyachi svoyi peredbachennya mensh tochnimi nezvazhayuchi na svoyu dodanu skladnist Z inshogo boku modeli z velikim zsuvom shilni buti vidnosno prostimi regresijnimi mnogochlenami nizkogo poryadku abo navit linijnimi ale mozhut vidavati peredbachennya z nizhchoyu dispersiyeyu pri zastosuvanni poza mezhami trenuvalnogo naboru Rozklad kvadratichnoyi pomilki na zsuv ta dispersiyuPripustimo sho v nas ye trenuvalnij nabir yakij skladayetsya z naboru tochok x1 xn displaystyle x 1 dots x n ta dijsnih znachen yi displaystyle y i pov yazanih z kozhnoyu iz tochok xi displaystyle x i Mi vihodimo z togo sho isnuye funkcijnij ale zashumlenij vzayemozv yazok y f x e displaystyle y f x varepsilon v yakomu shum e displaystyle varepsilon maye nulove serednye znachennya ta dispersiyu s2 displaystyle sigma 2 Nam treba znajti funkciyu f x D displaystyle hat f x D sho yakomoga krashe nablizhuye spravzhnyu funkciyu f x displaystyle f x zasobami yakogos algoritmu navchannya na navchalnij vibirci D x1 y1 xn yn displaystyle D x 1 y 1 dots x n y n Mi robimo yakomoga krashe tochnim ponyattyam vimiryuyuchi serednokvadratichnu pohibku y displaystyle y vidnosno f x D displaystyle hat f x D mi hochemo shobi y f x D 2 displaystyle y hat f x D 2 bulo minimalnim yak dlya x1 xn displaystyle x 1 dots x n tak i dlya tochok za mezhami nashoyi vibirki Zvisno mi ne mozhemo spodivatisya zrobiti ce doskonalo oskilki yi displaystyle y i mistyat shum e displaystyle varepsilon ce oznachaye sho mi musimo buti gotovi dopustiti neznizhuvanu pohibku v bud yakij funkciyi yaku b mi ne pridumali Poshuk f displaystyle hat f yaka uzagalnyuyetsya na tochki za mezhami trenuvalnogo naboru mozhe buti zdijsneno za dopomogoyu bud yakogo iz bagatoh algoritmiv sho zastosovuyutsya dlya kerovanogo navchannya Viyavlyayetsya sho yaku bi funkciyu f displaystyle hat f mi ne obrali mi mozhemo rozklasti matematichne spodivannya yiyi pohibki na nebachenomu zrazkovi x displaystyle x nastupnim chinom 34 223 ED e y f x D 2 BiasD f x D 2 VarD f x D s2 displaystyle operatorname E D varepsilon Big big y hat f x D big 2 Big Big operatorname Bias D big hat f x D big Big 2 operatorname Var D big hat f x D big sigma 2 De BiasD f x D ED f x D f x displaystyle operatorname Bias D big hat f x D big operatorname E D big hat f x D big f x a VarD f x D ED ED f x D f x D 2 displaystyle operatorname Var D big hat f x D big operatorname E D big operatorname E D hat f x D hat f x D big 2 Matematichne spodivannya probigaye rizni varianti viboru trenuvalnogo naboru D x1 y1 xn yn displaystyle D x 1 y 1 dots x n y n vsi vibrani z odnogo j togo zh umovnogo rozpodilu P x y displaystyle P x y Ci tri chleni predstavlyayut kvadrat zsuvu metodu navchannya sho mozhna rozglyadati yak pohibku sprichinenu sproshuvalnimi pripushennyami vbudovanih do cogo metodu Napriklad pri nablizhuvanni nelinijnoyi funkciyi f x displaystyle f x iz zastosuvannyam metodu navchannya dlya en v ocinkah f x displaystyle hat f x bude prisutnya pohibka vnaslidok pripushennya linijnosti dispersiyu metodu navchannya abo intuyitivno naskilki silno metod navchannya f x displaystyle hat f x ruhatimetsya navkolo svogo serednogo znachennya neznizhuvanu pohibku s2 displaystyle sigma 2 Oskilki vsi tri chleni ye nevid yemnimi vona formuye obmezhennya znizu dlya matematichnogo spodivannya pohibki na nebachenih zrazkah 34 Sho skladnishoyu ye model f x displaystyle hat f x to bilshe tochok danih vona shoplyuvatime i to menshim bude zsuv Prote skladnist robitime tak sho model bilshe ruhatimetsya shobi zahopiti tochki danih i vidtak yiyi dispersiya bude vishoyu Vivedennya Vivedennya rozkladu na zsuv ta dispersiyu dlya kvadratichnih pomilok vidbuvayetsya nastupnim chinom Dlya zruchnosti poznachennya vvedimo skorochennya f f x displaystyle f f x ta f f x D displaystyle hat f hat f x D ta opustimo indeks D displaystyle D Po pershe zauvazhte sho dlya bud yakoyi vipadkovoyi zminnoyi X displaystyle X mi mayemo Var X E X2 E X 2 displaystyle operatorname Var X operatorname E X 2 operatorname E X 2 Peregrupuvavshi otrimuyemo E X2 Var X E X 2 displaystyle operatorname E X 2 operatorname Var X operatorname E X 2 Oskilki f displaystyle f ye determinovanoyu E f f displaystyle operatorname E f f Z cogo za umovi y f e displaystyle y f varepsilon ta E e 0 displaystyle operatorname E varepsilon 0 oskilki e displaystyle varepsilon ce shum viplivaye sho E y E f e E f f displaystyle operatorname E y operatorname E f varepsilon operatorname E f f Takozh oskilki Var e s2 displaystyle operatorname Var varepsilon sigma 2 Var y E y E y 2 E y f 2 E f e f 2 E e2 Var e E e 2 s2 02 s2 displaystyle operatorname Var y operatorname E y operatorname E y 2 operatorname E y f 2 operatorname E f varepsilon f 2 operatorname E varepsilon 2 operatorname Var varepsilon operatorname E varepsilon 2 sigma 2 0 2 sigma 2 Otzhe oskilki e displaystyle varepsilon ta f displaystyle hat f ye nezalezhnimi mi mozhemo zapisati sho E y f 2 E f e f 2 E f e f E f E f 2 E f E f 2 E e2 E E f f 2 2E f E f e 2E e E f f 2E E f f f E f f E f 2 E e2 E E f f 2 2 f E f E e 2E e E E f f 2E E f f f E f f E f 2 E e2 E E f f 2 f E f 2 Var e Var f Bias f 2 Var e Var f Bias f 2 s2 Var f displaystyle begin aligned operatorname E big y hat f 2 big amp operatorname E big f varepsilon hat f 2 big 5pt amp operatorname E big f varepsilon hat f operatorname E hat f operatorname E hat f 2 big 5pt amp operatorname E big f operatorname E hat f 2 big operatorname E varepsilon 2 operatorname E big operatorname E hat f hat f 2 big 2 operatorname E big f operatorname E hat f varepsilon big 2 operatorname E big varepsilon operatorname E hat f hat f big 2 operatorname E big operatorname E hat f hat f f operatorname E hat f big 5pt amp f operatorname E hat f 2 operatorname E varepsilon 2 operatorname E big operatorname E hat f hat f 2 big 2 f operatorname E hat f operatorname E varepsilon 2 operatorname E varepsilon operatorname E big operatorname E hat f hat f big 2 operatorname E big operatorname E hat f hat f big f operatorname E hat f 5pt amp f operatorname E hat f 2 operatorname E varepsilon 2 operatorname E big operatorname E hat f hat f 2 big 5pt amp f operatorname E hat f 2 operatorname Var varepsilon operatorname Var big hat f big 5pt amp operatorname Bias hat f 2 operatorname Var varepsilon operatorname Var big hat f big 5pt amp operatorname Bias hat f 2 sigma 2 operatorname Var big hat f big end aligned Ostatochno funkciya vtrat seredno kvadratichnoyi pohibki MSE abo vid yemna log funkciya pravdomodibnosti otrimuyetsya shlyahom vzyattya matematichnogo spodivannya x P displaystyle x sim P MSE Ex BiasD f x D 2 VarD f x D s2 displaystyle text MSE operatorname E x bigg operatorname Bias D hat f x D 2 operatorname Var D big hat f x D big bigg sigma 2 Zastosuvannya do klasifikaciyiRozklad na zsuv ta dispersiyu spershu bulo sformulovanogo dlya regresiyi metodom najmenshih kvadrativ Mozhlivo znajti podibnij rozklad i dlya vipadku klasifikaciyi za vtrat 0 1 koeficiyent pomilok klasifikaciyi Yak alternativa yaksho zadachu klasifikaciyi mozhe buti perefrazovano yak imovirnisnu klasifikaciyu to matematichne spodivannya kvadratu pohibki peredbachuvanih imovirnostej po vidnoshennyu do spravzhnih imovirnostej mozhe buti rozkladeno yak i ranishe PidhodiZnizhennya rozmirnosti ta obirannya oznak mozhut znizhuvati dispersiyu shlyahom sproshennya modelej Analogichno znizhennyu dispersiyi spriyaye bilshij trenuvalnij nabir Dodavannya oznak provisnikiv spriyaye znizhennyu zsuvu cinoyu vvedennya dodatkovoyi dispersiyi Algoritmi navchannya zazvichaj mayut deyaki nalagodzhuvani parametri yaki kontrolyuyut zsuv ta dispersiyu napriklad en linijni modeli mozhe buti regulyarizovano shobi zniziti yihnyu dispersiyu cinoyu zbilshennya yihnogo zsuvu U shtuchnih nejronnih merezhah dispersiya zbilshuyetsya a zsuv zmenshuyetsya z chislom prihovanih vuzliv Yak i v ULM zazvichaj zastosovuyetsya regulyarizaciya V modelyah k najblizhchih susidiv velike znachennya k prizvodit do velikogo zsuvu ta nizkoyi dispersiyi div nizhche U navchanni z prikladiv regulyarizaciya mozhe dosyagatisya variyuvannyam sumishi prototipiv ta ekzemplyariv U derevah rishen glibina dereva viznachaye dispersiyu Zazvichaj dlya kontrolyu dispersiyi dereva rishen pidrizuyut 307 Odnim zi shlyahiv rozv yazannya ciyeyi dilemi ye zastosuvannya en ta ansamblevogo navchannya Napriklad pidsilyuvannya bagato slabkih modelej iz velikim zsuvom poyednuye v ansambl yakij maye menshij zsuv nizh okremi modeli todi yak natyazhkove agreguvannya poyednuye silni sistemi navchannya takim chinom sho znizhuye yihnyu dispersiyu k najblizhchi susidi U vipadku regresiyi k najblizhchih susidiv isnuye viraz zamknenogo viglyadu yakij stavit u vidpovidnist rozklad na zsuv ta dispersiyu do parametru k 37 223 E y f x 2 f x 1k i 1kf Ni x 2 s2k s2 displaystyle mathrm E y hat f x 2 left f x frac 1 k sum i 1 k f N i x right 2 frac sigma 2 k sigma 2 de N1 x Nk x displaystyle N 1 x dots N k x ye k najblizhchimi susidami x u trenuvalnomu nabori Zsuv pershij chlen ye monotonno zrostayuchoyu funkciyeyu vid k todi yak dispersiya drugij chlen pri zbilshenni k spadaye Spravdi za rozsudlivih pripushen zsuv ocinki pershogo najblizhchogo susida 1 NS angl 1 NN znikaye povnistyu oskilki rozmir trenuvalnoyi vibirki nablizhuyetsya do neskinchennosti Zastosuvannya do lyudskogo navchannyaV toj chas yak dilemu zsuvu ta dispersiyi shiroko obgovoryuvali v konteksti mashinnogo navchannya yiyi rozglyadali i v konteksti lyudskogo piznannya persh za vse en zi spivrobitnikami v konteksti navchenih evristik Voni perekonuvali div posilannya nizhche sho lyudskij mozok rozv yazuye cyu dilemu v vipadku zazvichaj rozridzhenih pogano virazhenih trenuvalnih naboriv zabezpechenih dosvidom shlyahom obrannya evristiki silnogo zsuvu nizkoyi dispersiyi Ce viddzerkalyuye toj fakt sho pidhid nulovogo zsuvu maye poganu uzagalnyuvanist na novi situaciyi a takozh nerozsudlivo pripuskaye tochne znannya spravzhnogo stanu svitu Otrimuvani v rezultati evristiki ye vidnosno prostimi ale dayut krashi visnovki v shirshomu rozmayitti situacij en ta in perekonuyut sho dilema zsuvu ta dispersiyi oznachaye sho takih zdibnostej yak uzagalnene rozpiznavannya ob yektiv ne mozhe buti navcheno z nulya sho voni vimagayut pevnoyi miri zhorstkoyi rozvodki yaka potim nalashtovuyetsya dosvidom Prichinoyu cogo ye te sho bezmodelni pidhodi do otrimannya visnovkiv dlya uniknennya visokoyi dispersiyi vimagayut nepraktichno velikih trenuvalnih naboriv Div takozhObirannya modeli Tochnist ta precizijnist Zsuv ocinki Kerovane navchannya en Optimizaciya giperparametriv en Teorema Gaussa MarkovaPrimitki E Bienenstock R Doursat 1992 PDF Neural Computation 4 1 58 doi 10 1162 neco 1992 4 1 1 Arhiv originalu PDF za 10 Zhovtnya 2016 Procitovano 6 Listopada 2016 angl Bias variance decomposition In Encyclopedia of Machine Learning Eds Claude Sammut Geoffrey I Webb Springer 2011 pp 100 101 angl Gareth James Daniela Witten Trevor Hastie Robert Tibshirani 2013 Springer Arhiv originalu za 23 Chervnya 2019 Procitovano 6 Listopada 2016 angl Hastie Trevor Tibshirani Robert Friedman Jerome 2009 Arhiv originalu za 26 sichnya 2015 Procitovano 6 listopada 2016 angl Vijayakumar Sethu 2007 PDF University Edinburgh Arhiv originalu PDF za 9 Veresnya 2016 Procitovano 19 serpnya 2014 angl Shakhnarovich Greg 2011 PDF Arhiv originalu PDF za 21 August 2014 Procitovano 20 serpnya 2014 angl Domingos Pedro 2000 PDF ICML Arhiv originalu PDF za 7 Zhovtnya 2016 Procitovano 6 Listopada 2016 angl Valentini Giorgio Dietterich Thomas G 2004 Bias variance analysis of support vector machines for the development of SVM based ensemble methods JMLR 5 725 775 angl Manning Christopher D Raghavan Prabhakar Schutze Hinrich 2008 Cambridge University Press s 308 314 Arhiv originalu za 4 Travnya 2021 Procitovano 6 Listopada 2016 angl Belsley David 1991 Conditioning diagnostics collinearity and weak data in regression New York Wiley ISBN 978 0471528890 angl Gagliardi F 2011 Instance based classifiers applied to medical databases diagnosis and knowledge extraction Artificial Intelligence in Medicine 52 3 123 139 doi 10 1016 j artmed 2011 04 002 angl Jo Anne Ting Sethu Vijaykumar Stefan Schaal Locally Weighted Regression for Control In Encyclopedia of Machine Learning Eds Claude Sammut Geoffrey I Webb Springer 2011 p 615 angl Scott Fortmann Roe Understanding the Bias Variance Tradeoff 29 Zhovtnya 2016 u Wayback Machine 2012 angl Gigerenzer Gerd Brighton Henry 2009 Homo Heuristicus Why Biased Minds Make Better Inferences Topics in Cognitive Science 1 107 143 doi 10 1111 j 1756 8765 2008 01006 x PMID 25164802 angl PosilannyaFortmann Roe Scott June 2012 Arhiv originalu za 29 Zhovtnya 2016 Procitovano 6 Listopada 2016 angl