Тео́рія статисти́чного навча́ння (англ. statistical learning theory) — це система машинного навчання, що тягнеться з галузей статистики та функціонального аналізу. Теорія статистичного навчання займається задачею знаходження передбачувальної функції на основі даних. Теорія статистичного навчання привела до успішних застосунків у таких областях як комп'ютерний зір, розпізнавання мовлення, біоінформатика та бейсбол.
Введення
Цілями навчання є передбачення та розуміння. Навчання поділяється на багато категорій, включно з керованим, некерованим, інтерактивним навчанням, та навчанням з підкріпленням. З точки зору теорії статистичного навчання найзрозумілішим є кероване навчання. Кероване навчання включає навчання з тренувального набору даних. Кожна точка тренувального набору є парою входу-виходу, де вхід відображується на вихід. Задача навчання полягає у виведенні такої функції відображення між входом та виходом, яку можна застосовувати для передбачення виходу з майбутнього входу.
В залежності від типу виходу, задачі керованого навчання є задачами або регресії, або класифікації. Якщо вихід набуває неперервного діапазону значень, це є задачею регресії. Якщо взяти за приклад закон Ома, регресію може бути виконувано з напругою як вхід та струмом як вихід. Регресія встановить, що функційним взаємозв'язком між напругою та струмом є така , що
Задачі класифікації — це такі, для яких вихід буде елементом із дискретної множини міток. Серед застосувань машинного навчання класифікація є дуже поширеною. Наприклад, у розпізнаванні облич зображення обличчя особи буде входом, а вихідною міткою буде ім'я особи. Вхід представлятиметься великим багатовимірним вектором, чиї елементи представлятимуть пікселі цього зображення.
Після навчання функції на основі тренувального набору даних цю функцію перевіряють на перевірному наборі даних: даних, яких не було в тренувальному наборі.
Формальний опис
Нехай буде векторним простором усіх можливих входів, а — векторним простором усіх можливих виходів. Теорія статистичного навчання розглядає можливість існування якогось невідомого розподілу ймовірності над простором добутку , тобто, що існує якийсь невідомий . Тренувальний набір робиться з зразків із цього розподілу ймовірності, й записується як
Кожен є вхідним вектором з тренувальних даних, а є виходом, що йому відповідає.
За такого формулювання задача виведення складається з пошуку такої функції , що . Нехай буде простором функцій , що називається простором гіпотез. Простір гіпотез є простором функцій, пошук яким здійснюватиме алгоритм. Нехай буде функціоналом втрат, метрикою різниці між передбаченим значенням та справжнім значенням . визначається як
Цільова функція, найкраща можлива функція , яку може бути обрано, задається такою , яка задовольняє
Оскільки розподіл імовірності є невідомим, для очікуваного ризику мусить застосовуватися замінна міра. Ця міра ґрунтується на тренувальному наборі, вибірці з цього невідомого розподілу ймовірності. Вона називається
Алгоритм навчання, який обирає таку функцію , яка мінімізує емпіричний ризик, називається мінімізацією емпіричного ризику.
Функції втрат
Вибір функції втрат є визначальним чинником для функції , яку буде обрано алгоритмом навчання. Функція втрат також впливає й на темп збіжності алгоритму. Важливо, щоби функція втрат була опуклою.
В залежності від того, чи відноситься задача до задач регресії, чи класифікації, застосовуються різні функції втрат.
Регресія
Найзвичнішою функцією втрат для регресії є квадратична функція втрат (англ. square loss function, відома також як норма L2). Ця знайома функція втрат використовується у [en]. Вона виглядає так:
Іноді використовуються й втрати абсолютного значення (англ. absolute value loss, відомі також як норма L1):
Класифікація
Характеристична функція 0-1 є в певному сенсі найприроднішою функцією втрат для класифікації. Вона набуває значення 0, якщо передбачений вихід є таким самим, як і справжній, і набуває значення 1, якщо передбачений вихід відрізняється від справжнього. Для бінарної класифікації з це є
де є функцією Гевісайда.
Регуляризація
Головною проблемою, яка виникає в задачах машинного навчання, є перенавчання. Оскільки навчання є задачею передбачення, метою є не знайти функцію, яка найщільніше допасовується до (попередньо спостережуваних) даних, а знайти таку, яка найточніше передбачуватиме вихід від майбутнього входу. Мінімізація емпіричного ризику запускає цей ризик перенавчання: шукаючи функцію, яка точно відповідає даним, але не передбачує добре майбутній вихід.
Перенавчання є симптомом нестійких розв'язків: невелике збурення в даних тренувального набору спричинюватиме великі відхилення в навченій функції. Може бути показано, що якщо може бути гарантовано стійкість розв'язку, то узагальнення та послідовність також гарантовано. Регуляризація може розв'язувати проблему перенавчання й надавати задачі стійкості.
Регуляризації можна досягати обмеженням простору гіпотез . Поширеним прикладом може слугувати обмеження лінійними функціями: це можна розглядати як зведення задачі до стандартної задачі лінійної регресії. також може бути обмежено многочленами степеню , показниковими функціями, або обмеженими функціями на L1. Обмеження простору гіпотез дозволяє уникати перенавчання, оскільки обмежує вигляд потенційних функцій, і відтак унеможливлює вибір функції, що давала би як завгодно близький до нуля емпіричний ризик.
Одним із прикладів регуляризації є Регуляризація Тихонова. Вона складається з мінімізування
де є зафіксованим додатним параметром, параметром регуляризації. Регуляризація Тихонова забезпечує існування, унікальність та стійкість розв'язку.
Див. також
- [en], є корисним варіантом для вибору .
- [en]
Примітки
- [en], Robert Tibshirani, Jerome Friedman (2009) The Elements of Statistical Learning, Springer-Verlag . (англ.)
- [en], Afshin Rostamizadeh, Ameet Talwalkar (2012) Foundations of Machine Learning, The MIT Press . (англ.)
- Gagan Sidhu, Brian Caffo. Exploiting pitcher decision-making using Reinforcement Learning. Annals of Applied Statistics (англ.)
- Tomaso Poggio, Lorenzo Rosasco, et al. Statistical Learning Theory and Applications, 2012, Class 1 [ 16 вересня 2012 у Wayback Machine.] (англ.)
- Rosasco, L., Vito, E.D., Caponnetto, A., Fiana, M., and Verri A. 2004. Neural computation Vol 16, pp 1063-1076 (англ.)
- Vapnik, V.N. and Chervonenkis, A.Y. 1971. On the uniform convergence of relative frequencies of events to their probabilities. Theory of Probability and its Applications Vol 16, pp 264-280. (англ.)
- Mukherjee, S., Niyogi, P. Poggio, T., and Rifkin, R. 2006. Learning theory: stability is sufficient for generalization and necessary and sufficient for consistency of empirical risk minimization. Advances in Computational Mathematics. Vol 25, pp 161-193. (англ.)
- Tomaso Poggio, Lorenzo Rosasco, et al. Statistical Learning Theory and Applications, 2012, Class 2 [ 16 серпня 2016 у Wayback Machine.] (англ.)
Джерела
- Bousquet, Olivier; Boucheron, Stéphane; Lugosi, Gábor (2004). Bousquet, Olivier; von Luxburg, Ulrike; Rätsch, Gunnar (ред.). Introduction to Statistical Learning Theory (PDF). Advanced Lectures on Machine Learning. Т. 3176. Berlin, Heidelberg: Springer Berlin Heidelberg. с. 169—207. doi:10.1007/978-3-540-28650-9_8. ISBN .
Вікіпедія, Українська, Україна, книга, книги, бібліотека, стаття, читати, завантажити, безкоштовно, безкоштовно завантажити, mp3, відео, mp4, 3gp, jpg, jpeg, gif, png, малюнок, музика, пісня, фільм, книга, гра, ігри, мобільний, телефон, android, ios, apple, мобільний телефон, samsung, iphone, xiomi, xiaomi, redmi, honor, oppo, nokia, sonya, mi, ПК, web, Інтернет
Div takozh Cya stattya pro statistichne navchannya v mashinnomu navchanni Pro jogo zastosuvannya v psihologiyi div Teo riya statisti chnogo navcha nnya angl statistical learning theory ce sistema mashinnogo navchannya sho tyagnetsya z galuzej statistiki ta funkcionalnogo analizu Teoriya statistichnogo navchannya zajmayetsya zadacheyu znahodzhennya peredbachuvalnoyi funkciyi na osnovi danih Teoriya statistichnogo navchannya privela do uspishnih zastosunkiv u takih oblastyah yak komp yuternij zir rozpiznavannya movlennya bioinformatika ta bejsbol VvedennyaCilyami navchannya ye peredbachennya ta rozuminnya Navchannya podilyayetsya na bagato kategorij vklyuchno z kerovanim nekerovanim interaktivnim navchannyam ta navchannyam z pidkriplennyam Z tochki zoru teoriyi statistichnogo navchannya najzrozumilishim ye kerovane navchannya Kerovane navchannya vklyuchaye navchannya z trenuvalnogo naboru danih Kozhna tochka trenuvalnogo naboru ye paroyu vhodu vihodu de vhid vidobrazhuyetsya na vihid Zadacha navchannya polyagaye u vivedenni takoyi funkciyi vidobrazhennya mizh vhodom ta vihodom yaku mozhna zastosovuvati dlya peredbachennya vihodu z majbutnogo vhodu V zalezhnosti vid tipu vihodu zadachi kerovanogo navchannya ye zadachami abo regresiyi abo klasifikaciyi Yaksho vihid nabuvaye neperervnogo diapazonu znachen ce ye zadacheyu regresiyi Yaksho vzyati za priklad zakon Oma regresiyu mozhe buti vikonuvano z naprugoyu yak vhid ta strumom yak vihid Regresiya vstanovit sho funkcijnim vzayemozv yazkom mizh naprugoyu ta strumom ye taka 1 R displaystyle frac 1 R sho I 1 R V displaystyle I frac 1 R V Zadachi klasifikaciyi ce taki dlya yakih vihid bude elementom iz diskretnoyi mnozhini mitok Sered zastosuvan mashinnogo navchannya klasifikaciya ye duzhe poshirenoyu Napriklad u rozpiznavanni oblich zobrazhennya oblichchya osobi bude vhodom a vihidnoyu mitkoyu bude im ya osobi Vhid predstavlyatimetsya velikim bagatovimirnim vektorom chiyi elementi predstavlyatimut pikseli cogo zobrazhennya Pislya navchannya funkciyi na osnovi trenuvalnogo naboru danih cyu funkciyu pereviryayut na perevirnomu nabori danih danih yakih ne bulo v trenuvalnomu nabori Formalnij opisNehaj X displaystyle X bude vektornim prostorom usih mozhlivih vhodiv a Y displaystyle Y vektornim prostorom usih mozhlivih vihodiv Teoriya statistichnogo navchannya rozglyadaye mozhlivist isnuvannya yakogos nevidomogo rozpodilu jmovirnosti nad prostorom dobutku Z X Y displaystyle Z X times Y tobto sho isnuye yakijs nevidomij p z p x y displaystyle p z p vec x y Trenuvalnij nabir robitsya z n displaystyle n zrazkiv iz cogo rozpodilu jmovirnosti j zapisuyetsya yak S x 1 y 1 x n y n z 1 z n displaystyle S vec x 1 y 1 dots vec x n y n vec z 1 dots vec z n Kozhen x i displaystyle vec x i ye vhidnim vektorom z trenuvalnih danih a y i displaystyle y i ye vihodom sho jomu vidpovidaye Za takogo formulyuvannya zadacha vivedennya skladayetsya z poshuku takoyi funkciyi f X Y displaystyle f X mapsto Y sho f x y displaystyle f vec x sim y Nehaj H displaystyle mathcal H bude prostorom funkcij f X Y displaystyle f X to Y sho nazivayetsya prostorom gipotez Prostir gipotez ye prostorom funkcij poshuk yakim zdijsnyuvatime algoritm Nehaj V f x y displaystyle V f vec x y bude funkcionalom vtrat metrikoyu riznici mizh peredbachenim znachennyam f x displaystyle f vec x ta spravzhnim znachennyam y displaystyle y viznachayetsya yak I f X Y V f x y p x y d x d y displaystyle I f displaystyle int X times Y V f vec x y p vec x y d vec x dy Cilova funkciya najkrasha mozhliva funkciya f displaystyle f yaku mozhe buti obrano zadayetsya takoyu f displaystyle f yaka zadovolnyaye I f inf h H I h displaystyle I f inf h in mathcal H I h Oskilki rozpodil imovirnosti p x y displaystyle p vec x y ye nevidomim dlya ochikuvanogo riziku musit zastosovuvatisya zaminna mira Cya mira gruntuyetsya na trenuvalnomu nabori vibirci z cogo nevidomogo rozpodilu jmovirnosti Vona nazivayetsya I S f 1 n i 1 n V f x i y i displaystyle I S f frac 1 n displaystyle sum i 1 n V f vec x i y i Algoritm navchannya yakij obiraye taku funkciyu f S displaystyle f S yaka minimizuye empirichnij rizik nazivayetsya minimizaciyeyu empirichnogo riziku Funkciyi vtratVibir funkciyi vtrat ye viznachalnim chinnikom dlya funkciyi f S displaystyle f S yaku bude obrano algoritmom navchannya Funkciya vtrat takozh vplivaye j na temp zbizhnosti algoritmu Vazhlivo shobi funkciya vtrat bula opukloyu V zalezhnosti vid togo chi vidnositsya zadacha do zadach regresiyi chi klasifikaciyi zastosovuyutsya rizni funkciyi vtrat Regresiya Najzvichnishoyu funkciyeyu vtrat dlya regresiyi ye kvadratichna funkciya vtrat angl square loss function vidoma takozh yak norma L2 Cya znajoma funkciya vtrat vikoristovuyetsya u en Vona viglyadaye tak V f x y y f x 2 displaystyle V f vec x y y f vec x 2 Inodi vikoristovuyutsya j vtrati absolyutnogo znachennya angl absolute value loss vidomi takozh yak norma L1 V f x y y f x displaystyle V f vec x y y f vec x Klasifikaciya Dokladnishe Statistichna klasifikaciya Harakteristichna funkciya 0 1 ye v pevnomu sensi najprirodnishoyu funkciyeyu vtrat dlya klasifikaciyi Vona nabuvaye znachennya 0 yaksho peredbachenij vihid ye takim samim yak i spravzhnij i nabuvaye znachennya 1 yaksho peredbachenij vihid vidriznyayetsya vid spravzhnogo Dlya binarnoyi klasifikaciyi z Y 1 1 displaystyle Y 1 1 ce ye V f x y 8 y f x displaystyle V f vec x y theta yf vec x de 8 displaystyle theta ye funkciyeyu Gevisajda RegulyarizaciyaCe zobrazhennya predstavlyaye priklad perenavchannya v mashinnomu navchanni Chervoni tochki predstavlyayut dani trenuvalnogo naboru Zelena liniya predstavlyaye spravzhnij funkcijnij vzayemozv yazok todi yak sinya linij pokazuye navchenu funkciyu sho stala zhertvoyu perenavchannya Golovnoyu problemoyu yaka vinikaye v zadachah mashinnogo navchannya ye perenavchannya Oskilki navchannya ye zadacheyu peredbachennya metoyu ye ne znajti funkciyu yaka najshilnishe dopasovuyetsya do poperedno sposterezhuvanih danih a znajti taku yaka najtochnishe peredbachuvatime vihid vid majbutnogo vhodu Minimizaciya empirichnogo riziku zapuskaye cej rizik perenavchannya shukayuchi funkciyu yaka tochno vidpovidaye danim ale ne peredbachuye dobre majbutnij vihid Perenavchannya ye simptomom nestijkih rozv yazkiv nevelike zburennya v danih trenuvalnogo naboru sprichinyuvatime veliki vidhilennya v navchenij funkciyi Mozhe buti pokazano sho yaksho mozhe buti garantovano stijkist rozv yazku to uzagalnennya ta poslidovnist takozh garantovano Regulyarizaciya mozhe rozv yazuvati problemu perenavchannya j nadavati zadachi stijkosti Regulyarizaciyi mozhna dosyagati obmezhennyam prostoru gipotez H displaystyle mathcal H Poshirenim prikladom mozhe sluguvati obmezhennya H displaystyle mathcal H linijnimi funkciyami ce mozhna rozglyadati yak zvedennya zadachi do standartnoyi zadachi linijnoyi regresiyi H displaystyle mathcal H takozh mozhe buti obmezheno mnogochlenami stepenyu p displaystyle p pokaznikovimi funkciyami abo obmezhenimi funkciyami na L1 Obmezhennya prostoru gipotez dozvolyaye unikati perenavchannya oskilki obmezhuye viglyad potencijnih funkcij i vidtak unemozhlivlyuye vibir funkciyi sho davala bi yak zavgodno blizkij do nulya empirichnij rizik Odnim iz prikladiv regulyarizaciyi ye Regulyarizaciya Tihonova Vona skladayetsya z minimizuvannya 1 n i 1 n V f x i y i g f H 2 displaystyle frac 1 n displaystyle sum i 1 n V f vec x i y i gamma f mathcal H 2 de g displaystyle gamma ye zafiksovanim dodatnim parametrom parametrom regulyarizaciyi Regulyarizaciya Tihonova zabezpechuye isnuvannya unikalnist ta stijkist rozv yazku Div takozh en ye korisnim variantom dlya viboru H displaystyle mathcal H en Primitki en Robert Tibshirani Jerome Friedman 2009 The Elements of Statistical Learning Springer Verlag ISBN 978 0 387 84857 0 angl en Afshin Rostamizadeh Ameet Talwalkar 2012 Foundations of Machine Learning The MIT Press ISBN 9780262018258 angl Gagan Sidhu Brian Caffo Exploiting pitcher decision making using Reinforcement Learning Annals of Applied Statistics angl Tomaso Poggio Lorenzo Rosasco et al Statistical Learning Theory and Applications 2012 Class 1 16 veresnya 2012 u Wayback Machine angl Rosasco L Vito E D Caponnetto A Fiana M and Verri A 2004 Neural computation Vol 16 pp 1063 1076 angl Vapnik V N and Chervonenkis A Y 1971 On the uniform convergence of relative frequencies of events to their probabilities Theory of Probability and its Applications Vol 16 pp 264 280 angl Mukherjee S Niyogi P Poggio T and Rifkin R 2006 Learning theory stability is sufficient for generalization and necessary and sufficient for consistency of empirical risk minimization Advances in Computational Mathematics Vol 25 pp 161 193 angl Tomaso Poggio Lorenzo Rosasco et al Statistical Learning Theory and Applications 2012 Class 2 16 serpnya 2016 u Wayback Machine angl DzherelaBousquet Olivier Boucheron Stephane Lugosi Gabor 2004 Bousquet Olivier von Luxburg Ulrike Ratsch Gunnar red Introduction to Statistical Learning Theory PDF Advanced Lectures on Machine Learning T 3176 Berlin Heidelberg Springer Berlin Heidelberg s 169 207 doi 10 1007 978 3 540 28650 9 8 ISBN 978 3 540 23122 6