У галузі машинного навчання метою статистичної класифікації є використання характеристик об'єкту для ідентифікації класу (або групи), до якої він належить. Ліні́йний класифіка́тор (англ. linear classifier) досягає цього ухваленням рішення про класифікацію на основі значення лінійної комбінації цих характеристик. Характеристики об'єкту відомі також як значення ознак, і зазвичай представляються машині у векторі, що називається вектором ознак. Такі класифікатори добре працюють для таких практичних задач, як класифікація документів, і, загальніше, для задач із багатьма змінними (ознаками), досягаючи рівнів точності, порівнянних з нелінійними класифікаторами, у той же час беручи менше часу на тренування та застосування.
Визначення
Якщо вектор ознак на вході класифікатора є дійсним вектором , то вихідною оцінкою є
де є дійсним вектором вагових коефіцієнтів, а f — функцією, яка перетворює скалярний добуток двох векторів на бажаний вихід. (Іншими словами, є 1-формою, або лінійним функціоналом, що відображує на R.) Ве́ктора вагових коефіцієнтів навчаються з набору мічених тренувальних зразків. Часто f є простою функцією, яка відображує всі значення понад певний поріг до першого класу, а всі інші — до другого. Складніша f може давати ймовірність приналежності елемента до певного класу.
Для двокласової задачі класифікації роботу лінійного класифікатора можна візуалізувати розділенням вхідного простору високої вимірності гіперплощиною: всі точки по один бік від гіперплощини класифікуються як «так», а всі інші — як «ні».
Лінійний класифікатор часто застосовується в ситуаціях, коли швидкість класифікації є проблемою, оскільки часто він є найшвидшим класифікатором, особливо коли є розрідженим. Лінійний класифікатор також часто дуже добре працює тоді, коли число вимірів є великим, як у класифікації документів, де кожен з елементів зазвичай є кількістю траплянь якогось слова в документі (див. документно-термінну матрицю). У таких випадках класифікатор повинен бути добре регуляризованим.
Породжувальні та розрізнювальні моделі
Є два широкі класи методів визначення параметрів лінійного класифікатора . Вони можуть бути породжувальними та розрізнювальними моделями. Методи першого класу моделюють функції умовної густини . До прикладів таких алгоритмів належать:
- Лінійний дискримінантний аналіз (або лінійний дискримінант Фішера) (ЛДА, англ. LDA) — передбачає ґаусові моделі умовної густини.
- Наївний баєсів класифікатор з поліноміальними або багатовимірними моделями подій Бернуллі.
Другий набір методів включає розрізнювальні моделі, які намагаються максимізувати якість виходу на тренувальному наборі. Додаткові члени в тренувальній функції витрат можуть легко виконувати регуляризацію кінцевої моделі. До прикладів розрізнювального тренування лінійних класифікаторів належать:
- Логістична регресія — оцінка максимальної правдоподібності , виходячи з того, що спостережуваний тренувальний набір було породжено біноміальною моделлю, яка залежить від виходу класифікатора.
- Перцептрон — алгоритм, який намагається виправити всі помилки, що зустрілися в тренувальному наборі.
- Опорно-векторна машина — алгоритм, який максимізує розділення між гіперплощиною рішення та зразками тренувального набору.
Зауваження: Незважаючи на свою назву, ЛДА в цій систематиці не належить до класу розрізнювальних моделей. Проте його назва має сенс, коли ми порівнюємо ЛДА з іншим основним алгоритмом зниження розмірності, методом головних компонент (МГК, англ. principal components analysis, PCA). ЛДА є алгоритмом керованого навчання, який використовує мітки даних, тоді як МГК є алгоритмом некерованого навчання, який мітки ігнорує. У підсумку, ця назва є історичним артефактом.
Розрізнювальне тренування часто видає вищу точність, ніж моделювання функцій умовної густини. Проте робота з пропущеними даними часто є простішою з моделями умовної густини.
Всі перелічені вище алгоритми лінійної класифікації може бути перетворено на нелінійні алгоритми, що діють на відмінному вхідному просторі , за допомогою ядрового трюку.
Розрізнювальне тренування
Розрізнювальне тренування лінійних класифікаторів, як правило, здійснюється керованим чином, за допомогою алгоритму оптимізації, якому надається тренувальний набір із бажаними виходами, та функція втрат, яка задає міру невідповідності між виходами класифікатора, та бажаними. Таким чином, алгоритм навчання розв'язує задачу оптимізації наступного вигляду:
де
- w — вектор параметрів класифікатора,
- L(yi, wTxi) — функція втрат, яка задає міру невідповідності між передбаченням класифікатора та справжнім виходом yi для i-того тренувального зразка,
- R(w) — функція регуляризації, яка запобігає завеликим значенням параметрів (що спричиняє перенавчання), і
- C — скалярна стала (встановлена користувачем алгоритму навчання), яка контролює баланс між регуляризацією та функцією втрат.
До популярних функцій втрат належать заві́сні втрати (для лінійних ОВМ) та [en] (для лінійної логістичної регресії). Якщо функція регуляризації R є опуклою, то наведене вище є опуклою задачею. Існує багато алгоритмів розв'язання таких задач; до популярних для лінійної класифікації належать (стохастичний) градієнтний спуск, [en], координатний спуск та методи Ньютона.
Див. також
Примітки
- Guo-Xun Yuan; Chia-Hua Ho; Chih-Jen Lin (2012). Recent Advances of Large-Scale Linear Classification. Proc. IEEE. 100 (9). (англ.)
- T. Mitchell, Generative and Discriminative Classifiers: Naive Bayes and Logistic Regression. [ 24 лютого 2021 у Wayback Machine.] Draft Version, 2005 (англ.)
- A. Y. Ng and M. I. Jordan. On Discriminative vs. Generative Classifiers: A comparison of logistic regression and Naive Bayes. [ 4 березня 2016 у Wayback Machine.] in NIPS 14, 2002. (англ.)
- R.O. Duda, P.E. Hart, D.G. Stork, «Pattern Classification», Wiley, (2001). (англ.)
Література
- Y. Yang, X. Liu, "A re-examination of text categorization", Proc. ACM SIGIR Conference, pp. 42–49, (1999). paper @ citeseer [ 3 травня 2008 у Wayback Machine.] (англ.)
- R. Herbrich, "Learning Kernel Classifiers: Theory and Algorithms," MIT Press, (2001). (англ.)
Вікіпедія, Українська, Україна, книга, книги, бібліотека, стаття, читати, завантажити, безкоштовно, безкоштовно завантажити, mp3, відео, mp4, 3gp, jpg, jpeg, gif, png, малюнок, музика, пісня, фільм, книга, гра, ігри, мобільний, телефон, android, ios, apple, мобільний телефон, samsung, iphone, xiomi, xiaomi, redmi, honor, oppo, nokia, sonya, mi, ПК, web, Інтернет
U galuzi mashinnogo navchannya metoyu statistichnoyi klasifikaciyi ye vikoristannya harakteristik ob yektu dlya identifikaciyi klasu abo grupi do yakoyi vin nalezhit Lini jnij klasifika tor angl linear classifier dosyagaye cogo uhvalennyam rishennya pro klasifikaciyu na osnovi znachennya linijnoyi kombinaciyi cih harakteristik Harakteristiki ob yektu vidomi takozh yak znachennya oznak i zazvichaj predstavlyayutsya mashini u vektori sho nazivayetsya vektorom oznak Taki klasifikatori dobre pracyuyut dlya takih praktichnih zadach yak klasifikaciya dokumentiv i zagalnishe dlya zadach iz bagatma zminnimi oznakami dosyagayuchi rivniv tochnosti porivnyannih z nelinijnimi klasifikatorami u toj zhe chas beruchi menshe chasu na trenuvannya ta zastosuvannya ViznachennyaV comu vipadku chorni ta bili tochki mozhe buti klasifikovano neskinchennoyu kilkistyu linijnih klasifikatoriv H1 sinij klasifikuye yih pravilno yak i H2 chervonij H2 mozhe vvazhatisya krashim u tomu sensi sho vin takozh ye yaknajdalshim vid oboh grup H3 zelenij ne zdaten pravilno klasifikuvati ci tochki Yaksho vektor oznak na vhodi klasifikatora ye dijsnim vektorom x displaystyle vec x to vihidnoyu ocinkoyu ye y f w x f j w j x j displaystyle y f vec w cdot vec x f left sum j w j x j right de w displaystyle vec w ye dijsnim vektorom vagovih koeficiyentiv a f funkciyeyu yaka peretvoryuye skalyarnij dobutok dvoh vektoriv na bazhanij vihid Inshimi slovami w displaystyle vec w ye 1 formoyu abo linijnim funkcionalom sho vidobrazhuye x displaystyle vec x na R Ve ktora vagovih koeficiyentiv w displaystyle vec w navchayutsya z naboru michenih trenuvalnih zrazkiv Chasto f ye prostoyu funkciyeyu yaka vidobrazhuye vsi znachennya ponad pevnij porig do pershogo klasu a vsi inshi do drugogo Skladnisha f mozhe davati jmovirnist prinalezhnosti elementa do pevnogo klasu Dlya dvoklasovoyi zadachi klasifikaciyi robotu linijnogo klasifikatora mozhna vizualizuvati rozdilennyam vhidnogo prostoru visokoyi vimirnosti giperploshinoyu vsi tochki po odin bik vid giperploshini klasifikuyutsya yak tak a vsi inshi yak ni Linijnij klasifikator chasto zastosovuyetsya v situaciyah koli shvidkist klasifikaciyi ye problemoyu oskilki chasto vin ye najshvidshim klasifikatorom osoblivo koli x displaystyle vec x ye rozridzhenim Linijnij klasifikator takozh chasto duzhe dobre pracyuye todi koli chislo vimiriv x displaystyle vec x ye velikim yak u klasifikaciyi dokumentiv de kozhen z elementiv x displaystyle vec x zazvichaj ye kilkistyu traplyan yakogos slova v dokumenti div dokumentno terminnu matricyu U takih vipadkah klasifikator povinen buti dobre regulyarizovanim Porodzhuvalni ta rozriznyuvalni modeliYe dva shiroki klasi metodiv viznachennya parametriv linijnogo klasifikatora w displaystyle vec w Voni mozhut buti porodzhuvalnimi ta rozriznyuvalnimi modelyami Metodi pershogo klasu modelyuyut funkciyi umovnoyi gustini P x c l a s s displaystyle P vec x rm class Do prikladiv takih algoritmiv nalezhat Linijnij diskriminantnij analiz abo linijnij diskriminant Fishera LDA angl LDA peredbachaye gausovi modeli umovnoyi gustini Nayivnij bayesiv klasifikator z polinomialnimi abo bagatovimirnimi modelyami podij Bernulli Drugij nabir metodiv vklyuchaye rozriznyuvalni modeli yaki namagayutsya maksimizuvati yakist vihodu na trenuvalnomu nabori Dodatkovi chleni v trenuvalnij funkciyi vitrat mozhut legko vikonuvati regulyarizaciyu kincevoyi modeli Do prikladiv rozriznyuvalnogo trenuvannya linijnih klasifikatoriv nalezhat Logistichna regresiya ocinka maksimalnoyi pravdopodibnosti w displaystyle vec w vihodyachi z togo sho sposterezhuvanij trenuvalnij nabir bulo porodzheno binomialnoyu modellyu yaka zalezhit vid vihodu klasifikatora Perceptron algoritm yakij namagayetsya vipraviti vsi pomilki sho zustrilisya v trenuvalnomu nabori Oporno vektorna mashina algoritm yakij maksimizuye rozdilennya mizh giperploshinoyu rishennya ta zrazkami trenuvalnogo naboru Zauvazhennya Nezvazhayuchi na svoyu nazvu LDA v cij sistematici ne nalezhit do klasu rozriznyuvalnih modelej Prote jogo nazva maye sens koli mi porivnyuyemo LDA z inshim osnovnim algoritmom znizhennya rozmirnosti metodom golovnih komponent MGK angl principal components analysis PCA LDA ye algoritmom kerovanogo navchannya yakij vikoristovuye mitki danih todi yak MGK ye algoritmom nekerovanogo navchannya yakij mitki ignoruye U pidsumku cya nazva ye istorichnim artefaktom 117 Rozriznyuvalne trenuvannya chasto vidaye vishu tochnist nizh modelyuvannya funkcij umovnoyi gustini Prote robota z propushenimi danimi chasto ye prostishoyu z modelyami umovnoyi gustini Vsi perelicheni vishe algoritmi linijnoyi klasifikaciyi mozhe buti peretvoreno na nelinijni algoritmi sho diyut na vidminnomu vhidnomu prostori f x displaystyle varphi vec x za dopomogoyu yadrovogo tryuku Rozriznyuvalne trenuvannya Rozriznyuvalne trenuvannya linijnih klasifikatoriv yak pravilo zdijsnyuyetsya kerovanim chinom za dopomogoyu algoritmu optimizaciyi yakomu nadayetsya trenuvalnij nabir iz bazhanimi vihodami ta funkciya vtrat yaka zadaye miru nevidpovidnosti mizh vihodami klasifikatora ta bazhanimi Takim chinom algoritm navchannya rozv yazuye zadachu optimizaciyi nastupnogo viglyadu arg min w R w C i 1 N L y i w T x i displaystyle arg min mathbf w R mathbf w C sum i 1 N L y i mathbf w mathsf T mathbf x i de w vektor parametriv klasifikatora L yi wTxi funkciya vtrat yaka zadaye miru nevidpovidnosti mizh peredbachennyam klasifikatora ta spravzhnim vihodom yi dlya i togo trenuvalnogo zrazka R w funkciya regulyarizaciyi yaka zapobigaye zavelikim znachennyam parametriv sho sprichinyaye perenavchannya i C skalyarna stala vstanovlena koristuvachem algoritmu navchannya yaka kontrolyuye balans mizh regulyarizaciyeyu ta funkciyeyu vtrat Do populyarnih funkcij vtrat nalezhat zavi sni vtrati dlya linijnih OVM ta en dlya linijnoyi logistichnoyi regresiyi Yaksho funkciya regulyarizaciyi R ye opukloyu to navedene vishe ye opukloyu zadacheyu Isnuye bagato algoritmiv rozv yazannya takih zadach do populyarnih dlya linijnoyi klasifikaciyi nalezhat stohastichnij gradiyentnij spusk en koordinatnij spusk ta metodi Nyutona Div takozhZvorotne poshirennya Linijna regresiya Perceptron en Oporno vektorni mashini en PrimitkiGuo Xun Yuan Chia Hua Ho Chih Jen Lin 2012 Recent Advances of Large Scale Linear Classification Proc IEEE 100 9 angl T Mitchell Generative and Discriminative Classifiers Naive Bayes and Logistic Regression 24 lyutogo 2021 u Wayback Machine Draft Version 2005 angl A Y Ng and M I Jordan On Discriminative vs Generative Classifiers A comparison of logistic regression and Naive Bayes 4 bereznya 2016 u Wayback Machine in NIPS 14 2002 angl R O Duda P E Hart D G Stork Pattern Classification Wiley 2001 ISBN 0 471 05669 3 angl LiteraturaY Yang X Liu A re examination of text categorization Proc ACM SIGIR Conference pp 42 49 1999 paper citeseer 3 travnya 2008 u Wayback Machine angl R Herbrich Learning Kernel Classifiers Theory and Algorithms MIT Press 2001 ISBN 0 262 08306 X angl