Лінійний дискримінантний аналіз (англ. Linear discriminant analysis, LDA) — статистичний метод для розв'язку задачі класифікації. З його допомогою будуються лінійні комбінації предикторів, що відділяють області одного класу від іншого. LDA працює для будь-якої кількості класів, на відміну від таких методів як логістична регресія, що в першу чергу використовуються для бінарної класифікації.
Історія
Лінійний дискримінативний аналіз базується на використанні критерія Фішера, який був описаний британським статистиком і біологом Рональдом Фішером у задачі бінарної класифікації, розділення ірисів за розмірами частин квітки.
У 1948 метод був узагальнений індійським математиком [en] для довільної кількості класів.
Алгоритм
LDA шукає проєкцію даних у деякий підпростір розмірності або менше (де — кількість класів, — кількість ознак). Підпростір обирається так, щоб проєкції розподілів, що відносяться до різних класів, були розділені у ньому якомога сильніше. Таким чином класи розділюються за правилом:
- Кожному класу ставиться у відповідність деяка функція вигляду . Ці функції називаються дискримінантними функціями. Матриця є матрицею проєкції, .
- Кожна точка простору ознак класифікується відповідно до того, яка саме з дискримінантних функцій має найвище значення у ній.
Через те що всі функції є лінійними по Х, границі між областями простору, що відповідають різним класам (decision surface) завжди є гіперплощинами.
У найпростішому випадку двох класів підпростір є одномірним — прямою, і розділення відбувається за правилом :
Геометричний сенс функції в такому випадку — відстань від гіперплощини розділяючої класи до точки даних.
Дискримінантні функції будуються так, щоб зробити розділення класів якомога простішим. Існує кілька алгоритмів, які вирішують цю задачу, найвідомішими є дискримінантний аналіз Фішера і баєсівський класифікатор. У деяких випадках вони дають однакові результати, проте загалом це різні алгоритми.
Дискримінантний аналіз Фішера
Історично першою спробою побудувати лінійну дискримінантну модель була модель запропонована Фішером.
Нехай є два класи. Тоді підпростором найкращого розділення буде такий, що при проєктуванні на нього даних максимальним є відношення відстані між середнім значенням класів і розкидом всередині класу.
Нехай — елементи класу , а — кількість елементів у цьому класі. Тоді середнє значення по класу дорівнює
в цьому записі — p-вимірний вектор
середнє проєкції класу (скаляр)
розкид всередині класу
розкид всередині проєкції елементів класу
Тоді функція, максимум якої необхідно знайти:
Величину називають також міжкласовим розкидом(between-class scatter), тоді як — внутрішньокласовим розкидом (within-class scatter matrix).
Продиференціювавши по і прирівнявши результат до нуля отримуємо:
ділимо на :
тоді
оскільки — скаляр, задача зводиться до пошуку власних векторів. Найкраще розділення буде досягнуто при проєкції на вектор, що відповідає найбільшому власному значенню.
У випадку двох класів також є більш простий спосіб оцінки w: через те що важливий лише напрямок вектору w, його можна визначити виходячи з того, що: , де а — скаляр. Таким чином:
Модель Фішера працює у дуже широких межах, оскільки має досить мало вимог до розподілу даних, проте вона дає чіткого способу визначити границі класів після проєкції. Найбільш загальний принцип вибору полягає в тому, щоб кількість помилок першого і другого роду при класифікації була однаковою. В найпростішому варіанті гіперплощина розташовується рівно посередині між середніми значеннями класів.
Підхід може бути застосований і до більше ніж двох класів. У такому випадку, матриця проєкції має розміри , а матриця міжкласового розкиду визначається як
- ,
де μ — загальне середнє по всіх класах.
У цьому випадку, w складається з стовпчиків, що відповідають найбільшим власним векторам матриці .
Головним чином такий алгоритм для великої кількості класів використовується як спосіб зниження розмірності (дані проєціюються на гіперплощину нижчої розмірності проте класифікатор не будується).
Щоб все ж побудувати модель багатокласової класифікації за цим підходом можна створити окремих класифікаторів, які будуть попарно порівнювати класи, або ж класифікаторів, кожен з яких робить класифікацію один-проти-решти. Недоліком цього підходу є те, що при ньому деякі зони можуть мати невизначений клас — або через те що створюються цикли класифікацій (клас 2 більш ймовірний ніж клас 1, клас 3 більш ймовірний ніж клас 2, клас 1 більш ймовірний ніж клас 3), або через те, що жоден з класифікаторів один-проти-всіх не визначає точку як належну до "свого" класу.
Тому для класифікації у викпадку 3 і більше класів зазвичай використовують описаний нижче баєсів класифікатор.
Баєсів класифікатор
Баєсів класифікатор застосовується до більш вузького випадку: якщо в усіх класах точки мають однаковий (багатовимірний нормальний) розподіл, що відрізняється лише середнім, тобто, матриці коваріації точок всередині кожного класу однакові.
Часто коли говорять про лінійний розділювальний аналіз, то мається на увазі саме баєсівський класифікатор.
Згідно з теоремою Баєса, ймовірність того, що деяке спостереження належить до класу K, можна оцінити, знаючи розподіл значень всередині класів і ймовірності самих класів :
Багатовимірний нормальний розподіл точок що відносяться до класу задається як:
де , а — матриця коваріації.
Виразимо тоді логарифм співвідношення ймовірностей того, що спостереження x відноситься до класу і , припускаючи що матриці коваріації однакові для всіх класів (через що члени з скорочуються:
Тоді функції
і будуть питомими дискримінантними функціями. Спостереження належить до того класу, який має максимальну дискримінантну функцію у відповідній точці.
Параметри функції визначаються з вибіркових даних:
Вимоги до даних
Для всіх варіантів LDA дані очікуються нормалізовані, з варіацією всіх ознак рівною одиниці. Для баєсівського класифікатора також важливо щоб усі класи мали багатовимірний гаусів розподіл а матриця коваріації була однаковою в усіх класах.
Аналіз чутливий до викидів тому бажано перевірити дані і видалити їх до початку роботи.
Варіації алгоритму
Квадратичний дискримінантний аналіз
Якщо матриці коваріації не рівні, то скорочення квадратичних членів не відбувається. Відповідно, границі між класами будуть описуватися кривими другого порядку а не гіперплощинами, а кількість параметрів можелі сильно зросте. Така модель називається квадратичним дискримінантним аналізом (QDA).
Схожі результати можна отримати, додаючи в модель складні предиктори, наприклад, якщо до моделі з двома предикторами і додати ще три, які дорівнюють , отримане лінійне рівняння відносно п'яти параметрів буде квадратичним відносно і . Проте, ці два підходи не є ідентичними, і отримані поверхні розділення класів різні, хоча часто різниця є невеликою.
Можливі проміжні варіанти, де в якості матриці коваріації класу використовується матриця
де — деякий параметр від 0 до 1, а — середня матриця коваріації по всіх класах (така як використовується в LDA)
Регуляризований дискримінантний аналіз
Матрицю коваріації в LDA можна замінити на
- ,
де I — одинична матриця, — параметр від 0 до 1, — вектор стандартного відхилення кожного параметру всередині класу. Таким чином матриця стає ближчою до діагональної і вплив коваріацій зменшується. У крайньому випадку всі змінні вважаються незалежними. Така модель називається наївною гаусівською баєсовою (англ. Gaussian Naive Bayes). Її перевага полягає в значно меншій кількості параметрів моделі.
Література
- Хасті Т., Тібширані Р., Фрідман Дж. Основы статистического обучения. — 2. — Київ : «Діалектика», 2020. — 768 с. — .
- Дуда Р.,Харт П. Распознавание образов и анализ сцен. — М. : «Мир», 1976. — 507 с.
Примітки
- The Use of Multiple Measurements in Taxonomic Problems(англ.)
- What is Linear Discriminant Analysis ?|Assumptions of Linear Discriminant Analysis | How LDA makes predictions ?|Advantages and Disadvantages of LDA(англ.)
- Linear Discriminat Analysis(рос.)
- Linear Discriminant Functions(англ.)
- Дуда,Харт, 1976, с. 146.
- A Tutorial on Data Reduction. Linear Discriminant Analysis(англ.)
- Fisher’s Linear Discriminant: Intuitively Explained(англ.)
- Threshold Selection Study on Fisher Discriminant Analysis Used in Exon Prediction for Unbalanced Data Sets(англ.)
- Classification(англ.)
- Дуда,Харт, 1976, с. 148.
- Хасті,Тібширані,Фрідман, 2020, с. 132.
- Хасті,Тібширані,Фрідман, 2020, с. 133.
- Linear Discriminant Analysis for Machine Learning(англ.)
- Хасті,Тібширані,Фрідман, 2020, с. 134.
- Differences between LDA, QDA and Gaussian Naive Bayes classifiers(англ.)
Вікіпедія, Українська, Україна, книга, книги, бібліотека, стаття, читати, завантажити, безкоштовно, безкоштовно завантажити, mp3, відео, mp4, 3gp, jpg, jpeg, gif, png, малюнок, музика, пісня, фільм, книга, гра, ігри, мобільний, телефон, android, ios, apple, мобільний телефон, samsung, iphone, xiomi, xiaomi, redmi, honor, oppo, nokia, sonya, mi, ПК, web, Інтернет
Linijnij diskriminantnij analiz angl Linear discriminant analysis LDA statistichnij metod dlya rozv yazku zadachi klasifikaciyi Z jogo dopomogoyu buduyutsya linijni kombinaciyi prediktoriv sho viddilyayut oblasti odnogo klasu vid inshogo LDA pracyuye dlya bud yakoyi kilkosti klasiv na vidminu vid takih metodiv yak logistichna regresiya sho v pershu chergu vikoristovuyutsya dlya binarnoyi klasifikaciyi IstoriyaLinijnij diskriminativnij analiz bazuyetsya na vikoristanni kriteriya Fishera yakij buv opisanij britanskim statistikom i biologom Ronaldom Fisherom u zadachi binarnoyi klasifikaciyi rozdilennya irisiv za rozmirami chastin kvitki U 1948 metod buv uzagalnenij indijskim matematikom en dlya dovilnoyi kilkosti klasiv AlgoritmLDA shukaye proyekciyu danih u deyakij pidprostir rozmirnosti m i n K 1 p displaystyle min K 1 p abo menshe de K displaystyle K kilkist klasiv p displaystyle p kilkist oznak Pidprostir obirayetsya tak shob proyekciyi rozpodiliv sho vidnosyatsya do riznih klasiv buli rozdileni u nomu yakomoga silnishe Takim chinom klasi rozdilyuyutsya za pravilom Kozhnomu klasu stavitsya u vidpovidnist deyaka funkciya viglyadu f i X w T X w 0 displaystyle f i X w T X w 0 Ci funkciyi nazivayutsya diskriminantnimi funkciyami Matricya w displaystyle w ye matriceyu proyekciyi w 1 displaystyle w 1 Kozhna tochka prostoru oznak klasifikuyetsya vidpovidno do togo yaka same z diskriminantnih funkcij maye najvishe znachennya u nij Cherez te sho vsi funkciyi ye linijnimi po H granici mizh oblastyami prostoru sho vidpovidayut riznim klasam decision surface zavzhdi ye giperploshinami U najprostishomu vipadku dvoh klasiv pidprostir ye odnomirnim pryamoyu i rozdilennya vidbuvayetsya za pravilom C l a s s 1 w T x w 0 gt 0 displaystyle Class1 w T x w 0 gt 0 C l a s s 2 w T x w 0 lt 0 displaystyle Class2 w T x w 0 lt 0 Geometrichnij sens funkciyi w T x w 0 displaystyle w T x w 0 v takomu vipadku vidstan vid giperploshini rozdilyayuchoyi klasi do tochki danih Diskriminantni funkciyi buduyutsya tak shob zrobiti rozdilennya klasiv yakomoga prostishim Isnuye kilka algoritmiv yaki virishuyut cyu zadachu najvidomishimi ye diskriminantnij analiz Fishera i bayesivskij klasifikator U deyakih vipadkah voni dayut odnakovi rezultati prote zagalom ce rizni algoritmi Diskriminantnij analiz Fishera Priklad binarnoyi klasifikaciyi za dopomogoyu klasifikatora Fishera Tochkovij grafik dvoh klasiv ta gistograma rozpodiliv pri proyekciyi na pryami riznoyi napryamlenosti Istorichno pershoyu sproboyu pobuduvati linijnu diskriminantnu model bula model zaproponovana Fisherom Nehaj ye dva klasi Todi pidprostorom najkrashogo rozdilennya bude takij sho pri proyektuvanni na nogo danih maksimalnim ye vidnoshennya vidstani mizh serednim znachennyam klasiv i rozkidom vseredini klasu Nehaj g i i 1 2 displaystyle g i i 1 2 elementi klasu i displaystyle i a N i displaystyle N i kilkist elementiv u comu klasi Todi serednye znachennya po klasu dorivnyuye m i x g i x N displaystyle mu i frac sum limits x in g i x N m displaystyle mu v comu zapisi p vimirnij vektor serednye proyekciyi klasu skalyar m i x g i w T x N w T m i displaystyle tilde mu i frac sum limits x in g i w T x N w T mu i rozkid vseredini klasu S w i x g i x m i 2 x g i x m i x m i T displaystyle S wi sum x in g i x mu i 2 sum x in g i x mu i x mu i T rozkid vseredini proyekciyi elementiv klasu S w i x g i w T x m i 2 displaystyle tilde S wi sum x in g i w T x tilde mu i 2 x g i w T x w T m i w T x w T m i T displaystyle sum x in g i w T x w T mu i w T x w T mu i T x g i w T x m i x m i T w w T S w i w displaystyle sum x in g i w T x mu i x mu i T w w T S wi w Todi funkciya maksimum yakoyi neobhidno znajti J w m 1 m 2 2 S w 1 S w 2 w T S b w w T S w w displaystyle J w frac tilde mu 1 tilde mu 2 2 tilde S w1 tilde S w2 frac w T S b w w T S w w Velichinu S B m 1 m 2 2 w T S b w displaystyle tilde S B tilde mu 1 tilde mu 2 2 w T S b w nazivayut takozh mizhklasovim rozkidom between class scatter todi yak S w S w 1 S w 2 w T S w w displaystyle tilde S w tilde S w1 tilde S w2 w T S w w vnutrishnoklasovim rozkidom within class scatter matrix Prodiferenciyuvavshi J w displaystyle J w po w displaystyle w i pririvnyavshi rezultat do nulya otrimuyemo w T S w w 2 S b w w T S b w 2 S w w 0 displaystyle w T S w w 2S b w w T S b w 2S w w 0 dilimo na 2 w T S w w displaystyle 2w T S w w w T S w w w T S w w S b w w T S b w w T S w w S w w 0 displaystyle frac w T S w w w T S w w S b w frac w T S b w w T S w w S w w 0 todi S b w J w S w w 0 displaystyle S b w J w S w w 0 S w 1 S b w J w w displaystyle S w 1 S b w J w w oskilki J w displaystyle J w skalyar zadacha zvoditsya do poshuku vlasnih vektoriv Najkrashe rozdilennya bude dosyagnuto pri proyekciyi na vektor sho vidpovidaye najbilshomu vlasnomu znachennyu U vipadku dvoh klasiv takozh ye bilsh prostij sposib ocinki w cherez te sho vazhlivij lishe napryamok vektoru w jogo mozhna viznachiti vihodyachi z togo sho S w 1 S b w S w 1 m 1 m 2 m 1 m 2 T w S w 1 m 1 m 2 a displaystyle S w 1 S b w S w 1 mu 1 mu 2 mu 1 mu 2 T w S w 1 mu 1 mu 2 a de a skalyar Takim chinom w S w 1 m 1 m 2 displaystyle w propto S w 1 mu 1 mu 2 Model Fishera pracyuye u duzhe shirokih mezhah oskilki maye dosit malo vimog do rozpodilu danih prote vona daye chitkogo sposobu viznachiti granici klasiv pislya proyekciyi Najbilsh zagalnij princip viboru polyagaye v tomu shob kilkist pomilok pershogo i drugogo rodu pri klasifikaciyi bula odnakovoyu V najprostishomu varianti giperploshina roztashovuyetsya rivno poseredini mizh serednimi znachennyami klasiv Pri vikoristanni klasifikatoriv odin proti vsih zhovta oblast ne bude vidnesena do zhodnogo klasu a sini do bilsh nizh odnogo klasu Pri vikoristanni poparnih klasifikatoriv u zhovtij oblasti utvoritsya cikl 1 gt 2 gt 3 gt 1 Pidhid mozhe buti zastosovanij i do bilshe nizh dvoh klasiv U takomu vipadku matricya proyekciyi w displaystyle w maye rozmiri K 1 p displaystyle K 1 times p a matricya mizhklasovogo rozkidu viznachayetsya yak S b j 1 K m j m m j m T displaystyle S b sum j 1 K mu j mu mu j mu T de m zagalne serednye po vsih klasah U comu vipadku w skladayetsya z K 1 displaystyle K 1 stovpchikiv sho vidpovidayut najbilshim vlasnim vektoram matrici S w 1 S b displaystyle S w 1 S b Golovnim chinom takij algoritm dlya velikoyi kilkosti klasiv vikoristovuyetsya yak sposib znizhennya rozmirnosti dani proyeciyuyutsya na giperploshinu nizhchoyi rozmirnosti prote klasifikator ne buduyetsya Shob vse zh pobuduvati model bagatoklasovoyi klasifikaciyi za cim pidhodom mozhna stvoriti K 1 K 2 displaystyle K 1 K 2 okremih klasifikatoriv yaki budut poparno porivnyuvati klasi abo zh K displaystyle K klasifikatoriv kozhen z yakih robit klasifikaciyu odin proti reshti Nedolikom cogo pidhodu ye te sho pri nomu deyaki zoni mozhut mati neviznachenij klas abo cherez te sho stvoryuyutsya cikli klasifikacij klas 2 bilsh jmovirnij nizh klas 1 klas 3 bilsh jmovirnij nizh klas 2 klas 1 bilsh jmovirnij nizh klas 3 abo cherez te sho zhoden z klasifikatoriv odin proti vsih ne viznachaye tochku yak nalezhnu do svogo klasu Tomu dlya klasifikaciyi u vikpadku 3 i bilshe klasiv zazvichaj vikoristovuyut opisanij nizhche bayesiv klasifikator Bayesiv klasifikator Bayesiv klasifikator zastosovuyetsya do bilsh vuzkogo vipadku yaksho v usih klasah tochki mayut odnakovij bagatovimirnij normalnij rozpodil sho vidriznyayetsya lishe serednim tobto matrici kovariaciyi tochok vseredini kozhnogo klasu odnakovi Chasto koli govoryat pro linijnij rozdilyuvalnij analiz to mayetsya na uvazi same bayesivskij klasifikator Zgidno z teoremoyu Bayesa jmovirnist togo sho deyake sposterezhennya x displaystyle x nalezhit do klasu K mozhna ociniti znayuchi rozpodil znachen vseredini klasiv i jmovirnosti samih klasiv p k displaystyle pi k P r G k X x f k x p k l 1 K f l x p l displaystyle Pr G k X x frac f k x pi k sum limits l 1 K f l x pi l Bagatovimirnij normalnij rozpodil tochok sho vidnosyatsya do klasu k displaystyle k zadayetsya yak f K x 1 2 p p 2 S k 1 2 e 1 2 x m k T S k 1 x m k displaystyle f K x frac 1 2 pi p 2 left Sigma k right 1 2 e frac 1 2 x mu k T Sigma k 1 x mu k de x R p displaystyle mathbf x in mathbb R p a S K displaystyle Sigma K matricya kovariaciyi Virazimo todi logarifm spivvidnoshennya jmovirnostej togo sho sposterezhennya x vidnositsya do klasu k displaystyle k i l displaystyle l pripuskayuchi sho matrici kovariaciyi S displaystyle Sigma odnakovi dlya vsih klasiv cherez sho chleni z x 2 displaystyle x 2 skorochuyutsya l o g P r G k X x P r G l X x log f k x f l x log p k p i l log p k p i l 1 2 m k m l T S 1 m k m l x T S 1 m k m l displaystyle log frac Pr G k X x Pr G l X x log frac f k x f l x log frac pi k pi l log frac pi k pi l frac 1 2 mu k mu l T Sigma 1 mu k mu l x T Sigma 1 mu k mu l Todi funkciyi d k log p k x T S 1 m k 1 2 m k T S 1 m k displaystyle delta k log pi k x T Sigma 1 mu k frac 1 2 mu k T Sigma 1 mu k i budut pitomimi diskriminantnimi funkciyami Sposterezhennya nalezhit do togo klasu yakij maye maksimalnu diskriminantnu funkciyu u vidpovidnij tochci Parametri funkciyi viznachayutsya z vibirkovih danih p k N k N displaystyle hat pi k N k N m k x g k x N k displaystyle hat mu k sum x in g k x N k S k 1 K x g k x m k x m k T N K displaystyle hat Sigma sum k 1 K sum x in g k x hat mu k x hat mu k T N K Vimogi do danih Dlya vsih variantiv LDA dani ochikuyutsya normalizovani z variaciyeyu vsih oznak rivnoyu odinici Dlya bayesivskogo klasifikatora takozh vazhlivo shob usi klasi mali bagatovimirnij gausiv rozpodil a matricya kovariaciyi bula odnakovoyu v usih klasah Analiz chutlivij do vikidiv tomu bazhano pereviriti dani i vidaliti yih do pochatku roboti Variaciyi algoritmu Kvadratichnij diskriminantnij analiz Yaksho matrici kovariaciyi ne rivni to skorochennya kvadratichnih chleniv ne vidbuvayetsya Vidpovidno granici mizh klasami budut opisuvatisya krivimi drugogo poryadku a ne giperploshinami a kilkist parametriv mozheli silno zroste Taka model nazivayetsya kvadratichnim diskriminantnim analizom QDA Shozhi rezultati mozhna otrimati dodayuchi v model skladni prediktori napriklad yaksho do modeli z dvoma prediktorami x 1 displaystyle x 1 i x 2 displaystyle x 2 dodati she tri yaki dorivnyuyut x 1 2 x 1 x 2 x 2 2 displaystyle x 1 2 x 1 x 2 x 2 2 otrimane linijne rivnyannya vidnosno p yati parametriv bude kvadratichnim vidnosno x 1 displaystyle x 1 i x 2 displaystyle x 2 Prote ci dva pidhodi ne ye identichnimi i otrimani poverhni rozdilennya klasiv rizni hocha chasto riznicya ye nevelikoyu Mozhlivi promizhni varianti de v yakosti matrici kovariaciyi klasu vikoristovuyetsya matricya S a k 1 a S k a S displaystyle Sigma a k 1 a Sigma k a Sigma de a displaystyle a deyakij parametr vid 0 do 1 a S displaystyle Sigma serednya matricya kovariaciyi po vsih klasah taka yak vikoristovuyetsya v LDA Regulyarizovanij diskriminantnij analiz Matricyu kovariaciyi v LDA mozhna zaminiti na S g 1 g S g I s 2 displaystyle Sigma gamma 1 gamma Sigma gamma I sigma 2 de I odinichna matricya g displaystyle gamma parametr vid 0 do 1 s displaystyle sigma vektor standartnogo vidhilennya kozhnogo parametru vseredini klasu Takim chinom matricya staye blizhchoyu do diagonalnoyi i vpliv kovariacij zmenshuyetsya U krajnomu vipadku g 1 displaystyle gamma 1 vsi zminni vvazhayutsya nezalezhnimi Taka model nazivayetsya nayivnoyu gausivskoyu bayesovoyu angl Gaussian Naive Bayes Yiyi perevaga polyagaye v znachno menshij kilkosti parametriv modeli LiteraturaHasti T Tibshirani R Fridman Dzh Osnovy statisticheskogo obucheniya 2 Kiyiv Dialektika 2020 768 s ISBN 978 617 7812 91 2 Duda R Hart P Raspoznavanie obrazov i analiz scen M Mir 1976 507 s PrimitkiThe Use of Multiple Measurements in Taxonomic Problems angl What is Linear Discriminant Analysis Assumptions of Linear Discriminant Analysis How LDA makes predictions Advantages and Disadvantages of LDA angl Linear Discriminat Analysis ros Linear Discriminant Functions angl Duda Hart 1976 s 146 A Tutorial on Data Reduction Linear Discriminant Analysis angl Fisher s Linear Discriminant Intuitively Explained angl Threshold Selection Study on Fisher Discriminant Analysis Used in Exon Prediction for Unbalanced Data Sets angl Classification angl Duda Hart 1976 s 148 Hasti Tibshirani Fridman 2020 s 132 Hasti Tibshirani Fridman 2020 s 133 Linear Discriminant Analysis for Machine Learning angl Hasti Tibshirani Fridman 2020 s 134 Differences between LDA QDA and Gaussian Naive Bayes classifiers angl