У статистиці, машинному навчанні та теорії інформації зниження розмірності є процесом скорочення кількості випадкових змінних шляхом отримання множини головних змінних. Цей процес можна поділити на обирання ознак та виділяння ознак.
Обирання ознак
Обирання ознак — це процес пошуку підмножини первісних змінних (ознак або властивостей) для використання в побудові моделі. Є три стратегії:
- фільтрування (наприклад, [en])
- обгортання (наприклад, пошук, який керується точністю)
- вкладення або вбудування (ознаки обираються для додавання або видалення при створенні моделі ґрунтуючись на помилках прогнозування)
Дивись також задачі комбінаторної оптимізації.
В деяких випадках аналіз даних, такий як класифікація або регресія, можна зробити у скороченому просторі більш точно, ніж у початковому.
Конструювання ознак
Конструювання ознак перетворює дані з багатовимірного простору в простір невеликої кількості вимірів. Таке перетворення може бути лінійним, як в методі головних компонент, проте також існує багато методів [en]. Для багатовимірних даних можна використати тензорне представлення для скорочення розмірності через [en].
Метод головних компонент (МГК)
Основна лінійна техніка зменшення розмірності, метод головних компонент, здійснює лінійне відображення даних в менш вимірний простір таким чином, що максимізується дисперсія даних у маловимірному представленні. Фактично, будується матриця коваріації (а іноді й кореляції) даних, і обчислюються власні вектори цієї матриці. Власні вектори, що відповідають найбільшим власним числам (головні компоненти), тепер можуть бути використані для реконструкції великої частки дисперсії у вихідних даних. Більш того, перші кілька власних векторів часто можна тлумачити в термінах великомасштабної фізичної поведінки системи[][]. Початковий простір зменшується (з втратою даних, проте, зберігається найважливіша дисперсія) до простору, який визначається кількома власними векторами.
Розклад невід'ємних матриць (РНМ)
РНМ розкладає невід'ємну матрицю на добуток двох невід'ємних матриць, що було перспективним інструментом в таких областях, де існують лише невід'ємні сигнали, такі як астрономія. РНМ добре відома завдяки правилу мультиплікативного оновлення Lee & Seung, який постійно розроблявся: включення невизначеностей, розгляд відсутніх даних та паралельність обчислень, послідовність побудови, що веде до стабільності та лінійності РНМ, як і інші оновлення.
За допомогою стабільної компонентної бази під час побудови та лінійності процесу моделювання, послідовний РНМ здатний зберігати потік при прямому відтворенні навколозоряних структур в астрономії, як один із [en], особливо при безпосередньому зображені навколозоряних дисків. У порівнянні з МГК, РНМ не видаляє середнє матриць, що призводить до нефізичних невід'ємних потоків, тому РНМ здатний зберігати більше інформації, ніж МГК, як показав Рен та інші.
Ядровий метод головних компонент
Метод головних компонент можна використати нелінійним шляхом за допомогою (ядрового трюку). Отримана методика здатна побудувати нелінійні відображення, які максимізують дисперсію даних. Отримана методика називається [en].
Лінійний розділювальний аналіз
Лінійний розділювальний аналіз (ЛРА) — це узагальнення лінійного дискримінанта Фішера, який використовується для статистики, розпізнавання образів та машинного навчання, щоб знайти лінійну комбінацію ознак, які характеризують або відокремлюють два або більше класів об'єктів або подій.
Автокодувальник
Автокодувальники можуть використовуватися для навчання нелінійним функціям зменшення розмірності та кодування разом із оберненою функцією, яка дозволяє перейти від кодуванного до оригінального зображення.
Зниження розмірності
Для багатовимірних наборів даних, тобто таких, у яких більше 10 вимірів, перед застосування методу k-найближчих сусідів спочатку знижують розмірність з метою уникнення прокляття розмірності.
Виділяння ознак та зниження розмірності можна об'єднати в один етап за допомогою методу головних компонент (МГК), лінійного розділювального аналізу (ЛРА), канонічного кореляційного аналізу (ККА) або розкладення невід'ємних матриць (РНМ) — методів попередньої обробки даних перед K-NN кластеризацією векторів ознак у просторі скороченої розмірності. У машинному навчанні цей процес також називається маловимірним вкладенням.
Для дуже-багатовимірних наборів даних, наприклад, для пошуку подібності у потоках відео, ДНК даних або у багатовимірних часових рядах, застосовують швидке наближення K-NN пошуку за допомогою методів [en], [en], тензорний скетч та інші методи багатовимірного пошуку подібності, що доступні, наприклад, у наборі інструментів [en].
Примітки
- Roweis, S. T.; Saul, L. K. (2000). Nonlinear Dimensionality Reduction by Locally Linear Embedding. Science. 290 (5500): 2323—2326. Bibcode:2000Sci...290.2323R. doi:10.1126/science.290.5500.2323. PMID 11125150.
- Pudil, P.; Novovičová, J. (1998). Novel Methods for Feature Subset Selection with Respect to Problem Knowledge. У Liu, Huan; Motoda, Hiroshi (ред.). Feature Extraction, Construction and Selection. с. 101. doi:10.1007/978-1-4615-5725-8_7. ISBN .
- Rico-Sulayes, Antonio (2017). . Revista Ingeniería Electrónica, Automática y Comunicaciones. 38 (3): 26—35. Архів оригіналу за 24 квітня 2018. Процитовано 12 серпня 2018.
- Samet, H. (2006) Foundations of Multidimensional and Metric Data Structures. Morgan Kaufmann.
- C. Ding, X. He, H. Zha, H.D. Simon, Adaptive Dimension Reduction for Clustering High Dimensional Data, Proceedings of International Conference on Data Mining, 2002
- Lu, Haiping; Plataniotis, K.N.; Venetsanopoulos, A.N. (2011). (PDF). Pattern Recognition. 44 (7): 1540—1551. doi:10.1016/j.patcog.2011.01.004. Архів оригіналу (PDF) за 10 липня 2019. Процитовано 12 серпня 2018.
- Daniel D. Lee; (1999). Learning the parts of objects by non-negative matrix factorization. Nature. 401 (6755): 788—791. Bibcode:1999Natur.401..788L. doi:10.1038/44565. PMID 10548103.
{{}}
: Проігноровано невідомий параметр|last-author-amp=
() - Daniel D. Lee & H. Sebastian Seung (2001). (PDF). Advances in Neural Information Processing Systems 13: Proceedings of the 2000 Conference. MIT Press. с. 556—562. Архів оригіналу (PDF) за 19 червня 2018. Процитовано 13 серпня 2018.
- Blanton, Michael R.; Roweis, Sam (2007). K-corrections and filter transformations in the ultraviolet, optical, and near infrared. The Astronomical Journal. 133: 134. arXiv:astro-ph/0606170. Bibcode:2007AJ....133..734B. doi:10.1086/510127.
- Ren, Bin; Pueyo, Laurent; Zhu, Guangtun B.; Duchêne, Gaspard (2018). Non-negative Matrix Factorization: Robust Extraction of Extended Structures. The Astrophysical Journal. 852: 104. arXiv:1712.10317. Bibcode:2018ApJ...852..104R. doi:10.3847/1538-4357/aaa1f2.
{{}}
: Обслуговування CS1: Сторінки із непозначеним DOI з безкоштовним доступом () - Zhu, Guangtun B. (19 грудня 2016). Nonnegative Matrix Factorization (NMF) with Heteroscedastic Uncertainties and Missing data. arXiv:1612.06037 [astro-ph.IM].
- Kevin Beyer, Jonathan Goldstein, Raghu Ramakrishnan, Uri Shaft (1999) «When is „nearest neighbor“ meaningful?» [ 26 липня 2009 у Wayback Machine.]. Database Theory—ICDT99, 217—235
- Shaw, B.; Jebara, T. (2009). Structure preserving embedding. (PDF). с. 1. doi:10.1145/1553374.1553494. ISBN . Архів оригіналу (PDF) за 11 серпня 2017. Процитовано 14 серпня 2018.
- Bingham, E.; Mannila, H. (2001). Random projection in dimensionality reduction. Proceedings of the seventh ACM SIGKDD international conference on Knowledge discovery and data mining – KDD '01. с. 245. doi:10.1145/502512.502546. ISBN .
- Shasha, D High (2004) Performance Discovery in Time Series Berlin: Springer.
Посилання
- Fodor, I. (2002) «A survey of dimension reduction techniques» [ 15 листопада 2014 у Wayback Machine.]. Center for Applied Scientific Computing, Lawrence Livermore National, Technical Report UCRL-ID-148494
- Cunningham, P. (2007) «Dimension Reduction» [ 19 жовтня 2017 у Wayback Machine.] University College Dublin, Technical Report UCD-CSI-2007-7
- Zahorian, Stephen A.; Hu, Hongbing (2011). Nonlinear Dimensionality Reduction Methods for Use with Automatic Speech Recognition. Speech Technologies. doi:10.5772/16863. ISBN .
- Lakshmi Padmaja, Dhyaram; Vishnuvardhan, B (18 серпня 2016). Comparative Study of Feature Subset Selection Methods for Dimensionality Reduction on Scientific Data: 31—34. doi:10.1109/IACC.2016.16. Процитовано 7 жовтня 2016.
Джерела
- JMLR Special Issue on Variable and Feature Selection [ 9 листопада 2020 у Wayback Machine.]
- ELastic MAPs [ 20 липня 2011 у Wayback Machine.]
- Locally Linear Embedding [ 1 травня 2009 у Wayback Machine.]
Вікіпедія, Українська, Україна, книга, книги, бібліотека, стаття, читати, завантажити, безкоштовно, безкоштовно завантажити, mp3, відео, mp4, 3gp, jpg, jpeg, gif, png, малюнок, музика, пісня, фільм, книга, гра, ігри, мобільний, телефон, android, ios, apple, мобільний телефон, samsung, iphone, xiomi, xiaomi, redmi, honor, oppo, nokia, sonya, mi, ПК, web, Інтернет
U statistici mashinnomu navchanni ta teoriyi informaciyi znizhennya rozmirnosti ye procesom skorochennya kilkosti vipadkovih zminnih shlyahom otrimannya mnozhini golovnih zminnih Cej proces mozhna podiliti na obirannya oznak ta vidilyannya oznak Obirannya oznakDokladnishe Obirannya oznak Obirannya oznak ce proces poshuku pidmnozhini pervisnih zminnih oznak abo vlastivostej dlya vikoristannya v pobudovi modeli Ye tri strategiyi filtruvannya napriklad en obgortannya napriklad poshuk yakij keruyetsya tochnistyu vkladennya abo vbuduvannya oznaki obirayutsya dlya dodavannya abo vidalennya pri stvorenni modeli gruntuyuchis na pomilkah prognozuvannya Divis takozh zadachi kombinatornoyi optimizaciyi V deyakih vipadkah analiz danih takij yak klasifikaciya abo regresiya mozhna zrobiti u skorochenomu prostori bilsh tochno nizh u pochatkovomu Konstruyuvannya oznakDokladnishe Konstruyuvannya oznak Konstruyuvannya oznak peretvoryuye dani z bagatovimirnogo prostoru v prostir nevelikoyi kilkosti vimiriv Take peretvorennya mozhe buti linijnim yak v metodi golovnih komponent prote takozh isnuye bagato metodiv en Dlya bagatovimirnih danih mozhna vikoristati tenzorne predstavlennya dlya skorochennya rozmirnosti cherez en Metod golovnih komponent MGK Dokladnishe Metod golovnih komponent Osnovna linijna tehnika zmenshennya rozmirnosti metod golovnih komponent zdijsnyuye linijne vidobrazhennya danih v mensh vimirnij prostir takim chinom sho maksimizuyetsya dispersiya danih u malovimirnomu predstavlenni Faktichno buduyetsya matricya kovariaciyi a inodi j korelyaciyi danih i obchislyuyutsya vlasni vektori ciyeyi matrici Vlasni vektori sho vidpovidayut najbilshim vlasnim chislam golovni komponenti teper mozhut buti vikoristani dlya rekonstrukciyi velikoyi chastki dispersiyi u vihidnih danih Bilsh togo pershi kilka vlasnih vektoriv chasto mozhna tlumachiti v terminah velikomasshtabnoyi fizichnoyi povedinki sistemi dzherelo chomu Pochatkovij prostir zmenshuyetsya z vtratoyu danih prote zberigayetsya najvazhlivisha dispersiya do prostoru yakij viznachayetsya kilkoma vlasnimi vektorami Rozklad nevid yemnih matric RNM Dokladnishe Rozklad nevid yemnih matric RNM rozkladaye nevid yemnu matricyu na dobutok dvoh nevid yemnih matric sho bulo perspektivnim instrumentom v takih oblastyah de isnuyut lishe nevid yemni signali taki yak astronomiya RNM dobre vidoma zavdyaki pravilu multiplikativnogo onovlennya Lee amp Seung yakij postijno rozroblyavsya vklyuchennya neviznachenostej rozglyad vidsutnih danih ta paralelnist obchislen poslidovnist pobudovi sho vede do stabilnosti ta linijnosti RNM yak i inshi onovlennya Za dopomogoyu stabilnoyi komponentnoyi bazi pid chas pobudovi ta linijnosti procesu modelyuvannya poslidovnij RNM zdatnij zberigati potik pri pryamomu vidtvorenni navkolozoryanih struktur v astronomiyi yak odin iz en osoblivo pri bezposerednomu zobrazheni navkolozoryanih diskiv U porivnyanni z MGK RNM ne vidalyaye serednye matric sho prizvodit do nefizichnih nevid yemnih potokiv tomu RNM zdatnij zberigati bilshe informaciyi nizh MGK yak pokazav Ren ta inshi Yadrovij metod golovnih komponent Metod golovnih komponent mozhna vikoristati nelinijnim shlyahom za dopomogoyu yadrovogo tryuku Otrimana metodika zdatna pobuduvati nelinijni vidobrazhennya yaki maksimizuyut dispersiyu danih Otrimana metodika nazivayetsya en Linijnij rozdilyuvalnij analiz Linijnij rozdilyuvalnij analiz LRA ce uzagalnennya linijnogo diskriminanta Fishera yakij vikoristovuyetsya dlya statistiki rozpiznavannya obraziv ta mashinnogo navchannya shob znajti linijnu kombinaciyu oznak yaki harakterizuyut abo vidokremlyuyut dva abo bilshe klasiv ob yektiv abo podij Avtokoduvalnik Dokladnishe Avtokoduvalnik Avtokoduvalniki mozhut vikoristovuvatisya dlya navchannya nelinijnim funkciyam zmenshennya rozmirnosti ta koduvannya razom iz obernenoyu funkciyeyu yaka dozvolyaye perejti vid koduvannogo do originalnogo zobrazhennya Znizhennya rozmirnostiDlya bagatovimirnih naboriv danih tobto takih u yakih bilshe 10 vimiriv pered zastosuvannya metodu k najblizhchih susidiv spochatku znizhuyut rozmirnist z metoyu uniknennya proklyattya rozmirnosti Vidilyannya oznak ta znizhennya rozmirnosti mozhna ob yednati v odin etap za dopomogoyu metodu golovnih komponent MGK linijnogo rozdilyuvalnogo analizu LRA kanonichnogo korelyacijnogo analizu KKA abo rozkladennya nevid yemnih matric RNM metodiv poperednoyi obrobki danih pered K NN klasterizaciyeyu vektoriv oznak u prostori skorochenoyi rozmirnosti U mashinnomu navchanni cej proces takozh nazivayetsya malovimirnim vkladennyam Dlya duzhe bagatovimirnih naboriv danih napriklad dlya poshuku podibnosti u potokah video DNK danih abo u bagatovimirnih chasovih ryadah zastosovuyut shvidke nablizhennya K NN poshuku za dopomogoyu metodiv en en tenzornij sketch ta inshi metodi bagatovimirnogo poshuku podibnosti sho dostupni napriklad u nabori instrumentiv en PrimitkiRoweis S T Saul L K 2000 Nonlinear Dimensionality Reduction by Locally Linear Embedding Science 290 5500 2323 2326 Bibcode 2000Sci 290 2323R doi 10 1126 science 290 5500 2323 PMID 11125150 Pudil P Novovicova J 1998 Novel Methods for Feature Subset Selection with Respect to Problem Knowledge U Liu Huan Motoda Hiroshi red Feature Extraction Construction and Selection s 101 doi 10 1007 978 1 4615 5725 8 7 ISBN 978 1 4613 7622 4 Rico Sulayes Antonio 2017 Revista Ingenieria Electronica Automatica y Comunicaciones 38 3 26 35 Arhiv originalu za 24 kvitnya 2018 Procitovano 12 serpnya 2018 Samet H 2006 Foundations of Multidimensional and Metric Data Structures Morgan Kaufmann ISBN 0 12 369446 9 C Ding X He H Zha H D Simon Adaptive Dimension Reduction for Clustering High Dimensional Data Proceedings of International Conference on Data Mining 2002 Lu Haiping Plataniotis K N Venetsanopoulos A N 2011 PDF Pattern Recognition 44 7 1540 1551 doi 10 1016 j patcog 2011 01 004 Arhiv originalu PDF za 10 lipnya 2019 Procitovano 12 serpnya 2018 Daniel D Lee 1999 Learning the parts of objects by non negative matrix factorization Nature 401 6755 788 791 Bibcode 1999Natur 401 788L doi 10 1038 44565 PMID 10548103 a href wiki D0 A8 D0 B0 D0 B1 D0 BB D0 BE D0 BD Cite journal title Shablon Cite journal cite journal a Proignorovano nevidomij parametr last author amp dovidka Daniel D Lee amp H Sebastian Seung 2001 PDF Advances in Neural Information Processing Systems 13 Proceedings of the 2000 Conference MIT Press s 556 562 Arhiv originalu PDF za 19 chervnya 2018 Procitovano 13 serpnya 2018 Blanton Michael R Roweis Sam 2007 K corrections and filter transformations in the ultraviolet optical and near infrared The Astronomical Journal 133 134 arXiv astro ph 0606170 Bibcode 2007AJ 133 734B doi 10 1086 510127 Ren Bin Pueyo Laurent Zhu Guangtun B Duchene Gaspard 2018 Non negative Matrix Factorization Robust Extraction of Extended Structures The Astrophysical Journal 852 104 arXiv 1712 10317 Bibcode 2018ApJ 852 104R doi 10 3847 1538 4357 aaa1f2 a href wiki D0 A8 D0 B0 D0 B1 D0 BB D0 BE D0 BD Cite journal title Shablon Cite journal cite journal a Obslugovuvannya CS1 Storinki iz nepoznachenim DOI z bezkoshtovnim dostupom posilannya Zhu Guangtun B 19 grudnya 2016 Nonnegative Matrix Factorization NMF with Heteroscedastic Uncertainties and Missing data arXiv 1612 06037 astro ph IM Kevin Beyer Jonathan Goldstein Raghu Ramakrishnan Uri Shaft 1999 When is nearest neighbor meaningful 26 lipnya 2009 u Wayback Machine Database Theory ICDT99 217 235 Shaw B Jebara T 2009 Structure preserving embedding PDF s 1 doi 10 1145 1553374 1553494 ISBN 9781605585161 Arhiv originalu PDF za 11 serpnya 2017 Procitovano 14 serpnya 2018 Bingham E Mannila H 2001 Random projection in dimensionality reduction Proceedings of the seventh ACM SIGKDD international conference on Knowledge discovery and data mining KDD 01 s 245 doi 10 1145 502512 502546 ISBN 158113391X Shasha D High 2004 Performance Discovery in Time Series Berlin Springer ISBN 0 387 00857 8PosilannyaFodor I 2002 A survey of dimension reduction techniques 15 listopada 2014 u Wayback Machine Center for Applied Scientific Computing Lawrence Livermore National Technical Report UCRL ID 148494 Cunningham P 2007 Dimension Reduction 19 zhovtnya 2017 u Wayback Machine University College Dublin Technical Report UCD CSI 2007 7 Zahorian Stephen A Hu Hongbing 2011 Nonlinear Dimensionality Reduction Methods for Use with Automatic Speech Recognition Speech Technologies doi 10 5772 16863 ISBN 978 953 307 996 7 Lakshmi Padmaja Dhyaram Vishnuvardhan B 18 serpnya 2016 Comparative Study of Feature Subset Selection Methods for Dimensionality Reduction on Scientific Data 31 34 doi 10 1109 IACC 2016 16 Procitovano 7 zhovtnya 2016 DzherelaJMLR Special Issue on Variable and Feature Selection 9 listopada 2020 u Wayback Machine ELastic MAPs 20 lipnya 2011 u Wayback Machine Locally Linear Embedding 1 travnya 2009 u Wayback Machine