Прокляття розмірності (англ. curse of dimensionality) вказує на різні явища, які виникають при аналізі та роботі з даними в багатовимірних просторах (часто це сотні або тисячі вимірів). Ці явища не зустрічаються в маловимірних випадках, таких як тривимірний фізичний простір з яким ми стикаємось щодня. Термін спочатку використав Річард Беллман для задач динамічної оптимізації.
Є численні явища, які виникають під подібною назвою у таких областях як чисельні методи, відбір вибірки, комбінаторика, машинне навчання, добування даних, бази даних. Спільним негараздом, який виникає при збільшенні розмірності, є дуже швидке збільшення об'єму простору, наслідком чого наявні дані стають розрідженими. Така розрідженість даних стає на заваді будь-якого методу, який використовує статистичну значущість. Для отримання статистично надійного результату, потрібно, щоб кількість даних, необхідних для отримання результату, зростала експоненціально розмірності. Також, організація та пошук даних часто залежить від виявлення областей, де об'єкти утворюють групи з подібними властивостями; однак, у випадку високої розмірності, всі об'єкти, з'являються розрідженими та різними в багатьох відношеннях, що перешкоджає ефективній організації спільних даних.
Ці ефекти також використовуються для спрощення алгоритмів машинного навчання у багатовимірних просторах, що називають благословенням розмірності. Благословення розмірності та прокляття розмірності визнаються двома взаємодоповнюючими впливовими принципами у багатовимірному аналізі даних.
У різних областях
Комбінаторика
В деяких задачах кожна змінна може набувати одного з декількох дискретних значень, або ж діапазон можливих значень ділиться на задане скінченне число, щоб дати скінченну кількість варіантів. Якщо брати різні змінні разом, виникає велика кількість комбінацій значень. Цей ефект також відомий як комбінаторний вибух. Навіть у найпростішому випадку бінарних змінних кількість можливих комбінацій буде , яка є експоненціальною за розмірністю. По-простому, кожен додатковий вимір подвоює зусилля, необхідні для перебору всіх комбінацій.
Машинне навчання
Задачі машинного навчання, які передбачають навчання «природному стану» на скінченній кількості зразків даних у просторі властивостей з високим числом вимірів, зазвичай, потребують величезної кількості навчальних даних для того, щоб забезпечити хоча б декілька зразків з різною комбінацією значень. Типове правило полягає в тому, що в кожному вимірі повинно бути щонайменше 5 навчальних прикладів. З фіксованою кількістю навчальних зразків прогностична потужність класифікатора або регресора спочатку збільшується, бо кількість використовуваних розмірів/функцій збільшується, але потім зменшується, що відомо, як феномен Хьюза або явище піка.
Функції відстані
Коли таку міру, як евклідова відстань визначають з використанням багатьох координат, то отримуємо маленьку різницю у відстані між різними парами зразків.
Один зі способів продемонструвати «величезність» багатовимірного Евклідового простору вимірності є порівняння об'єму гіперкуба з ребром і вписаної в нього гіперсфери радіуса . Об'єм сфери дорівнює , де є гамма-функція, а об'єм куба буде . Коли розмірність простору збільшується, об'єм гіперсфери стає незначним відносно об'єму гіперкуба. Це чітко видно при порівняння їх відношення коли розмірність прямує до нескінченності:
- коли .
Більше того, відстань між центром і кутами це величина , яка необмежено зростає при сталому . В цьому сенсі, майже все в багатовимірному просторі розташоване дуже далеко від центру. Інакше можна сказати, що багатовимірний одиничний гіперкуб складається майже повністю з «кутів» гіперкуба і майже не має «середини».
Це також допомагає зрозуміти розподіл хі-квадрат. Дійсно, (нецентральний) розподіл хі-квадрат, пов'язаний з випадковою точкою інтервалу [-1, 1], збігається з розподілом квадрата довжини випадкової точки в d-кубі. За законом великих чисел, цей розподіл концентрується у вузькій смузі, що становить приблизно d помножити на стандартний квадрат відхилення (σ2) від початкового розподілу. Що є ілюстрацією розподілу хі-квадрат, а також показує, що більша частина об'єму d-куба знаходиться біля поверхні сфери радіуса √dσ.
Подальший розвиток цього феномена наступний. Будь-який фіксований розподіл на числовій прямій індукує добуток розподілів на точки багатовимірного простору ℝd. Для фіксованого n, мінімальна і максимальна відстань між випадково вибраною точкою Q і списком з n випадкових точок P1,…,Pn стають незначними відносно мінімальної відстані:
- .
Про таке зазвичай кажуть, що функція відстані втратила свою корисність (наприклад, для критерію найближчого сусіда у алгоритмі, якій порівнює властивості) у багатовимірному просторі. Однак, недавні дослідження показали, що це вірно для спеціального випадку, коли одновимірні розподіли на ℝ будуть незалежними і однаково розподіленими. Коли є кореляція між ознаками, дані спрощуються і забезпечують більш виразну відстань і (співвідношення сигнал/шум), як було визнано, відіграє важливу роль, тому слід застосовувати обирання ознак.
Пошук найближчого сусіда
Цей ефект ускладнює пошук найближчого сусіда у багатовимірному просторі. Бо неможливо швидко відкинути кандидатів, якщо використовувати різницю в одній координаті, як нижню оцінку відстані, яка залежить від усіх вимірів.
Проте останнім часом було зазначено, що виключно число розмірів не обов'язково призводить до ускладнень, оскільки пов'язані додаткові виміри також можуть збільшити відмінність. Крім того, для підсумкового ранжування точок зазвичай корисно розрізняти близьких та далеких сусідів. Не пов'язані («шумові») виміри, однак, зменшують відмінність, як описано вище. При аналізі часових рядів, де дані за своєю суттю є високорозмірними, функції відстані також працюють надійно, коли (співвідношення сигнал-шум) є досить високим.
Класифікація по k найближчим сусідам
Інший ефект високої розмірності на функції відстані стосується графів k-найближчих сусідів (k-NN), побудованих з набору даних з використанням функції відстані. Коли розмірність збільшується, розподіл входів орієнтованого k-NN-графа стає асиметричним з піком справа через виникнення непропорційно великої кількості концентраторів, тобто точок даних, які з'являються в багатьох інших k-NN списках інших точок даних, частіше ніж у середньому. Це явище може суттєво впливати на різні методи класифікації (включаючи k-NN класифікатор), напівкероване навчання та кластеризацію, а також впливає на інформаційний пошук.
Виявлення аномалій
У нещодавньому огляді, Зімек та інші, описали наступні проблеми при пошуку аномалій у даних з високою розмірністю:
- Скупчення оцінок та відстаней: похідні величини, такі як відстані, стають чисельно подібними
- Невідповідні атрибути: для багатовимірних даних значна кількість даних може бути невідповідною
- Визначення характеристик множин: для локальних методів набори характеристики множин часто ґрунтуються на найближчому сусідстві
- Оцінки для різних розмірностей неможливо порівнювати: різні підпростори дають різні оцінки
- Пояснення оцінок: оцінки часто не передають семантичного значення
- Експоненціальність простору пошуку: пошуковий простір більше не можна систематично сканувати
- Упередженість відома як p-hacking: враховуючи великий простір пошуку, можна знайти бажану значущість гіпотези
- Скупченість: певні об'єкти зустрічаються частіше в списках сусідів, ніж інші.
Багато з аналізованих спеціалізованих методів вирішують ті чи інші проблеми, але залишається багато відкритих питань.
Див. також
Примітки
- Richard Ernest Bellman; Rand Corporation (1957). Dynamic programming. Princeton University Press. ISBN .,
Republished: Richard Ernest Bellman (2003). Dynamic Programming. Courier Dover Publications. ISBN . - Richard Ernest Bellman (1961). Adaptive control processes: a guided tour. Princeton University Press.
- Donoho DL. (2000). High-dimensional data analysis: The curses and blessings of dimensionality. [ 15 квітня 2018 у Wayback Machine.] AMS Math Challenges Lecture, 1, 32 pp.
- Koutroumbas, Sergios Theodoridis, Konstantinos (2008). Pattern Recognition - 4th Edition (англ.). Burlington. Процитовано 8 січня 2018.
- Trunk, G. V. (July 1979). A Problem of Dimensionality: A Simple Example. IEEE Transactions on Pattern Analysis and Machine Intelligence. PAMI-1 (3): 306—307. doi:10.1109/TPAMI.1979.4766926.
- Hughes, G.F. (January 1968). On the mean accuracy of statistical pattern recognizers. IEEE Transactions on Information Theory. 14 (1): 55—63. doi:10.1109/TIT.1968.1054102.
- Beyer, K.; Goldstein, J.; Ramakrishnan, R.; Shaft, U. (1999). When is "Nearest Neighbor" Meaningful?. Proc. 7th International Conference on Database Theory - ICDT'99. LNCS. 1540: 217—235. doi:10.1007/3-540-49257-7_15. ISBN .
- Zimek, A.; Schubert, E.; (2012). A survey on unsupervised outlier detection in high-dimensional numerical data. Statistical Analysis and Data Mining. 5 (5): 363—387. doi:10.1002/sam.11161.
- Marimont, R.B.; Shapiro, M.B. (1979). Nearest Neighbour Searches and the Curse of Dimensionality. IMA J Appl Math. 24 (1): 59—70. doi:10.1093/imamat/24.1.59.
- Chávez, Edgar; Navarro, Gonzalo; Baeza-Yates, Ricardo; Marroquín, José Luis (2001). Searching in Metric Spaces. ACM Computing Surveys. 33 (3): 273—321. CiteSeerX 10.1.1.100.7845. doi:10.1145/502807.502808.
- Houle, M. E.; ; Kröger, P.; Schubert, E.; Zimek, A. (2010). Can Shared-Neighbor Distances Defeat the Curse of Dimensionality? (PDF). Scientific and Statistical Database Management. Lecture Notes in Computer Science. Т. 6187. с. 482. doi:10.1007/978-3-642-13818-8_34. ISBN .
- Bernecker, T.; Houle, M. E.; ; Kröger, P.; Renz, M.; Schubert, E.; Zimek, A. (2011). Quality of Similarity Rankings in Time Series. Symposium on Spatial and Temporal Databases. Lecture Notes in Computer Science. Т. 6849. с. 422. doi:10.1007/978-3-642-22922-0_25. ISBN .
- Radovanović, Miloš; Nanopoulos, Alexandros; Ivanović, Mirjana (2010). Hubs in space: Popular nearest neighbors in high-dimensional data (PDF). Journal of Machine Learning Research. 11: 2487—2531.
- Radovanović, M.; Nanopoulos, A.; Ivanović, M. (2010). On the existence of obstinate results in vector space models. 33rd international ACM SIGIR conference on Research and development in information retrieval - SIGIR '10. с. 186. doi:10.1145/1835449.1835482. ISBN .
Вікіпедія, Українська, Україна, книга, книги, бібліотека, стаття, читати, завантажити, безкоштовно, безкоштовно завантажити, mp3, відео, mp4, 3gp, jpg, jpeg, gif, png, малюнок, музика, пісня, фільм, книга, гра, ігри, мобільний, телефон, android, ios, apple, мобільний телефон, samsung, iphone, xiomi, xiaomi, redmi, honor, oppo, nokia, sonya, mi, ПК, web, Інтернет
Proklyattya rozmirnosti angl curse of dimensionality vkazuye na rizni yavisha yaki vinikayut pri analizi ta roboti z danimi v bagatovimirnih prostorah chasto ce sotni abo tisyachi vimiriv Ci yavisha ne zustrichayutsya v malovimirnih vipadkah takih yak trivimirnij fizichnij prostir z yakim mi stikayemos shodnya Termin spochatku vikoristav Richard Bellman dlya zadach dinamichnoyi optimizaciyi Ye chislenni yavisha yaki vinikayut pid podibnoyu nazvoyu u takih oblastyah yak chiselni metodi vidbir vibirki kombinatorika mashinne navchannya dobuvannya danih bazi danih Spilnim negarazdom yakij vinikaye pri zbilshenni rozmirnosti ye duzhe shvidke zbilshennya ob yemu prostoru naslidkom chogo nayavni dani stayut rozridzhenimi Taka rozridzhenist danih staye na zavadi bud yakogo metodu yakij vikoristovuye statistichnu znachushist Dlya otrimannya statistichno nadijnogo rezultatu potribno shob kilkist danih neobhidnih dlya otrimannya rezultatu zrostala eksponencialno rozmirnosti Takozh organizaciya ta poshuk danih chasto zalezhit vid viyavlennya oblastej de ob yekti utvoryuyut grupi z podibnimi vlastivostyami odnak u vipadku visokoyi rozmirnosti vsi ob yekti z yavlyayutsya rozridzhenimi ta riznimi v bagatoh vidnoshennyah sho pereshkodzhaye efektivnij organizaciyi spilnih danih Ci efekti takozh vikoristovuyutsya dlya sproshennya algoritmiv mashinnogo navchannya u bagatovimirnih prostorah sho nazivayut blagoslovennyam rozmirnosti Blagoslovennya rozmirnosti ta proklyattya rozmirnosti viznayutsya dvoma vzayemodopovnyuyuchimi vplivovimi principami u bagatovimirnomu analizi danih U riznih oblastyahKombinatorika V deyakih zadachah kozhna zminna mozhe nabuvati odnogo z dekilkoh diskretnih znachen abo zh diapazon mozhlivih znachen dilitsya na zadane skinchenne chislo shob dati skinchennu kilkist variantiv Yaksho brati rizni zminni razom vinikaye velika kilkist kombinacij znachen Cej efekt takozh vidomij yak kombinatornij vibuh Navit u najprostishomu vipadku d displaystyle d binarnih zminnih kilkist mozhlivih kombinacij bude O 2 d displaystyle O 2 d yaka ye eksponencialnoyu za rozmirnistyu Po prostomu kozhen dodatkovij vimir podvoyuye zusillya neobhidni dlya pereboru vsih kombinacij Mashinne navchannya Zadachi mashinnogo navchannya yaki peredbachayut navchannya prirodnomu stanu na skinchennij kilkosti zrazkiv danih u prostori vlastivostej z visokim chislom vimiriv zazvichaj potrebuyut velicheznoyi kilkosti navchalnih danih dlya togo shob zabezpechiti hocha b dekilka zrazkiv z riznoyu kombinaciyeyu znachen Tipove pravilo polyagaye v tomu sho v kozhnomu vimiri povinno buti shonajmenshe 5 navchalnih prikladiv Z fiksovanoyu kilkistyu navchalnih zrazkiv prognostichna potuzhnist klasifikatora abo regresora spochatku zbilshuyetsya bo kilkist vikoristovuvanih rozmiriv funkcij zbilshuyetsya ale potim zmenshuyetsya sho vidomo yak fenomen Hyuza abo yavishe pika Funkciyi vidstani Koli taku miru yak evklidova vidstan viznachayut z vikoristannyam bagatoh koordinat to otrimuyemo malenku riznicyu u vidstani mizh riznimi parami zrazkiv Odin zi sposobiv prodemonstruvati velicheznist bagatovimirnogo Evklidovogo prostoru vimirnosti d displaystyle d ye porivnyannya ob yemu giperkuba z rebrom 2 r displaystyle 2r i vpisanoyi v nogo gipersferi radiusa r displaystyle r Ob yem sferi dorivnyuye 2 r d p d 2 d G d 2 displaystyle frac 2r d pi d 2 d Gamma d 2 de G displaystyle Gamma ye gamma funkciya a ob yem kuba bude 2 r d displaystyle 2r d Koli rozmirnist d displaystyle d prostoru zbilshuyetsya ob yem gipersferi staye neznachnim vidnosno ob yemu giperkuba Ce chitko vidno pri porivnyannya yih vidnoshennya koli rozmirnist d displaystyle d pryamuye do neskinchennosti V h y p e r s p h e r e V h y p e r c u b e p d 2 d 2 d 1 G d 2 0 displaystyle frac V hypersphere V hypercube frac pi d 2 d2 d 1 Gamma d 2 rightarrow 0 koli d displaystyle d rightarrow infty Bilshe togo vidstan mizh centrom i kutami ce velichina r d displaystyle r sqrt d yaka neobmezheno zrostaye pri stalomu r displaystyle r V comu sensi majzhe vse v bagatovimirnomu prostori roztashovane duzhe daleko vid centru Inakshe mozhna skazati sho bagatovimirnij odinichnij giperkub skladayetsya majzhe povnistyu z kutiv giperkuba i majzhe ne maye seredini Ce takozh dopomagaye zrozumiti rozpodil hi kvadrat Dijsno necentralnij rozpodil hi kvadrat pov yazanij z vipadkovoyu tochkoyu intervalu 1 1 zbigayetsya z rozpodilom kvadrata dovzhini vipadkovoyi tochki v d kubi Za zakonom velikih chisel cej rozpodil koncentruyetsya u vuzkij smuzi sho stanovit priblizno d pomnozhiti na standartnij kvadrat vidhilennya s2 vid pochatkovogo rozpodilu Sho ye ilyustraciyeyu rozpodilu hi kvadrat a takozh pokazuye sho bilsha chastina ob yemu d kuba znahoditsya bilya poverhni sferi radiusa d s Podalshij rozvitok cogo fenomena nastupnij Bud yakij fiksovanij rozpodil na chislovij pryamij indukuye dobutok rozpodiliv na tochki bagatovimirnogo prostoru ℝd Dlya fiksovanogo n minimalna i maksimalna vidstan mizh vipadkovo vibranoyu tochkoyu Q i spiskom z n vipadkovih tochok P1 Pn stayut neznachnimi vidnosno minimalnoyi vidstani lim d E dist max d dist min d dist min d 0 displaystyle lim d to infty E left frac operatorname dist max d operatorname dist min d operatorname dist min d right to 0 Pro take zazvichaj kazhut sho funkciya vidstani vtratila svoyu korisnist napriklad dlya kriteriyu najblizhchogo susida u algoritmi yakij porivnyuye vlastivosti u bagatovimirnomu prostori Odnak nedavni doslidzhennya pokazali sho ce virno dlya specialnogo vipadku koli odnovimirni rozpodili na ℝ budut nezalezhnimi i odnakovo rozpodilenimi Koli ye korelyaciya mizh oznakami dani sproshuyutsya i zabezpechuyut bilsh viraznu vidstan i spivvidnoshennya signal shum yak bulo viznano vidigraye vazhlivu rol tomu slid zastosovuvati obirannya oznak Poshuk najblizhchogo susida Cej efekt uskladnyuye poshuk najblizhchogo susida u bagatovimirnomu prostori Bo nemozhlivo shvidko vidkinuti kandidativ yaksho vikoristovuvati riznicyu v odnij koordinati yak nizhnyu ocinku vidstani yaka zalezhit vid usih vimiriv Prote ostannim chasom bulo zaznacheno sho viklyuchno chislo rozmiriv ne obov yazkovo prizvodit do uskladnen oskilki pov yazani dodatkovi vimiri takozh mozhut zbilshiti vidminnist Krim togo dlya pidsumkovogo ranzhuvannya tochok zazvichaj korisno rozriznyati blizkih ta dalekih susidiv Ne pov yazani shumovi vimiri odnak zmenshuyut vidminnist yak opisano vishe Pri analizi chasovih ryadiv de dani za svoyeyu suttyu ye visokorozmirnimi funkciyi vidstani takozh pracyuyut nadijno koli spivvidnoshennya signal shum ye dosit visokim Klasifikaciya po k najblizhchim susidam Inshij efekt visokoyi rozmirnosti na funkciyi vidstani stosuyetsya grafiv k najblizhchih susidiv k NN pobudovanih z naboru danih z vikoristannyam funkciyi vidstani Koli rozmirnist zbilshuyetsya rozpodil vhodiv oriyentovanogo k NN grafa staye asimetrichnim z pikom sprava cherez viniknennya neproporcijno velikoyi kilkosti koncentratoriv tobto tochok danih yaki z yavlyayutsya v bagatoh inshih k NN spiskah inshih tochok danih chastishe nizh u serednomu Ce yavishe mozhe suttyevo vplivati na rizni metodi klasifikaciyi vklyuchayuchi k NN klasifikator napivkerovane navchannya ta klasterizaciyu a takozh vplivaye na informacijnij poshuk Viyavlennya anomalij U neshodavnomu oglyadi Zimek ta inshi opisali nastupni problemi pri poshuku anomalij u danih z visokoyu rozmirnistyu Skupchennya ocinok ta vidstanej pohidni velichini taki yak vidstani stayut chiselno podibnimi Nevidpovidni atributi dlya bagatovimirnih danih znachna kilkist danih mozhe buti nevidpovidnoyu Viznachennya harakteristik mnozhin dlya lokalnih metodiv nabori harakteristiki mnozhin chasto gruntuyutsya na najblizhchomu susidstvi Ocinki dlya riznih rozmirnostej nemozhlivo porivnyuvati rizni pidprostori dayut rizni ocinki Poyasnennya ocinok ocinki chasto ne peredayut semantichnogo znachennya Eksponencialnist prostoru poshuku poshukovij prostir bilshe ne mozhna sistematichno skanuvati Uperedzhenist vidoma yak p hacking vrahovuyuchi velikij prostir poshuku mozhna znajti bazhanu znachushist gipotezi Skupchenist pevni ob yekti zustrichayutsya chastishe v spiskah susidiv nizh inshi Bagato z analizovanih specializovanih metodiv virishuyut ti chi inshi problemi ale zalishayetsya bagato vidkritih pitan Div takozhDinamichne programuvannya Metod najmenshih kvadrativ Metod golovnih komponent Singulyarnij rozklad matriciPrimitkiRichard Ernest Bellman Rand Corporation 1957 Dynamic programming Princeton University Press ISBN 978 0 691 07951 6 Republished Richard Ernest Bellman 2003 Dynamic Programming Courier Dover Publications ISBN 978 0 486 42809 3 Richard Ernest Bellman 1961 Adaptive control processes a guided tour Princeton University Press Donoho DL 2000 High dimensional data analysis The curses and blessings of dimensionality 15 kvitnya 2018 u Wayback Machine AMS Math Challenges Lecture 1 32 pp Koutroumbas Sergios Theodoridis Konstantinos 2008 Pattern Recognition 4th Edition angl Burlington Procitovano 8 sichnya 2018 Trunk G V July 1979 A Problem of Dimensionality A Simple Example IEEE Transactions on Pattern Analysis and Machine Intelligence PAMI 1 3 306 307 doi 10 1109 TPAMI 1979 4766926 Hughes G F January 1968 On the mean accuracy of statistical pattern recognizers IEEE Transactions on Information Theory 14 1 55 63 doi 10 1109 TIT 1968 1054102 Beyer K Goldstein J Ramakrishnan R Shaft U 1999 When is Nearest Neighbor Meaningful Proc 7th International Conference on Database Theory ICDT 99 LNCS 1540 217 235 doi 10 1007 3 540 49257 7 15 ISBN 978 3 540 65452 0 Zimek A Schubert E 2012 A survey on unsupervised outlier detection in high dimensional numerical data Statistical Analysis and Data Mining 5 5 363 387 doi 10 1002 sam 11161 Marimont R B Shapiro M B 1979 Nearest Neighbour Searches and the Curse of Dimensionality IMA J Appl Math 24 1 59 70 doi 10 1093 imamat 24 1 59 Chavez Edgar Navarro Gonzalo Baeza Yates Ricardo Marroquin Jose Luis 2001 Searching in Metric Spaces ACM Computing Surveys 33 3 273 321 CiteSeerX 10 1 1 100 7845 doi 10 1145 502807 502808 Houle M E Kroger P Schubert E Zimek A 2010 Can Shared Neighbor Distances Defeat the Curse of Dimensionality PDF Scientific and Statistical Database Management Lecture Notes in Computer Science T 6187 s 482 doi 10 1007 978 3 642 13818 8 34 ISBN 978 3 642 13817 1 Bernecker T Houle M E Kroger P Renz M Schubert E Zimek A 2011 Quality of Similarity Rankings in Time Series Symposium on Spatial and Temporal Databases Lecture Notes in Computer Science T 6849 s 422 doi 10 1007 978 3 642 22922 0 25 ISBN 978 3 642 22921 3 Radovanovic Milos Nanopoulos Alexandros Ivanovic Mirjana 2010 Hubs in space Popular nearest neighbors in high dimensional data PDF Journal of Machine Learning Research 11 2487 2531 Radovanovic M Nanopoulos A Ivanovic M 2010 On the existence of obstinate results in vector space models 33rd international ACM SIGIR conference on Research and development in information retrieval SIGIR 10 s 186 doi 10 1145 1835449 1835482 ISBN 9781450301534