Підтримка
www.wikidata.uk-ua.nina.az
Proklyattya rozmirnosti angl curse of dimensionality vkazuye na rizni yavisha yaki vinikayut pri analizi ta roboti z danimi v bagatovimirnih prostorah chasto ce sotni abo tisyachi vimiriv Ci yavisha ne zustrichayutsya v malovimirnih vipadkah takih yak trivimirnij fizichnij prostir z yakim mi stikayemos shodnya Termin spochatku vikoristav Richard Bellman dlya zadach dinamichnoyi optimizaciyi Ye chislenni yavisha yaki vinikayut pid podibnoyu nazvoyu u takih oblastyah yak chiselni metodi vidbir vibirki kombinatorika mashinne navchannya dobuvannya danih bazi danih Spilnim negarazdom yakij vinikaye pri zbilshenni rozmirnosti ye duzhe shvidke zbilshennya ob yemu prostoru naslidkom chogo nayavni dani stayut rozridzhenimi Taka rozridzhenist danih staye na zavadi bud yakogo metodu yakij vikoristovuye statistichnu znachushist Dlya otrimannya statistichno nadijnogo rezultatu potribno shob kilkist danih neobhidnih dlya otrimannya rezultatu zrostala eksponencialno rozmirnosti Takozh organizaciya ta poshuk danih chasto zalezhit vid viyavlennya oblastej de ob yekti utvoryuyut grupi z podibnimi vlastivostyami odnak u vipadku visokoyi rozmirnosti vsi ob yekti z yavlyayutsya rozridzhenimi ta riznimi v bagatoh vidnoshennyah sho pereshkodzhaye efektivnij organizaciyi spilnih danih Ci efekti takozh vikoristovuyutsya dlya sproshennya algoritmiv mashinnogo navchannya u bagatovimirnih prostorah sho nazivayut blagoslovennyam rozmirnosti Blagoslovennya rozmirnosti ta proklyattya rozmirnosti viznayutsya dvoma vzayemodopovnyuyuchimi vplivovimi principami u bagatovimirnomu analizi danih U riznih oblastyahKombinatorika V deyakih zadachah kozhna zminna mozhe nabuvati odnogo z dekilkoh diskretnih znachen abo zh diapazon mozhlivih znachen dilitsya na zadane skinchenne chislo shob dati skinchennu kilkist variantiv Yaksho brati rizni zminni razom vinikaye velika kilkist kombinacij znachen Cej efekt takozh vidomij yak kombinatornij vibuh Navit u najprostishomu vipadku d displaystyle d binarnih zminnih kilkist mozhlivih kombinacij bude O 2 d displaystyle O 2 d yaka ye eksponencialnoyu za rozmirnistyu Po prostomu kozhen dodatkovij vimir podvoyuye zusillya neobhidni dlya pereboru vsih kombinacij Mashinne navchannya Zadachi mashinnogo navchannya yaki peredbachayut navchannya prirodnomu stanu na skinchennij kilkosti zrazkiv danih u prostori vlastivostej z visokim chislom vimiriv zazvichaj potrebuyut velicheznoyi kilkosti navchalnih danih dlya togo shob zabezpechiti hocha b dekilka zrazkiv z riznoyu kombinaciyeyu znachen Tipove pravilo polyagaye v tomu sho v kozhnomu vimiri povinno buti shonajmenshe 5 navchalnih prikladiv Z fiksovanoyu kilkistyu navchalnih zrazkiv prognostichna potuzhnist klasifikatora abo regresora spochatku zbilshuyetsya bo kilkist vikoristovuvanih rozmiriv funkcij zbilshuyetsya ale potim zmenshuyetsya sho vidomo yak fenomen Hyuza abo yavishe pika Funkciyi vidstani Koli taku miru yak evklidova vidstan viznachayut z vikoristannyam bagatoh koordinat to otrimuyemo malenku riznicyu u vidstani mizh riznimi parami zrazkiv Odin zi sposobiv prodemonstruvati velicheznist bagatovimirnogo Evklidovogo prostoru vimirnosti d displaystyle d ye porivnyannya ob yemu giperkuba z rebrom 2 r displaystyle 2r i vpisanoyi v nogo gipersferi radiusa r displaystyle r Ob yem sferi dorivnyuye 2 r d p d 2 d G d 2 displaystyle frac 2r d pi d 2 d Gamma d 2 de G displaystyle Gamma ye gamma funkciya a ob yem kuba bude 2 r d displaystyle 2r d Koli rozmirnist d displaystyle d prostoru zbilshuyetsya ob yem gipersferi staye neznachnim vidnosno ob yemu giperkuba Ce chitko vidno pri porivnyannya yih vidnoshennya koli rozmirnist d displaystyle d pryamuye do neskinchennosti V h y p e r s p h e r e V h y p e r c u b e p d 2 d 2 d 1 G d 2 0 displaystyle frac V hypersphere V hypercube frac pi d 2 d2 d 1 Gamma d 2 rightarrow 0 koli d displaystyle d rightarrow infty Bilshe togo vidstan mizh centrom i kutami ce velichina r d displaystyle r sqrt d yaka neobmezheno zrostaye pri stalomu r displaystyle r V comu sensi majzhe vse v bagatovimirnomu prostori roztashovane duzhe daleko vid centru Inakshe mozhna skazati sho bagatovimirnij odinichnij giperkub skladayetsya majzhe povnistyu z kutiv giperkuba i majzhe ne maye seredini Ce takozh dopomagaye zrozumiti rozpodil hi kvadrat Dijsno necentralnij rozpodil hi kvadrat pov yazanij z vipadkovoyu tochkoyu intervalu 1 1 zbigayetsya z rozpodilom kvadrata dovzhini vipadkovoyi tochki v d kubi Za zakonom velikih chisel cej rozpodil koncentruyetsya u vuzkij smuzi sho stanovit priblizno d pomnozhiti na standartnij kvadrat vidhilennya s2 vid pochatkovogo rozpodilu Sho ye ilyustraciyeyu rozpodilu hi kvadrat a takozh pokazuye sho bilsha chastina ob yemu d kuba znahoditsya bilya poverhni sferi radiusa d s Podalshij rozvitok cogo fenomena nastupnij Bud yakij fiksovanij rozpodil na chislovij pryamij indukuye dobutok rozpodiliv na tochki bagatovimirnogo prostoru ℝd Dlya fiksovanogo n minimalna i maksimalna vidstan mizh vipadkovo vibranoyu tochkoyu Q i spiskom z n vipadkovih tochok P1 Pn stayut neznachnimi vidnosno minimalnoyi vidstani lim d E dist max d dist min d dist min d 0 displaystyle lim d to infty E left frac operatorname dist max d operatorname dist min d operatorname dist min d right to 0 Pro take zazvichaj kazhut sho funkciya vidstani vtratila svoyu korisnist napriklad dlya kriteriyu najblizhchogo susida u algoritmi yakij porivnyuye vlastivosti u bagatovimirnomu prostori Odnak nedavni doslidzhennya pokazali sho ce virno dlya specialnogo vipadku koli odnovimirni rozpodili na ℝ budut nezalezhnimi i odnakovo rozpodilenimi Koli ye korelyaciya mizh oznakami dani sproshuyutsya i zabezpechuyut bilsh viraznu vidstan i spivvidnoshennya signal shum yak bulo viznano vidigraye vazhlivu rol tomu slid zastosovuvati obirannya oznak Poshuk najblizhchogo susida Cej efekt uskladnyuye poshuk najblizhchogo susida u bagatovimirnomu prostori Bo nemozhlivo shvidko vidkinuti kandidativ yaksho vikoristovuvati riznicyu v odnij koordinati yak nizhnyu ocinku vidstani yaka zalezhit vid usih vimiriv Prote ostannim chasom bulo zaznacheno sho viklyuchno chislo rozmiriv ne obov yazkovo prizvodit do uskladnen oskilki pov yazani dodatkovi vimiri takozh mozhut zbilshiti vidminnist Krim togo dlya pidsumkovogo ranzhuvannya tochok zazvichaj korisno rozriznyati blizkih ta dalekih susidiv Ne pov yazani shumovi vimiri odnak zmenshuyut vidminnist yak opisano vishe Pri analizi chasovih ryadiv de dani za svoyeyu suttyu ye visokorozmirnimi funkciyi vidstani takozh pracyuyut nadijno koli spivvidnoshennya signal shum ye dosit visokim Klasifikaciya po k najblizhchim susidam Inshij efekt visokoyi rozmirnosti na funkciyi vidstani stosuyetsya grafiv k najblizhchih susidiv k NN pobudovanih z naboru danih z vikoristannyam funkciyi vidstani Koli rozmirnist zbilshuyetsya rozpodil vhodiv oriyentovanogo k NN grafa staye asimetrichnim z pikom sprava cherez viniknennya neproporcijno velikoyi kilkosti koncentratoriv tobto tochok danih yaki z yavlyayutsya v bagatoh inshih k NN spiskah inshih tochok danih chastishe nizh u serednomu Ce yavishe mozhe suttyevo vplivati na rizni metodi klasifikaciyi vklyuchayuchi k NN klasifikator napivkerovane navchannya ta klasterizaciyu a takozh vplivaye na informacijnij poshuk Viyavlennya anomalij U neshodavnomu oglyadi Zimek ta inshi opisali nastupni problemi pri poshuku anomalij u danih z visokoyu rozmirnistyu Skupchennya ocinok ta vidstanej pohidni velichini taki yak vidstani stayut chiselno podibnimi Nevidpovidni atributi dlya bagatovimirnih danih znachna kilkist danih mozhe buti nevidpovidnoyu Viznachennya harakteristik mnozhin dlya lokalnih metodiv nabori harakteristiki mnozhin chasto gruntuyutsya na najblizhchomu susidstvi Ocinki dlya riznih rozmirnostej nemozhlivo porivnyuvati rizni pidprostori dayut rizni ocinki Poyasnennya ocinok ocinki chasto ne peredayut semantichnogo znachennya Eksponencialnist prostoru poshuku poshukovij prostir bilshe ne mozhna sistematichno skanuvati Uperedzhenist vidoma yak p hacking vrahovuyuchi velikij prostir poshuku mozhna znajti bazhanu znachushist gipotezi Skupchenist pevni ob yekti zustrichayutsya chastishe v spiskah susidiv nizh inshi Bagato z analizovanih specializovanih metodiv virishuyut ti chi inshi problemi ale zalishayetsya bagato vidkritih pitan Div takozhDinamichne programuvannya Metod najmenshih kvadrativ Metod golovnih komponent Singulyarnij rozklad matriciPrimitkiRichard Ernest Bellman Rand Corporation 1957 Dynamic programming Princeton University Press ISBN 978 0 691 07951 6 Republished Richard Ernest Bellman 2003 Dynamic Programming Courier Dover Publications ISBN 978 0 486 42809 3 Richard Ernest Bellman 1961 Adaptive control processes a guided tour Princeton University Press Donoho DL 2000 High dimensional data analysis The curses and blessings of dimensionality 15 kvitnya 2018 u Wayback Machine AMS Math Challenges Lecture 1 32 pp Koutroumbas Sergios Theodoridis Konstantinos 2008 Pattern Recognition 4th Edition angl Burlington Procitovano 8 sichnya 2018 Trunk G V July 1979 A Problem of Dimensionality A Simple Example IEEE Transactions on Pattern Analysis and Machine Intelligence PAMI 1 3 306 307 doi 10 1109 TPAMI 1979 4766926 Hughes G F January 1968 On the mean accuracy of statistical pattern recognizers IEEE Transactions on Information Theory 14 1 55 63 doi 10 1109 TIT 1968 1054102 Beyer K Goldstein J Ramakrishnan R Shaft U 1999 When is Nearest Neighbor Meaningful Proc 7th International Conference on Database Theory ICDT 99 LNCS 1540 217 235 doi 10 1007 3 540 49257 7 15 ISBN 978 3 540 65452 0 Zimek A Schubert E 2012 A survey on unsupervised outlier detection in high dimensional numerical data Statistical Analysis and Data Mining 5 5 363 387 doi 10 1002 sam 11161 Marimont R B Shapiro M B 1979 Nearest Neighbour Searches and the Curse of Dimensionality IMA J Appl Math 24 1 59 70 doi 10 1093 imamat 24 1 59 Chavez Edgar Navarro Gonzalo Baeza Yates Ricardo Marroquin Jose Luis 2001 Searching in Metric Spaces ACM Computing Surveys 33 3 273 321 CiteSeerX 10 1 1 100 7845 doi 10 1145 502807 502808 Houle M E Kroger P Schubert E Zimek A 2010 Can Shared Neighbor Distances Defeat the Curse of Dimensionality PDF Scientific and Statistical Database Management Lecture Notes in Computer Science T 6187 s 482 doi 10 1007 978 3 642 13818 8 34 ISBN 978 3 642 13817 1 Bernecker T Houle M E Kroger P Renz M Schubert E Zimek A 2011 Quality of Similarity Rankings in Time Series Symposium on Spatial and Temporal Databases Lecture Notes in Computer Science T 6849 s 422 doi 10 1007 978 3 642 22922 0 25 ISBN 978 3 642 22921 3 Radovanovic Milos Nanopoulos Alexandros Ivanovic Mirjana 2010 Hubs in space Popular nearest neighbors in high dimensional data PDF Journal of Machine Learning Research 11 2487 2531 Radovanovic M Nanopoulos A Ivanovic M 2010 On the existence of obstinate results in vector space models 33rd international ACM SIGIR conference on Research and development in information retrieval SIGIR 10 s 186 doi 10 1145 1835449 1835482 ISBN 9781450301534
Топ