Підтримка
www.wikidata.uk-ua.nina.az
Me tod k najbli zhchih susi div angl k nearest neighbor method ce en metod kerovanogo navchannya vpershe rozroblenij en ta en u 1951 roci a piznishe rozvinutij Tomasom Koverom Metod vikoristovuyetsya yak dlya klasifikaciyi tak i dlya regresiyi V oboh vipadkah vhidni dani skladayutsya z k najblizhchih navchalnih prikladiv u nabori danih Rezultat zalezhit vid togo dlya chogo vikoristovuyetsya k NS dlya klasifikaciyi chi regresiyi Pri klasifikaciyi k NS rezultatom ye nalezhnist klasu Ob yekt klasifikuyetsya za dopomogoyu mnozhini golosiv jogo susidiv pri comu ob yekt nalezhit do klasu najbilsh poshirenogo sered jogo k najblizhchih susidiv k cile dodatne chislo yak pravilo nevelike Yaksho k 1 to ob yekt prosto pripisuyetsya do klasu cogo yedinogo najblizhchogo susida Pri k NS regresiyi rezultatom ye chislove znachennya vlastivosti ob yekta Ce znachennya ye serednim iz znachen k najblizhchih susidiv k NS ce tip klasifikaciyi de funkciya lokalno lishe aproksimuyetsya a vsi obchislennya vidkladayutsya do ocinki funkciyi Oskilki cej algoritm pokladayetsya na funkciyu vidstani dlya klasifikaciyi to u vipadku koli oznaki predstavlyayut rizni fizichni odinici abo mayut duzhe rizni masshtabi to en navchalnih danih mozhe znachno pidvishiti yih tochnist Yak dlya klasifikaciyi tak i dlya regresiyi korisnim mozhe buti priznachennya vagovih znachen vnesku susidiv shob vnesok u serednye u najblizhchih susidiv buv bilshe nizh u viddalenih Dlya prikladu zagalna shema zvazhuvannya polyagaye v tomu shob nadati kozhnomu susidu vagu 1 d de d vidstan do susida Susidi berutsya z mnozhini ob yektiv dlya yakih vidomij klas u vipadku k NS klasifikaciyi abo znachennya vlastivosti ob yekta u vipadku k NS regresiyi Ce mozhna rozglyadati yak navchalnij nabir dlya algoritmu hocha niyakogo yavnogo kroku navchannya ne potribno vikonuvati Osoblivistyu algoritmu k NS ye te sho vin chutlivij do lokalnoyi strukturi danih Statistichne tloPripustimo u nas ye pari X 1 Y 1 X 2 Y 2 X n Y n displaystyle X 1 Y 1 X 2 Y 2 dots X n Y n yaki prijmayut znachennya v mnozhini R d 1 2 displaystyle mathbb R d times 1 2 de Y mitka klasu tochki X otzhe X Y r P r displaystyle X Y r sim P r dlya r 1 2 displaystyle r 1 2 i rozpodiliv jmovirnostej P r displaystyle P r Dlya zadanoyi normi displaystyle cdot na R d displaystyle mathbb R d i tochki x R d displaystyle x in mathbb R d poslidovnist X 1 Y 1 X n Y n displaystyle X 1 Y 1 dots X n Y n bude takim pereuporyadkuvannyam navchalnih danih sho X 1 x X n x displaystyle X 1 x leq dots leq X n x AlgoritmPriklad k NS klasifikaciyi Testovij zrazok zelene kolo povinen buti klasifikovanij yak sinij kvadrat abo yak chervonij trikutnik Yaksho k 3 to klasifikuyetsya yak chervonij trikutnik tomu sho vseredini menshogo kola 2 trikutnika i tilki 1 kvadrat Yaksho k 5 to vin bude klasifikovanij yak sinij kvadrat 3 kvadrata proti 2 oh trikutnikiv vseredini bilshogo kola Navchalnimi prikladami ye vektori bagatovimirnogo oznakiprostoru oznak kozhen maye mitku klasu Faza navchannya algoritmu skladayetsya lishe iz zberezhennya vektoriv oznak i mitok klasiv navchalnih vibirok Na etapi klasifikaciyi k ye viznachenoyu koristuvachem konstantoyu a nemarkovanij vektor zapit abo testova tochka klasifikuyetsya shlyahom priznachennya mitki yaka ye najbilsh poshirenoyu sered k navchalnih vibirok najblizhchih do ciyeyi tochki zapitu Chasto vikoristovuvanoyu metrikoyu vidstani dlya neperervnih zminnih ye evklidova vidstan Dlya diskretnih zminnih napriklad dlya klasifikaciyi tekstu mozhna vikoristovuvati inshij pokaznik napriklad metriku perekrittya abo vidstan Gemminga U konteksti mikromasiviv danih ekspresiyi geniv napriklad k NS vikoristovuvavsya z koeficiyentami korelyaciyi takimi yak Pirson i Spirmen u yakosti metriki Chasto tochnist klasifikaciyi k NS mozhna znachno pidvishiti yaksho navchatisya funkciyi vidstani za dopomogoyu specializovanih algoritmiv takih yak en abo en Osnovna problema pri klasifikaciyi za dopomogoyu golosuvannya bilshosti traplyayetsya koli rozpodil klasiv perekoshenij Tobto prikladi bilsh chastogo klasu yak pravilo dominuyut u peredbachenni novogo prikladu oskilki voni yak pravilo poshireni sered k najblizhchih susidiv cherez yih veliku kilkist Odnim iz sposobiv podolannya ciyeyi problemi ye zvazhuvannya klasifikaciyi beruchi do uvagi vidstan vid kontrolnoyi tochki do kozhnogo z yiyi k najblizhchih susidiv Klas abo znachennya v zadachah regresiyi kozhnoyi z k najblizhchih tochok mnozhitsya na vagu proporcijnu obernenij vidstani vid ciyeyi tochki do kontrolnoyi tochki Inshim sposobom podolannya perekosu ye abstrakciya u predstavlenni danih Napriklad u samoorganizacijnij karti Kohonena SKK kozhen vuzol ye predstavnikom centrom klastera podibnih tochok nezalezhno vid yih shilnosti v vihidnih navchalnih danih Potim k NS mozhna zastosuvati do SKK Vibir parametrivNajkrashij vibir k zalezhit vid danih zagalom bilshi znachennya k zmenshuyut vpliv shumu na klasifikaciyu ale roblyat granici mizh klasami mensh chitkimi Garne znachennya k mozhna vibrati riznimi evristichnimi metodami div optimizaciya giperparametriv Okremij vipadok koli klas prognozu ye klasom najblizhchoyi navchalnoyi vibirki tobto koli k 1 nazivayetsya algoritmom najblizhchogo susida Tochnist algoritmu k NS mozhe buti znachno pogirshena cherez nayavnist shumnih abo nevidpovidnih oznak abo yaksho masshtabi oznak ne vidpovidayut yih vazhlivosti Bagato doslidnickih zusil bulo zoseredzheno na vibori abo masshtabuvanni oznak dlya pokrashennya klasifikaciyi Osoblivo populyarnij pidhid ce vikoristannya evolyucijnih algoritmiv dlya optimizaciyi masshtabuvannya oznak Inshim populyarnim pidhodom ye masshtabuvannya funkcij za dopomogoyu vzayemnoyi informaciyi navchalnih danih iz navchalnimi klasami U zadachah binarnoyi dva klasi klasifikaciyi korisno vibrati k yak neparne chislo oskilki ce dozvolyaye uniknuti situaciyi koli golosi mozhut buti rivnimi cogo mozhna uniknuti yaksho pri rivnij kilkosti golosiv brati do uvagi vidstan do tochok Odnim iz populyarnih sposobiv viboru empirichno optimalnogo k v comu parametri ye metod butstrepingu Klasifikator 1 najblizhchogo susidaNajbilsh intuyitivno zrozumilim klasifikatorom tipu najblizhchogo susida ye toj klasifikator najblizhchogo susida yakij priznachaye tochci x klas svogo najblizhchogo susida v prostori oznak tobto C n 1 n n x Y 1 displaystyle C n 1nn x Y 1 Oskilki rozmir navchalnogo naboru danih nablizhayetsya do neskinchennosti klasifikator odnogo najblizhchogo susida garantuye koeficiyent pomilok yakij ne perevishuye podvijnu en minimalno dosyazhnij riven pomilok z urahuvannyam rozpodilu danih Zvazhenij klasifikator najblizhchih susidivKlasifikator k najblizhchih susidiv mozhna rozglyadati yak prisvoyennya k najblizhchim susidam vagi 1 k displaystyle 1 k a vsi inshim 0 vagi Ce mozhna uzagalniti na zvazheni klasifikatori najblizhchih susidiv Tobto de i mu najblizhchomu susidu prisvoyuyetsya vaga w n i displaystyle w ni z i 1 n w n i 1 displaystyle sum i 1 n w ni 1 Analogichnij rezultat shodo silnoyi uzgodzhenosti zvazhenih klasifikatoriv najblizhchih susidiv takozh maye misce Nehaj C n w n n displaystyle C n wnn poznachaye zvazhenij najblizhchij klasifikator z vagami w n i i 1 n displaystyle w ni i 1 n Za umovi regulyarnosti shodo rozpodiliv klasiv nadmirnij rizik maye nastupne asimptotichne rozshirennya R R C n w n n R R C B a y e s B 1 s n 2 B 2 t n 2 1 o 1 displaystyle mathcal R mathcal R C n wnn mathcal R mathcal R C Bayes left B 1 s n 2 B 2 t n 2 right 1 o 1 dlya konstant B 1 displaystyle B 1 i B 2 displaystyle B 2 de s n 2 i 1 n w n i 2 displaystyle s n 2 sum i 1 n w ni 2 i t n n 2 d i 1 n w n i i 1 2 d i 1 1 2 d displaystyle t n n 2 d sum i 1 n w ni i 1 2 d i 1 1 2 d Optimalna shema zvazhuvannya w n i i 1 n displaystyle w ni i 1 n sho vrivnovazhuye dva termi naveleni vishe zadayetsya takim chinom k B n 4 d 4 displaystyle k lfloor Bn frac 4 d 4 rfloor w n i 1 k 1 d 2 d 2 k 2 d i 1 2 d i 1 1 2 d displaystyle w ni frac 1 k left 1 frac d 2 frac d 2 k 2 d i 1 2 d i 1 1 2 d right dlya i 1 2 k displaystyle i 1 2 dots k i w n i 0 displaystyle w ni 0 dlya i k 1 n displaystyle i k 1 dots n Pri optimalnih vagah dominuyuchim chlenom v asimptotichnomu rozkladanni nadlishkovogo riziku ye O n 4 d 4 displaystyle mathcal O n frac 4 d 4 Podibni rezultati spravedlivi pri vikoristanni dlya agregaciyi klasifikatora najblizhchogo susida k NS vikidiVidstan do k go najblizhchogo susida takozh mozhna rozglyadati yak ocinku lokalnoyi shilnosti i takim chinom takozh ye populyarnim pokaznikom vikidu pri viyavlenni anomalij Chim bilsha vidstan do k NS chim nizhcha lokalna shilnist i tim bilsha jmovirnist sho tochka zapitu ye vikidom Cya model vikidiv hocha j dosit prosta razom z inshim klasichnim metodom analizu danih faktorom lokalnogo vidhilennya pracyuye dosit dobre v porivnyanni z bilsh suchasnimi ta skladnishimi pidhodami zgidno z shirokomasshtabnim eksperimentalnim analizom Proklyattya rozmirnostiCej klasifikator robit pripushennya sho podibni tochki mayut podibni mitki Na zhal u visokorozmirnisnih prostorah tochki vibrani z rozpodilu jmovirnostej majzhe nikoli ne opinyayutsya blizko odna do odnoyi Div takozhGraf najblizhchih susidivPrimitkiFix Evelyn Hodges Joseph L 1951 PDF Zvit Report Number 4 Project Number 21 49 004 USAF School of Aviation Medicine Randolph Field Texas Arhiv originalu PDF za 26 veresnya 2020 Procitovano 23 kvitnya 2022 1992 The American Statistician 46 3 175 185 doi 10 1080 00031305 1992 10475879 Arhiv originalu PDF za 11 serpnya 2020 Procitovano 23 kvitnya 2022 a href wiki D0 A8 D0 B0 D0 B1 D0 BB D0 BE D0 BD Cite journal title Shablon Cite journal cite journal a hdl access vimagaye hdl dovidka Piryonesi S Madeh El Diraby Tamer E 1 chervnya 2020 Role of Data Analytics in Infrastructure Asset Management Overcoming Data Size and Quality Problems Journal of Transportation Engineering Part B Pavements 146 2 04020022 doi 10 1061 JPEODX 0000175 Hastie Trevor 2001 The elements of statistical learning data mining inference and prediction with 200 full color illustrations New York Springer ISBN 0 387 95284 5 OCLC 46809224 Cya shema ye uzagalnennyam linijnoyi interpolyaciyi Jaskowiak Pablo A Campello Ricardo J G B Comparing Correlation Coefficients as Dissimilarity Measures for Cancer Classification in Gene Expression Data Brazilian Symposium on Bioinformatics BSB 2011 1 8 CiteSeerX 10 1 1 208 993 Coomans Danny Massart Desire L 1982 Alternative k nearest neighbour rules in supervised pattern recognition Part 1 k Nearest neighbour classification by using alternative voting rules Analytica Chimica Acta 136 15 27 doi 10 1016 S0003 2670 01 95359 0 Everitt Brian S Landau Sabine Leese Morven and Stahl Daniel 2011 Miscellaneous Clustering Methods in Cluster Analysis 5th Edition John Wiley amp Sons Ltd Chichester UK Nigsch Florian Bender Andreas van Buuren Bernd Tissen Jos Nigsch Eduard Mitchell John B O 2006 Melting point prediction employing k nearest neighbor algorithms and genetic parameter optimization Journal of Chemical Information and Modeling 46 6 2412 2422 doi 10 1021 ci060149f PMID 17125183 Hall Peter Park Byeong U Samworth Richard J 2008 Choice of neighbor order in nearest neighbor classification 36 5 2135 2152 arXiv 0810 5276 Bibcode 2008arXiv0810 5276H doi 10 1214 07 AOS537 Stone Charles J 1977 Consistent nonparametric regression 5 4 595 620 doi 10 1214 aos 1176343886 Samworth Richard J 2012 Optimal weighted nearest neighbour classifiers 40 5 2733 2763 arXiv 1101 5783 doi 10 1214 12 AOS1049 Ramaswamy Sridhar Rastogi Rajeev Shim Kyuseok 2000 Efficient algorithms for mining outliers from large data sets Proceedings of the 2000 ACM SIGMOD international conference on Management of data SIGMOD 00 s 427 doi 10 1145 342009 335437 ISBN 1 58113 217 4 Campos Guilherme O Zimek Arthur Sander Jorg Campello Ricardo J G B Micenkova Barbora Schubert Erich Assent Ira Houle Michael E 2016 On the evaluation of unsupervised outlier detection measures datasets and an empirical study Data Mining and Knowledge Discovery 30 4 891 927 doi 10 1007 s10618 015 0444 8 ISSN 1384 5810 DzherelaGlosarij terminiv z himiyi uklad J Opejda O Shvajka In t fiziko organichnoyi himiyi ta vuglehimiyi im L M Litvinenka NAN Ukrayini Doneckij nacionalnij universitet Don Veber 2008 738 s ISBN 978 966 335 206 0 Lekciya z metodu k najblizhchih susidiv Ce nezavershena stattya zi statistiki Vi mozhete dopomogti proyektu vipravivshi abo dopisavshi yiyi Ce nezavershena stattya pro strukturi danih Vi mozhete dopomogti proyektu vipravivshi abo dopisavshi yiyi
Топ