Ме́тод k-найбли́жчих сусі́дів (англ. k-nearest neighbor method) — це [en] метод керованого навчання, вперше розроблений [en] та [en] у 1951 році, а пізніше розвинутий Томасом Ковером. Метод використовується як для класифікації, так і для регресії. В обох випадках вхідні дані складаються з k найближчих навчальних прикладів у наборі даних. Результат залежить від того, для чого використовується k-НС для класифікації чи регресії:
- При класифікації k-НС результатом є належність класу. Об'єкт класифікується за допомогою множини голосів його сусідів, при цьому об'єкт належить до класу, найбільш поширеного серед його k найближчих сусідів (k — ціле додатне число, як правило, невелике). Якщо k = 1, то об'єкт просто приписується до класу цього єдиного найближчого сусіда.
- При k-НС регресії результатом є числове значення властивості об'єкта. Це значення є середнім із значень k найближчих сусідів.
k-НС — це тип класифікації, де функція локально лише апроксимується, а всі обчислення відкладаються до оцінки функції. Оскільки цей алгоритм покладається на функцію відстані для класифікації, то у випадку, коли ознаки представляють різні фізичні одиниці або мають дуже різні масштаби, то [en] навчальних даних може значно підвищити їх точність.
Як для класифікації, так і для регресії, корисним може бути призначення вагових значень внеску сусідів, щоб внесок у середнє у найближчих сусідів був більше, ніж у віддалених. Для прикладу, загальна схема зважування полягає в тому, щоб надати кожному сусіду вагу 1/d, де d — відстань до сусіда.
Сусіди беруться з множини об'єктів, для яких відомий клас (у випадку k-НС класифікації) або значення властивості об'єкта (у випадку k-НС регресії). Це можна розглядати як навчальний набір для алгоритму, хоча ніякого явного кроку навчання не потрібно виконувати.
Особливістю алгоритму k-НС є те, що він чутливий до локальної структури даних.
Статистичне тло
Припустимо, у нас є пари , які приймають значення в множині , де Y — мітка класу точки X, отже для (і розподілів ймовірностей ). Для заданої норми на і точки , послідовність буде таким переупорядкуванням навчальних даних, що .
Алгоритм
Навчальними прикладами є вектори багатовимірного ознаки(простору ознак), кожен має мітку класу. Фаза навчання алгоритму складається лише із збереження векторів ознак і міток класів навчальних вибірок.
На етапі класифікації k є визначеною користувачем константою, а немаркований вектор (запит або тестова точка) класифікується шляхом призначення мітки, яка є найбільш поширеною серед k навчальних вибірок, найближчих до цієї точки запиту.
Часто використовуваною метрикою відстані для неперервних змінних є евклідова відстань. Для дискретних змінних, наприклад, для класифікації тексту, можна використовувати інший показник, наприклад метрику перекриття (або відстань Геммінга). У контексті мікромасивів даних експресії генів, наприклад, k-НС використовувався з коефіцієнтами кореляції, такими як Пірсон і Спірмен, у якості метрики. Часто точність класифікації k-НС можна значно підвищити, якщо навчатися функції відстані за допомогою спеціалізованих алгоритмів, таких як [en] або [en].
Основна проблема при класифікації за допомогою «голосування більшості» трапляється, коли розподіл класів перекошений. Тобто, приклади більш частого класу, як правило, домінують у передбаченні нового прикладу, оскільки вони, як правило, поширені серед k найближчих сусідів через їх велику кількість. Одним із способів подолання цієї проблеми є зважування класифікації, беручи до уваги відстань від контрольної точки до кожного з її k найближчих сусідів. Клас (або значення в задачах регресії) кожної з k найближчих точок множиться на вагу, пропорційну оберненій відстані від цієї точки до контрольної точки. Іншим способом подолання перекосу є абстракція у представленні даних. Наприклад, у самоорганізаційній карті Кохонена (СКК) кожен вузол є представником (центром) кластера подібних точок, незалежно від їх щільності в вихідних навчальних даних. Потім k-НС можна застосувати до СКК.
Вибір параметрів
Найкращий вибір k залежить від даних; загалом, більші значення k зменшують вплив шуму на класифікацію, але роблять границі між класами менш чіткими. Гарне значення k можна вибрати різними евристичними методами (див. оптимізація гіперпараметрів). Окремий випадок, коли клас прогнозу є класом найближчої навчальної вибірки (тобто, коли k = 1), називається алгоритмом найближчого сусіда.
Точність алгоритму k-НС може бути значно погіршена через наявність шумних або невідповідних ознак, або якщо масштаби ознак не відповідають їх важливості. Багато дослідницьких зусиль було зосереджено на виборі або масштабуванні ознак для покращення класифікації. Особливо популярний підхід — це використання еволюційних алгоритмів для оптимізації масштабування ознак. Іншим популярним підходом є масштабування функцій за допомогою взаємної інформації навчальних даних із навчальними класами.
У задачах бінарної (два класи) класифікації корисно вибрати k як непарне число, оскільки це дозволяє уникнути ситуації коли голоси можуть бути рівними (цього можна уникнути, якщо при рівній кількості голосів брати до уваги відстань до точок). Одним із популярних способів вибору емпірично оптимального k в цьому параметрі є метод бутстрепінгу.
Класифікатор 1-найближчого сусіда
Найбільш інтуїтивно зрозумілим класифікатором типу найближчого сусіда є той класифікатор найближчого сусіда, який призначає точці x клас свого найближчого сусіда в просторі ознак, тобто .
Оскільки розмір навчального набору даних наближається до нескінченності, класифікатор одного найближчого сусіда гарантує коефіцієнт помилок, який не перевищує подвійну [en] (мінімально досяжний рівень помилок з урахуванням розподілу даних).
Зважений класифікатор найближчих сусідів
Класифікатор k найближчих сусідів можна розглядати як присвоєння k найближчим сусідам ваги , а всі іншим 0 ваги. Це можна узагальнити на зважені класифікатори найближчих сусідів. Тобто, де i-му найближчому сусіду присвоюється вага , з . Аналогічний результат щодо сильної узгодженості зважених класифікаторів найближчих сусідів також має місце.
Нехай позначає зважений найближчий класифікатор з вагами . За умови регулярності щодо розподілів класів надмірний ризик має наступне асимптотичне розширення
для констант і , де і .
Оптимальна схема зважування , що врівноважує два терми навелені вище, задається таким чином: ,
- для і
- , для .
При оптимальних вагах домінуючим членом в асимптотичному розкладанні надлишкового ризику є . Подібні результати справедливі при використанні для агрегації класифікатора найближчого сусіда.
k-НС викиди
Відстань до k-го найближчого сусіда також можна розглядати як оцінку локальної щільності, і, таким чином, також є популярним показником викиду при виявленні аномалій. Чим більша відстань до k-НС, чим нижча локальна щільність, і тим більша ймовірність, що точка запиту є викидом. Ця модель викидів, хоча й досить проста, разом з іншим класичним методом аналізу даних, фактором локального відхилення, працює досить добре в порівнянні з більш сучасними та складнішими підходами, згідно з широкомасштабним експериментальним аналізом.
Прокляття розмірності
Цей класифікатор робить припущення, що подібні точки мають подібні мітки. На жаль, у високорозмірнісних просторах, точки, вибрані з розподілу ймовірностей, майже ніколи не опиняються близько одна до одної.
Див. також
Примітки
- Fix, Evelyn; Hodges, Joseph L. (1951). (PDF) (Звіт). № Report Number 4, Project Number 21-49-004. USAF School of Aviation Medicine, Randolph Field, Texas. Архів оригіналу (PDF) за 26 вересня 2020. Процитовано 23 квітня 2022.
- (1992). . The American Statistician. 46 (3): 175—185. doi:10.1080/00031305.1992.10475879. Архів оригіналу (PDF) за 11 серпня 2020. Процитовано 23 квітня 2022.
{{}}
:|hdl-access=
вимагає|hdl=
() - Piryonesi S. Madeh; El-Diraby Tamer E. (1 червня 2020). Role of Data Analytics in Infrastructure Asset Management: Overcoming Data Size and Quality Problems. Journal of Transportation Engineering, Part B: Pavements. 146 (2): 04020022. doi:10.1061/JPEODX.0000175.
- Hastie, Trevor. (2001). The elements of statistical learning : data mining, inference, and prediction : with 200 full-color illustrations. New York: Springer. ISBN . OCLC 46809224.
- Ця схема є узагальненням лінійної інтерполяції.
- Jaskowiak, Pablo A.; Campello, Ricardo J. G. B. Comparing Correlation Coefficients as Dissimilarity Measures for Cancer Classification in Gene Expression Data. Brazilian Symposium on Bioinformatics (BSB 2011): 1—8. CiteSeerX 10.1.1.208.993.
- Coomans, Danny; Massart, Desire L. (1982). Alternative k-nearest neighbour rules in supervised pattern recognition : Part 1. k-Nearest neighbour classification by using alternative voting rules. Analytica Chimica Acta. 136: 15—27. doi:10.1016/S0003-2670(01)95359-0.
- Everitt, Brian S.; Landau, Sabine; Leese, Morven; and Stahl, Daniel (2011) «Miscellaneous Clustering Methods», in Cluster Analysis, 5th Edition, John Wiley & Sons, Ltd., Chichester, UK
- Nigsch, Florian; Bender, Andreas; van Buuren, Bernd; Tissen, Jos; Nigsch, Eduard; Mitchell, John B. O. (2006). Melting point prediction employing k-nearest neighbor algorithms and genetic parameter optimization. Journal of Chemical Information and Modeling. 46 (6): 2412—2422. doi:10.1021/ci060149f. PMID 17125183.
- Hall, Peter; Park, Byeong U.; Samworth, Richard J. (2008). Choice of neighbor order in nearest-neighbor classification. . 36 (5): 2135—2152. arXiv:0810.5276. Bibcode:2008arXiv0810.5276H. doi:10.1214/07-AOS537.
- Stone, Charles J. (1977). Consistent nonparametric regression. . 5 (4): 595—620. doi:10.1214/aos/1176343886.
- Samworth, Richard J. (2012). Optimal weighted nearest neighbour classifiers. . 40 (5): 2733—2763. arXiv:1101.5783. doi:10.1214/12-AOS1049.
- Ramaswamy, Sridhar; Rastogi, Rajeev; Shim, Kyuseok (2000). Efficient algorithms for mining outliers from large data sets. Proceedings of the 2000 ACM SIGMOD international conference on Management of data – SIGMOD '00. с. 427. doi:10.1145/342009.335437. ISBN .
- Campos, Guilherme O.; Zimek, Arthur; Sander, Jörg; Campello, Ricardo J. G. B.; Micenková, Barbora; Schubert, Erich; Assent, Ira; Houle, Michael E. (2016). On the evaluation of unsupervised outlier detection: measures, datasets, and an empirical study. Data Mining and Knowledge Discovery. 30 (4): 891—927. doi:10.1007/s10618-015-0444-8. ISSN 1384-5810.
Джерела
- Глосарій термінів з хімії / уклад. Й. Опейда, О. Швайка ; Ін-т фізико-органічної хімії та вуглехімії ім. Л. М. Литвиненка НАН України, Донецький національний університет. — Дон. : Вебер, 2008. — 738 с. — .
- Лекція з методу k-найближчих сусідів
Це незавершена стаття зі статистики. Ви можете проєкту, виправивши або дописавши її. |
Це незавершена стаття про структури даних. Ви можете проєкту, виправивши або дописавши її. |
Вікіпедія, Українська, Україна, книга, книги, бібліотека, стаття, читати, завантажити, безкоштовно, безкоштовно завантажити, mp3, відео, mp4, 3gp, jpg, jpeg, gif, png, малюнок, музика, пісня, фільм, книга, гра, ігри, мобільний, телефон, android, ios, apple, мобільний телефон, samsung, iphone, xiomi, xiaomi, redmi, honor, oppo, nokia, sonya, mi, ПК, web, Інтернет
Me tod k najbli zhchih susi div angl k nearest neighbor method ce en metod kerovanogo navchannya vpershe rozroblenij en ta en u 1951 roci a piznishe rozvinutij Tomasom Koverom Metod vikoristovuyetsya yak dlya klasifikaciyi tak i dlya regresiyi V oboh vipadkah vhidni dani skladayutsya z k najblizhchih navchalnih prikladiv u nabori danih Rezultat zalezhit vid togo dlya chogo vikoristovuyetsya k NS dlya klasifikaciyi chi regresiyi Pri klasifikaciyi k NS rezultatom ye nalezhnist klasu Ob yekt klasifikuyetsya za dopomogoyu mnozhini golosiv jogo susidiv pri comu ob yekt nalezhit do klasu najbilsh poshirenogo sered jogo k najblizhchih susidiv k cile dodatne chislo yak pravilo nevelike Yaksho k 1 to ob yekt prosto pripisuyetsya do klasu cogo yedinogo najblizhchogo susida Pri k NS regresiyi rezultatom ye chislove znachennya vlastivosti ob yekta Ce znachennya ye serednim iz znachen k najblizhchih susidiv k NS ce tip klasifikaciyi de funkciya lokalno lishe aproksimuyetsya a vsi obchislennya vidkladayutsya do ocinki funkciyi Oskilki cej algoritm pokladayetsya na funkciyu vidstani dlya klasifikaciyi to u vipadku koli oznaki predstavlyayut rizni fizichni odinici abo mayut duzhe rizni masshtabi to en navchalnih danih mozhe znachno pidvishiti yih tochnist Yak dlya klasifikaciyi tak i dlya regresiyi korisnim mozhe buti priznachennya vagovih znachen vnesku susidiv shob vnesok u serednye u najblizhchih susidiv buv bilshe nizh u viddalenih Dlya prikladu zagalna shema zvazhuvannya polyagaye v tomu shob nadati kozhnomu susidu vagu 1 d de d vidstan do susida Susidi berutsya z mnozhini ob yektiv dlya yakih vidomij klas u vipadku k NS klasifikaciyi abo znachennya vlastivosti ob yekta u vipadku k NS regresiyi Ce mozhna rozglyadati yak navchalnij nabir dlya algoritmu hocha niyakogo yavnogo kroku navchannya ne potribno vikonuvati Osoblivistyu algoritmu k NS ye te sho vin chutlivij do lokalnoyi strukturi danih Statistichne tloPripustimo u nas ye pari X1 Y1 X2 Y2 Xn Yn displaystyle X 1 Y 1 X 2 Y 2 dots X n Y n yaki prijmayut znachennya v mnozhini Rd 1 2 displaystyle mathbb R d times 1 2 de Y mitka klasu tochki X otzhe X Y r Pr displaystyle X Y r sim P r dlya r 1 2 displaystyle r 1 2 i rozpodiliv jmovirnostej Pr displaystyle P r Dlya zadanoyi normi displaystyle cdot na Rd displaystyle mathbb R d i tochki x Rd displaystyle x in mathbb R d poslidovnist X 1 Y 1 X n Y n displaystyle X 1 Y 1 dots X n Y n bude takim pereuporyadkuvannyam navchalnih danih sho X 1 x X n x displaystyle X 1 x leq dots leq X n x AlgoritmPriklad k NS klasifikaciyi Testovij zrazok zelene kolo povinen buti klasifikovanij yak sinij kvadrat abo yak chervonij trikutnik Yaksho k 3 to klasifikuyetsya yak chervonij trikutnik tomu sho vseredini menshogo kola 2 trikutnika i tilki 1 kvadrat Yaksho k 5 to vin bude klasifikovanij yak sinij kvadrat 3 kvadrata proti 2 oh trikutnikiv vseredini bilshogo kola Navchalnimi prikladami ye vektori bagatovimirnogo oznakiprostoru oznak kozhen maye mitku klasu Faza navchannya algoritmu skladayetsya lishe iz zberezhennya vektoriv oznak i mitok klasiv navchalnih vibirok Na etapi klasifikaciyi k ye viznachenoyu koristuvachem konstantoyu a nemarkovanij vektor zapit abo testova tochka klasifikuyetsya shlyahom priznachennya mitki yaka ye najbilsh poshirenoyu sered k navchalnih vibirok najblizhchih do ciyeyi tochki zapitu Chasto vikoristovuvanoyu metrikoyu vidstani dlya neperervnih zminnih ye evklidova vidstan Dlya diskretnih zminnih napriklad dlya klasifikaciyi tekstu mozhna vikoristovuvati inshij pokaznik napriklad metriku perekrittya abo vidstan Gemminga U konteksti mikromasiviv danih ekspresiyi geniv napriklad k NS vikoristovuvavsya z koeficiyentami korelyaciyi takimi yak Pirson i Spirmen u yakosti metriki Chasto tochnist klasifikaciyi k NS mozhna znachno pidvishiti yaksho navchatisya funkciyi vidstani za dopomogoyu specializovanih algoritmiv takih yak en abo en Osnovna problema pri klasifikaciyi za dopomogoyu golosuvannya bilshosti traplyayetsya koli rozpodil klasiv perekoshenij Tobto prikladi bilsh chastogo klasu yak pravilo dominuyut u peredbachenni novogo prikladu oskilki voni yak pravilo poshireni sered k najblizhchih susidiv cherez yih veliku kilkist Odnim iz sposobiv podolannya ciyeyi problemi ye zvazhuvannya klasifikaciyi beruchi do uvagi vidstan vid kontrolnoyi tochki do kozhnogo z yiyi k najblizhchih susidiv Klas abo znachennya v zadachah regresiyi kozhnoyi z k najblizhchih tochok mnozhitsya na vagu proporcijnu obernenij vidstani vid ciyeyi tochki do kontrolnoyi tochki Inshim sposobom podolannya perekosu ye abstrakciya u predstavlenni danih Napriklad u samoorganizacijnij karti Kohonena SKK kozhen vuzol ye predstavnikom centrom klastera podibnih tochok nezalezhno vid yih shilnosti v vihidnih navchalnih danih Potim k NS mozhna zastosuvati do SKK Vibir parametrivNajkrashij vibir k zalezhit vid danih zagalom bilshi znachennya k zmenshuyut vpliv shumu na klasifikaciyu ale roblyat granici mizh klasami mensh chitkimi Garne znachennya k mozhna vibrati riznimi evristichnimi metodami div optimizaciya giperparametriv Okremij vipadok koli klas prognozu ye klasom najblizhchoyi navchalnoyi vibirki tobto koli k 1 nazivayetsya algoritmom najblizhchogo susida Tochnist algoritmu k NS mozhe buti znachno pogirshena cherez nayavnist shumnih abo nevidpovidnih oznak abo yaksho masshtabi oznak ne vidpovidayut yih vazhlivosti Bagato doslidnickih zusil bulo zoseredzheno na vibori abo masshtabuvanni oznak dlya pokrashennya klasifikaciyi Osoblivo populyarnij pidhid ce vikoristannya evolyucijnih algoritmiv dlya optimizaciyi masshtabuvannya oznak Inshim populyarnim pidhodom ye masshtabuvannya funkcij za dopomogoyu vzayemnoyi informaciyi navchalnih danih iz navchalnimi klasami U zadachah binarnoyi dva klasi klasifikaciyi korisno vibrati k yak neparne chislo oskilki ce dozvolyaye uniknuti situaciyi koli golosi mozhut buti rivnimi cogo mozhna uniknuti yaksho pri rivnij kilkosti golosiv brati do uvagi vidstan do tochok Odnim iz populyarnih sposobiv viboru empirichno optimalnogo k v comu parametri ye metod butstrepingu Klasifikator 1 najblizhchogo susidaNajbilsh intuyitivno zrozumilim klasifikatorom tipu najblizhchogo susida ye toj klasifikator najblizhchogo susida yakij priznachaye tochci x klas svogo najblizhchogo susida v prostori oznak tobto Cn1nn x Y 1 displaystyle C n 1nn x Y 1 Oskilki rozmir navchalnogo naboru danih nablizhayetsya do neskinchennosti klasifikator odnogo najblizhchogo susida garantuye koeficiyent pomilok yakij ne perevishuye podvijnu en minimalno dosyazhnij riven pomilok z urahuvannyam rozpodilu danih Zvazhenij klasifikator najblizhchih susidivKlasifikator k najblizhchih susidiv mozhna rozglyadati yak prisvoyennya k najblizhchim susidam vagi 1 k displaystyle 1 k a vsi inshim 0 vagi Ce mozhna uzagalniti na zvazheni klasifikatori najblizhchih susidiv Tobto de i mu najblizhchomu susidu prisvoyuyetsya vaga wni displaystyle w ni z i 1nwni 1 displaystyle sum i 1 n w ni 1 Analogichnij rezultat shodo silnoyi uzgodzhenosti zvazhenih klasifikatoriv najblizhchih susidiv takozh maye misce Nehaj Cnwnn displaystyle C n wnn poznachaye zvazhenij najblizhchij klasifikator z vagami wni i 1n displaystyle w ni i 1 n Za umovi regulyarnosti shodo rozpodiliv klasiv nadmirnij rizik maye nastupne asimptotichne rozshirennya RR Cnwnn RR CBayes B1sn2 B2tn2 1 o 1 displaystyle mathcal R mathcal R C n wnn mathcal R mathcal R C Bayes left B 1 s n 2 B 2 t n 2 right 1 o 1 dlya konstant B1 displaystyle B 1 i B2 displaystyle B 2 de sn2 i 1nwni2 displaystyle s n 2 sum i 1 n w ni 2 i tn n 2 d i 1nwni i1 2 d i 1 1 2 d displaystyle t n n 2 d sum i 1 n w ni i 1 2 d i 1 1 2 d Optimalna shema zvazhuvannya wni i 1n displaystyle w ni i 1 n sho vrivnovazhuye dva termi naveleni vishe zadayetsya takim chinom k Bn4d 4 displaystyle k lfloor Bn frac 4 d 4 rfloor wni 1k 1 d2 d2k 2 d i1 2 d i 1 1 2 d displaystyle w ni frac 1 k left 1 frac d 2 frac d 2 k 2 d i 1 2 d i 1 1 2 d right dlya i 1 2 k displaystyle i 1 2 dots k i wni 0 displaystyle w ni 0 dlya i k 1 n displaystyle i k 1 dots n Pri optimalnih vagah dominuyuchim chlenom v asimptotichnomu rozkladanni nadlishkovogo riziku ye O n 4d 4 displaystyle mathcal O n frac 4 d 4 Podibni rezultati spravedlivi pri vikoristanni dlya agregaciyi klasifikatora najblizhchogo susida k NS vikidiVidstan do k go najblizhchogo susida takozh mozhna rozglyadati yak ocinku lokalnoyi shilnosti i takim chinom takozh ye populyarnim pokaznikom vikidu pri viyavlenni anomalij Chim bilsha vidstan do k NS chim nizhcha lokalna shilnist i tim bilsha jmovirnist sho tochka zapitu ye vikidom Cya model vikidiv hocha j dosit prosta razom z inshim klasichnim metodom analizu danih faktorom lokalnogo vidhilennya pracyuye dosit dobre v porivnyanni z bilsh suchasnimi ta skladnishimi pidhodami zgidno z shirokomasshtabnim eksperimentalnim analizom Proklyattya rozmirnostiCej klasifikator robit pripushennya sho podibni tochki mayut podibni mitki Na zhal u visokorozmirnisnih prostorah tochki vibrani z rozpodilu jmovirnostej majzhe nikoli ne opinyayutsya blizko odna do odnoyi Div takozhGraf najblizhchih susidivPrimitkiFix Evelyn Hodges Joseph L 1951 PDF Zvit Report Number 4 Project Number 21 49 004 USAF School of Aviation Medicine Randolph Field Texas Arhiv originalu PDF za 26 veresnya 2020 Procitovano 23 kvitnya 2022 1992 The American Statistician 46 3 175 185 doi 10 1080 00031305 1992 10475879 Arhiv originalu PDF za 11 serpnya 2020 Procitovano 23 kvitnya 2022 a href wiki D0 A8 D0 B0 D0 B1 D0 BB D0 BE D0 BD Cite journal title Shablon Cite journal cite journal a hdl access vimagaye hdl dovidka Piryonesi S Madeh El Diraby Tamer E 1 chervnya 2020 Role of Data Analytics in Infrastructure Asset Management Overcoming Data Size and Quality Problems Journal of Transportation Engineering Part B Pavements 146 2 04020022 doi 10 1061 JPEODX 0000175 Hastie Trevor 2001 The elements of statistical learning data mining inference and prediction with 200 full color illustrations New York Springer ISBN 0 387 95284 5 OCLC 46809224 Cya shema ye uzagalnennyam linijnoyi interpolyaciyi Jaskowiak Pablo A Campello Ricardo J G B Comparing Correlation Coefficients as Dissimilarity Measures for Cancer Classification in Gene Expression Data Brazilian Symposium on Bioinformatics BSB 2011 1 8 CiteSeerX 10 1 1 208 993 Coomans Danny Massart Desire L 1982 Alternative k nearest neighbour rules in supervised pattern recognition Part 1 k Nearest neighbour classification by using alternative voting rules Analytica Chimica Acta 136 15 27 doi 10 1016 S0003 2670 01 95359 0 Everitt Brian S Landau Sabine Leese Morven and Stahl Daniel 2011 Miscellaneous Clustering Methods in Cluster Analysis 5th Edition John Wiley amp Sons Ltd Chichester UK Nigsch Florian Bender Andreas van Buuren Bernd Tissen Jos Nigsch Eduard Mitchell John B O 2006 Melting point prediction employing k nearest neighbor algorithms and genetic parameter optimization Journal of Chemical Information and Modeling 46 6 2412 2422 doi 10 1021 ci060149f PMID 17125183 Hall Peter Park Byeong U Samworth Richard J 2008 Choice of neighbor order in nearest neighbor classification 36 5 2135 2152 arXiv 0810 5276 Bibcode 2008arXiv0810 5276H doi 10 1214 07 AOS537 Stone Charles J 1977 Consistent nonparametric regression 5 4 595 620 doi 10 1214 aos 1176343886 Samworth Richard J 2012 Optimal weighted nearest neighbour classifiers 40 5 2733 2763 arXiv 1101 5783 doi 10 1214 12 AOS1049 Ramaswamy Sridhar Rastogi Rajeev Shim Kyuseok 2000 Efficient algorithms for mining outliers from large data sets Proceedings of the 2000 ACM SIGMOD international conference on Management of data SIGMOD 00 s 427 doi 10 1145 342009 335437 ISBN 1 58113 217 4 Campos Guilherme O Zimek Arthur Sander Jorg Campello Ricardo J G B Micenkova Barbora Schubert Erich Assent Ira Houle Michael E 2016 On the evaluation of unsupervised outlier detection measures datasets and an empirical study Data Mining and Knowledge Discovery 30 4 891 927 doi 10 1007 s10618 015 0444 8 ISSN 1384 5810 DzherelaGlosarij terminiv z himiyi uklad J Opejda O Shvajka In t fiziko organichnoyi himiyi ta vuglehimiyi im L M Litvinenka NAN Ukrayini Doneckij nacionalnij universitet Don Veber 2008 738 s ISBN 978 966 335 206 0 Lekciya z metodu k najblizhchih susidiv Ce nezavershena stattya zi statistiki Vi mozhete dopomogti proyektu vipravivshi abo dopisavshi yiyi Ce nezavershena stattya pro strukturi danih Vi mozhete dopomogti proyektu vipravivshi abo dopisavshi yiyi