Кластериза́ція ме́тодом k-сере́дніх (англ. k-means clustering) — популярний метод кластеризації, — впорядкування множини об'єктів у порівняно однорідні групи. Винайдений в 1950-х роках математиком Гуґо Штайнгаузом і майже одночасно Стюартом Ллойдом. Особливу популярність отримав після виходу роботи МакКвіна (1967).
Мета методу — розділити n спостережень на k кластерів, так щоб кожне спостереження належало до кластера з найближчим до нього середнім значенням. Метод базується на мінімізації суми квадратів відстаней між кожним спостереженням та центром його кластера, тобто функції
- ,
де d — метрика, — і-ий об'єкт даних, а — центр кластера, якому на j-ій ітерації приписаний елемент .
Історія
Термін «k-середні» уперше вжив Джеймс МакКвін (англ. James MacQueen) у 1967 році, хоча ідею методу вперше озвучив Гуґо Штайнгауз (англ. Hugo Steinhaus) у 1957 році. Стандартний алгоритм вперше запропонував Стюарт Лойд (англ. Stuart Lloyd) у 1957 р.
Алгоритм
Опис алгоритму
Маємо масив спостережень (об'єктів), кожен з яких має певні значення за рядом ознак. Відповідно до цих значень об'єкт розташовується у багатовимірному просторі.
- Дослідник визначає кількість кластерів, що необхідно утворити
- Випадковим чином обирається k спостережень, які на цьому кроці вважаються центрами кластерів
- Кожне спостереження «приписується» до одного з n кластерів — того, відстань до якого найкоротша
- Розраховується новий центр кожного кластера як елемент, ознаки якого розраховуються як середнє арифметичне ознак об'єктів, що входять у цей кластер
- Відбувається така кількість ітерацій (повторюються кроки 3-4), поки кластерні центри стануть стійкими (тобто при кожній ітерації в кожен кластер потрапляють одні й ті самі об'єкти), дисперсія всередині кластера буде мінімізована, а між кластерами — максимізована
Вибір кількості кластерів робиться на основі дослідницької гіпотези. Якщо її немає, то рекомендують спочатку створити 2 кластери, далі 3, 4, 5, порівнюючи отримані результати.
- 1. k початкових «середніх» (тут k=3) випадково згенеровані у межах домени даних (кольорові).
- 2. створено k кластерів, асоціюючи кожне спостереження з найближчим середнім. Розбиття відбувається згідно з діаграмою Вороного утвореною середніми.
- 3. Центроїд кожного з k кластерів стає новим середнім.
- 4. Кроки 2 і 3 повторюються до досягнення збіжності.
Принцип дії
Принцип алгоритму полягає в пошуку таких центрів кластерів та наборів елементів кожного кластера при наявності деякої функції Ф(°), що виражає якість поточного розбиття множини на k кластерів, коли сумарне квадратичне відхилення елементів кластерів від центрів цих кластерів буде найменшим:
де — число кластерів, — отримані кластери, , — центри мас векторів .
У початковий момент роботи алгоритму довільним чином обираються центри кластерів, далі для кожного елемента множини ітеративно обраховується відстань від центрів з приєднанням кожного елемента до кластера з найближчим центром. Для кожного з отриманих кластерів обчислюються нові значення центрів, намагаючись при цьому мінімізувати функцію Ф(°), після чого повторюється процедура перерозподілу елементів між кластерами.
Алгоритм методу «Кластеризація за схемою к-середніх»:
- вибрати k інформаційних точок як центри кластерів поки не завершиться процес зміни центрів кластерів;
- зіставити кожну інформаційну точку з кластером, відстань до центра якого мінімальна;
- переконатися, що в кожному кластері міститься хоча б одна точка. Для цього кожний порожній кластер потрібно доповнити довільною точкою, що розташована «далеко» від центра кластера;
- центр кожного кластера замінити середнім від елементів кластера;
- кінець.
Переваги
Головні переваги методу k-середніх — його простота та швидкість виконання. Метод k-середніх більш зручний для кластеризації великої кількості спостережень, ніж метод ієрархічного кластерного аналізу (у якому дендограми стають перевантаженими і втрачають наочність).
Недоліки
Одним із недоліків простого методу є порушення умови зв'язності елементів одного кластера, тому розвиваються різні модифікації методу, а також його нечіткі аналоги (англ. fuzzy k-means methods), у яких на першій стадії алгоритму допускається приналежність одного елемента множини до декількох кластерів (із різним ступенем приналежності).
Попри очевидні переваги методу, він має суттєві недоліки:
- Результат класифікації сильно залежить від початкових позицій кластерних центрів
- Алгоритм чутливий до викидів, які можуть викривлювати середнє
- Кількість кластерів має бути заздалегідь визначена дослідником
Застосування
Метод k-середніх є доволі простим і прозорим, тому успішно застосовується в різноманітних галузях — маркетингових сегментаціях, геостатистиці, астрономії, сільському господарстві тощо[].
Див. також
У Вікіпедії є проєкт |
Примітки
- Steinhaus, Hugo. (1957). Sur la division des corps matériels en parties (in French). Bull. Acad. Polon. Sci. 4 (12): 801—804.
- Lloyd., S. P. (1957). Least square quantization in PCM". Bell Telephone Laboratories Paper.
- J. MacQueen (1967). Some methods for classification and analysis of multivariate observations. Proceedings of 5th Berkeley Symposium on Mathematical Statistics and Probability. University of California Press: 281—297. Процитовано 16 квітня 2019.
Посилання
- Clustering [ 15 Травня 2015 у Wayback Machine.]
- Чисельний приклад кластеризаці методом к-середніх [ 9 Серпня 2018 у Wayback Machine.]
- Image Segmentation (k-clusters method) [ 14 Вересня 2008 у Wayback Machine.]
- Александр Вежневец, Ольга Баринова (2006). . Компьютерная графика и мультимедиа (№4(14)).
В іншому мовному розділі є повніша стаття K-means clustering(англ.). Ви можете допомогти, розширивши поточну статтю за допомогою з англійської.
|
Це незавершена стаття з математики. Ви можете проєкту, виправивши або дописавши її. |
Вікіпедія, Українська, Україна, книга, книги, бібліотека, стаття, читати, завантажити, безкоштовно, безкоштовно завантажити, mp3, відео, mp4, 3gp, jpg, jpeg, gif, png, малюнок, музика, пісня, фільм, книга, гра, ігри, мобільний, телефон, android, ios, apple, мобільний телефон, samsung, iphone, xiomi, xiaomi, redmi, honor, oppo, nokia, sonya, mi, ПК, web, Інтернет
Klasteriza ciya me todom k sere dnih angl k means clustering populyarnij metod klasterizaciyi vporyadkuvannya mnozhini ob yektiv u porivnyano odnoridni grupi Vinajdenij v 1950 h rokah matematikom Gugo Shtajngauzom i majzhe odnochasno Styuartom Llojdom Osoblivu populyarnist otrimav pislya vihodu roboti MakKvina 1967 Meta metodu rozdiliti n sposterezhen na k klasteriv tak shob kozhne sposterezhennya nalezhalo do klastera z najblizhchim do nogo serednim znachennyam Metod bazuyetsya na minimizaciyi sumi kvadrativ vidstanej mizh kozhnim sposterezhennyam ta centrom jogo klastera tobto funkciyi i 1 N d x i m j x i 2 displaystyle sum i 1 N d x i m j x i 2 dd de d metrika x i displaystyle x i i ij ob yekt danih a m j x i displaystyle m j x i centr klastera yakomu na j ij iteraciyi pripisanij element x i displaystyle x i IstoriyaTermin k seredni upershe vzhiv Dzhejms MakKvin angl James MacQueen u 1967 roci hocha ideyu metodu vpershe ozvuchiv Gugo Shtajngauz angl Hugo Steinhaus u 1957 roci Standartnij algoritm vpershe zaproponuvav Styuart Lojd angl Stuart Lloyd u 1957 r AlgoritmOpis algoritmu Mayemo masiv sposterezhen ob yektiv kozhen z yakih maye pevni znachennya za ryadom oznak Vidpovidno do cih znachen ob yekt roztashovuyetsya u bagatovimirnomu prostori Doslidnik viznachaye kilkist klasteriv sho neobhidno utvoriti Vipadkovim chinom obirayetsya k sposterezhen yaki na comu kroci vvazhayutsya centrami klasteriv Kozhne sposterezhennya pripisuyetsya do odnogo z n klasteriv togo vidstan do yakogo najkorotsha Rozrahovuyetsya novij centr kozhnogo klastera yak element oznaki yakogo rozrahovuyutsya yak serednye arifmetichne oznak ob yektiv sho vhodyat u cej klaster Vidbuvayetsya taka kilkist iteracij povtoryuyutsya kroki 3 4 poki klasterni centri stanut stijkimi tobto pri kozhnij iteraciyi v kozhen klaster potraplyayut odni j ti sami ob yekti dispersiya vseredini klastera bude minimizovana a mizh klasterami maksimizovana Vibir kilkosti klasteriv robitsya na osnovi doslidnickoyi gipotezi Yaksho yiyi nemaye to rekomenduyut spochatku stvoriti 2 klasteri dali 3 4 5 porivnyuyuchi otrimani rezultati Demonstraciya algoritmu 1 k pochatkovih serednih tut k 3 vipadkovo zgenerovani u mezhah domeni danih kolorovi 2 stvoreno k klasteriv asociyuyuchi kozhne sposterezhennya z najblizhchim serednim Rozbittya vidbuvayetsya zgidno z diagramoyu Voronogo utvorenoyu serednimi 3 Centroyid kozhnogo z k klasteriv staye novim serednim 4 Kroki 2 i 3 povtoryuyutsya do dosyagnennya zbizhnosti Princip diyi Princip algoritmu polyagaye v poshuku takih centriv klasteriv ta naboriv elementiv kozhnogo klastera pri nayavnosti deyakoyi funkciyi F sho virazhaye yakist potochnogo rozbittya mnozhini na k klasteriv koli sumarne kvadratichne vidhilennya elementiv klasteriv vid centriv cih klasteriv bude najmenshim V i 1 k x j S i x j m i 2 displaystyle V sum i 1 k sum x j in S i x j mu i 2 dd de k displaystyle k chislo klasteriv S i displaystyle S i otrimani klasteri i 1 2 k displaystyle i 1 2 dots k m i displaystyle mu i centri mas vektoriv x j S i displaystyle x j in S i U pochatkovij moment roboti algoritmu dovilnim chinom obirayutsya centri klasteriv dali dlya kozhnogo elementa mnozhini iterativno obrahovuyetsya vidstan vid centriv z priyednannyam kozhnogo elementa do klastera z najblizhchim centrom Dlya kozhnogo z otrimanih klasteriv obchislyuyutsya novi znachennya centriv namagayuchis pri comu minimizuvati funkciyu F pislya chogo povtoryuyetsya procedura pererozpodilu elementiv mizh klasterami Algoritm metodu Klasterizaciya za shemoyu k serednih vibrati k informacijnih tochok yak centri klasteriv poki ne zavershitsya proces zmini centriv klasteriv zistaviti kozhnu informacijnu tochku z klasterom vidstan do centra yakogo minimalna perekonatisya sho v kozhnomu klasteri mistitsya hocha b odna tochka Dlya cogo kozhnij porozhnij klaster potribno dopovniti dovilnoyu tochkoyu sho roztashovana daleko vid centra klastera centr kozhnogo klastera zaminiti serednim vid elementiv klastera kinec PerevagiGolovni perevagi metodu k serednih jogo prostota ta shvidkist vikonannya Metod k serednih bilsh zruchnij dlya klasterizaciyi velikoyi kilkosti sposterezhen nizh metod iyerarhichnogo klasternogo analizu u yakomu dendogrami stayut perevantazhenimi i vtrachayut naochnist NedolikiOdnim iz nedolikiv prostogo metodu ye porushennya umovi zv yaznosti elementiv odnogo klastera tomu rozvivayutsya rizni modifikaciyi metodu a takozh jogo nechitki analogi angl fuzzy k means methods u yakih na pershij stadiyi algoritmu dopuskayetsya prinalezhnist odnogo elementa mnozhini do dekilkoh klasteriv iz riznim stupenem prinalezhnosti Popri ochevidni perevagi metodu vin maye suttyevi nedoliki Rezultat klasifikaciyi silno zalezhit vid pochatkovih pozicij klasternih centriv Algoritm chutlivij do vikidiv yaki mozhut vikrivlyuvati serednye Kilkist klasteriv maye buti zazdalegid viznachena doslidnikomZastosuvannyaMetod k serednih ye dovoli prostim i prozorim tomu uspishno zastosovuyetsya v riznomanitnih galuzyah marketingovih segmentaciyah geostatistici astronomiyi silskomu gospodarstvi tosho dzherelo Div takozhU Vikipediyi ye proyekt Matematika Modelyuvannya Segmentaciya zobrazhennya Algoritm Llojda Spektralna klasterizaciyaPrimitkiSteinhaus Hugo 1957 Sur la division des corps materiels en parties in French Bull Acad Polon Sci 4 12 801 804 Lloyd S P 1957 Least square quantization in PCM Bell Telephone Laboratories Paper J MacQueen 1967 Some methods for classification and analysis of multivariate observations Proceedings of 5th Berkeley Symposium on Mathematical Statistics and Probability University of California Press 281 297 Procitovano 16 kvitnya 2019 PosilannyaClustering 15 Travnya 2015 u Wayback Machine Chiselnij priklad klasterizaci metodom k serednih 9 Serpnya 2018 u Wayback Machine Image Segmentation k clusters method 14 Veresnya 2008 u Wayback Machine Aleksandr Vezhnevec Olga Barinova 2006 Kompyuternaya grafika i multimedia 4 14 V inshomu movnomu rozdili ye povnisha stattya K means clustering angl Vi mozhete dopomogti rozshirivshi potochnu stattyu za dopomogoyu perekladu z anglijskoyi Divitis avtoperekladenu versiyu statti z movi anglijska Perekladach povinen rozumiti sho vidpovidalnist za kincevij vmist statti u Vikipediyi nese same avtor redaguvan Onlajn pereklad nadayetsya lishe yak korisnij instrument pereglyadu vmistu zrozumiloyu movoyu Ne vikoristovujte nevichitanij i nevidkorigovanij mashinnij pereklad u stattyah ukrayinskoyi Vikipediyi Mashinnij pereklad Google ye korisnoyu vidpravnoyu tochkoyu dlya perekladu ale perekladacham neobhidno vipravlyati pomilki ta pidtverdzhuvati tochnist perekladu a ne prosto skopiyuvati mashinnij pereklad do ukrayinskoyi Vikipediyi Ne perekladajte tekst yakij vidayetsya nedostovirnim abo neyakisnim Yaksho mozhlivo perevirte tekst za posilannyami podanimi v inshomovnij statti Dokladni rekomendaciyi div Vikipediya Pereklad Ce nezavershena stattya z matematiki Vi mozhete dopomogti proyektu vipravivshi abo dopisavshi yiyi