Кластеризація багатовимірних даних — це кластерний аналіз даних будь-якого розміру, починаючи з десятків і закінчуючи декількома тисячами вимірів. Такі багатовимірні дані часто зустрічаються в таких областях, як медицина, де ДНК-мікрочипи можуть виробляти велику кількість обчислень одночасно, та у кластеризації текстових документів, коли використовується вектор частотності слова, число розмірностей дорівнює розміру словника.
Задачі
Для того, щоб виконати кластеризацію багатовимірних даних необхідно подолати чотири перешкоди:
- Важко розміркувати у багатьох вимірах, неможливо виконати візуалізацію, і, зважаючи на експоненціальне зростання числа можливих значень з кожним виміром, повне перерахування всіх підпросторів стає нерозв'язним зі збільшенням розмірності. Ця проблема відома як прокляття розмірності.
- Поняття відстані стає менш точним при зростанні кількості вимірів, оскільки відстань між будь-якими двома точками в даному наборі даних збігається. Зокрема, розрізнення найближчої і найдальшої точки стає безглуздим:
- Кластер призначений для групування об'єктів, які пов'язані, на основі спостережень за значеннями їх атрибутів. Однак, враховуючи велику кількість атрибутів, деякі атрибути зазвичай не мають значення для даного кластера. Наприклад, у [en] кластер зразків може ідентифікувати новонароджених, які мають подібні кров'яні значення, що може призвести до розуміння відповідності між цими значеннями та захворюваннями. Але для різних захворювань різні показники крові можуть утворити кластер, а інші значення можуть бути некорельованими. Це відома проблема локальної відповідності характеристик: різні кластери можуть бути знайдені в різних підпросторах, тому глобальна фільтрація атрибутів не є достатньою.
- Враховуючи велику кількість атрибутів, цілком імовірно, що деякі атрибути корелюють. Отже, кластери можуть існувати в довільно орієнтованих афінних підпросторах.
Недавні дослідження показують, що проблеми розрізнення виникають лише тоді, коли існує велика кількість нерелевантних вимірів, і що підходи, які використовують метод спільного ближнього сусіда, можуть покращити результати.
Підходи
Підходи до кластеризації в довільно орієнтованих афінних підпросторах або в таких, що мають паралельні осі, відрізняються тим, як вони інтерпретують загальну мету — знаходити кластери в даних з високою розмірністю. Зовсім інший підхід полягає в тому, щоб знайти кластери, засновані на шаблоні в матриці даних, що називають [en] — техніка, яка часто використовується в біоінформатиці.
Кластеризація підпросторів
Сусіднє зображення показує простий двовимірний простір, де можна виділити декілька кластерів. У одновимірних підпросторах, можна побачити кластери (у підпросторі ) і , , (у підпросторі ). не можна розцінювати як кластер у двовимірному (під-)просторі, оскільки він занадто розкиданий по осі. У двох вимірах можна ідентифікувати два кластери та .
Проблема кластеризації підпросторів з'являється через те, що існує різних підпросторів простору виміру . Якщо підпростори не з паралельні осям координат, тоді можливе існування нескінченної кількості підпросторів. Отже, алгоритми кластеризації підпросторів використовують певний евристичний метод, щоб залишатися обчислювально здійсненним, проте з ризиком виникнення хибних результатів. Наприклад, властивість спадного змикання (англ. downward-closure, див. навчання асоціативних правил) може бути використано для побудови підпросторів більшої кількості розмірностей шляхом об'єднання підпросторів менших розмірностей, оскільки будь-який підпростір T, що містить кластер, призведе до того, що повний простір S також буде містити кластер (тобто, S ⊆ T), підхід, який використовується у більшості традиційних алгоритмів, таких як CLIQUE, [en]. Також можливо визначити підпростір, що використовує різні ступені актуальності для кожної розмірності, підхід, який використовується iMWK-засобами, EBK-режимами та CBK-режимами.
Проектована кластеризація
Проектована кластеризація прагне призначити кожну точку унікальному кластеру, але кластери можуть існувати в різних підпросторах. Загальний підхід полягає у використанні спеціальної функції відстані разом з регулярним алгоритмом кластеризації.
Наприклад, алгоритм PreDeCon перевіряє, які атрибути підтримують кластеризацію для кожної точки, і регулює функцію відстані таким чином, що розміри з низькою дисперсією посилюються в функції відстані. На малюнку вище, кластер може бути знайдений за допомогою DBSCAN з функцією довжини, яка ставить менший акцент на осі і таким чином перебільшує низьку різницю в осі достатньо для того, щоб згрупувати точки в кластер.
PROCLUS використовує аналогічний підхід з кластеризацією [en]. Початкові медоїди вгадуються, і для кожного медоїда визначається підпростір, натягнутий атрибутами з низьким відхиленням. Бали призначаються найбільш близькому медоїду, враховуючи тільки підпростір цього медоїда при визначенні відстані. Алгоритм потім проходить як звичайний алгоритм [en].
Якщо функція відстані оцінює атрибути по-різному, але ніколи як 0 (і, отже, ніколи не відкидає нерелевантні атрибути), алгоритм називається «м'яко»-зпрогнозованим алгоритмом кластеризації.
Гібридні підходи
Не всі алгоритми намагаються або знайти унікальне кластерне призначення для кожної точки або всі кластери у всіх підпросторах; багато хто погоджується на результат між ними, де знаходяться ряд можливих перекриттів, але не обов'язково вичерпний набір кластерів. Прикладом є FIRES, який з його основного підходу є алгоритмом кластеризації підпросторів, але використовує евристику занадто агресивно, щоб достовірно виробляти всі підпросторові кластери. Інший гібридний підхід полягає у включенні «людини-в-алгоритмічний-цикл»: досвід людини в галузі може допомогти зменшити експоненційний простір пошуку через евристичний відбір зразків. Це може бути корисним у сфері охорони здоров'я, де, наприклад, лікарі стикаються з великомасштабними описами стану пацієнта і вимірюваннями щодо успішності деяких терапій. Важливим питанням у таких даних є порівняння та кореляція стану пацієнта та результатів терапії, а також комбінацій вимірів. Кількість розмірів часто дуже велика, отже, їх необхідно зіставити з меншою кількістю відповідних вимірів, щоб бути більш схильними до експертного аналізу. Це пояснюється тим, що нерелевантні, надлишкові та суперечливі виміри можуть негативно вплинути на ефективність та точність всього аналітичного процесу.
Кореляційна кластеризація
Інший тип підпросторів розглядається в [en].
Програмне забезпечення
- [en] включає різні алгоритми кластеризації підпросторів та кореляції.
Посилання
- ; Kröger, P.; Zimek, A. (2009). Clustering high-dimensional data. ACM Transactions on Knowledge Discovery from Data. 3: 1—58. doi:10.1145/1497577.1497578.
- Houle, M. E.; ; Kröger, P.; Schubert, E.; Zimek, A. (2010). (PDF). Scientific and Statistical Database Management. Lecture Notes in Computer Science. Т. 6187. с. 482. doi:10.1007/978-3-642-13818-8_34. ISBN . Архів оригіналу (PDF) за 23 Грудня 2018. Процитовано 17 Квітня 2019.
- Agrawal, R.; Gehrke, J.; Gunopulos, D.; Raghavan, P. (2005). Automatic Subspace Clustering of High Dimensional Data. Data Mining and Knowledge Discovery. 11: 5—33. doi:10.1007/s10618-005-1396-1.
{{}}
: Cite має пустий невідомий параметр:|1=
() - Kailing, K.; ; Kröger, P. (2004). Density-Connected Subspace Clustering for High-Dimensional Data. Proceedings of the 2004 SIAM International Conference on Data Mining. с. 246. doi:10.1137/1.9781611972740.23. ISBN .
- De Amorim, R.C.; Mirkin, B. (2012). Minkowski metric, feature weighting and anomalous cluster initializing in K-Means clustering. Pattern Recognition. 45 (3): 1061. doi:10.1016/j.patcog.2011.08.012.
- Carbonera, Joel Luis; Abel, Mara (November 2014). An Entropy-Based Subspace Clustering Algorithm for Categorical Data. IEEE. doi:10.1109/ictai.2014.48. ISBN .
{{}}
: Проігноровано|journal=
() - Carbonera, Joel Luis; Abel, Mara (2015). CBK-Modes: A Correlation-based Algorithm for Categorical Data Clustering. SCITEPRESS - Science and Technology Publications. doi:10.5220/0005367106030608. ISBN .
{{}}
: Проігноровано|journal=
() - Böhm, C.; Kailing, K.; ; Kröger, P. (2004). Density Connected Clustering with Local Subspace Preferences. Fourth IEEE International Conference on Data Mining (ICDM'04). с. 27. doi:10.1109/ICDM.2004.10087. ISBN .
- Aggarwal, C. C.; Wolf, J. L.; Yu, P. S.; Procopiuc, C.; Park, J. S. (1999). Fast algorithms for projected clustering. ACM SIGMOD Record. 28 (2): 61. doi:10.1145/304181.304188.
{{}}
: Cite має пустий невідомий параметр:|1=
() - ; Kröger, P.; Renz, M.; Wurst, S. (2005). A Generic Framework for Efficient Subspace Clustering of High-Dimensional Data. Fifth IEEE International Conference on Data Mining (ICDM'05). с. 250. doi:10.1109/ICDM.2005.5. ISBN .
- Hund, M.; Böhm, D.; Sturm, W.; Sedlmair, M.; Schreck, T.; Keim, D.A.; Majnaric, L.; Holzinger, A. (2016). Visual analytics for concept exploration in subspaces of patient groups: Making sense of complex datasets with the Doctor-in-the-loop. Brain Informatics. 3 (4): 233—247. doi:10.1007/s40708-016-0043-5. PMC 5106406. PMID 27747817.
Вікіпедія, Українська, Україна, книга, книги, бібліотека, стаття, читати, завантажити, безкоштовно, безкоштовно завантажити, mp3, відео, mp4, 3gp, jpg, jpeg, gif, png, малюнок, музика, пісня, фільм, книга, гра, ігри, мобільний, телефон, android, ios, apple, мобільний телефон, samsung, iphone, xiomi, xiaomi, redmi, honor, oppo, nokia, sonya, mi, ПК, web, Інтернет
Klasterizaciya bagatovimirnih danih ce klasternij analiz danih bud yakogo rozmiru pochinayuchi z desyatkiv i zakinchuyuchi dekilkoma tisyachami vimiriv Taki bagatovimirni dani chasto zustrichayutsya v takih oblastyah yak medicina de DNK mikrochipi mozhut viroblyati veliku kilkist obchislen odnochasno ta u klasterizaciyi tekstovih dokumentiv koli vikoristovuyetsya vektor chastotnosti slova chislo rozmirnostej dorivnyuye rozmiru slovnika ZadachiDlya togo shob vikonati klasterizaciyu bagatovimirnih danih neobhidno podolati chotiri pereshkodi Vazhko rozmirkuvati u bagatoh vimirah nemozhlivo vikonati vizualizaciyu i zvazhayuchi na eksponencialne zrostannya chisla mozhlivih znachen z kozhnim vimirom povne pererahuvannya vsih pidprostoriv staye nerozv yaznim zi zbilshennyam rozmirnosti Cya problema vidoma yak proklyattya rozmirnosti Ponyattya vidstani staye mensh tochnim pri zrostanni kilkosti vimiriv oskilki vidstan mizh bud yakimi dvoma tochkami v danomu nabori danih zbigayetsya Zokrema rozriznennya najblizhchoyi i najdalshoyi tochki staye bezgluzdim lim d d i s t max d i s t min d i s t min 0 displaystyle lim d to infty frac dist max dist min dist min 0 Klaster priznachenij dlya grupuvannya ob yektiv yaki pov yazani na osnovi sposterezhen za znachennyami yih atributiv Odnak vrahovuyuchi veliku kilkist atributiv deyaki atributi zazvichaj ne mayut znachennya dlya danogo klastera Napriklad u en klaster zrazkiv mozhe identifikuvati novonarodzhenih yaki mayut podibni krov yani znachennya sho mozhe prizvesti do rozuminnya vidpovidnosti mizh cimi znachennyami ta zahvoryuvannyami Ale dlya riznih zahvoryuvan rizni pokazniki krovi mozhut utvoriti klaster a inshi znachennya mozhut buti nekorelovanimi Ce vidoma problema lokalnoyi vidpovidnosti harakteristik rizni klasteri mozhut buti znajdeni v riznih pidprostorah tomu globalna filtraciya atributiv ne ye dostatnoyu Vrahovuyuchi veliku kilkist atributiv cilkom imovirno sho deyaki atributi korelyuyut Otzhe klasteri mozhut isnuvati v dovilno oriyentovanih afinnih pidprostorah Nedavni doslidzhennya pokazuyut sho problemi rozriznennya vinikayut lishe todi koli isnuye velika kilkist nerelevantnih vimiriv i sho pidhodi yaki vikoristovuyut metod spilnogo blizhnogo susida mozhut pokrashiti rezultati PidhodiPidhodi do klasterizaciyi v dovilno oriyentovanih afinnih pidprostorah abo v takih sho mayut paralelni osi vidriznyayutsya tim yak voni interpretuyut zagalnu metu znahoditi klasteri v danih z visokoyu rozmirnistyu Zovsim inshij pidhid polyagaye v tomu shob znajti klasteri zasnovani na shabloni v matrici danih sho nazivayut en tehnika yaka chasto vikoristovuyetsya v bioinformatici Klasterizaciya pidprostoriv Priklad 2D prostoru z pidprostorovimi klasterami Susidnye zobrazhennya pokazuye prostij dvovimirnij prostir de mozhna vidiliti dekilka klasteriv U odnovimirnih pidprostorah mozhna pobachiti klasteri c a displaystyle c a u pidprostori x displaystyle x i c b displaystyle c b c c displaystyle c c c d displaystyle c d u pidprostori y displaystyle y c c displaystyle c c ne mozhna rozcinyuvati yak klaster u dvovimirnomu pid prostori oskilki vin zanadto rozkidanij po osix displaystyle x U dvoh vimirah mozhna identifikuvati dva klasteri c a b displaystyle c ab ta c a d displaystyle c ad Problema klasterizaciyi pidprostoriv z yavlyayetsya cherez te sho isnuye 2 d displaystyle 2 d riznih pidprostoriv prostoru vimiru d displaystyle d Yaksho pidprostori ne z paralelni osyam koordinat todi mozhlive isnuvannya neskinchennoyi kilkosti pidprostoriv Otzhe algoritmi klasterizaciyi pidprostoriv vikoristovuyut pevnij evristichnij metod shob zalishatisya obchislyuvalno zdijsnennim prote z rizikom viniknennya hibnih rezultativ Napriklad vlastivist spadnogo zmikannya angl downward closure div navchannya asociativnih pravil mozhe buti vikoristano dlya pobudovi pidprostoriv bilshoyi kilkosti rozmirnostej shlyahom ob yednannya pidprostoriv menshih rozmirnostej oskilki bud yakij pidprostir T sho mistit klaster prizvede do togo sho povnij prostir S takozh bude mistiti klaster tobto S T pidhid yakij vikoristovuyetsya u bilshosti tradicijnih algoritmiv takih yak CLIQUE en Takozh mozhlivo viznachiti pidprostir sho vikoristovuye rizni stupeni aktualnosti dlya kozhnoyi rozmirnosti pidhid yakij vikoristovuyetsya iMWK zasobami EBK rezhimami ta CBK rezhimami Proektovana klasterizaciya Proektovana klasterizaciya pragne priznachiti kozhnu tochku unikalnomu klasteru ale klasteri mozhut isnuvati v riznih pidprostorah Zagalnij pidhid polyagaye u vikoristanni specialnoyi funkciyi vidstani razom z regulyarnim algoritmom klasterizaciyi Napriklad algoritm PreDeCon pereviryaye yaki atributi pidtrimuyut klasterizaciyu dlya kozhnoyi tochki i regulyuye funkciyu vidstani takim chinom sho rozmiri z nizkoyu dispersiyeyu posilyuyutsya v funkciyi vidstani Na malyunku vishe klaster c c displaystyle c c mozhe buti znajdenij za dopomogoyu DBSCAN z funkciyeyu dovzhini yaka stavit menshij akcent na osi x displaystyle x i takim chinom perebilshuye nizku riznicyu v osi y displaystyle y dostatno dlya togo shob zgrupuvati tochki v klaster PROCLUS vikoristovuye analogichnij pidhid z klasterizaciyeyu en Pochatkovi medoyidi vgaduyutsya i dlya kozhnogo medoyida viznachayetsya pidprostir natyagnutij atributami z nizkim vidhilennyam Bali priznachayutsya najbilsh blizkomu medoyidu vrahovuyuchi tilki pidprostir cogo medoyida pri viznachenni vidstani Algoritm potim prohodit yak zvichajnij algoritm en Yaksho funkciya vidstani ocinyuye atributi po riznomu ale nikoli yak 0 i otzhe nikoli ne vidkidaye nerelevantni atributi algoritm nazivayetsya m yako zprognozovanim algoritmom klasterizaciyi Gibridni pidhodi Ne vsi algoritmi namagayutsya abo znajti unikalne klasterne priznachennya dlya kozhnoyi tochki abo vsi klasteri u vsih pidprostorah bagato hto pogodzhuyetsya na rezultat mizh nimi de znahodyatsya ryad mozhlivih perekrittiv ale ne obov yazkovo vicherpnij nabir klasteriv Prikladom ye FIRES yakij z jogo osnovnogo pidhodu ye algoritmom klasterizaciyi pidprostoriv ale vikoristovuye evristiku zanadto agresivno shob dostovirno viroblyati vsi pidprostorovi klasteri Inshij gibridnij pidhid polyagaye u vklyuchenni lyudini v algoritmichnij cikl dosvid lyudini v galuzi mozhe dopomogti zmenshiti eksponencijnij prostir poshuku cherez evristichnij vidbir zrazkiv Ce mozhe buti korisnim u sferi ohoroni zdorov ya de napriklad likari stikayutsya z velikomasshtabnimi opisami stanu paciyenta i vimiryuvannyami shodo uspishnosti deyakih terapij Vazhlivim pitannyam u takih danih ye porivnyannya ta korelyaciya stanu paciyenta ta rezultativ terapiyi a takozh kombinacij vimiriv Kilkist rozmiriv chasto duzhe velika otzhe yih neobhidno zistaviti z menshoyu kilkistyu vidpovidnih vimiriv shob buti bilsh shilnimi do ekspertnogo analizu Ce poyasnyuyetsya tim sho nerelevantni nadlishkovi ta superechlivi vimiri mozhut negativno vplinuti na efektivnist ta tochnist vsogo analitichnogo procesu Korelyacijna klasterizaciya Inshij tip pidprostoriv rozglyadayetsya v en Programne zabezpechennya en vklyuchaye rizni algoritmi klasterizaciyi pidprostoriv ta korelyaciyi Posilannya Kroger P Zimek A 2009 Clustering high dimensional data ACM Transactions on Knowledge Discovery from Data 3 1 58 doi 10 1145 1497577 1497578 Houle M E Kroger P Schubert E Zimek A 2010 PDF Scientific and Statistical Database Management Lecture Notes in Computer Science T 6187 s 482 doi 10 1007 978 3 642 13818 8 34 ISBN 978 3 642 13817 1 Arhiv originalu PDF za 23 Grudnya 2018 Procitovano 17 Kvitnya 2019 Agrawal R Gehrke J Gunopulos D Raghavan P 2005 Automatic Subspace Clustering of High Dimensional Data Data Mining and Knowledge Discovery 11 5 33 doi 10 1007 s10618 005 1396 1 a href wiki D0 A8 D0 B0 D0 B1 D0 BB D0 BE D0 BD Cite journal title Shablon Cite journal cite journal a Cite maye pustij nevidomij parametr 1 dovidka Kailing K Kroger P 2004 Density Connected Subspace Clustering for High Dimensional Data Proceedings of the 2004 SIAM International Conference on Data Mining s 246 doi 10 1137 1 9781611972740 23 ISBN 978 0 89871 568 2 De Amorim R C Mirkin B 2012 Minkowski metric feature weighting and anomalous cluster initializing in K Means clustering Pattern Recognition 45 3 1061 doi 10 1016 j patcog 2011 08 012 Carbonera Joel Luis Abel Mara November 2014 An Entropy Based Subspace Clustering Algorithm for Categorical Data IEEE doi 10 1109 ictai 2014 48 ISBN 9781479965724 a href wiki D0 A8 D0 B0 D0 B1 D0 BB D0 BE D0 BD Cite book title Shablon Cite book cite book a Proignorovano journal dovidka Carbonera Joel Luis Abel Mara 2015 CBK Modes A Correlation based Algorithm for Categorical Data Clustering SCITEPRESS Science and Technology Publications doi 10 5220 0005367106030608 ISBN 9789897580963 a href wiki D0 A8 D0 B0 D0 B1 D0 BB D0 BE D0 BD Cite book title Shablon Cite book cite book a Proignorovano journal dovidka Bohm C Kailing K Kroger P 2004 Density Connected Clustering with Local Subspace Preferences Fourth IEEE International Conference on Data Mining ICDM 04 s 27 doi 10 1109 ICDM 2004 10087 ISBN 0 7695 2142 8 Aggarwal C C Wolf J L Yu P S Procopiuc C Park J S 1999 Fast algorithms for projected clustering ACM SIGMOD Record 28 2 61 doi 10 1145 304181 304188 a href wiki D0 A8 D0 B0 D0 B1 D0 BB D0 BE D0 BD Cite journal title Shablon Cite journal cite journal a Cite maye pustij nevidomij parametr 1 dovidka Kroger P Renz M Wurst S 2005 A Generic Framework for Efficient Subspace Clustering of High Dimensional Data Fifth IEEE International Conference on Data Mining ICDM 05 s 250 doi 10 1109 ICDM 2005 5 ISBN 0 7695 2278 5 Hund M Bohm D Sturm W Sedlmair M Schreck T Keim D A Majnaric L Holzinger A 2016 Visual analytics for concept exploration in subspaces of patient groups Making sense of complex datasets with the Doctor in the loop Brain Informatics 3 4 233 247 doi 10 1007 s40708 016 0043 5 PMC 5106406 PMID 27747817