Цю статтю треба для відповідності Вікіпедії. (березень 2015) |
Бікластерізація — широкий спектр завдань, в яких потрібно виявляти кластери із збереженням об'єктно-ознакового опису даних. Методи бікластеризації, розроблені для цих цілей, лежать в області кластер-аналізу і отримали свою власну назву. Під терміном бікластеризація розуміється широке коло завдань і методів, а тому для нього в науковій літературі існує цілий ряд синонімів: спільна кластеризація (simultaneous clustering), кокластеризація (co-clustering), двоходова кластеризація (two-way clustering), кластеризація підпростору (subspace clustering), двовимірна кластеризація (bi-dimensional) і бокс-кластеризація (box-clustering). Підвищений інтерес до бікластеризації і виділення її в самостійну область аналізу даних виникли у зв'язку завданням аналізу масивів генетичних даних (microarray data analysis).
Актуальність теми
- Зростання інтернет — ринку;
- Метод широко застосовується в прикладних задачах різних сфер науки і техніки, у економіці, прикладній математиці, генетиці;
- Низька ефективність існуючих методів при складному наборі даних
Опис
Існує широкий спектр завдань, в яких потрібно виявляти кластери із збереженням об'єктно-ознакового опису даних: виявлення груп генів, що володіють загальними властивостями; пошук груп відвідувачів зі схожими інтересами для рекомендаційних систем; виявлення спільнот; аналіз соціальних мереж; автоматична побудова каталогів і рубрикаторів в інформаційних системах; пошук подібності документів. При вирішенні подібних завдань класичний кластерний аналіз не надає зручних засобів, що дозволяють зберегти об'єктно-ознаковий опис кластеру. Для цього розробляються методи бікластеризації.
В даний час методи кластерного аналізу є необхідними у величезній кількості прикладних задач різних галузей науки і техніки. Сама область кластеризації, незважаючи на безперервний розвиток і появу нових додатків, має міцну теоретичну базу і підтверджені результати.
Теоретична значущість
- встановлення взаємозв'язків існуючих моделей бікластеризації, методів аналізу даних на основі теорії ґраток і пошуком асоціативних правил;
- побудові таксономії існуючих методів бікластеризації і її розширенні шляхом включення критеріїв класифікації нових і споріднених методів;
- розробці моделі бікластеризації на основі замкнутих множин об'єктів і ознак, теоретичному дослідженні її властивостей.
Практична значущість
Полягає в розробці ефективних моделей і методів пошуку документів-дублікатів, побудови таксономії вебкористувачів і моделей і методів рекомендаційних систем на основі бікластеризації.
Типи бікластерів
- бікластер з постійними значеннями;
- бікластер з постійними значеннями рядків або стовпців;
- бікластер з когерентним значеннями;
- бікластер з когерентним змінами.
Алгоритмічні стратегії пошуку
Алгоритми бікластеризації можуть породжувати або один бікластер, або кілька, залежно від типу завдання. Наприклад, алгоритм Ченга і Черча знаходить один бікластер за прохід, а для знаходження наступних необхідно маскувати знайдений випадковими числами і виконати повторний запуск алгоритму. Інші бікластерні підходи дозволяють знаходити безліч бікластерів за прохід. Існують також алгоритми, які дозволяють здійснювати одночасне виявлення бікластерів.[5]
Приймаючи до уваги алгоритмічну складність, стратегії пошуку пожна розбити на 5 класів:
- ітеративна комбінація кластеризації по рядках і стовпцях;
- стратегія розділяй і володарюй;
- жадібна стратегія ітеративного пошуку;
- повне перерахування бікластерів;
- визначення параметрів розподілу.
Огляд існуючих методів і моделей бікластеризації
Формальний Аналіз Понять — область прикладної математики, об'єктами дослідження в якої є (формальні) поняття та їх ієрархії. Прикметник «формальний» вказує на наявність строгого математичного визначення поняття, як пари множин, званих, слідуючи традиціям прийнятим у філософії, обсягом і змістом. Формалізація цих визначень стала можливою завдяки використанню апарату алгебраїчної теорії ґраток. Включення підрозділу, присвяченого ФАП, в розділ про методи і моделях бікластеризації обґрунтовано широким спектром завдань з області аналізу даних, в яких ключовим є пошук бікластерів особливого роду — формальних понять.
Формальний контекст К - це (G, M, I), де G — множина об'єктів, М — множина ознак, І ≤ G*M— відношення.
Відношення І інтерпретується наступним чином: для g є G, m є M, має місце gIM, якщо об'єкт g володіє ознаками m.
Для формального контексту K = (G, M,I) і випадкових B ≤ M визначена пара відображень: A’ := {m є M| gLm, для всіх g є A },
A’ := {g є G| gLm, для всіх m є B },
Які задають відповідність Галуа між частково впорядкованими множинами
(2G,≤) і (2М, ≤)
а оператор (.)" є оператором замикання на — диз'юнктивним об'єднанням, тобто випадковим А є С або А є М мають місце наступні відношення:
- A ≤ A" (екстенсивність),
- A"«=A» (ідемпотентність),
- Якщо A≤C то A" ≤C", (ізотонність).
Множина А називається замкнутою, якщо A" = A
Алгоритм BiMax відповідає стратегії «розділяй і володарюй». Спочатку алгоритм визначає області матриці, що містять тільки 0, і потім виключає їх з подальшого розгляду. Ця стратегія особливо виграшна за умови розріджених даних, отримання яких з вихідних наборів залежить від вибору порогу відсікання.
Ідея, що лежить в основі алгоритму, полягає в наступному: вихідна матриця розбивається на три підматриці, одна з яких містить лише нульові значення і надалі не розглядається. Потім алгоритм рекурсивно застосовується до двох підматриць, що залишилися. Рекурсія припиняється, якщо поточна матриця, що являє собою бікластер, містить тільки одиниці.
Існуючі системи бікластеризації
Система Coron для Data Mining
Система аналізу даних Coron призначена для пошуку множин ознак і асоціативних правил. Програма володіє непоганим графічним інтерфейсом, власним форматом даних, можливістю роботи з базами даних. Для пошуку множин ознак використовуються найбільш ефективні алгоритми спільноти FIM.. Пошук асоціативних правил також використовує ефективні алгоритми, що спираються на досягнення ФАП і опинилися корисними для компактного представлення правил та побудови їх базисів. Ще однією перевагою продукту є вільний доступ і кросплатформність (в сенсі технології Java).
У величезного числа документів (за деякими джерелами до 30 %) в Інтернеті є дублікати, і пошукові машини повинні володіти ефективними засобами обчислення кластерів дублікатів. Походження дублікатів може бути різним — від дублювання компаніями власної інформації на різних серверах (створення дзеркал) до зловмисних — обману програм індексаторів вебсайтів, незаконного копіювання і спамерських розсилок.
Зазвичай дублікати документів визначаються на основі відношення подібності на документах: два документа подібні, якщо деяка числова міра їх схожості перевищує деякий поріг. По відношенню подібності обчислюються кластери схожих документів. Спочатку, після зняття HTML-розмітки документа, як лінійні послідовності слів (символів), перетворюються у множини. Тут двома основними схемами є синтаксичні та лексичні методи. До синтаксичним відноситься метод шинглірування, в якому документ в підсумку представляється набором хеш-кодів; цей метод використовується в пошукових системах Google і AltaVista. В лексичних методах велика увага приділяється побудові словника — набору дескриптивних слів; відомі його різновиди, такі I-match і метод ключових слів Іллінського.
Список використаної літератури
- Биркгоф Г. Теория решеток. — М.:Наука, 1989.
- Игнатов Д. И., Кузнецов С. О. О поиске сходства Интернет-документов с помощью частых замкнутых множеств признаков // Труды 10-й национальной конференции по искусственному интеллекту с международным участием (КИИ'06). — М.:Физматлит, 2006, Т.2, стр.249-258.
- Самохин М. В., Машинное обучение на узорных структурах, ВИНИТИ, 2006.
- R. Agrawal, H. Mannila, R. Srikant, H. Toivonen, and A. Inkeri Verkamo, «Fast Discovery of Association Rules,» Advances in Knowledge Discovery, and Data Mining, U. Fayyad et al., eds., pp. 307—328, Menlo Park, Calif.: AAAI Press, 1996.
- Amine Abou-Rjeili and George Karypis. Multilevel Algorithms for Partitioning Power-Law Graphs. IEEE International Parallel & Distributed Processing Symposium (IPDPS) (in press), 2006.
- Mohammed J. Zaki, Ching-Jui Hsiao, Efficient Algorithms for Mining Closed Itemsets and Their Lattice Structure, IEEE Transaction on Knowledge and Data Engineering, Vol 17, No. 4, pp. 462—478, 2005.
- L.Е. Zhukov. Technical Report: Spectral Clustering of Large Advertiser Datasets Part I. Overture R&D, 2004.
Вікіпедія, Українська, Україна, книга, книги, бібліотека, стаття, читати, завантажити, безкоштовно, безкоштовно завантажити, mp3, відео, mp4, 3gp, jpg, jpeg, gif, png, малюнок, музика, пісня, фільм, книга, гра, ігри, мобільний, телефон, android, ios, apple, мобільний телефон, samsung, iphone, xiomi, xiaomi, redmi, honor, oppo, nokia, sonya, mi, ПК, web, Інтернет
Cyu stattyu treba vikifikuvati dlya vidpovidnosti standartam yakosti Vikipediyi Bud laska dopomozhit dodavannyam dorechnih vnutrishnih posilan abo vdoskonalennyam rozmitki statti berezen 2015 Biklasterizaciya shirokij spektr zavdan v yakih potribno viyavlyati klasteri iz zberezhennyam ob yektno oznakovogo opisu danih Metodi biklasterizaciyi rozrobleni dlya cih cilej lezhat v oblasti klaster analizu i otrimali svoyu vlasnu nazvu Pid terminom biklasterizaciya rozumiyetsya shiroke kolo zavdan i metodiv a tomu dlya nogo v naukovij literaturi isnuye cilij ryad sinonimiv spilna klasterizaciya simultaneous clustering koklasterizaciya co clustering dvohodova klasterizaciya two way clustering klasterizaciya pidprostoru subspace clustering dvovimirna klasterizaciya bi dimensional i boks klasterizaciya box clustering Pidvishenij interes do biklasterizaciyi i vidilennya yiyi v samostijnu oblast analizu danih vinikli u zv yazku zavdannyam analizu masiviv genetichnih danih microarray data analysis Aktualnist temiZrostannya internet rinku Metod shiroko zastosovuyetsya v prikladnih zadachah riznih sfer nauki i tehniki u ekonomici prikladnij matematici genetici Nizka efektivnist isnuyuchih metodiv pri skladnomu nabori danihOpisIsnuye shirokij spektr zavdan v yakih potribno viyavlyati klasteri iz zberezhennyam ob yektno oznakovogo opisu danih viyavlennya grup geniv sho volodiyut zagalnimi vlastivostyami poshuk grup vidviduvachiv zi shozhimi interesami dlya rekomendacijnih sistem viyavlennya spilnot analiz socialnih merezh avtomatichna pobudova katalogiv i rubrikatoriv v informacijnih sistemah poshuk podibnosti dokumentiv Pri virishenni podibnih zavdan klasichnij klasternij analiz ne nadaye zruchnih zasobiv sho dozvolyayut zberegti ob yektno oznakovij opis klasteru Dlya cogo rozroblyayutsya metodi biklasterizaciyi V danij chas metodi klasternogo analizu ye neobhidnimi u velicheznij kilkosti prikladnih zadach riznih galuzej nauki i tehniki Sama oblast klasterizaciyi nezvazhayuchi na bezperervnij rozvitok i poyavu novih dodatkiv maye micnu teoretichnu bazu i pidtverdzheni rezultati Teoretichna znachushist vstanovlennya vzayemozv yazkiv isnuyuchih modelej biklasterizaciyi metodiv analizu danih na osnovi teoriyi gratok i poshukom asociativnih pravil pobudovi taksonomiyi isnuyuchih metodiv biklasterizaciyi i yiyi rozshirenni shlyahom vklyuchennya kriteriyiv klasifikaciyi novih i sporidnenih metodiv rozrobci modeli biklasterizaciyi na osnovi zamknutih mnozhin ob yektiv i oznak teoretichnomu doslidzhenni yiyi vlastivostej Praktichna znachushist Polyagaye v rozrobci efektivnih modelej i metodiv poshuku dokumentiv dublikativ pobudovi taksonomiyi vebkoristuvachiv i modelej i metodiv rekomendacijnih sistem na osnovi biklasterizaciyi Tipi biklasteriv biklaster z postijnimi znachennyami biklaster z postijnimi znachennyami ryadkiv abo stovpciv biklaster z kogerentnim znachennyami biklaster z kogerentnim zminami Algoritmichni strategiyi poshukuAlgoritmi biklasterizaciyi mozhut porodzhuvati abo odin biklaster abo kilka zalezhno vid tipu zavdannya Napriklad algoritm Chenga i Chercha znahodit odin biklaster za prohid a dlya znahodzhennya nastupnih neobhidno maskuvati znajdenij vipadkovimi chislami i vikonati povtornij zapusk algoritmu Inshi biklasterni pidhodi dozvolyayut znahoditi bezlich biklasteriv za prohid Isnuyut takozh algoritmi yaki dozvolyayut zdijsnyuvati odnochasne viyavlennya biklasteriv 5 Prijmayuchi do uvagi algoritmichnu skladnist strategiyi poshuku pozhna rozbiti na 5 klasiv iterativna kombinaciya klasterizaciyi po ryadkah i stovpcyah strategiya rozdilyaj i volodaryuj zhadibna strategiya iterativnogo poshuku povne pererahuvannya biklasteriv viznachennya parametriv rozpodilu Oglyad isnuyuchih metodiv i modelej biklasterizaciyiFormalnij Analiz Ponyat oblast prikladnoyi matematiki ob yektami doslidzhennya v yakoyi ye formalni ponyattya ta yih iyerarhiyi Prikmetnik formalnij vkazuye na nayavnist strogogo matematichnogo viznachennya ponyattya yak pari mnozhin zvanih sliduyuchi tradiciyam prijnyatim u filosofiyi obsyagom i zmistom Formalizaciya cih viznachen stala mozhlivoyu zavdyaki vikoristannyu aparatu algebrayichnoyi teoriyi gratok Vklyuchennya pidrozdilu prisvyachenogo FAP v rozdil pro metodi i modelyah biklasterizaciyi obgruntovano shirokim spektrom zavdan z oblasti analizu danih v yakih klyuchovim ye poshuk biklasteriv osoblivogo rodu formalnih ponyat Formalnij kontekst K ce G M I de G mnozhina ob yektiv M mnozhina oznak I G M vidnoshennya Vidnoshennya I interpretuyetsya nastupnim chinom dlya g ye G m ye M maye misce gIM yaksho ob yekt g volodiye oznakami m Dlya formalnogo kontekstu K G M I i vipadkovih B M viznachena para vidobrazhen A m ye M gLm dlya vsih g ye A A g ye G gLm dlya vsih m ye B Yaki zadayut vidpovidnist Galua mizh chastkovo vporyadkovanimi mnozhinami 2G i 2M a operator ye operatorom zamikannya na diz yunktivnim ob yednannyam tobto vipadkovim A ye S abo A ye M mayut misce nastupni vidnoshennya A A ekstensivnist A A idempotentnist Yaksho A C to A C izotonnist Mnozhina A nazivayetsya zamknutoyu yaksho A A Algoritm BiMax vidpovidaye strategiyi rozdilyaj i volodaryuj Spochatku algoritm viznachaye oblasti matrici sho mistyat tilki 0 i potim viklyuchaye yih z podalshogo rozglyadu Cya strategiya osoblivo vigrashna za umovi rozridzhenih danih otrimannya yakih z vihidnih naboriv zalezhit vid viboru porogu vidsikannya Ideya sho lezhit v osnovi algoritmu polyagaye v nastupnomu vihidna matricya rozbivayetsya na tri pidmatrici odna z yakih mistit lishe nulovi znachennya i nadali ne rozglyadayetsya Potim algoritm rekursivno zastosovuyetsya do dvoh pidmatric sho zalishilisya Rekursiya pripinyayetsya yaksho potochna matricya sho yavlyaye soboyu biklaster mistit tilki odinici Isnuyuchi sistemi biklasterizaciyiSistema Coron dlya Data Mining Sistema analizu danih Coron priznachena dlya poshuku mnozhin oznak i asociativnih pravil Programa volodiye nepoganim grafichnim interfejsom vlasnim formatom danih mozhlivistyu roboti z bazami danih Dlya poshuku mnozhin oznak vikoristovuyutsya najbilsh efektivni algoritmi spilnoti FIM Poshuk asociativnih pravil takozh vikoristovuye efektivni algoritmi sho spirayutsya na dosyagnennya FAP i opinilisya korisnimi dlya kompaktnogo predstavlennya pravil ta pobudovi yih bazisiv She odniyeyu perevagoyu produktu ye vilnij dostup i krosplatformnist v sensi tehnologiyi Java U velicheznogo chisla dokumentiv za deyakimi dzherelami do 30 v Interneti ye dublikati i poshukovi mashini povinni voloditi efektivnimi zasobami obchislennya klasteriv dublikativ Pohodzhennya dublikativ mozhe buti riznim vid dublyuvannya kompaniyami vlasnoyi informaciyi na riznih serverah stvorennya dzerkal do zlovmisnih obmanu program indeksatoriv vebsajtiv nezakonnogo kopiyuvannya i spamerskih rozsilok Zazvichaj dublikati dokumentiv viznachayutsya na osnovi vidnoshennya podibnosti na dokumentah dva dokumenta podibni yaksho deyaka chislova mira yih shozhosti perevishuye deyakij porig Po vidnoshennyu podibnosti obchislyuyutsya klasteri shozhih dokumentiv Spochatku pislya znyattya HTML rozmitki dokumenta yak linijni poslidovnosti sliv simvoliv peretvoryuyutsya u mnozhini Tut dvoma osnovnimi shemami ye sintaksichni ta leksichni metodi Do sintaksichnim vidnositsya metod shingliruvannya v yakomu dokument v pidsumku predstavlyayetsya naborom hesh kodiv cej metod vikoristovuyetsya v poshukovih sistemah Google i AltaVista V leksichnih metodah velika uvaga pridilyayetsya pobudovi slovnika naboru deskriptivnih sliv vidomi jogo riznovidi taki I match i metod klyuchovih sliv Illinskogo Spisok vikoristanoyi literaturiBirkgof G Teoriya reshetok M Nauka 1989 Ignatov D I Kuznecov S O O poiske shodstva Internet dokumentov s pomoshyu chastyh zamknutyh mnozhestv priznakov Trudy 10 j nacionalnoj konferencii po iskusstvennomu intellektu s mezhdunarodnym uchastiem KII 06 M Fizmatlit 2006 T 2 str 249 258 Samohin M V Mashinnoe obuchenie na uzornyh strukturah VINITI 2006 R Agrawal H Mannila R Srikant H Toivonen and A Inkeri Verkamo Fast Discovery of Association Rules Advances in Knowledge Discovery and Data Mining U Fayyad et al eds pp 307 328 Menlo Park Calif AAAI Press 1996 Amine Abou Rjeili and George Karypis Multilevel Algorithms for Partitioning Power Law Graphs IEEE International Parallel amp Distributed Processing Symposium IPDPS in press 2006 Mohammed J Zaki Ching Jui Hsiao Efficient Algorithms for Mining Closed Itemsets and Their Lattice Structure IEEE Transaction on Knowledge and Data Engineering Vol 17 No 4 pp 462 478 2005 L E Zhukov Technical Report Spectral Clustering of Large Advertiser Datasets Part I Overture R amp D 2004