Мі́ра Жакка́ра (коефіціє́нт флористи́чної спі́льності, фр. coefficient de communaute, нім. Gemlinschaftskoefficient) — міра подібності, запропонована Полем Жаккаром в 1901 році. Запропонований метод здобув поширення і нині використовується для оцінки подібності скінченних множин, в інформатиці, для пошуку подібних документів, плагіату тощо.
Коефіцієнт Jaccard вимірює подібність між множинами і визначається як міра спільної частини, поділена на міру об'єднання множин:
(Коли A та B обидві порожні, тоді J(A,B) = 1.)
Відстань Жаккара, яка вимірює відмінність множин, є доповненням коефіцієнта Жаккара до 1 і отримується відніманням коефіцієнта Жаккара від 1, або, еквівалентно, діленням різниці мір об'єднання і перетину двох множин на міру об'єднання:
Інакше можна пояснити відстань Жаккара, як відношення міри симетричної різниці до об'єднання.
Відстань Жаккара є метрикою на множині всіх скінченних множин.
В ботаніці
Коефіцієнт подібності Жаккара обчислюють за формулою:
- ,
де
- а — кількість видів на першому пробному майданчику,
- b — кількість видів на другому пробному майданчику,
- с — кількість видів, спільних для 1-ого та 2-ого майданчиків.
Це перший відомий коефіцієнт подібності. Прізвище автора коефіцієнта в літературі перекладалася як: Жаккард, Джаккард. Коефіцієнт Жаккара в різних модифікаціях і записах активно використовується в екології, геоботаніці, молекулярній біології, біоінформатиці, геноміці, протеїноміці, інформатиці та інших галузях. Міра Жаккара еквівалентна (пов'язані однією монотонно зростаючою залежністю) мірі Серенсена і міру Сокала-Сніта для скінченних множин (множинна інтерпретація):
Міру різниці, яка є доповненням до 1 коефіцієнта подібності Жаккара, називають мірою флористичного контрасту.
Для випадку (дескриптивна інтерпретація) в екології - це вибірки за , аналогом вказаної міри є міра Ружички:
В конкретних випадках, коли використовуються компоненти булевих векторів, тобто компоненти, які набувають тільки два значення 0 та 1, міра відома під назвою коефіцієнта Танімото або розширеного коефіцієнта Жаккара.
Якщо порівнюються об'єкти за видів (ймовірнісна інтерпретація), тобто враховуються ймовірності зустрічей, то аналогом міри Жаккара буде ймовірнісна міра Іверсена:
- .
Для інформаційної аналітичної інтерпретації використовується міра взаємозалежності Райського:
Мірою різниці, коеквівалентною мірі подібності Жаккара, є відстань:
В інформатиці
В інформатиці коефіцієнт Жаккара двох множин A та В дорівнює відношенню кількості елементів перетину множин до кількості елементів їхнього об'єднання:
Коефіцієнт Жаккара та алгоритм шинглів використовують для пошуку схожих текстів у великому корпусі документів, а також для виявлення плагіату. Для ефективного обчислення оцінки значення коефіцієнта Жаккара використовують алгоритм .
Примітки
- Jaccard P. Distribution de la flore alpine dans le Bassin des Dranses et dans quelques regions voisines // Bull. Soc. Vaudoise sci. Natur. — 1901. — V. 37, Bd. 140. — S. 241—272.
- Kosub, Sven; «A note on the triangle inequality for the Jaccard distance» arXiv:1612.02696 [ 25 Квітня 2019 у Wayback Machine.]
- Lipkus, Alan H. (1999), A proof of the triangle inequality for the Tanimoto distance, Journal of Mathematical Chemistry, 26 (1-3): 263—265
- Levandowsky, Michael; Winter, David (1971), Distance between sets, Nature, 234 (5): 34—35, doi:10.1038/234034a0
- Миркин Б. М., Розенберг Г. С. Толковый словарь современной фитоценологии. — М.: Наука, 1983. — 134 с.
- Миркин Б. М., Розенберг Г. С., Наумова Л. Г. Словарь понятий и терминов современной фитоценологии. — М.: Наука, 1989. — 223 с.
- Ružička M.K. Anwendung mathematiseh-statistiseher Methoden in der Geobotanik (sintetischa Bearbeitung von Aufnahmen) // Biologia. — 1958. — Roč. 13, č. 9. — S. 647—661.
- Tanimoto T.T. IBM Internal Report — 17th Nov. — 1957.
- Iversen J. Über die Korrelationen zwischen den Pflanzenarten in einem grönlandischen Talgebiet // Vegetation. — 1954. — V. 5-6. — P. 238—246.
- Rajski C. (1961). A metric space of discrete probability distributions. Information and Control. 4 (№ 4): 371—377. doi:10.1016/S0019-9958(61)80055-7.
- Rajski C. Entropy and metric spaces // C. Cherry (ed.). Information Theory. — London: Butterworths, 1961. — P. 41-45.
- Елисеева И. И., Рукавишников В. О. Группировка, корреляция, распознавание образов: (статистические методы классификации и измерения связей). — М.: Статистика, 1977. — 143 с.
- Jure Leskovec, Anand Rajaraman, Jeffrey D. Ullman (2014). 3.1.1 Jaccard Similarity of Sets. (PDF). Архів оригіналу (PDF) за 18 Вересня 2015. Процитовано 23 Вересня 2015.
Див. також
- Коефіцієнт подібності
- Коефіцієнт Танімото
- В ботаніці:
- Індекс Соренсена
- (пол. Kulczyński)
- (розроблений Жозіас Браун-Бланке)
- Коефіцієнт Охаї
- В ботаніці та кібернетиці:
Посилання
- Індекс Жаккара // : навч.-метод. посіб. / уклад. О. Г. Лановенко, О. О. Остапішина. — Херсон : ПП Вишемирський В. С., 2013. — С. 101.
- Introduction to Data Mining lecture notes from Tan, Steinbach, Kumar [ 4 Лютого 2012 у Wayback Machine.]
- http://sourceforge.net/projects/simmetrics/ [ 10 Січня 2013 у Wayback Machine.] SimMetrics a sourceforge implementation of Jaccard index and many other similarity metrics
Вікіпедія, Українська, Україна, книга, книги, бібліотека, стаття, читати, завантажити, безкоштовно, безкоштовно завантажити, mp3, відео, mp4, 3gp, jpg, jpeg, gif, png, малюнок, музика, пісня, фільм, книга, гра, ігри, мобільний, телефон, android, ios, apple, мобільний телефон, samsung, iphone, xiomi, xiaomi, redmi, honor, oppo, nokia, sonya, mi, ПК, web, Інтернет
Mi ra Zhakka ra koeficiye nt floristi chnoyi spi lnosti fr coefficient de communaute nim Gemlinschaftskoefficient mira podibnosti zaproponovana Polem Zhakkarom v 1901 roci Zaproponovanij metod zdobuv poshirennya i nini vikoristovuyetsya dlya ocinki podibnosti skinchennih mnozhin v informatici dlya poshuku podibnih dokumentiv plagiatu tosho Peretin ta ob yednannya dvoh mnozhin A ta B Vidnoshennya peretinu do ob yednannya ye miroyu podibnosti pri viyavlyanni ob yektiv na zobrazhennyah vazhlivij zadachi komp yuternogo zoru Koeficiyent Jaccard vimiryuye podibnist mizh mnozhinami i viznachayetsya yak mira spilnoyi chastini podilena na miru ob yednannya mnozhin J A B A B A B A B A B A B displaystyle J A B A cap B over A cup B A cap B over A B A cap B Koli A ta B obidvi porozhni todi J A B 1 0 J A B 1 displaystyle 0 leqslant J A B leqslant 1 Vidstan Zhakkara yaka vimiryuye vidminnist mnozhin ye dopovnennyam koeficiyenta Zhakkara do 1 i otrimuyetsya vidnimannyam koeficiyenta Zhakkara vid 1 abo ekvivalentno dilennyam riznici mir ob yednannya i peretinu dvoh mnozhin na miru ob yednannya d J A B 1 J A B A B A B A B displaystyle d J A B 1 J A B A cup B A cap B over A cup B Inakshe mozhna poyasniti vidstan Zhakkara yak vidnoshennya miri simetrichnoyi riznici A B A B A B displaystyle A triangle B A cup B A cap B do ob yednannya Vidstan Zhakkara ye metrikoyu na mnozhini vsih skinchennih mnozhin V botaniciKoeficiyent podibnosti Zhakkara obchislyuyut za formuloyu K J c a b c displaystyle K J frac c a b c de a kilkist vidiv na pershomu probnomu majdanchiku b kilkist vidiv na drugomu probnomu majdanchiku s kilkist vidiv spilnih dlya 1 ogo ta 2 ogo majdanchikiv Ce pershij vidomij koeficiyent podibnosti Prizvishe avtora koeficiyenta v literaturi perekladalasya yak Zhakkard Dzhakkard Koeficiyent Zhakkara v riznih modifikaciyah i zapisah aktivno vikoristovuyetsya v ekologiyi geobotanici molekulyarnij biologiyi bioinformatici genomici proteyinomici informatici ta inshih galuzyah Mira Zhakkara ekvivalentna pov yazani odniyeyu monotonno zrostayuchoyu zalezhnistyu miri Serensena i miru Sokala Snita dlya skinchennih mnozhin mnozhinna interpretaciya K 1 1 n A B n A n B n A B n A B n A B displaystyle K 1 1 frac n A cap B n A n B n A cap B frac n A cap B n A cup B Miru riznici yaka ye dopovnennyam do 1 koeficiyenta podibnosti Zhakkara nazivayut miroyu floristichnogo kontrastu Dlya vipadku deskriptivna interpretaciya v ekologiyi ce vibirki za analogom vkazanoyi miri ye mira Ruzhichki K 1 1 i 1 r m i n A i B i i 1 r A i i 1 r B i i 1 r m i n A i B i i 1 r m i n A i B i i 1 r m a x A i B i displaystyle K 1 1 sum i 1 r min A i B i over sum i 1 r A i sum i 1 r B i sum i 1 r min A i B i sum i 1 r min A i B i over sum i 1 r max A i B i V konkretnih vipadkah koli vikoristovuyutsya komponenti bulevih vektoriv tobto komponenti yaki nabuvayut tilki dva znachennya 0 ta 1 mira vidoma pid nazvoyu koeficiyenta Tanimoto abo rozshirenogo koeficiyenta Zhakkara Yaksho porivnyuyutsya ob yekti za vidiv jmovirnisna interpretaciya tobto vrahovuyutsya jmovirnosti zustrichej to analogom miri Zhakkara bude jmovirnisna mira Iversena K 1 1 P A B P A B displaystyle K 1 1 frac P A cap B P A cup B Dlya informacijnoyi analitichnoyi interpretaciyi vikoristovuyetsya mira vzayemozalezhnosti Rajskogo K 1 1 I A B H A B displaystyle K 1 1 frac I A B H A B Miroyu riznici koekvivalentnoyu miri podibnosti Zhakkara ye vidstan F 1 1 1 n A B n A n B n A B n A B n A B n A B displaystyle F 1 1 1 frac n A cap B n A n B n A cap B frac n A cup B n A cap B n A cup B V informaticiV informatici koeficiyent Zhakkara dvoh mnozhin A ta V dorivnyuye vidnoshennyu kilkosti elementiv peretinu mnozhin do kilkosti elementiv yihnogo ob yednannya J A B A B A B displaystyle J A B frac A cap B A cup B Koeficiyent Zhakkara ta algoritm shingliv vikoristovuyut dlya poshuku shozhih tekstiv u velikomu korpusi dokumentiv a takozh dlya viyavlennya plagiatu Dlya efektivnogo obchislennya ocinki znachennya koeficiyenta Zhakkara vikoristovuyut algoritm PrimitkiJaccard P Distribution de la flore alpine dans le Bassin des Dranses et dans quelques regions voisines Bull Soc Vaudoise sci Natur 1901 V 37 Bd 140 S 241 272 Kosub Sven A note on the triangle inequality for the Jaccard distance arXiv 1612 02696 25 Kvitnya 2019 u Wayback Machine Lipkus Alan H 1999 A proof of the triangle inequality for the Tanimoto distance Journal of Mathematical Chemistry 26 1 3 263 265 Levandowsky Michael Winter David 1971 Distance between sets Nature 234 5 34 35 doi 10 1038 234034a0 Mirkin B M Rozenberg G S Tolkovyj slovar sovremennoj fitocenologii M Nauka 1983 134 s Mirkin B M Rozenberg G S Naumova L G Slovar ponyatij i terminov sovremennoj fitocenologii M Nauka 1989 223 s Ruzicka M K Anwendung mathematiseh statistiseher Methoden in der Geobotanik sintetischa Bearbeitung von Aufnahmen Biologia 1958 Roc 13 c 9 S 647 661 Tanimoto T T IBM Internal Report 17th Nov 1957 Iversen J Uber die Korrelationen zwischen den Pflanzenarten in einem gronlandischen Talgebiet Vegetation 1954 V 5 6 P 238 246 Rajski C 1961 A metric space of discrete probability distributions Information and Control 4 4 371 377 doi 10 1016 S0019 9958 61 80055 7 Rajski C Entropy and metric spaces C Cherry ed Information Theory London Butterworths 1961 P 41 45 Eliseeva I I Rukavishnikov V O Gruppirovka korrelyaciya raspoznavanie obrazov statisticheskie metody klassifikacii i izmereniya svyazej M Statistika 1977 143 s Jure Leskovec Anand Rajaraman Jeffrey D Ullman 2014 3 1 1 Jaccard Similarity of Sets PDF Arhiv originalu PDF za 18 Veresnya 2015 Procitovano 23 Veresnya 2015 Div takozhKoeficiyent podibnosti Koeficiyent Tanimoto V botanici Indeks Sorensena pol Kulczynski rozroblenij Zhozias Braun Blanke Koeficiyent Ohayi V botanici ta kibernetici Vidstan GemmingaPosilannyaIndeks Zhakkara navch metod posib uklad O G Lanovenko O O Ostapishina Herson PP Vishemirskij V S 2013 S 101 Introduction to Data Mining lecture notes from Tan Steinbach Kumar 4 Lyutogo 2012 u Wayback Machine http sourceforge net projects simmetrics 10 Sichnya 2013 u Wayback Machine SimMetrics a sourceforge implementation of Jaccard index and many other similarity metrics