Косинус подібності (англ. cosine similarity) — коефіцієнт подібності двох не нульових векторів у предгільбертовому просторі, який обчислюється як косинус кута між ними. Косинус 0° дорівнює 1, а для всіх інших значень кута в інтервалі (0,π] буде менше за 1. Отож, це оцінка напрямку, а не величини: два вектори з однаковим напрямком мають косинус подібності 1, а два вектора, які утворюють кут 90° один відносно одного, мають подібність 0, а два діаметрально направлені вектори мають подібність -1, незалежно від їх довжини. Косинус подібності часто використовують в позитивному просторі, для якого результат обмежений проміжком . Назва походить від терміну «направлений косинус»: в цьому випадку одиничні вектори максимально «подібні», якщо вони паралельні і максимально «різні», якщо вони ортогональні (перпендикулярні). Це аналогічно косинусу, який є одиницею (максимальне значення), коли відрізки утворюють нульовий кут і нулем (не корельовані), коли відрізки ортогональні.
Ці межі застосовуються до будь-якої кількості вимірів, але найчастіше косинус подібності використовується у багатовимірних додатних просторах. Наприклад, при інформаційному пошуку та аналізі тексту, кожен термін пов'язаний з окремим виміром, і тому документ характеризується вектором, де значення кожного виміру відповідає кількості разів, що термін з'являється у документі. Тоді косинус подібності дає корисну оцінку того, наскільки подібні два документи у термінах теми.
Ця методика також використовується при добуванні даних для вимірювання згрупованості всередині кластерів.
Вираз відстань з косинусом часто використовують як доповнення у додатному просторі, а саме: де — відстань з косинусом, а — косинус подібності. Однак, варто зауважити, що це не є метрикою, бо не виконується нерівність трикутника або, більш формально, нерівність Коші — Буняковського, що порушує аксіому збіжності. Для того, щоб виконувалась нерівність трикутника, необхідно перейти до кутової відстані.
Однією з переваг косинуса подібності є низька складність обчислення, особливо для розріджених векторів: достатньо брати лише координати з ненульовим значенням.
Для косинуса подібності також використовуються інші назви, такі як подібність Орчині (англ. Orchini) або коефіцієнт Тукера (англ. Tucker). Подібність Очиаї (англ. Ochiai) — це косинус подібності застосований до бінарних даних.
Визначення
Косинус двох не нульових векторів можна описати за допомогою (скалярного добутку у Евклідовому просторі):
Для двох заданих векторів ознак, A та B, косинус подібності, cos(θ), представляється за допомогою скалярного добутку та довжини, як
де та — координати вектору та відповідно.
Примітки
- (2001). «Modern Information Retrieval: A Brief Overview [ 24 жовтня 2018 у Wayback Machine.]». Bulletin of the IEEE Computer Society Technical Committee on Data Engineering 24 (4): 35–43.
- P.-N. Tan, M. Steinbach & V. Kumar, Introduction to Data Mining, Addison-Wesley (2005), , chapter 8; page 500.
Див. також
Посилання
- Зважена косинусна міра [ 8 серпня 2020 у Wayback Machine.]
- Посібник по косинусу подібності на Python [ 20 січня 2015 у Wayback Machine.]
В іншому мовному розділі є повніша стаття Cosine similarity(англ.). Ви можете допомогти, розширивши поточну статтю за допомогою з англійської.
|
Вікіпедія, Українська, Україна, книга, книги, бібліотека, стаття, читати, завантажити, безкоштовно, безкоштовно завантажити, mp3, відео, mp4, 3gp, jpg, jpeg, gif, png, малюнок, музика, пісня, фільм, книга, гра, ігри, мобільний, телефон, android, ios, apple, мобільний телефон, samsung, iphone, xiomi, xiaomi, redmi, honor, oppo, nokia, sonya, mi, ПК, web, Інтернет
Kosinus podibnosti angl cosine similarity koeficiyent podibnosti dvoh ne nulovih vektoriv u predgilbertovomu prostori yakij obchislyuyetsya yak kosinus kuta mizh nimi Kosinus 0 dorivnyuye 1 a dlya vsih inshih znachen kuta v intervali 0 p bude menshe za 1 Otozh ce ocinka napryamku a ne velichini dva vektori z odnakovim napryamkom mayut kosinus podibnosti 1 a dva vektora yaki utvoryuyut kut 90 odin vidnosno odnogo mayut podibnist 0 a dva diametralno napravleni vektori mayut podibnist 1 nezalezhno vid yih dovzhini Kosinus podibnosti chasto vikoristovuyut v pozitivnomu prostori dlya yakogo rezultat obmezhenij promizhkom 0 1 displaystyle 0 1 Nazva pohodit vid terminu napravlenij kosinus v comu vipadku odinichni vektori maksimalno podibni yaksho voni paralelni i maksimalno rizni yaksho voni ortogonalni perpendikulyarni Ce analogichno kosinusu yakij ye odiniceyu maksimalne znachennya koli vidrizki utvoryuyut nulovij kut i nulem ne korelovani koli vidrizki ortogonalni Ci mezhi zastosovuyutsya do bud yakoyi kilkosti vimiriv ale najchastishe kosinus podibnosti vikoristovuyetsya u bagatovimirnih dodatnih prostorah Napriklad pri informacijnomu poshuku ta analizi tekstu kozhen termin pov yazanij z okremim vimirom i tomu dokument harakterizuyetsya vektorom de znachennya kozhnogo vimiru vidpovidaye kilkosti raziv sho termin z yavlyayetsya u dokumenti Todi kosinus podibnosti daye korisnu ocinku togo naskilki podibni dva dokumenti u terminah temi Cya metodika takozh vikoristovuyetsya pri dobuvanni danih dlya vimiryuvannya zgrupovanosti vseredini klasteriv Viraz vidstan z kosinusom chasto vikoristovuyut yak dopovnennya u dodatnomu prostori a same DC A B 1 SC A B displaystyle D C A B 1 S C A B de DC displaystyle D C vidstan z kosinusom a SC displaystyle S C kosinus podibnosti Odnak varto zauvazhiti sho ce ne ye metrikoyu bo ne vikonuyetsya nerivnist trikutnika abo bilsh formalno nerivnist Koshi Bunyakovskogo sho porushuye aksiomu zbizhnosti Dlya togo shob vikonuvalas nerivnist trikutnika neobhidno perejti do kutovoyi vidstani Odniyeyu z perevag kosinusa podibnosti ye nizka skladnist obchislennya osoblivo dlya rozridzhenih vektoriv dostatno brati lishe koordinati z nenulovim znachennyam Dlya kosinusa podibnosti takozh vikoristovuyutsya inshi nazvi taki yak podibnist Orchini angl Orchini abo koeficiyent Tukera angl Tucker Podibnist Ochiayi angl Ochiai ce kosinus podibnosti zastosovanij do binarnih danih ViznachennyaKosinus dvoh ne nulovih vektoriv mozhna opisati za dopomogoyu skalyarnogo dobutku u Evklidovomu prostori A B A B cos 8 displaystyle mathbf A cdot mathbf B left mathbf A right left mathbf B right cos theta Dlya dvoh zadanih vektoriv oznak A ta B kosinus podibnosti cos 8 predstavlyayetsya za dopomogoyu skalyarnogo dobutku ta dovzhini yak podibnist cos 8 A B A B i 1nAiBi i 1nAi2 i 1nBi2 displaystyle text podibnist cos theta mathbf A cdot mathbf B over mathbf A mathbf B frac sum limits i 1 n A i B i sqrt sum limits i 1 n A i 2 sqrt sum limits i 1 n B i 2 de Ai displaystyle A i ta Bi displaystyle B i koordinati vektoru A displaystyle A ta B displaystyle B vidpovidno Primitki 2001 Modern Information Retrieval A Brief Overview 24 zhovtnya 2018 u Wayback Machine Bulletin of the IEEE Computer Society Technical Committee on Data Engineering 24 4 35 43 P N Tan M Steinbach amp V Kumar Introduction to Data Mining Addison Wesley 2005 ISBN 0 321 32136 7 chapter 8 page 500 Div takozhVidstan Gemminga Indeks Sorensena Korelyaciya i zalezhnist Koeficiyent Zhakkara en PosilannyaZvazhena kosinusna mira 8 serpnya 2020 u Wayback Machine Posibnik po kosinusu podibnosti na Python 20 sichnya 2015 u Wayback Machine V inshomu movnomu rozdili ye povnisha stattya Cosine similarity angl Vi mozhete dopomogti rozshirivshi potochnu stattyu za dopomogoyu perekladu z anglijskoyi Divitis avtoperekladenu versiyu statti z movi anglijska Perekladach povinen rozumiti sho vidpovidalnist za kincevij vmist statti u Vikipediyi nese same avtor redaguvan Onlajn pereklad nadayetsya lishe yak korisnij instrument pereglyadu vmistu zrozumiloyu movoyu Ne vikoristovujte nevichitanij i nevidkorigovanij mashinnij pereklad u stattyah ukrayinskoyi Vikipediyi Mashinnij pereklad Google ye korisnoyu vidpravnoyu tochkoyu dlya perekladu ale perekladacham neobhidno vipravlyati pomilki ta pidtverdzhuvati tochnist perekladu a ne prosto skopiyuvati mashinnij pereklad do ukrayinskoyi Vikipediyi Ne perekladajte tekst yakij vidayetsya nedostovirnim abo neyakisnim Yaksho mozhlivo perevirte tekst za posilannyami podanimi v inshomovnij statti Dokladni rekomendaciyi div Vikipediya Pereklad