Коефіцієнт локального видхилення (КЛВ, англ. local outlier factor) — це алгоритм для виявлення аномалій. Він був запропонований Маркусом М. Бройнігом, [en], Раймондом Т. Нґом і Йоргом Сандером у 2000 році для пошуку аномальних точок даних шляхом вимірювання локального відхилення даної точки даних по відношенню до сусідніх точок.
КЛВ використовує деякі поняття з алгоритмів DBSCAN і OPTICS, наприклад поняття «відстань до ядра» і «відстань доступності», які використовуються для оцінки локальної щільності.
Основна ідея
Коефіцієнт локального відхилення базується на концепції локальної щільності, де локальність визначається k найближчими сусідами, відстань до яких використовується для оцінки щільності. Порівнюючи локальну щільність об'єкта з локальною щільністю його сусідів, можна ідентифікувати області з подібною щільністю та точки, які мають значно нижчу щільність, ніж їхні сусіди. Такі точки вважаються викидами.
Локальна щільність оцінюється за допомогою типової відстані, на якій можна «дотягнутися» до точки від її сусідів. Визначення «відстані досяжності», що використовується в КЛВ, є додатковим заходом для отримання більш стабільних результатів у кластерах. «Відстань досяжності», яку використовує КЛВ, має деякі нюанси, які часто виявляються спотвореними у вторинних джерелах, наприклад, у підручнику Етема Алпайдіна.
Формальне визначення
Нехай k-distance(A) визначається як відстань об'єкта A до k-го найближчого сусіда. Зауважте, що множина k найближчих сусідів включає всі об'єкти на цій відстані, яких у випадку «рівності» можуть бути більше, ніж k об'єктів. Позначимо множину k найближчих сусідів як Nk(A).
Ця відстань використовується для визначення того, що називається відстанню досяжності (reachability distance):
Тобто, відстань досяжності об'єкта A від B є справжньою відстанню двох об'єктів, і є, щонайменше, k-відстанню від B. Об'єкти, які належать до k найближчих сусідів B («ядро» B, див. кластерний аналіз DBSCAN), вважаються однаково віддаленими. Причиною цього є зменшення статистичних флуктуацій між усіма точками A поблизу B, де збільшення значення k збільшує ефект згладжування. Зауважте, що це не відстань у математичному визначенні, оскільки вона не є симетричною. (Хоча завжди використовувати k-distance(A) є поширеною помилкою, це дає дещо інший метод, — спрощений-КЛВ).
Локальна щільність досяжності об'єкта A визначається за допомогою
- ,
яка є оберненою до середньої відстані досяжності об'єкта А від його сусідів. Зауважте, що це не середня досяжність сусідів з A (яка за визначенням була б k-distance(A)), а відстань, на якій точка A може бути «досяжною» від своїх сусідів. У випадку дублювання точок, це значення може стати (нескінченністю).
Потім локальна щільність досяжності порівнюється з щільністю сусідів, які використовують
це середня локальна щільність досяжності сусідів, поділена на власну локальну щільність досяжності об'єкта. Значення, що дорівнює приблизно 1 вказує на те, що об'єкт можна порівняти зі своїми сусідами (і, таким чином, не є викидом). Значення нижче 1 вказує на більш щільну область (що вказує на нормальну точку), тоді як значення, значно більші за 1, вказують на викиди.
LOF(k) ~ 1 означає: Така ж щільність, як у сусідів,
LOF(k) < 1 означає: Вища щільність, ніж у сусідів (нормально точка),
LOF(k) > 1 означає: Нижча щільність, ніж у сусідів (викид).
Переваги
Завдяки локальному підходу КЛВ може ідентифікувати викиди в наборі даних, які не були б викидами в іншій ділянці набору даних. Наприклад, точка на «малій» відстані до дуже щільного кластера є викидом, тоді як точка в розрідженому кластері може демонструвати подібні відстані до своїх сусідів.
Хоча геометрична інтуїція КЛВ застосовна лише до векторних просторів низької розмірності, алгоритм можна застосовувати в будь-якому контексті, де можна визначити функцію неподібності. Експериментально було показано, що він дуже добре працює у багатьох застосунках, часто перевершуючи конкурентів, наприклад, у виявленні вторгнень у мережу та на оброблених даних еталонного тесту класифікації.
Сімейство методів КЛВ можна легко узагальнити, а потім застосувати до різних інших задач, таких як виявлення викидів у географічних даних, відеопотоках або мережах авторства.
Переваги
Отримані значення є частками, і їх важко інтерпретувати. Значення 1 або навіть менше вказує на явне нормальне значення, але немає чіткого правила, коли точка є викидом. В одному наборі даних значення 1,1 уже може бути викидом, в іншому наборі даних і параметризації (із сильними локальними коливаннями) значення 2 все ще може бути викидом. Ці відмінності також можуть виникати всередині набору даних через локальність методу. Існують розширення КЛВ, які намагаються покращити КЛВ у таких аспектах:
- Feature Bagging for Outlier Detection запускає КЛВ на кількох проекціях і поєднує результати для покращення якості виявлення для багатовимірних даних. Це перший підхід ансамблевого навчання до виявлення викидів, інші варіанти див.
- Local Outlier Probability (LoOP) — це метод похідний від КЛВ, але з використанням недорогої локальної статистики, щоб бути менш чутливим до вибору параметра k . Також, отримані значення масштабуються до діапазону значень [0:1] .
- Interpreting and Unifying Outlier Scores пропонує нормалізацію показників КЛВ до інтервалу [0:1] за допомогою статистичного масштабування для підвищення зручності використання, і цей підхід можна розглядати, як вдосконалену версію ідей LoOP.
- У статті On Evaluation of Outlier Rankings and Outlier Scores пропонуються методи вимірювання подібності та різноманітності методів для побудови вдосконалених ансамблів виявлення викидів з використанням варіантів КЛВ та інших алгоритмів і вдосконалення підходу Feature Bagging, описаного вище.
- У статті Local outlier detection reconsidered: a generalized view on locality with applications to spatial, video, and network outlier detection обговорюється загальна схема в різних методах виявлення локальних викидів (включаючи, наприклад, КЛВ, спрощену версію КЛВ і LoOP), що дозволяє абстрагуватися та виокремити загальну структуру. Ця структура потім застосовується, наприклад, для виявлення викидів у географічних даних, відеопотоках і мережах авторства.
Примітки
- Breunig, M. M.; ; Ng, R. T.; Sander, J. (2000). LOF: Identifying Density-based Local Outliers (PDF). Proceedings of the 2000 ACM SIGMOD International Conference on Management of Data. . с. 93—104. doi:10.1145/335191.335388. ISBN .
- Breunig, M. M.; ; Ng, R. T.; Sander, J. R. (1999). OPTICS-OF: Identifying Local Outliers. Principles of Data Mining and Knowledge Discovery. Lecture Notes in Computer Science. Т. 1704. с. 262. doi:10.1007/978-3-540-48247-5_28. ISBN .
- Alpaydin, Ethem (2020). Introduction to machine learning (вид. Fourth). Cambridge, Massachusetts. ISBN . OCLC 1108782604.
- Schubert, E.; Zimek, A.; (2012). Local outlier detection reconsidered: A generalized view on locality with applications to spatial, video, and network outlier detection. Data Mining and Knowledge Discovery. 28: 190—237. doi:10.1007/s10618-012-0300-z.
- Lazarevic, A.; Ozgur, A.; Ertoz, L.; Srivastava, J.; Kumar, V. (2003). (PDF). Proc. 3rd SIAM International Conference on Data Mining: 25—36. Архів оригіналу (PDF) за 17 липня 2013. Процитовано 14 травня 2010.
- Campos, Guilherme O.; Zimek, Arthur; Sander, Jörg; Campello, Ricardo J. G. B.; Micenková, Barbora; Schubert, Erich; Assent, Ira; Houle, Michael E. (2016). On the evaluation of unsupervised outlier detection: measures, datasets, and an empirical study. Data Mining and Knowledge Discovery. 30 (4): 891—927. doi:10.1007/s10618-015-0444-8. ISSN 1384-5810.
- Lazarevic, A.; Kumar, V. (2005). Feature bagging for outlier detection. Proc. 11th ACM SIGKDD International Conference on Knowledge Discovery in Data Mining: 157—166. doi:10.1145/1081870.1081891. ISBN .
- Zimek, A.; Campello, R. J. G. B.; Sander, J. R. (2014). Ensembles for unsupervised outlier detection. ACM SIGKDD Explorations Newsletter. 15: 11—22. doi:10.1145/2594473.2594476.
- ; Kröger, P.; Schubert, E.; Zimek, A. (2009). LoOP: Local Outlier Probabilities (PDF). Proceedings of the 18th ACM Conference on Information and Knowledge Management. CIKM '09. с. 1649—1652. doi:10.1145/1645953.1646195. ISBN .
- ; Kröger, P.; Schubert, E.; Zimek, A. (2011). Interpreting and Unifying Outlier Scores. Proceedings of the 2011 SIAM International Conference on Data Mining. с. 13—24. CiteSeerX 10.1.1.232.2719. doi:10.1137/1.9781611972818.2. ISBN .
- Schubert, E.; Wojdanowski, R.; Zimek, A.; (2012). On Evaluation of Outlier Rankings and Outlier Scores. Proceedings of the 2012 SIAM International Conference on Data Mining. с. 1047—1058. CiteSeerX 10.1.1.300.7205. doi:10.1137/1.9781611972825.90. ISBN .
Вікіпедія, Українська, Україна, книга, книги, бібліотека, стаття, читати, завантажити, безкоштовно, безкоштовно завантажити, mp3, відео, mp4, 3gp, jpg, jpeg, gif, png, малюнок, музика, пісня, фільм, книга, гра, ігри, мобільний, телефон, android, ios, apple, мобільний телефон, samsung, iphone, xiomi, xiaomi, redmi, honor, oppo, nokia, sonya, mi, ПК, web, Інтернет
Koeficiyent lokalnogo vidhilennya KLV angl local outlier factor ce algoritm dlya viyavlennya anomalij Vin buv zaproponovanij Markusom M Brojnigom en Rajmondom T Ngom i Jorgom Sanderom u 2000 roci dlya poshuku anomalnih tochok danih shlyahom vimiryuvannya lokalnogo vidhilennya danoyi tochki danih po vidnoshennyu do susidnih tochok KLV vikoristovuye deyaki ponyattya z algoritmiv DBSCAN i OPTICS napriklad ponyattya vidstan do yadra i vidstan dostupnosti yaki vikoristovuyutsya dlya ocinki lokalnoyi shilnosti Osnovna ideyaOsnovna ideya KLV porivnyannya lokalnoyi shilnosti tochki z shilnistyu yiyi susidiv Tochka A maye nabagato menshu shilnist nizh yiyi susidi Koeficiyent lokalnogo vidhilennya bazuyetsya na koncepciyi lokalnoyi shilnosti de lokalnist viznachayetsya k najblizhchimi susidami vidstan do yakih vikoristovuyetsya dlya ocinki shilnosti Porivnyuyuchi lokalnu shilnist ob yekta z lokalnoyu shilnistyu jogo susidiv mozhna identifikuvati oblasti z podibnoyu shilnistyu ta tochki yaki mayut znachno nizhchu shilnist nizh yihni susidi Taki tochki vvazhayutsya vikidami Lokalna shilnist ocinyuyetsya za dopomogoyu tipovoyi vidstani na yakij mozhna dotyagnutisya do tochki vid yiyi susidiv Viznachennya vidstani dosyazhnosti sho vikoristovuyetsya v KLV ye dodatkovim zahodom dlya otrimannya bilsh stabilnih rezultativ u klasterah Vidstan dosyazhnosti yaku vikoristovuye KLV maye deyaki nyuansi yaki chasto viyavlyayutsya spotvorenimi u vtorinnih dzherelah napriklad u pidruchniku Etema Alpajdina Formalne viznachennyaNehaj k distance A viznachayetsya yak vidstan ob yekta A do k go najblizhchogo susida Zauvazhte sho mnozhina k najblizhchih susidiv vklyuchaye vsi ob yekti na cij vidstani yakih u vipadku rivnosti mozhut buti bilshe nizh k ob yektiv Poznachimo mnozhinu k najblizhchih susidiv yak Nk A Ilyustraciya vidstani dosyazhnosti Tochki B i C mayut odnakovu vidstan dosyazhnosti k 3 todi yak D ne ye k najblizhchim susidom Cya vidstan vikoristovuyetsya dlya viznachennya togo sho nazivayetsya vidstannyu dosyazhnosti reachability distance reachability distancek A B max k distance B d A B displaystyle mbox reachability distance k A B max mbox k distance B d A B Tobto vidstan dosyazhnosti ob yekta A vid B ye spravzhnoyu vidstannyu dvoh ob yektiv i ye shonajmenshe k vidstannyu vid B Ob yekti yaki nalezhat do k najblizhchih susidiv B yadro B div klasternij analiz DBSCAN vvazhayutsya odnakovo viddalenimi Prichinoyu cogo ye zmenshennya statistichnih fluktuacij mizh usima tochkami A poblizu B de zbilshennya znachennya k zbilshuye efekt zgladzhuvannya Zauvazhte sho ce ne vidstan u matematichnomu viznachenni oskilki vona ne ye simetrichnoyu Hocha zavzhdi vikoristovuvati k distance A ye poshirenoyu pomilkoyu ce daye desho inshij metod sproshenij KLV Lokalna shilnist dosyazhnosti ob yekta A viznachayetsya za dopomogoyu lrdk A 1 B Nk A reachability distancek A B Nk A displaystyle mbox lrd k A 1 left frac sum B in N k A mbox reachability distance k A B N k A right yaka ye obernenoyu do serednoyi vidstani dosyazhnosti ob yekta A vid jogo susidiv Zauvazhte sho ce ne serednya dosyazhnist susidiv z A yaka za viznachennyam bula b k distance A a vidstan na yakij tochka A mozhe buti dosyazhnoyu vid svoyih susidiv U vipadku dublyuvannya tochok ce znachennya mozhe stati neskinchennistyu Potim lokalna shilnist dosyazhnosti porivnyuyetsya z shilnistyu susidiv yaki vikoristovuyut LOFk A B Nk A lrd B lrd A Nk A B Nk A lrd B Nk A lrd A displaystyle mbox LOF k A frac sum B in N k A frac mbox lrd B mbox lrd A N k A frac sum B in N k A mbox lrd B N k A mbox lrd A ce serednya lokalna shilnist dosyazhnosti susidiv podilena na vlasnu lokalnu shilnist dosyazhnosti ob yekta Znachennya sho dorivnyuye priblizno 1 vkazuye na te sho ob yekt mozhna porivnyati zi svoyimi susidami i takim chinom ne ye vikidom Znachennya nizhche 1 vkazuye na bilsh shilnu oblast sho vkazuye na normalnu tochku todi yak znachennya znachno bilshi za 1 vkazuyut na vikidi LOF k 1 oznachaye Taka zh shilnist yak u susidiv LOF k lt 1 oznachaye Visha shilnist nizh u susidiv normalno tochka LOF k gt 1 oznachaye Nizhcha shilnist nizh u susidiv vikid PerevagiZnachennya KLV vizualizovani za dopomogoyu en Hocha verhnij pravij klaster maye shilnist porivnyannu z vikidami poblizu nizhnogo livogo klastera vikidi znahodyatsya pravilno Zavdyaki lokalnomu pidhodu KLV mozhe identifikuvati vikidi v nabori danih yaki ne buli b vikidami v inshij dilyanci naboru danih Napriklad tochka na malij vidstani do duzhe shilnogo klastera ye vikidom todi yak tochka v rozridzhenomu klasteri mozhe demonstruvati podibni vidstani do svoyih susidiv Hocha geometrichna intuyiciya KLV zastosovna lishe do vektornih prostoriv nizkoyi rozmirnosti algoritm mozhna zastosovuvati v bud yakomu konteksti de mozhna viznachiti funkciyu nepodibnosti Eksperimentalno bulo pokazano sho vin duzhe dobre pracyuye u bagatoh zastosunkah chasto perevershuyuchi konkurentiv napriklad u viyavlenni vtorgnen u merezhu ta na obroblenih danih etalonnogo testu klasifikaciyi Simejstvo metodiv KLV mozhna legko uzagalniti a potim zastosuvati do riznih inshih zadach takih yak viyavlennya vikidiv u geografichnih danih videopotokah abo merezhah avtorstva PerevagiOtrimani znachennya ye chastkami i yih vazhko interpretuvati Znachennya 1 abo navit menshe vkazuye na yavne normalne znachennya ale nemaye chitkogo pravila koli tochka ye vikidom V odnomu nabori danih znachennya 1 1 uzhe mozhe buti vikidom v inshomu nabori danih i parametrizaciyi iz silnimi lokalnimi kolivannyami znachennya 2 vse she mozhe buti vikidom Ci vidminnosti takozh mozhut vinikati vseredini naboru danih cherez lokalnist metodu Isnuyut rozshirennya KLV yaki namagayutsya pokrashiti KLV u takih aspektah Feature Bagging for Outlier Detection zapuskaye KLV na kilkoh proekciyah i poyednuye rezultati dlya pokrashennya yakosti viyavlennya dlya bagatovimirnih danih Ce pershij pidhid ansamblevogo navchannya do viyavlennya vikidiv inshi varianti div Local Outlier Probability LoOP ce metod pohidnij vid KLV ale z vikoristannyam nedorogoyi lokalnoyi statistiki shob buti mensh chutlivim do viboru parametra k Takozh otrimani znachennya masshtabuyutsya do diapazonu znachen 0 1 Interpreting and Unifying Outlier Scores proponuye normalizaciyu pokaznikiv KLV do intervalu 0 1 za dopomogoyu statistichnogo masshtabuvannya dlya pidvishennya zruchnosti vikoristannya i cej pidhid mozhna rozglyadati yak vdoskonalenu versiyu idej LoOP U statti On Evaluation of Outlier Rankings and Outlier Scores proponuyutsya metodi vimiryuvannya podibnosti ta riznomanitnosti metodiv dlya pobudovi vdoskonalenih ansambliv viyavlennya vikidiv z vikoristannyam variantiv KLV ta inshih algoritmiv i vdoskonalennya pidhodu Feature Bagging opisanogo vishe U statti Local outlier detection reconsidered a generalized view on locality with applications to spatial video and network outlier detection obgovoryuyetsya zagalna shema v riznih metodah viyavlennya lokalnih vikidiv vklyuchayuchi napriklad KLV sproshenu versiyu KLV i LoOP sho dozvolyaye abstraguvatisya ta viokremiti zagalnu strukturu Cya struktura potim zastosovuyetsya napriklad dlya viyavlennya vikidiv u geografichnih danih videopotokah i merezhah avtorstva PrimitkiBreunig M M Ng R T Sander J 2000 LOF Identifying Density based Local Outliers PDF Proceedings of the 2000 ACM SIGMOD International Conference on Management of Data s 93 104 doi 10 1145 335191 335388 ISBN 1 58113 217 4 Breunig M M Ng R T Sander J R 1999 OPTICS OF Identifying Local Outliers Principles of Data Mining and Knowledge Discovery Lecture Notes in Computer Science T 1704 s 262 doi 10 1007 978 3 540 48247 5 28 ISBN 978 3 540 66490 1 Alpaydin Ethem 2020 Introduction to machine learning vid Fourth Cambridge Massachusetts ISBN 978 0 262 04379 3 OCLC 1108782604 Schubert E Zimek A 2012 Local outlier detection reconsidered A generalized view on locality with applications to spatial video and network outlier detection Data Mining and Knowledge Discovery 28 190 237 doi 10 1007 s10618 012 0300 z Lazarevic A Ozgur A Ertoz L Srivastava J Kumar V 2003 PDF Proc 3rd SIAM International Conference on Data Mining 25 36 Arhiv originalu PDF za 17 lipnya 2013 Procitovano 14 travnya 2010 Campos Guilherme O Zimek Arthur Sander Jorg Campello Ricardo J G B Micenkova Barbora Schubert Erich Assent Ira Houle Michael E 2016 On the evaluation of unsupervised outlier detection measures datasets and an empirical study Data Mining and Knowledge Discovery 30 4 891 927 doi 10 1007 s10618 015 0444 8 ISSN 1384 5810 Lazarevic A Kumar V 2005 Feature bagging for outlier detection Proc 11th ACM SIGKDD International Conference on Knowledge Discovery in Data Mining 157 166 doi 10 1145 1081870 1081891 ISBN 159593135X Zimek A Campello R J G B Sander J R 2014 Ensembles for unsupervised outlier detection ACM SIGKDD Explorations Newsletter 15 11 22 doi 10 1145 2594473 2594476 Kroger P Schubert E Zimek A 2009 LoOP Local Outlier Probabilities PDF Proceedings of the 18th ACM Conference on Information and Knowledge Management CIKM 09 s 1649 1652 doi 10 1145 1645953 1646195 ISBN 978 1 60558 512 3 Kroger P Schubert E Zimek A 2011 Interpreting and Unifying Outlier Scores Proceedings of the 2011 SIAM International Conference on Data Mining s 13 24 CiteSeerX 10 1 1 232 2719 doi 10 1137 1 9781611972818 2 ISBN 978 0 89871 992 5 Schubert E Wojdanowski R Zimek A 2012 On Evaluation of Outlier Rankings and Outlier Scores Proceedings of the 2012 SIAM International Conference on Data Mining s 1047 1058 CiteSeerX 10 1 1 300 7205 doi 10 1137 1 9781611972825 90 ISBN 978 1 61197 232 0