В аналізі даних, ви́явленням анома́лій (або ви́явленням ви́кидів) називається знаходження та ідентифікація елементів, подій або спостережень, що не відповідають очікуваній поведінці (патернам) або іншим елементам набору даних. Інколи аномальні елементи можуть стати причиною багатьох проблем, наприклад: [en], медичні проблеми, проблеми пошуку помилок у тексті тощо. Аномалії також називають викидами, нововведеннями, шумами, відхиленнями та винятковими ситуаціями.
Зокрема, в контексті виявлення зловживань або вторгнень до мережі, цікавими об'єктами часто є не рідкісні об'єкти, а несподівані сплески активності. Ця модель (патерн) не дотримується загального статистичного визначення викиду як рідкісного об'єкту, і багато методів виявлення викидів (зокрема методи із некерованим навчанням) не працюватимуть на цих даних, якщо їх не буде відповідно агреговано. Натомість алгоритми кластерного аналізу будуть здатні виявити мікрокластери, утворені цими патернами.
Існують три основні категорії методів виявлення аномалій. Методи ви́явлення анома́лій без на́гляду (неконтрольовані алгоритми) визначають аномалії на непозначеному наборі даних, виходячи з припущення, що більшість зразків у цьому набору є нормальними, і шукаючи зразки, що виглядають якнайменше відповідними решті набору даних. Методи контрольо́ваного ви́явлення анома́лій вимагають набору даних, що позначено як «нормальні» або «аномальні», та включають навчання класифікатора (ключовою відмінністю від інших задач класифікації є притаманно незбалансований характер виявлення викидів). Методи напі́в-контрольо́ваного ви́явлення анома́лій створюють модель, що представляє нормальну поведінку, виходячи із заданого нормального навчального набору даних, і потім перевіряють правдоподібність того, що тестовий екземпляр було породжено вивченою моделлю.[]
Застосування
Виявлення аномалій може застосовуватися в багатьох галузях, таких як виявлення вторгнень, шахрайств, дефектів, моніторинг справності систем, виявлення подій у давачевих мережах та виявлення порушень екосистем. Його часто застосовують у попередній обробці для усунення аномальних даних з набору. В керованому навчанні усунення аномальних даних з набору призводить до статистично значимого покращення точності.
Популярні методи
В літературі було запропоновано різні методи виявлення аномалій. Деякими з популярних методів є:
- Методи на основі щільності (k найближчих сусідів,фактор локального відхилення, та багато інших варіацій цієї ідеї).
- Підмножинне та кореляційне виявлення викидів для багатовимірних даних.
- Однокласовий метод опорних векторів.
- [en].
- Відтворювальні штучні нейронні мережі.
- Виявлення викидів на базі кластерного аналізу.
- Відхилення від асоціативних правил та частих наборів даних.
- Виявлення викидів на базі нечіткої логіки.
- Ансамблеві методи з використанням [en], нормалізації оцінок та різних джерел відмінності.
Застосування в захисті даних
Використовувати виявлення аномалій в системах виявлення вторгнень було запропоновано [en] у 1986 році. Виявлення аномалій для систем виявлення вторгнень, як правило, здійснюється за допомогою порогових значень та статистики, але також може бути здійснюватися за допомогою та індуктивного навчання. Види статистичних даних, запропоновані в 1999 році, включають профілі користувачів, робочих станцій, мереж, віддалених хостів, груп користувачів, програми на базі частот, середніх значень, відхилень, коваріацій та стандартних відхилень. Двійником виявлення аномалій у системі виявлення вторгнень є [en].
Програмне забезпечення
- [en] — це Java-інструментарій з відкритим кодом для аналізу даних, що містить декілька алгоритмів виявлення аномалій, а також прискорення індексу для них.
Див. також
Посилання
- Chandola, V.; Banerjee, A.; Kumar, V. (2009). (PDF). [en]}. 41 (3): 1. doi:10.1145/1541880.1541882. Архів оригіналу (PDF) за 11 лютого 2014. Процитовано 22 червня 2015. (англ.)
- Hodge, V. J.; Austin, J. (2004). (PDF). Artificial Intelligence Review. 22 (2): 85. doi:10.1007/s10462-004-4304-y. Архів оригіналу (PDF) за 22 червня 2015. Процитовано 22 червня 2015. (англ.)
- Dokas, Paul; Ertoz, Levent; Kumar, Vipin; Lazarevic, Aleksandar; Srivastava, Jaideep; Tan, Pang-Ning (2002). (PDF). Proceedings NSF Workshop on Next Generation Data Mining. Архів оригіналу (PDF) за 23 вересня 2015. Процитовано 22 червня 2015. (англ.)
- Tomek, Ivan (1976). An Experiment with the Edited Nearest-Neighbor Rule. [en]. 6 (6): 448. doi:10.1109/TSMC.1976.4309523. (англ.)
- Smith, M. R.; Martinez, T. (2011). Improving classification accuracy by identifying and removing instances that should be misclassified. (PDF). с. 2690. doi:10.1109/IJCNN.2011.6033571. ISBN . Архів оригіналу (PDF) за 9 листопада 2016. Процитовано 22 червня 2015. (англ.)
- Knorr, E. M.; Ng, R. T.; Tucakov, V. (2000). Distance-based outliers: Algorithms and applications. The VLDB Journal the International Journal on Very Large Data Bases. 8 (3–4): 237. doi:10.1007/s007780050006. (англ.)
- Ramaswamy, S.; Rastogi, R.; Shim, K. (2000). Efficient algorithms for mining outliers from large data sets. Proceedings of the 2000 ACM SIGMOD international conference on Management of data - SIGMOD '00. с. 427. doi:10.1145/342009.335437. ISBN . (англ.)
- Angiulli, F.; Pizzuti, C. (2002). Fast Outlier Detection in High Dimensional Spaces. Principles of Data Mining and Knowledge Discovery. Lecture Notes in Computer Science. Т. 2431. с. 15. doi:10.1007/3-540-45681-3_2. ISBN . (англ.)
- Breunig, M. M.; ; Ng, R. T.; Sander, J. (2000). (PDF). Proceedings of the 2000 ACM SIGMOD International Conference on Management of Data. [en]. с. 93—104. doi:10.1145/335191.335388. ISBN . Архів оригіналу (PDF) за 23 вересня 2015. Процитовано 22 червня 2015. (англ.)
- Schubert, E.; Zimek, A.; Kriegel, H. -P. (2012). Local outlier detection reconsidered: A generalized view on locality with applications to spatial, video, and network outlier detection. Data Mining and Knowledge Discovery. doi:10.1007/s10618-012-0300-z. (англ.)
- ; Kröger, P.; Schubert, E.; Zimek, A. (2009). Outlier Detection in Axis-Parallel Subspaces of High Dimensional Data. Advances in Knowledge Discovery and Data Mining. Lecture Notes in Computer Science. Т. 5476. с. 831. doi:10.1007/978-3-642-01307-2_86. ISBN . (англ.)
- Kriegel, H. P.; Kroger, P.; Schubert, E.; Zimek, A. (2012). Outlier Detection in Arbitrarily Oriented Subspaces. 2012 IEEE 12th International Conference on Data Mining. с. 379. doi:10.1109/ICDM.2012.21. ISBN . (англ.)
- Zimek, A.; Schubert, E.; Kriegel, H.-P. (2012). A survey on unsupervised outlier detection in high-dimensional numerical data. Statistical Analysis and Data Mining. 5 (5): 363—387. doi:10.1002/sam.11161. (англ.)
- Schölkopf, B.; Platt, J. C.; Shawe-Taylor, J.; Smola, A. J.; Williamson, R. C. (2001). Estimating the Support of a High-Dimensional Distribution. Neural Computation. 13 (7): 1443. doi:10.1162/089976601750264965. (англ.)
- Liu, Fei Tony; Ting, Kai Ming; Zhou, Zhi-Hua (1 березня 2012). Isolation-Based Anomaly Detection. ACM Trans. Knowl. Discov. Data. Т. 6, № 1. с. 3:1–3:39. doi:10.1145/2133360.2133363. ISSN 1556-4681. Процитовано 13 травня 2017.
- Hawkins, Simon; He, Hongxing; Williams, Graham; Baxter, Rohan (2002). Outlier Detection Using Replicator Neural Networks. In Proc. of the Fifth Int. Conf. and Data Warehousing and Knowledge Discovery. с. 170—180. doi:10.1007/3-540-46145-0_17. (англ.)
- He, Z.; Xu, X.; Deng, S. (2003). Discovering cluster-based local outliers. Pattern Recognition Letters. 24 (9–10): 1641. doi:10.1016/S0167-8655(03)00003-5. (англ.)
- Lazarevic, A.; Kumar, V. (2005). Feature bagging for outlier detection. Proc. 11th ACM SIGKDD international conference on Knowledge Discovery in Data Mining: 157—166. doi:10.1145/1081870.1081891. (англ.)
- Nguyen, H. V.; Ang, H. H.; Gopalkrishnan, V. (2010). Mining Outliers with Ensemble of Heterogeneous Detectors on Random Subspaces. Database Systems for Advanced Applications. Lecture Notes in Computer Science. Т. 5981. с. 368. doi:10.1007/978-3-642-12026-8_29. ISBN . (англ.)
- Kriegel, H. P.; Kröger, P.; Schubert, E.; Zimek, A. (2011). . Proceedings of the 2011 SIAM International Conference on Data Mining. с. 13—24. doi:10.1137/1.9781611972818.2. ISBN . Архів оригіналу (PDF) за 12 червня 2019. Процитовано 22 червня 2015. (англ.)
- Schubert, E.; Wojdanowski, R.; Zimek, A.; Kriegel, H. P. (2012). . Proceedings of the 2012 SIAM International Conference on Data Mining. с. 1047—1058. doi:10.1137/1.9781611972825.90. ISBN . Архів оригіналу (PDF) за 16 червня 2019. Процитовано 22 червня 2015. (англ.)
- Zimek, A.; Campello, R. J. G. B.; Sander, J. R. (2014). Ensembles for unsupervised outlier detection. ACM SIGKDD Explorations Newsletter. 15: 11. doi:10.1145/2594473.2594476. (англ.)
- Zimek, A.; Campello, R. J. G. B.; Sander, J. R. (2014). Data perturbation for outlier detection ensembles. Proceedings of the 26th International Conference on Scientific and Statistical Database Management - SSDBM '14. с. 1. doi:10.1145/2618243.2618257. ISBN . (англ.)
- (1987). (PDF). [en] (2): 222. doi:10.1109/TSE.1987.232894. (CiteSeerX): 10.1.1.102.5127. Архів оригіналу (PDF) за 22 червня 2015. Процитовано 22 червня 2015. (англ.)
- Teng, H. S.; Chen, K.; Lu, S. C. (1990). Adaptive real-time anomaly detection using inductively generated sequential patterns (PDF). Proceedings of the IEEE Computer Society Symposium on Research in Security and Privacy: 278—284. doi:10.1109/RISP.1990.63857. ISBN .[недоступне посилання з березня 2019](англ.)
- Jones, Anita K.; Sielken, Robert S. (1999). Computer System Intrusion Detection: A Survey. Technical Report, Department of Computer Science, University of Virginia, Charlottesville, VA. (CiteSeerX): 10.1.1.24.7802. (англ.)
Література
- Chandola, V.; Banerjee, A.; Kumar, V. (2009). (PDF). [en]}. 41 (3): 1. doi:10.1145/1541880.1541882. Архів оригіналу (PDF) за 11 лютого 2014. Процитовано 22 червня 2015.
- Hodge, V. J.; Austin, J. (2004). A Survey of Outlier Detection Methodologies (PDF). Artificial Intelligence Review. 22 (2): 85. doi:10.1007/s10462-004-4304-y.
Посилання
- www.MachineLearning.ru — професійний вікі-ресурс, присвячений машинному навчання та інтелектуального аналізу даних (рос.)
- Костянтин Воронцов. Курс лекцій Математичні методи навчання за прецедентами [ 23 вересня 2015 у Wayback Machine.], МФТІ, 2004—2008 (рос.)
Це незавершена стаття зі штучного інтелекту. Ви можете проєкту, виправивши або дописавши її. |
Вікіпедія, Українська, Україна, книга, книги, бібліотека, стаття, читати, завантажити, безкоштовно, безкоштовно завантажити, mp3, відео, mp4, 3gp, jpg, jpeg, gif, png, малюнок, музика, пісня, фільм, книга, гра, ігри, мобільний, телефон, android, ios, apple, мобільний телефон, samsung, iphone, xiomi, xiaomi, redmi, honor, oppo, nokia, sonya, mi, ПК, web, Інтернет
V analizi danih vi yavlennyam anoma lij abo vi yavlennyam vi kidiv nazivayetsya znahodzhennya ta identifikaciya elementiv podij abo sposterezhen sho ne vidpovidayut ochikuvanij povedinci paternam abo inshim elementam naboru danih Inkoli anomalni elementi mozhut stati prichinoyu bagatoh problem napriklad en medichni problemi problemi poshuku pomilok u teksti tosho Anomaliyi takozh nazivayut vikidami novovvedennyami shumami vidhilennyami ta vinyatkovimi situaciyami Zokrema v konteksti viyavlennya zlovzhivan abo vtorgnen do merezhi cikavimi ob yektami chasto ye ne ridkisni ob yekti a nespodivani spleski aktivnosti Cya model patern ne dotrimuyetsya zagalnogo statistichnogo viznachennya vikidu yak ridkisnogo ob yektu i bagato metodiv viyavlennya vikidiv zokrema metodi iz nekerovanim navchannyam ne pracyuvatimut na cih danih yaksho yih ne bude vidpovidno agregovano Natomist algoritmi klasternogo analizu budut zdatni viyaviti mikroklasteri utvoreni cimi paternami Isnuyut tri osnovni kategoriyi metodiv viyavlennya anomalij Metodi vi yavlennya anoma lij bez na glyadu nekontrolovani algoritmi viznachayut anomaliyi na nepoznachenomu nabori danih vihodyachi z pripushennya sho bilshist zrazkiv u comu naboru ye normalnimi i shukayuchi zrazki sho viglyadayut yaknajmenshe vidpovidnimi reshti naboru danih Metodi kontrolo vanogo vi yavlennya anoma lij vimagayut naboru danih sho poznacheno yak normalni abo anomalni ta vklyuchayut navchannya klasifikatora klyuchovoyu vidminnistyu vid inshih zadach klasifikaciyi ye pritamanno nezbalansovanij harakter viyavlennya vikidiv Metodi napi v kontrolo vanogo vi yavlennya anoma lij stvoryuyut model sho predstavlyaye normalnu povedinku vihodyachi iz zadanogo normalnogo navchalnogo naboru danih i potim pereviryayut pravdopodibnist togo sho testovij ekzemplyar bulo porodzheno vivchenoyu modellyu dzherelo ZastosuvannyaViyavlennya anomalij mozhe zastosovuvatisya v bagatoh galuzyah takih yak viyavlennya vtorgnen shahrajstv defektiv monitoring spravnosti sistem viyavlennya podij u davachevih merezhah ta viyavlennya porushen ekosistem Jogo chasto zastosovuyut u poperednij obrobci dlya usunennya anomalnih danih z naboru V kerovanomu navchanni usunennya anomalnih danih z naboru prizvodit do statistichno znachimogo pokrashennya tochnosti Populyarni metodiV literaturi bulo zaproponovano rizni metodi viyavlennya anomalij Deyakimi z populyarnih metodiv ye Metodi na osnovi shilnosti k najblizhchih susidiv faktor lokalnogo vidhilennya ta bagato inshih variacij ciyeyi ideyi Pidmnozhinne ta korelyacijne viyavlennya vikidiv dlya bagatovimirnih danih Odnoklasovij metod opornih vektoriv en Vidtvoryuvalni shtuchni nejronni merezhi Viyavlennya vikidiv na bazi klasternogo analizu Vidhilennya vid asociativnih pravil ta chastih naboriv danih Viyavlennya vikidiv na bazi nechitkoyi logiki Ansamblevi metodi z vikoristannyam en normalizaciyi ocinok ta riznih dzherel vidminnosti Zastosuvannya v zahisti danihVikoristovuvati viyavlennya anomalij v sistemah viyavlennya vtorgnen bulo zaproponovano en u 1986 roci Viyavlennya anomalij dlya sistem viyavlennya vtorgnen yak pravilo zdijsnyuyetsya za dopomogoyu porogovih znachen ta statistiki ale takozh mozhe buti zdijsnyuvatisya za dopomogoyu ta induktivnogo navchannya Vidi statistichnih danih zaproponovani v 1999 roci vklyuchayut profili koristuvachiv robochih stancij merezh viddalenih hostiv grup koristuvachiv programi na bazi chastot serednih znachen vidhilen kovariacij ta standartnih vidhilen Dvijnikom viyavlennya anomalij u sistemi viyavlennya vtorgnen ye en Programne zabezpechennya en ce Java instrumentarij z vidkritim kodom dlya analizu danih sho mistit dekilka algoritmiv viyavlennya anomalij a takozh priskorennya indeksu dlya nih Div takozhVikid statistika en Iyerarhichna chasova pam yatPosilannyaChandola V Banerjee A Kumar V 2009 PDF en 41 3 1 doi 10 1145 1541880 1541882 Arhiv originalu PDF za 11 lyutogo 2014 Procitovano 22 chervnya 2015 angl Hodge V J Austin J 2004 PDF Artificial Intelligence Review 22 2 85 doi 10 1007 s10462 004 4304 y Arhiv originalu PDF za 22 chervnya 2015 Procitovano 22 chervnya 2015 angl Dokas Paul Ertoz Levent Kumar Vipin Lazarevic Aleksandar Srivastava Jaideep Tan Pang Ning 2002 PDF Proceedings NSF Workshop on Next Generation Data Mining Arhiv originalu PDF za 23 veresnya 2015 Procitovano 22 chervnya 2015 angl Tomek Ivan 1976 An Experiment with the Edited Nearest Neighbor Rule en 6 6 448 doi 10 1109 TSMC 1976 4309523 angl Smith M R Martinez T 2011 Improving classification accuracy by identifying and removing instances that should be misclassified PDF s 2690 doi 10 1109 IJCNN 2011 6033571 ISBN 978 1 4244 9635 8 Arhiv originalu PDF za 9 listopada 2016 Procitovano 22 chervnya 2015 angl Knorr E M Ng R T Tucakov V 2000 Distance based outliers Algorithms and applications The VLDB Journal the International Journal on Very Large Data Bases 8 3 4 237 doi 10 1007 s007780050006 angl Ramaswamy S Rastogi R Shim K 2000 Efficient algorithms for mining outliers from large data sets Proceedings of the 2000 ACM SIGMOD international conference on Management of data SIGMOD 00 s 427 doi 10 1145 342009 335437 ISBN 1581132174 angl Angiulli F Pizzuti C 2002 Fast Outlier Detection in High Dimensional Spaces Principles of Data Mining and Knowledge Discovery Lecture Notes in Computer Science T 2431 s 15 doi 10 1007 3 540 45681 3 2 ISBN 978 3 540 44037 6 angl Breunig M M Ng R T Sander J 2000 PDF Proceedings of the 2000 ACM SIGMOD International Conference on Management of Data en s 93 104 doi 10 1145 335191 335388 ISBN 1 58113 217 4 Arhiv originalu PDF za 23 veresnya 2015 Procitovano 22 chervnya 2015 angl Schubert E Zimek A Kriegel H P 2012 Local outlier detection reconsidered A generalized view on locality with applications to spatial video and network outlier detection Data Mining and Knowledge Discovery doi 10 1007 s10618 012 0300 z angl Kroger P Schubert E Zimek A 2009 Outlier Detection in Axis Parallel Subspaces of High Dimensional Data Advances in Knowledge Discovery and Data Mining Lecture Notes in Computer Science T 5476 s 831 doi 10 1007 978 3 642 01307 2 86 ISBN 978 3 642 01306 5 angl Kriegel H P Kroger P Schubert E Zimek A 2012 Outlier Detection in Arbitrarily Oriented Subspaces 2012 IEEE 12th International Conference on Data Mining s 379 doi 10 1109 ICDM 2012 21 ISBN 978 1 4673 4649 8 angl Zimek A Schubert E Kriegel H P 2012 A survey on unsupervised outlier detection in high dimensional numerical data Statistical Analysis and Data Mining 5 5 363 387 doi 10 1002 sam 11161 angl Scholkopf B Platt J C Shawe Taylor J Smola A J Williamson R C 2001 Estimating the Support of a High Dimensional Distribution Neural Computation 13 7 1443 doi 10 1162 089976601750264965 angl Liu Fei Tony Ting Kai Ming Zhou Zhi Hua 1 bereznya 2012 Isolation Based Anomaly Detection ACM Trans Knowl Discov Data T 6 1 s 3 1 3 39 doi 10 1145 2133360 2133363 ISSN 1556 4681 Procitovano 13 travnya 2017 Hawkins Simon He Hongxing Williams Graham Baxter Rohan 2002 Outlier Detection Using Replicator Neural Networks In Proc of the Fifth Int Conf and Data Warehousing and Knowledge Discovery s 170 180 doi 10 1007 3 540 46145 0 17 angl He Z Xu X Deng S 2003 Discovering cluster based local outliers Pattern Recognition Letters 24 9 10 1641 doi 10 1016 S0167 8655 03 00003 5 angl Lazarevic A Kumar V 2005 Feature bagging for outlier detection Proc 11th ACM SIGKDD international conference on Knowledge Discovery in Data Mining 157 166 doi 10 1145 1081870 1081891 angl Nguyen H V Ang H H Gopalkrishnan V 2010 Mining Outliers with Ensemble of Heterogeneous Detectors on Random Subspaces Database Systems for Advanced Applications Lecture Notes in Computer Science T 5981 s 368 doi 10 1007 978 3 642 12026 8 29 ISBN 978 3 642 12025 1 angl Kriegel H P Kroger P Schubert E Zimek A 2011 Proceedings of the 2011 SIAM International Conference on Data Mining s 13 24 doi 10 1137 1 9781611972818 2 ISBN 978 0 89871 992 5 Arhiv originalu PDF za 12 chervnya 2019 Procitovano 22 chervnya 2015 angl Schubert E Wojdanowski R Zimek A Kriegel H P 2012 Proceedings of the 2012 SIAM International Conference on Data Mining s 1047 1058 doi 10 1137 1 9781611972825 90 ISBN 978 1 61197 232 0 Arhiv originalu PDF za 16 chervnya 2019 Procitovano 22 chervnya 2015 angl Zimek A Campello R J G B Sander J R 2014 Ensembles for unsupervised outlier detection ACM SIGKDD Explorations Newsletter 15 11 doi 10 1145 2594473 2594476 angl Zimek A Campello R J G B Sander J R 2014 Data perturbation for outlier detection ensembles Proceedings of the 26th International Conference on Scientific and Statistical Database Management SSDBM 14 s 1 doi 10 1145 2618243 2618257 ISBN 9781450327220 angl 1987 PDF en 2 222 doi 10 1109 TSE 1987 232894 CiteSeerX 10 1 1 102 5127 Arhiv originalu PDF za 22 chervnya 2015 Procitovano 22 chervnya 2015 angl Teng H S Chen K Lu S C 1990 Adaptive real time anomaly detection using inductively generated sequential patterns PDF Proceedings of the IEEE Computer Society Symposium on Research in Security and Privacy 278 284 doi 10 1109 RISP 1990 63857 ISBN 0 8186 2060 9 nedostupne posilannya z bereznya 2019 angl Jones Anita K Sielken Robert S 1999 Computer System Intrusion Detection A Survey Technical Report Department of Computer Science University of Virginia Charlottesville VA CiteSeerX 10 1 1 24 7802 angl LiteraturaChandola V Banerjee A Kumar V 2009 PDF en 41 3 1 doi 10 1145 1541880 1541882 Arhiv originalu PDF za 11 lyutogo 2014 Procitovano 22 chervnya 2015 Hodge V J Austin J 2004 A Survey of Outlier Detection Methodologies PDF Artificial Intelligence Review 22 2 85 doi 10 1007 s10462 004 4304 y Posilannyawww MachineLearning ru profesijnij viki resurs prisvyachenij mashinnomu navchannya ta intelektualnogo analizu danih ros Kostyantin Voroncov Kurs lekcij Matematichni metodi navchannya za precedentami 23 veresnya 2015 u Wayback Machine MFTI 2004 2008 ros Ce nezavershena stattya zi shtuchnogo intelektu Vi mozhete dopomogti proyektu vipravivshi abo dopisavshi yiyi