Задача класифіка́ції — формалізована задача, яка містить множину об'єктів (ситуацій), поділених певним чином на класи. Задана скінченна множина об'єктів, для яких відомо, до яких класів вони належать. Ця множина називається вибіркою. До якого класу належать інші об'єкти невідомо. Необхідно побудувати такий алгоритм, який буде здатний класифікувати довільний об'єкт з вихідної множини.
Класифікувати об'єкт — означає, вказати номер (чи назву) класу, до якого належить цей об'єкт.
Класифікація об'єкта — номер або найменування класу, що видається алгоритмом класифікації в результаті його застосування до цього об'єкта.
В математичній статистиці задачі класифікації називаються також задачами дискретного аналізу. В машинному навчанні завдання класифікації вирішується, як правило, за допомогою методів штучної нейронної мережі при постановці експеримента у вигляді навчання з учителем.
Існують також інші способи постановки експерименту — навчання без вчителя, але вони використовуються для вирішення іншого завдання — кластеризації або таксономії. У цих завданнях поділ об'єктів навчальної вибірки на класи не задається, і потрібно класифікувати об'єкти тільки на основі їх подібності. У деяких прикладних областях, і навіть у самій математичній статистиці, через близькість завдань часто не відрізняють завдання кластеризації від завдання класифікації.
Деякі алгоритми для вирішення задач класифікації комбінують навчання з учителем і навчання без вчителя, наприклад, одна з версій нейронних мереж Кохонена — Мережі векторного квантування, яких навчають способом навчання з учителем.
Математичне формулювання завдання
Нехай — множина описів об'єктів, —множина номерів (чи назв) класів. Існує невідома цільова залежність- відображення , значення якої відомі лише на елементах скінченної навчальної вибірки . Потрібно побудувати алгоритм , здатний класифікувати довільний об'єкт .
Імовірнісне формулювання завдання
Загальнішим є імовірнісне формулювання завдання. Припускається, що множина пар «об'єкт, клас» є ймовірнісним простором з невідомою ймовірнісною мірою . Є скінченна навчальна вибірка спостережень , згенерована згідно з ймовірнісною мірою . Необхідно побудувати алгоритм , здатний класифікувати довільний об'єкт .
Простір характеристик
Характеристикою називається відображення , де — множина допустимих значень характеристики. Якщо задані характеристики , то вектор називається характеристичним описом об'єкта . Характеристики можна ототожнювати із самими об'єктами. При цьому множину називають простором характеристик.
Залежно від множини характеристики поділяються на такі типи:
- Бінарні характеристики: ;
- Номінальні характеристики: — скінченна множина;
- Порядкові характеристики: — скінченна впорядкована множина;
- Кількісні характеристики: — множина дійсних чисел.
Часто зустрічаються прикладні задачі з різнотипними характеристиками, для їх вирішення підходять далеко не всі методи.
Типи задач класифікації
Типи вхідних даних
- Характеристичний опис — найпоширеніший випадок. Кожен об'єкт описується набором своїх характеристик, які називаються ознаками. Ознаки можуть бути числовими або нечисловими.
- Матриця відстаней між об'єктами. Кожен об'єкт описується відстанями до всіх інших об'єктів навчальної вибірки. З цим типом вхідних даних працюють деякі методи, зокрема, метод найближчих сусідів, метод потенційних функцій.
- Часовий ряд або сигнал є послідовність вимірів у часі. Кожен вимір може представлятися числом, вектором, а в загальному випадку — характеристичним описом досліджуваного об'єкта в цей час часу.
- Зображення або відеоряд.
- Зустрічаються і складніші випадки, коли вхідні дані представляються у вигляді графів, текстів, результатів запитів до бази даних, і т. д. Як правило, вони приводяться до першого або другого випадку шляхом попередньої обробки даних та вилучення характеристик.
Класифікацію сигналів та зображень називають також розпізнаванням образів.
Типи класів
- Двокласова класифікація. Найпростіший в технічному відношенні випадок, який служить основою для вирішення складніших завдань.
- Багатокласова класифікація. Коли число класів досягає багатьох тисяч (наприклад, при розпізнаванні ієрогліфів або злитого мовлення), завдання класифікації стає істотно важчим.
- Непересічні класи.
- Пересічні класи. Об'єкт може належати одночасно до декількох класів.
- Нечіткі класи. Потрібно визначати ступінь належності об'єкта кожному з класів, звичайно це дійсне число від 0 до 1.
Див. також
Посилання
- www.MachineLearning.ru — професійний вікі-ресурс, присвячений машинному навчання та інтелектуального аналізу даних
- Костянтин Воронцов. Курс лекцій Математичні методи навчання за прецедентами [ 23 вересня 2015 у Wayback Machine.], МФТІ, 2004–2008
- Юрій Ліфшиц. Автоматична класифікація текстів [ 13 січня 2020 у Wayback Machine.] (Слайди) — лекція № 6 з курсу «Алгоритми для Інтернету» [ 15 жовтня 2008 у Wayback Machine.]
- kNN і Потенційна енергія [ 19 січня 2012 у Wayback Machine.] (аплет), і університет Лейстера
Література
- Айвазян С. А., Бухштабер В. М., Енюков И. С., Мешалкин Л. Д. Прикладная статистика: классификация и снижение размерности. — М.: Финансы и статистика, 1989.
- Вапник В. Н. Восстановление зависимостей по эмпирическим данным. — М.: Наука, 1979.
- , Рязанов В. В., Сенько О. В. «Распознавание». Математические методы. Программная система. Практические применения. — М.: Фазис, 2006. .
- Загоруйко Н. Г. Прикладные методы анализа данных и знаний. — Новосибирск: ИМ СО РАН, 1999. .
- Паклин Н. Б., Орешков В. И. Бизнес-аналитика: от данных к знаниям (+ CD). [ 7 грудня 2011 у Wayback Machine.] -СПб: Питер, 2009.
- Шлезингер М., Главач В. Десять лекций по статистическому и структурному распознаванию. — Киев: Наукова думка, 2004. .
- Mitchell T. Machine Learning. — McGraw-Hill Science/Engineering/Math, 1997. .
Вікіпедія, Українська, Україна, книга, книги, бібліотека, стаття, читати, завантажити, безкоштовно, безкоштовно завантажити, mp3, відео, mp4, 3gp, jpg, jpeg, gif, png, малюнок, музика, пісня, фільм, книга, гра, ігри, мобільний, телефон, android, ios, apple, мобільний телефон, samsung, iphone, xiomi, xiaomi, redmi, honor, oppo, nokia, sonya, mi, ПК, web, Інтернет
Zadacha klasifika ciyi formalizovana zadacha yaka mistit mnozhinu ob yektiv situacij podilenih pevnim chinom na klasi Zadana skinchenna mnozhina ob yektiv dlya yakih vidomo do yakih klasiv voni nalezhat Cya mnozhina nazivayetsya vibirkoyu Do yakogo klasu nalezhat inshi ob yekti nevidomo Neobhidno pobuduvati takij algoritm yakij bude zdatnij klasifikuvati dovilnij ob yekt z vihidnoyi mnozhini Klasifikuvati ob yekt oznachaye vkazati nomer chi nazvu klasu do yakogo nalezhit cej ob yekt Klasifikaciya ob yekta nomer abo najmenuvannya klasu sho vidayetsya algoritmom klasifikaciyi v rezultati jogo zastosuvannya do cogo ob yekta V matematichnij statistici zadachi klasifikaciyi nazivayutsya takozh zadachami diskretnogo analizu V mashinnomu navchanni zavdannya klasifikaciyi virishuyetsya yak pravilo za dopomogoyu metodiv shtuchnoyi nejronnoyi merezhi pri postanovci eksperimenta u viglyadi navchannya z uchitelem Isnuyut takozh inshi sposobi postanovki eksperimentu navchannya bez vchitelya ale voni vikoristovuyutsya dlya virishennya inshogo zavdannya klasterizaciyi abo taksonomiyi U cih zavdannyah podil ob yektiv navchalnoyi vibirki na klasi ne zadayetsya i potribno klasifikuvati ob yekti tilki na osnovi yih podibnosti U deyakih prikladnih oblastyah i navit u samij matematichnij statistici cherez blizkist zavdan chasto ne vidriznyayut zavdannya klasterizaciyi vid zavdannya klasifikaciyi Deyaki algoritmi dlya virishennya zadach klasifikaciyi kombinuyut navchannya z uchitelem i navchannya bez vchitelya napriklad odna z versij nejronnih merezh Kohonena Merezhi vektornogo kvantuvannya yakih navchayut sposobom navchannya z uchitelem Matematichne formulyuvannya zavdannyaNehaj X displaystyle X mnozhina opisiv ob yektiv Y displaystyle Y mnozhina nomeriv chi nazv klasiv Isnuye nevidoma cilova zalezhnist vidobrazhennya y X Y displaystyle y colon X to Y znachennya yakoyi vidomi lishe na elementah skinchennoyi navchalnoyi vibirki X m x 1 y 1 x m y m displaystyle X m x 1 y 1 dots x m y m Potribno pobuduvati algoritm a X Y displaystyle a colon X to Y zdatnij klasifikuvati dovilnij ob yekt x X displaystyle x in X Imovirnisne formulyuvannya zavdannya Zagalnishim ye imovirnisne formulyuvannya zavdannya Pripuskayetsya sho mnozhina par ob yekt klas X Y displaystyle X times Y ye jmovirnisnim prostorom z nevidomoyu jmovirnisnoyu miroyu P displaystyle mathsf P Ye skinchenna navchalna vibirka sposterezhen X m x 1 y 1 x m y m displaystyle X m x 1 y 1 dots x m y m zgenerovana zgidno z jmovirnisnoyu miroyu P displaystyle mathsf P Neobhidno pobuduvati algoritm a X Y displaystyle a colon X to Y zdatnij klasifikuvati dovilnij ob yekt x X displaystyle x in X Prostir harakteristik Harakteristikoyu nazivayetsya vidobrazhennya f X D f displaystyle f colon X to D f de D f displaystyle D f mnozhina dopustimih znachen harakteristiki Yaksho zadani harakteristiki f 1 f n displaystyle f 1 dots f n to vektor x f 1 x f n x displaystyle mathbf x f 1 x dots f n x nazivayetsya harakteristichnim opisom ob yekta x X displaystyle x in X Harakteristiki mozhna ototozhnyuvati iz samimi ob yektami Pri comu mnozhinu X D f 1 D f n displaystyle X D f 1 times dots times D f n nazivayut prostorom harakteristik Zalezhno vid mnozhini D f displaystyle D f harakteristiki podilyayutsya na taki tipi Binarni harakteristiki D f 0 1 displaystyle D f 0 1 Nominalni harakteristiki D f displaystyle D f skinchenna mnozhina Poryadkovi harakteristiki D f displaystyle D f skinchenna vporyadkovana mnozhina Kilkisni harakteristiki D f displaystyle D f mnozhina dijsnih chisel Chasto zustrichayutsya prikladni zadachi z riznotipnimi harakteristikami dlya yih virishennya pidhodyat daleko ne vsi metodi Tipi zadach klasifikaciyiTipi vhidnih danih Harakteristichnij opis najposhirenishij vipadok Kozhen ob yekt opisuyetsya naborom svoyih harakteristik yaki nazivayutsya oznakami Oznaki mozhut buti chislovimi abo nechislovimi Matricya vidstanej mizh ob yektami Kozhen ob yekt opisuyetsya vidstanyami do vsih inshih ob yektiv navchalnoyi vibirki Z cim tipom vhidnih danih pracyuyut deyaki metodi zokrema metod najblizhchih susidiv metod potencijnih funkcij Chasovij ryad abo signal ye poslidovnist vimiriv u chasi Kozhen vimir mozhe predstavlyatisya chislom vektorom a v zagalnomu vipadku harakteristichnim opisom doslidzhuvanogo ob yekta v cej chas chasu Zobrazhennya abo videoryad Zustrichayutsya i skladnishi vipadki koli vhidni dani predstavlyayutsya u viglyadi grafiv tekstiv rezultativ zapitiv do bazi danih i t d Yak pravilo voni privodyatsya do pershogo abo drugogo vipadku shlyahom poperednoyi obrobki danih ta viluchennya harakteristik Klasifikaciyu signaliv ta zobrazhen nazivayut takozh rozpiznavannyam obraziv Tipi klasiv Dvoklasova klasifikaciya Najprostishij v tehnichnomu vidnoshenni vipadok yakij sluzhit osnovoyu dlya virishennya skladnishih zavdan Bagatoklasova klasifikaciya Koli chislo klasiv dosyagaye bagatoh tisyach napriklad pri rozpiznavanni iyeroglifiv abo zlitogo movlennya zavdannya klasifikaciyi staye istotno vazhchim Neperesichni klasi Peresichni klasi Ob yekt mozhe nalezhati odnochasno do dekilkoh klasiv Nechitki klasi Potribno viznachati stupin nalezhnosti ob yekta kozhnomu z klasiv zvichajno ce dijsne chislo vid 0 do 1 Div takozhRozpiznavannya obraziv Nayivnij bayesiv klasifikator Klasifikaciya tekstiv 1R algoritmPosilannyawww MachineLearning ru profesijnij viki resurs prisvyachenij mashinnomu navchannya ta intelektualnogo analizu danih Kostyantin Voroncov Kurs lekcij Matematichni metodi navchannya za precedentami 23 veresnya 2015 u Wayback Machine MFTI 2004 2008 Yurij Lifshic Avtomatichna klasifikaciya tekstiv 13 sichnya 2020 u Wayback Machine Slajdi lekciya 6 z kursu Algoritmi dlya Internetu 15 zhovtnya 2008 u Wayback Machine kNN i Potencijna energiya 19 sichnya 2012 u Wayback Machine aplet i universitet LejsteraLiteraturaAjvazyan S A Buhshtaber V M Enyukov I S Meshalkin L D Prikladnaya statistika klassifikaciya i snizhenie razmernosti M Finansy i statistika 1989 Vapnik V N Vosstanovlenie zavisimostej po empiricheskim dannym M Nauka 1979 Ryazanov V V Senko O V Raspoznavanie Matematicheskie metody Programmnaya sistema Prakticheskie primeneniya M Fazis 2006 ISBN 5 7036 0108 8 Zagorujko N G Prikladnye metody analiza dannyh i znanij Novosibirsk IM SO RAN 1999 ISBN 5 86134 060 9 Paklin N B Oreshkov V I Biznes analitika ot dannyh k znaniyam CD 7 grudnya 2011 u Wayback Machine SPb Piter 2009 ISBN 978 5 49807 257 9 Shlezinger M Glavach V Desyat lekcij po statisticheskomu i strukturnomu raspoznavaniyu Kiev Naukova dumka 2004 ISBN 966 00 0341 2 Mitchell T Machine Learning McGraw Hill Science Engineering Math 1997 ISBN 0 07 042807 7