У машинному навчанні навчання за набором зразків (ННЗ) — це тип керованого навчання. Замість того, щоб отримувати множину екземплярів, кожен з яких розмічений, учень отримує множину мічених мішків, кожен з яких містить багато екземплярів. У простому випадку двійкової класифікації мішок може бути позначений негативним, якщо всі екземпляри в ньому негативні. З іншого боку, мішок позначається позитивним, якщо в ньому є хоча б один екземпляр, який є позитивним. Для множини мішків із мітками, учень намагається або (i) вивести концепцію, яка правильно позначить окремі екземпляри, або (ii) навчитися маркувати мішки, без виведення цього поняття.
Бабенко (2008) наводить простий приклад для ННЗ. Уявіть кілька людей, і кожен з них має брелок з ключами. Деякі з цих людей можуть увійти до певної кімнати, а деякі — ні. Завдання полягає в тому, щоб передбачити, чи певний ключ або певний брелок дозволить Вам потрапити до цієї кімнати. Для вирішення цієї проблеми нам потрібно знайти точний ключ, який є спільним для всіх «позитивних» брелоків. Якщо ми можемо правильно визначити цей ключ, ми також можемо правильно класифікувати будь-який брелок — він буде ідентифікований як позитивний, якщо він містить необхідний ключ, або негативний, якщо такого немає.
Машинне навчання
Залежно від типу та варіації даних для навчання, машинне навчання може бути умовно класифіковано на три частини: кероване навчання, некероване навчання та навчання з підкріпленням. Навчання за набором зразків (ННЗ) підпадає під визначення керованого навчання, де кожен навчальний екземпляр має мітку — або дискретну або дійснозначну. ННЗ розглядає проблеми з неповними знаннями міток у навчальних наборах. Точніше, у навчанні за набором зразків навчальний набір складається з міток «мішка», кожен з яких є сукупністю нерозмічених екземплярів. Мішок позначається як позитивний, якщо хоча б один екземпляр у ньому є позитивним, і позначається негативно, якщо всі екземпляри в ньому негативні. Мета ННЗ — передбачити розмітку для нових мішків, які раніше не зустрічались.
Історія
Кєлєр (Keeler) та ін. у своїй роботі на початку 1990-х вперше досліджували ННЗ. Термін навчання за набором зразків був введений у середині 1990-х, Дітріхом (Dietterich) та іншими, коли вони досліджували проблему прогнозування активності медичних препаратів. Вони намагалися створити навчальні системи, які могли б передбачити, чи пасує нова молекула для виготовлення якогось препарату, чи ні, проаналізувавши колекцію відомих молекул. Молекули можуть мати багато змінних взаємовиключних низькоенергетичних станів, але лише одна, або декілька з них, пасують для виготовлення препарату. Проблема виникла через те, що вчені могли лише визначити, чи пасує молекула чи ні, але вони не могли точно сказати, який з її низькоенергетичних станів відповідає за це.
Одним із способів вирішення проблеми використовував кероване навчання та розглядав всі низькоенергетичні форми молекули, яка пасує, у якості позитивних випадків навчання, тоді як усі низькоенергетичні форми молекул, які не пасують, розглядаються як негативні випадки. Дітріх з групою авторів показали, що такий метод матиме високий хибний позитивний шум від усіх низькоенергетичних форм, які неправильно позначаються як позитивні, і таким чином не був дуже корисним. Їх підхід полягав у тому, щоб розцінювати кожну молекулу як мічений мішок, а всі альтернативні низькоенергетичні форми цієї молекули як екземпляри в мішку, без окремих міток. Таким чином формулювалось навчання за набором зразків.
Дітерх та ін. для навчання за набором зразків запропонували алгоритм з використанням прямокутників сторони яких паралельними осям (англ. axis-parallel rectangle, APR). Алгоритм шукає відповідні прямокутники зі сторонами паралельними вісям, які побудовані шляхом сполучення ознак. Автори алгоритму перевіряли його роботу на наборі даних Musk, який є конкретними тестовими даними прогнозування активності медичних препаратів і найбільш популярним еталоном у навчанні з кількома примірниками. Алгоритм APR досягає найкращого результату, але, варто враховувати, що він був розроблений з орієнтацією на набір даних Musk.
Проблема пошуку медичних препаратів, не єдина, яку розв'язують навчанням за набором зразків. У 1998 році Марон і Ратан застосували навчання за набором зразків до класифікації сцен в машинному зорі та розробили каркас Diverse Density. Для заданого зображення, зразком вважається один або декілька його фрагментів фіксованого розміру, а мішком зі зразками є ціле зображення. Зображення позначається позитивним, якщо воно містить цільову сцену — наприклад, водоспад — і негативно в іншому випадку. Навчання за набором зразків може бути використане для вивчення властивостей фрагментів зображення, які характеризують цільову сцену. Відтепер цей каркас використовують у широкому спектрі додатків, починаючи від навчання концепції зображення та категоризації тексту, до прогнозування фондового ринку.
Примітки
- Babenko, Boris. «Multiple instance learning: algorithms and applications.» View Article PubMed/NCBI Google Scholar (2008).
- Keeler, James D., David E. Rumelhart, and Wee-Kheng Leow. Integrated Segmentation and Recognition of Hand-Printed Numerals. Microelectronics and Computer Technology Corporation, 1991.
- Dietterich, Thomas G., Richard H. Lathrop, and Tomás Lozano-Pérez. «Solving the multiple instance problem with axis-parallel rectangles.» Artificial intelligence 89.1 (1997): 31-71.
- C. Blake, E. Keogh, and C.J. Merz. UCI repository of machine learning databases [недоступне посилання з 01.02.2018], Department of Information and Computer Science, University of California, Irvine, CA, 1998.
- O. Maron and A.L. Ratan. Multiple-instance learning for natural scene classification. In Proceedings of the 15th International Conference on Machine Learning, Madison, WI, pp.341–349, 1998.
Вікіпедія, Українська, Україна, книга, книги, бібліотека, стаття, читати, завантажити, безкоштовно, безкоштовно завантажити, mp3, відео, mp4, 3gp, jpg, jpeg, gif, png, малюнок, музика, пісня, фільм, книга, гра, ігри, мобільний, телефон, android, ios, apple, мобільний телефон, samsung, iphone, xiomi, xiaomi, redmi, honor, oppo, nokia, sonya, mi, ПК, web, Інтернет
U mashinnomu navchanni navchannya za naborom zrazkiv NNZ ce tip kerovanogo navchannya Zamist togo shob otrimuvati mnozhinu ekzemplyariv kozhen z yakih rozmichenij uchen otrimuye mnozhinu michenih mishkiv kozhen z yakih mistit bagato ekzemplyariv U prostomu vipadku dvijkovoyi klasifikaciyi mishok mozhe buti poznachenij negativnim yaksho vsi ekzemplyari v nomu negativni Z inshogo boku mishok poznachayetsya pozitivnim yaksho v nomu ye hocha b odin ekzemplyar yakij ye pozitivnim Dlya mnozhini mishkiv iz mitkami uchen namagayetsya abo i vivesti koncepciyu yaka pravilno poznachit okremi ekzemplyari abo ii navchitisya markuvati mishki bez vivedennya cogo ponyattya Babenko 2008 navodit prostij priklad dlya NNZ Uyavit kilka lyudej i kozhen z nih maye brelok z klyuchami Deyaki z cih lyudej mozhut uvijti do pevnoyi kimnati a deyaki ni Zavdannya polyagaye v tomu shob peredbachiti chi pevnij klyuch abo pevnij brelok dozvolit Vam potrapiti do ciyeyi kimnati Dlya virishennya ciyeyi problemi nam potribno znajti tochnij klyuch yakij ye spilnim dlya vsih pozitivnih brelokiv Yaksho mi mozhemo pravilno viznachiti cej klyuch mi takozh mozhemo pravilno klasifikuvati bud yakij brelok vin bude identifikovanij yak pozitivnij yaksho vin mistit neobhidnij klyuch abo negativnij yaksho takogo nemaye Mashinne navchannyaZalezhno vid tipu ta variaciyi danih dlya navchannya mashinne navchannya mozhe buti umovno klasifikovano na tri chastini kerovane navchannya nekerovane navchannya ta navchannya z pidkriplennyam Navchannya za naborom zrazkiv NNZ pidpadaye pid viznachennya kerovanogo navchannya de kozhen navchalnij ekzemplyar maye mitku abo diskretnu abo dijsnoznachnu NNZ rozglyadaye problemi z nepovnimi znannyami mitok u navchalnih naborah Tochnishe u navchanni za naborom zrazkiv navchalnij nabir skladayetsya z mitok mishka kozhen z yakih ye sukupnistyu nerozmichenih ekzemplyariv Mishok poznachayetsya yak pozitivnij yaksho hocha b odin ekzemplyar u nomu ye pozitivnim i poznachayetsya negativno yaksho vsi ekzemplyari v nomu negativni Meta NNZ peredbachiti rozmitku dlya novih mishkiv yaki ranishe ne zustrichalis IstoriyaKyelyer Keeler ta in u svoyij roboti na pochatku 1990 h vpershe doslidzhuvali NNZ Termin navchannya za naborom zrazkiv buv vvedenij u seredini 1990 h Ditrihom Dietterich ta inshimi koli voni doslidzhuvali problemu prognozuvannya aktivnosti medichnih preparativ Voni namagalisya stvoriti navchalni sistemi yaki mogli b peredbachiti chi pasuye nova molekula dlya vigotovlennya yakogos preparatu chi ni proanalizuvavshi kolekciyu vidomih molekul Molekuli mozhut mati bagato zminnih vzayemoviklyuchnih nizkoenergetichnih staniv ale lishe odna abo dekilka z nih pasuyut dlya vigotovlennya preparatu Problema vinikla cherez te sho vcheni mogli lishe viznachiti chi pasuye molekula chi ni ale voni ne mogli tochno skazati yakij z yiyi nizkoenergetichnih staniv vidpovidaye za ce Odnim iz sposobiv virishennya problemi vikoristovuvav kerovane navchannya ta rozglyadav vsi nizkoenergetichni formi molekuli yaka pasuye u yakosti pozitivnih vipadkiv navchannya todi yak usi nizkoenergetichni formi molekul yaki ne pasuyut rozglyadayutsya yak negativni vipadki Ditrih z grupoyu avtoriv pokazali sho takij metod matime visokij hibnij pozitivnij shum vid usih nizkoenergetichnih form yaki nepravilno poznachayutsya yak pozitivni i takim chinom ne buv duzhe korisnim Yih pidhid polyagav u tomu shob rozcinyuvati kozhnu molekulu yak michenij mishok a vsi alternativni nizkoenergetichni formi ciyeyi molekuli yak ekzemplyari v mishku bez okremih mitok Takim chinom formulyuvalos navchannya za naborom zrazkiv Diterh ta in dlya navchannya za naborom zrazkiv zaproponuvali algoritm z vikoristannyam pryamokutnikiv storoni yakih paralelnimi osyam angl axis parallel rectangle APR Algoritm shukaye vidpovidni pryamokutniki zi storonami paralelnimi visyam yaki pobudovani shlyahom spoluchennya oznak Avtori algoritmu pereviryali jogo robotu na nabori danih Musk yakij ye konkretnimi testovimi danimi prognozuvannya aktivnosti medichnih preparativ i najbilsh populyarnim etalonom u navchanni z kilkoma primirnikami Algoritm APR dosyagaye najkrashogo rezultatu ale varto vrahovuvati sho vin buv rozroblenij z oriyentaciyeyu na nabir danih Musk Problema poshuku medichnih preparativ ne yedina yaku rozv yazuyut navchannyam za naborom zrazkiv U 1998 roci Maron i Ratan zastosuvali navchannya za naborom zrazkiv do klasifikaciyi scen v mashinnomu zori ta rozrobili karkas Diverse Density Dlya zadanogo zobrazhennya zrazkom vvazhayetsya odin abo dekilka jogo fragmentiv fiksovanogo rozmiru a mishkom zi zrazkami ye cile zobrazhennya Zobrazhennya poznachayetsya pozitivnim yaksho vono mistit cilovu scenu napriklad vodospad i negativno v inshomu vipadku Navchannya za naborom zrazkiv mozhe buti vikoristane dlya vivchennya vlastivostej fragmentiv zobrazhennya yaki harakterizuyut cilovu scenu Vidteper cej karkas vikoristovuyut u shirokomu spektri dodatkiv pochinayuchi vid navchannya koncepciyi zobrazhennya ta kategorizaciyi tekstu do prognozuvannya fondovogo rinku PrimitkiBabenko Boris Multiple instance learning algorithms and applications View Article PubMed NCBI Google Scholar 2008 Keeler James D David E Rumelhart and Wee Kheng Leow Integrated Segmentation and Recognition of Hand Printed Numerals Microelectronics and Computer Technology Corporation 1991 Dietterich Thomas G Richard H Lathrop and Tomas Lozano Perez Solving the multiple instance problem with axis parallel rectangles Artificial intelligence 89 1 1997 31 71 C Blake E Keogh and C J Merz UCI repository of machine learning databases nedostupne posilannya z 01 02 2018 Department of Information and Computer Science University of California Irvine CA 1998 O Maron and A L Ratan Multiple instance learning for natural scene classification In Proceedings of the 15th International Conference on Machine Learning Madison WI pp 341 349 1998