Керо́ване навча́ння, контрольо́ване навча́ння, навча́ння під на́глядом, або навча́ння з учи́телем (англ. supervised learning, SL) — це парадигма машинного навчання, в якій модель тренують об'єкти входу (наприклад, вектор змінних-передбачувачів) та бажане значення виходу (також відоме як мічений людиною керівний сигнал, англ. supervisory signal). Ці тренувальні дані обробляються, будуючи функцію, яка відображує нові дані на очікувані значення виходу. Оптимальний сценарій дозволятиме алгоритмові правильно визначати значення виходу для небачених примірників. Це вимагає, щоб алгоритм навчання узагальнювався з тренувальних даних на небачені ситуації «розумним» чином (див. [en]). Цю статистичну якість алгоритму вимірюють через так звану похибку узагальнення.
Кроки для виконання
Щоби розв'язати задану задачу керованого навчання, слід виконати наступні кроки:
- Визначити тип тренувальних прикладів. Перш ніж робити щось інше, користувач повинен вирішити, який тип даних використовувати як тренувальний набір. У випадку аналізу рукописного тексту, наприклад, це може бути один рукописний символ, ціле рукописне слово, ціле речення рукописного тексту або, можливо, повний абзац рукописного тексту.
- Зібрати тренувальний набір (англ. training set). Він повинен бути репрезентативним для реального використання функції. Таким чином, збирають набір об'єктів входу, а також збирають відповідні дані виходу, або від людей-експертів, або з вимірювань.
- Визначити подання ознак (англ. features) входу навчаної функції. Точність навченої функції сильно залежить від того, як подано об'єкт входу. Як правило, вхідний об'єкт перетворюють на вектор ознак, що містить низку ознак, які описують об'єкт. Кількість ознак не повинна бути занадто великою через прокляття розмірності; але повинна містити достатньо інформації для точного передбачування виходу.
- Визначити структуру навчаної функції та відповідний алгоритм навчання. Наприклад, інженер може обрати використання опорновекторних машин чи дерев рішень.
- Завершити розробку. Виконати алгоритм навчання на зібраному тренувальному наборі. Деякі алгоритми керованого навчання вимагають від користувача визначення певних керівних параметрів. Ці параметри можна налаштувати, оптимізуючи продуктивність на підмножині тренувального набору (званій затверджувальним набором, англ. validation set), або за допомогою перехресного затверджування (англ. cross-validation).
- Оцінити точність навченої функції. Після налаштування параметрів та навчання продуктивність отриманої в результаті функції повинно бути виміряно на випробувальному наборі (англ. test set), окремому від тренувального.
Вибір алгоритму
Доступний широкий спектр алгоритмів керованого навчання, кожен із яких має свої сильні та слабкі сторони. Єдиного алгоритму навчання, який працює найкраще з усіма задачами керованого навчання, не існує (див. теорему про неіснування безкоштовних обідів).
У керованім навчанні слід враховувати чотири основні питання:
Компроміс зміщення та дисперсії
Перше питання це компроміс між зміщенням (англ. bias) та дисперсією (англ. variance). Уявімо, що ми маємо кілька різних, але однаково добрих тренувальних наборів даних. Алгоритм навчання зміщений для певного входу , якщо при тренуванні на кожному з цих наборів він систематично неправильний у передбачуванні правильного виходу для . Алгоритм навчання має велику дисперсію для певного входу , якщо при тренуванні на різних тренувальних наборах він передбачує різні виходи. Похибка передбачення навченого класифікатора пов'язана із сумою зміщення та дисперсії навченого алгоритму. Як правило, існує компроміс між зміщенням і дисперсією. Алгоритм навчання з малим зміщенням повинен бути «гнучким», щоби могти добре допасовуватися до даних. Але якщо алгоритм навчання занадто гнучкий, він допасується до кожного тренувального набору даних по-різному, й відтак матиме велику дисперсію. Ключовим аспектом багатьох методів керованого навчання є те, що вони здатні підлаштовувати цей компроміс між зміщенням і дисперсією (автоматично, або шляхом надання параметра зміщення/дисперсії, який може налаштовувати користувач).
Складність функції та обсяг тренувальних даних
Друге питання полягає в кількості доступних тренувальних даних відносно складності «справжньої» функції (класифікатора чи функції регресії). Якщо справжня функція проста, то «негнучкий» алгоритм навчання з великим зміщенням і малою дисперсією зможе навчитися її з невеликої кількості даних. Але якщо справжня функція дуже складна (наприклад, тому, що вона передбачає складну взаємодію між багатьма різними ознаками входу, та поводиться по-різному в різних частинах простору входу), то функції можливо навчитися лише за допомогою великої кількості тренувальних даних у парі з «гнучким» алгоритмом навчання з малим зміщенням і великою дисперсією.
Розмірність простору входу
Третім питанням є розмірність простору входу. Якщо вектори ознак входу мають великі розміри, навчання функції може бути складним, навіть якщо справжня функція залежить лише від невеликої кількості цих ознак. Це пояснюється тим, що багато «додаткових» вимірів можуть заплутати алгоритм навчання й спричинити йому велику дисперсію. Отже, дані входу великої розмірності зазвичай вимагають налаштовування класифікатора на малу дисперсію та велике зміщення. На практиці, якщо інженер може вручну вилучити нерелевантні ознаки з даних входу, це, швидше за все, покращить точність навченої функції. Крім того, існує багато алгоритмів для обирання ознак, які намагаються визначати релевантні ознаки, та відкидати нерелевантні. Це приклад загальнішої стратегії зниження розмірності, спрямованої на відображення даних входу до простору нижчої розмірності перед запуском алгоритму керованого навчання.
Шум у значеннях виходу
Четвертим питанням є міра шуму в бажаних значеннях виходу (керівних [en], англ. target variables). Якщо бажані значення виходу часто неправильні (через людський чинник чи похибки давача), то алгоритм навчання не повинен намагатися знайти функцію, яка відповідає тренувальним прикладам точно. Спроба занадто ретельно допасуватися до даних призводить до перенавчання. Якщо функція, якої ви намагаєтеся навчитися, занадто складна для вашої моделі навчання, ви можете перенавчитися її, навіть якщо похибки вимірювання (стохастичний шум) відсутні. У такій ситуації частина цільової функції, яку неможливо змоделювати, «псує» ваші навчальні дані — це явище назвали [en]. Якщо присутній будь-який тип шуму, краще використовувати оцінювач з більшим зміщенням і меншою дисперсією.
На практиці існує кілька підходів для полегшення шуму в значеннях виходу, таких як рання зупинка, щоби запобігати перенавчанню, а також виявляння та усування шумових тренувальних прикладів перед тренуванням алгоритму керованого навчання. Існує кілька алгоритмів, які встановлюють шумові тренувальні приклади, а усунення ймовірних шумових тренувальних прикладів перед тренуванням знижує похибку узагальнення зі статистичною значущістю.
Інші чинники, які слід враховувати
До інших чинників, які слід враховувати при виборі та застосуванні алгоритму навчання, належать наступні:
- Різнорідність даних. Якщо вектори ознак містять ознаки багатьох різних типів (дискретні, дискретні впорядковані, кількості, безперервні значення), деякі алгоритми застосовувати легше, ніж інші. Багато алгоритмів, включно з опорновекторними машинами, лінійною регресією, логістичною регресією, нейронними мережами та методами найближчих сусідів, вимагають, щоб ознаки входу були числовими та масштабованими до подібних діапазонів (наприклад, до проміжку [-1,1]). Особливо чутливі до цього методи, які використовують функцію відстані, такі як методи найближчих сусідів та опорновекторні машини з гауссовими ядрами. Перевагою дерев рішень є те, що вони легко обробляють різнорідні дані.
- Надмірність даних. Якщо ознаки входу містять надлишкову інформацію (наприклад, висококорельовані ознаки), деякі алгоритми навчання (наприклад, лінійна регресія, логістична регресія та методи на основі відстані) працюватимуть погано через числову нестабільність. Ці проблеми часто можливо розв'язувати за допомогою певного виду регулярізації.
- Наявність взаємодій та нелінійностей. Якщо кожна з ознак робить незалежний внесок до виходу, то алгоритми, що ґрунтуються на лінійних функціях (наприклад, лінійна регресія, логістична регресія, опорновекторні машини, наївний баєсів класифікатор) та функціях відстані (наприклад, методи найближчих сусідів, опорновекторні машини з гауссовими ядрами) загалом працюють добре. Проте якщо існують складні взаємодії між ознаками, то такі алгоритми як дерева рішень та нейронні мережі працюють краще, оскільки їх спеціально розробили для виявляння цих взаємодій. Також можливо застосовувати лінійні методи, але інженер повинен вручну вказати взаємодії під час їх використання.
Розглядаючи нове застосування, інженер може порівняти кілька алгоритмів навчання та експериментально визначити, який із них працює з наявною задачею найкраще (див. перехресне затверджування). Настроювання продуктивності алгоритму навчання може займати дуже багато часу. Враховуючи фіксовані ресурси, часто краще витрачати більше часу на збирання додаткових тренувальних даних та інформативніших ознак, ніж витрачати додатковий час на настроювання алгоритмів навчання.
Алгоритми
Найширше використовувані алгоритми навчання:
Як працюють алгоритми керованого навчання
Для заданого набору з тренувальних прикладів, вигляду , такого, що — вектор ознак -го прикладу, а — його мітка (англ. label, тобто, клас), алгоритм навчання шукає функцію , де — простір входу, а — простір виходу. Функція це елемент деякого простору можливих функцій , зазвичай званого простором гіпотез (англ. hypothesis space). Іноді зручно подавати за допомогою [en] , такої, що визначають як таку, що повертає значення , яке дає найвищу оцінку: . Нехай позначує простір оцінкових функцій.
Хоча та можуть бути будь-якими просторами функцій, багато алгоритмів навчання це ймовірнісні моделі, де набуває вигляду моделі умовної ймовірності , або набуває вигляду моделі спільної ймовірності . Наприклад, наївний баєсів класифікатор та лінійний розділювальний аналіз це моделі спільної ймовірності, тоді як логістична регресія це модель умовної ймовірності.
Є два основні підходи до вибору або : мінімізація емпіричного ризику та [en]. Мінімізація емпіричного ризику шукає функцію, яка найкраще допасовується до тренувальних даних. Мінімізація структурного ризику включає штрафну функцію (англ. penalty function), яка контролює компроміс зміщення/дисперсії.
В обох випадках вважають, що тренувальний набір складається з вибірки незалежних однаково розподілених пар, . Щоби вимірювати, наскільки добре функція допасовується до тренувальних даних, визначають функцію втрат . Для тренувального прикладу втрата передбачення значення становить .
Ризик (англ. risk) функції визначають як очікувані втрати . Їх можливо оцінювати з тренувальних даних через
- .
Мінімізація емпіричного ризику
При мінімізації емпіричного ризику алгоритм керованого навчання шукає таку функцію , яка мінімізує . Тож алгоритм керованого навчання можливо сконструювати, застосувавши алгоритм оптимізації для пошуку .
Коли — умовний розподіл імовірності , а функція втрат — від'ємна логарифмічна правдоподібність: , то мінімізація емпіричного ризику рівнозначна оцінці максимальної правдоподібності.
Коли містить багато функцій-кандидатів або тренувальний набір недостатньо великий, мінімізація емпіричного ризику призводить до великої дисперсії та поганого узагальнення. Алгоритм навчання здатний запам'ятовувати тренувальні приклади без доброго узагальнення. Це називають перенавчанням.
Мінімізація структурного ризику
[en] має на меті запобігати перенавчанню включенням до оптимізації регуляризаційного штрафу. Регуляризаційний штраф можливо розглядати як втілення певного вигляду леза Оккама, яке віддає перевагу простішим функціям перед складнішими.
Застосовували широкий спектр штрафів, які відповідають різним визначенням складності. Для прикладу розгляньмо випадок, коли функція є лінійною функцією вигляду
- .
Популярним регуляризаційним штрафом є , що є квадратом евклідової норми ваг, також відомим як норма . До інших норм належать норма , , та [en], яка є числом ненульових . Штраф буде позначувано через .
Задача оптимізації керованого навчання полягає в тому, щоби знайти функцію , яка мінімізує
Параметр керує компромісом зміщення та дисперсії. Коли , це забезпечує мінімізацію емпіричного ризику з малим зміщенням та великою дисперсією. Коли великий, алгоритм навчання матиме велике зміщення й малу дисперсію. Значення можливо обирати емпірично за допомогою перехресного затверджування.
Штраф за складність має баєсову інтерпретацію як від'ємна логарифмічна апріорна ймовірність , , у випадку чого є апостеріорною ймовірністю .
Породжувальне тренування
Описані вище методи тренування є методами розрізнювального тренування (англ. discriminative training), оскільки вони прагнуть знайти функцію , яка добре розрізнює відмінні значення виходу (див. розрізнювальну модель). Для особливого випадку, коли є спільним розподілом імовірності, а функція втрат є негативною логарифмічною правдоподібністю кажуть, що алгоритм мінімізації ризику виконує породжувальне тренування (англ. generative training), оскільки можливо розглядати як породжувальну модель, яка пояснює, як було породжено дані. Алгоритми породжувального тренування часто простіші та обчислювально ефективніші за алгоритми розрізнювального тренування. У деяких випадках розв'язок може бути обчислено у замкненому вигляді, як у наївному баєсовому класифікаторі та лінійному розділювальному аналізі.
Узагальнення
Існує кілька способів узагальнення стандартної задачі керованого навчання:
- Напівкероване навчання, або слабке керування: бажані значення виходу надаються лише для підмножини тренувальних даних. Решта даних немічені або мічені неточно.
- [en]: замість виходити з того, що всі тренувальні приклади наведено від початку, алгоритми активного навчання інтерактивно збирають нові приклади, як правило, надсилаючи запити людині-користувачу. Часто запити ґрунтуються на немічених даних, що є сценарієм, який поєднує напівкероване навчання з активним.
- Структурове передбачування: якщо бажане значення виходу це складний об'єкт, такий як синтаксичне дерево або мічений граф, стандартні методи потребують розширення.
- Навчання ранжуванню: коли вхід це набір об'єктів, а бажаний вихід це ранжування цих об'єктів, стандартні методи теж потребують розширення.
Підходи та алгоритми
- Аналітичне навчання
- Штучна нейронна мережа
- Зворотне поширення
- Підсилювання (метаалгоритм)
- Баєсова статистика
- [en]
- Навчання дерев рішень
- [en]
- Кригінг
- Генетичне програмування
- Метод групового урахування аргументів
- [en]
- [en]
- [en]
- [en]
- Мінімальна довжина повідомлення (дерева рішень, графи рішень тощо)
- [en]
- Наївний баєсів класифікатор
- [en]
- Умовне випадкове поле
- Алгоритм найближчих сусідів
- Імовірно приблизно коректне навчання (англ. PAC learning).
- [en][], методологія набування знань
- Символьні алгоритми машинного навчання
- Субсимвольні алгоритми машинного навчання
- Опорновекторні машини
- Машини мінімальної складності (англ. MCM)
- Випадкові ліси
- Ансамблі класифікаторів
- Порядкове класифікування
- Попередня обробка даних
- Обробка незбалансованих наборів даних
- [en]
- [en], алгоритм [en]
Застосування
- Біоінформатика
- Хемоінформатика
- [en]
- Розпізнавання рукописного тексту
- Інформаційний пошук
- Витягування інформації
- Розпізнавання об'єктів у комп'ютернім баченні
- Оптичне розпізнавання символів
- Виявляння спаму
- Розпізнавання образів
- Розпізнавання мовлення
- Кероване навчання є окремим випадком [en] в біологічних системах
- Класифікування рельєфу за допомогою супутникових знімків
- Класифікування витрат у процесах постачання
Загальні питання
- [en]
- [en]
- Перенавчання
- (Некалібровані) ймовірності приналежності до класів
- Некероване навчання
- [en]
Див. також
Примітки
- Верес, О. М.; Оливко, Р. М. (2017). Класифікація методів аналізу великих даних. Вісник Національного університету «Львівська політехніка». Інформаційні системи та мережі (укр.). Л.: НУЛП. 872: 84—92.
- Проніна, О. І. (2019). (укр.). Маріуполь: ПДТУ. Архів оригіналу за 9 липня 2021. Процитовано 4 липня 2021.
- Синєглазов, Віктор; Чумаченко, Олена (2022). Бідюк, П. І.; Шугалей, Л. П. (ред.). Методи та технології напівкерованого навчання: Курс лекцій (PDF) (укр.). Київ: НТУУ «КПІ ім. Ігоря Сікорського».
- Дуда, О. М.; Кунанець, Н. Е.; Мацюк, О. В.; Пасічник, В. В. (21—27 травня 2018). Методи аналітичного опрацювання big data (PDF). Інтелектуальні системи прийняття рішень та проблеми обчислювального інтелекту (укр.). Залізний Порт. с. 159. ISBN .
- Кропивницька, В. Б.; Магас, Д. М. (30 квітня 2023). Напівкероване машинне навчання для виявлення несправностей нафтогазопроводів. Modern engineering and innovative technologies (укр.). 1 (18): 33—36. doi:10.30890/2567-5273.2023-26-01-010.
- Мельник, А.; Берестенко, Д. (2022). Дослідження методів машинного навчання (PDF). Автоматика, комп’ютерно-інтегровані технології та проблеми енергоефективності в промисловості і сільському господарстві (АКІТ-2022) (укр.). Кропивницький: КНТУ. с. 41—42.
- Мілян, Н. (2018). Аналіз методів машинного навчання з вчителем (PDF). Збірник тез Міжнародної студентської науково-технічної конференції „Природничі та гуманітарні науки. Актуальні питання“ (укр.). 1: 51—52.
- Іваніченко, Є.; Сабліна, М.; Кравчук, К. (2021). Використання машинного навчання в кібербезпеці. Кібербезпека: освіта, наука, техніка» (укр.). 4 (12): 32—142.
- [en], Afshin Rostamizadeh, Ameet Talwalkar (2012) Foundations of Machine Learning, The MIT Press . (англ.)
- S. Geman, E. Bienenstock, and R. Doursat (1992). Neural networks and the bias/variance dilemma. Neural Computation 4, 1–58. (англ.)
- G. James (2003) Variance and Bias for General Loss Functions, Machine Learning 51, 115-135. (http://www-bcf.usc.edu/~gareth/research/bv.pdf [ 2020-12-08 у Wayback Machine.]) (англ.)
- C.E. Brodely and M.A. Friedl (1999). Identifying and Eliminating Mislabeled Training Instances, Journal of Artificial Intelligence Research 11, 131-167. (http://jair.org/media/606/live-606-1803-jair.pdf [ 2016-05-12 у Wayback Machine.]) (англ.)
- M.R. Smith and T. Martinez (2011). Improving Classification Accuracy by Identifying and Removing Instances that Should Be Misclassified. Proceedings of International Joint Conference on Neural Networks (IJCNN 2011) (англ.). с. 2690—2697. CiteSeerX 10.1.1.221.1371. doi:10.1109/IJCNN.2011.6033571.
- Vapnik, V. N. The Nature of Statistical Learning Theory (2nd Ed.), Springer Verlag, 2000. (англ.)
- A. Maity (2016). Supervised Classification of RADARSAT-2 Polarimetric Data for Different Land Features (англ.). arXiv:1608.00501 [cs.CV].
- Key Technologies for Agile Procurement | SIPMM Publications. publication.sipmm.edu.sg (амер.). 9 жовтня 2020. Процитовано 16 червня 2022.
Посилання
- Відкрите програмне забезпечення машинного навчання (англ. Machine Learning Open Source Software, MLOSS) (англ.)
Вікіпедія, Українська, Україна, книга, книги, бібліотека, стаття, читати, завантажити, безкоштовно, безкоштовно завантажити, mp3, відео, mp4, 3gp, jpg, jpeg, gif, png, малюнок, музика, пісня, фільм, книга, гра, ігри, мобільний, телефон, android, ios, apple, мобільний телефон, samsung, iphone, xiomi, xiaomi, redmi, honor, oppo, nokia, sonya, mi, ПК, web, Інтернет
Kero vane navcha nnya kontrolo vane navcha nnya navcha nnya pid na glyadom abo navcha nnya z uchi telem angl supervised learning SL ce paradigma mashinnogo navchannya v yakij model trenuyut ob yekti vhodu napriklad vektor zminnih peredbachuvachiv ta bazhane znachennya vihodu takozh vidome yak michenij lyudinoyu kerivnij signal angl supervisory signal Ci trenuvalni dani obroblyayutsya buduyuchi funkciyu yaka vidobrazhuye novi dani na ochikuvani znachennya vihodu Optimalnij scenarij dozvolyatime algoritmovi pravilno viznachati znachennya vihodu dlya nebachenih primirnikiv Ce vimagaye shob algoritm navchannya uzagalnyuvavsya z trenuvalnih danih na nebacheni situaciyi rozumnim chinom div en Cyu statistichnu yakist algoritmu vimiryuyut cherez tak zvanu pohibku uzagalnennya Shilnist zavdan vikoristovuvati kerovani ta nekerovani metodi Peretin kil nazvami zavdan navmisnij Vin pokazuye sho klasichne vidokremlennya tvorchih zavdan livoruch iz zastosuvannyam nekerovanih metodiv u suchasnih shemah navchannya rozmite Kroki dlya vikonannyaShobi rozv yazati zadanu zadachu kerovanogo navchannya slid vikonati nastupni kroki Viznachiti tip trenuvalnih prikladiv Persh nizh robiti shos inshe koristuvach povinen virishiti yakij tip danih vikoristovuvati yak trenuvalnij nabir U vipadku analizu rukopisnogo tekstu napriklad ce mozhe buti odin rukopisnij simvol cile rukopisne slovo cile rechennya rukopisnogo tekstu abo mozhlivo povnij abzac rukopisnogo tekstu Zibrati trenuvalnij nabir angl training set Vin povinen buti reprezentativnim dlya realnogo vikoristannya funkciyi Takim chinom zbirayut nabir ob yektiv vhodu a takozh zbirayut vidpovidni dani vihodu abo vid lyudej ekspertiv abo z vimiryuvan Viznachiti podannya oznak angl features vhodu navchanoyi funkciyi Tochnist navchenoyi funkciyi silno zalezhit vid togo yak podano ob yekt vhodu Yak pravilo vhidnij ob yekt peretvoryuyut na vektor oznak sho mistit nizku oznak yaki opisuyut ob yekt Kilkist oznak ne povinna buti zanadto velikoyu cherez proklyattya rozmirnosti ale povinna mistiti dostatno informaciyi dlya tochnogo peredbachuvannya vihodu Viznachiti strukturu navchanoyi funkciyi ta vidpovidnij algoritm navchannya Napriklad inzhener mozhe obrati vikoristannya opornovektornih mashin chi derev rishen Zavershiti rozrobku Vikonati algoritm navchannya na zibranomu trenuvalnomu nabori Deyaki algoritmi kerovanogo navchannya vimagayut vid koristuvacha viznachennya pevnih kerivnih parametriv Ci parametri mozhna nalashtuvati optimizuyuchi produktivnist na pidmnozhini trenuvalnogo naboru zvanij zatverdzhuvalnim naborom angl validation set abo za dopomogoyu perehresnogo zatverdzhuvannya angl cross validation Ociniti tochnist navchenoyi funkciyi Pislya nalashtuvannya parametriv ta navchannya produktivnist otrimanoyi v rezultati funkciyi povinno buti vimiryano na viprobuvalnomu nabori angl test set okremomu vid trenuvalnogo Vibir algoritmuDostupnij shirokij spektr algoritmiv kerovanogo navchannya kozhen iz yakih maye svoyi silni ta slabki storoni Yedinogo algoritmu navchannya yakij pracyuye najkrashe z usima zadachami kerovanogo navchannya ne isnuye div teoremu pro neisnuvannya bezkoshtovnih obidiv U kerovanim navchanni slid vrahovuvati chotiri osnovni pitannya Kompromis zmishennya ta dispersiyi Dokladnishe Kompromis zmishennya ta dispersiyi Pershe pitannya ce kompromis mizh zmishennyam angl bias ta dispersiyeyu angl variance Uyavimo sho mi mayemo kilka riznih ale odnakovo dobrih trenuvalnih naboriv danih Algoritm navchannya zmishenij dlya pevnogo vhodu x displaystyle x yaksho pri trenuvanni na kozhnomu z cih naboriv vin sistematichno nepravilnij u peredbachuvanni pravilnogo vihodu dlya x displaystyle x Algoritm navchannya maye veliku dispersiyu dlya pevnogo vhodu x displaystyle x yaksho pri trenuvanni na riznih trenuvalnih naborah vin peredbachuye rizni vihodi Pohibka peredbachennya navchenogo klasifikatora pov yazana iz sumoyu zmishennya ta dispersiyi navchenogo algoritmu Yak pravilo isnuye kompromis mizh zmishennyam i dispersiyeyu Algoritm navchannya z malim zmishennyam povinen buti gnuchkim shobi mogti dobre dopasovuvatisya do danih Ale yaksho algoritm navchannya zanadto gnuchkij vin dopasuyetsya do kozhnogo trenuvalnogo naboru danih po riznomu j vidtak matime veliku dispersiyu Klyuchovim aspektom bagatoh metodiv kerovanogo navchannya ye te sho voni zdatni pidlashtovuvati cej kompromis mizh zmishennyam i dispersiyeyu avtomatichno abo shlyahom nadannya parametra zmishennya dispersiyi yakij mozhe nalashtovuvati koristuvach Skladnist funkciyi ta obsyag trenuvalnih danih Druge pitannya polyagaye v kilkosti dostupnih trenuvalnih danih vidnosno skladnosti spravzhnoyi funkciyi klasifikatora chi funkciyi regresiyi Yaksho spravzhnya funkciya prosta to negnuchkij algoritm navchannya z velikim zmishennyam i maloyu dispersiyeyu zmozhe navchitisya yiyi z nevelikoyi kilkosti danih Ale yaksho spravzhnya funkciya duzhe skladna napriklad tomu sho vona peredbachaye skladnu vzayemodiyu mizh bagatma riznimi oznakami vhodu ta povoditsya po riznomu v riznih chastinah prostoru vhodu to funkciyi mozhlivo navchitisya lishe za dopomogoyu velikoyi kilkosti trenuvalnih danih u pari z gnuchkim algoritmom navchannya z malim zmishennyam i velikoyu dispersiyeyu Rozmirnist prostoru vhodu Tretim pitannyam ye rozmirnist prostoru vhodu Yaksho vektori oznak vhodu mayut veliki rozmiri navchannya funkciyi mozhe buti skladnim navit yaksho spravzhnya funkciya zalezhit lishe vid nevelikoyi kilkosti cih oznak Ce poyasnyuyetsya tim sho bagato dodatkovih vimiriv mozhut zaplutati algoritm navchannya j sprichiniti jomu veliku dispersiyu Otzhe dani vhodu velikoyi rozmirnosti zazvichaj vimagayut nalashtovuvannya klasifikatora na malu dispersiyu ta velike zmishennya Na praktici yaksho inzhener mozhe vruchnu viluchiti nerelevantni oznaki z danih vhodu ce shvidshe za vse pokrashit tochnist navchenoyi funkciyi Krim togo isnuye bagato algoritmiv dlya obirannya oznak yaki namagayutsya viznachati relevantni oznaki ta vidkidati nerelevantni Ce priklad zagalnishoyi strategiyi znizhennya rozmirnosti spryamovanoyi na vidobrazhennya danih vhodu do prostoru nizhchoyi rozmirnosti pered zapuskom algoritmu kerovanogo navchannya Shum u znachennyah vihodu Chetvertim pitannyam ye mira shumu v bazhanih znachennyah vihodu kerivnih en angl target variables Yaksho bazhani znachennya vihodu chasto nepravilni cherez lyudskij chinnik chi pohibki davacha to algoritm navchannya ne povinen namagatisya znajti funkciyu yaka vidpovidaye trenuvalnim prikladam tochno Sproba zanadto retelno dopasuvatisya do danih prizvodit do perenavchannya Yaksho funkciya yakoyi vi namagayetesya navchitisya zanadto skladna dlya vashoyi modeli navchannya vi mozhete perenavchitisya yiyi navit yaksho pohibki vimiryuvannya stohastichnij shum vidsutni U takij situaciyi chastina cilovoyi funkciyi yaku nemozhlivo zmodelyuvati psuye vashi navchalni dani ce yavishe nazvali en Yaksho prisutnij bud yakij tip shumu krashe vikoristovuvati ocinyuvach z bilshim zmishennyam i menshoyu dispersiyeyu Na praktici isnuye kilka pidhodiv dlya polegshennya shumu v znachennyah vihodu takih yak rannya zupinka shobi zapobigati perenavchannyu a takozh viyavlyannya ta usuvannya shumovih trenuvalnih prikladiv pered trenuvannyam algoritmu kerovanogo navchannya Isnuye kilka algoritmiv yaki vstanovlyuyut shumovi trenuvalni prikladi a usunennya jmovirnih shumovih trenuvalnih prikladiv pered trenuvannyam znizhuye pohibku uzagalnennya zi statistichnoyu znachushistyu Inshi chinniki yaki slid vrahovuvati Do inshih chinnikiv yaki slid vrahovuvati pri vibori ta zastosuvanni algoritmu navchannya nalezhat nastupni Riznoridnist danih Yaksho vektori oznak mistyat oznaki bagatoh riznih tipiv diskretni diskretni vporyadkovani kilkosti bezperervni znachennya deyaki algoritmi zastosovuvati legshe nizh inshi Bagato algoritmiv vklyuchno z opornovektornimi mashinami linijnoyu regresiyeyu logistichnoyu regresiyeyu nejronnimi merezhami ta metodami najblizhchih susidiv vimagayut shob oznaki vhodu buli chislovimi ta masshtabovanimi do podibnih diapazoniv napriklad do promizhku 1 1 Osoblivo chutlivi do cogo metodi yaki vikoristovuyut funkciyu vidstani taki yak metodi najblizhchih susidiv ta opornovektorni mashini z gaussovimi yadrami Perevagoyu derev rishen ye te sho voni legko obroblyayut riznoridni dani Nadmirnist danih Yaksho oznaki vhodu mistyat nadlishkovu informaciyu napriklad visokokorelovani oznaki deyaki algoritmi navchannya napriklad linijna regresiya logistichna regresiya ta metodi na osnovi vidstani pracyuvatimut pogano cherez chislovu nestabilnist Ci problemi chasto mozhlivo rozv yazuvati za dopomogoyu pevnogo vidu regulyarizaciyi Nayavnist vzayemodij ta nelinijnostej Yaksho kozhna z oznak robit nezalezhnij vnesok do vihodu to algoritmi sho gruntuyutsya na linijnih funkciyah napriklad linijna regresiya logistichna regresiya opornovektorni mashini nayivnij bayesiv klasifikator ta funkciyah vidstani napriklad metodi najblizhchih susidiv opornovektorni mashini z gaussovimi yadrami zagalom pracyuyut dobre Prote yaksho isnuyut skladni vzayemodiyi mizh oznakami to taki algoritmi yak dereva rishen ta nejronni merezhi pracyuyut krashe oskilki yih specialno rozrobili dlya viyavlyannya cih vzayemodij Takozh mozhlivo zastosovuvati linijni metodi ale inzhener povinen vruchnu vkazati vzayemodiyi pid chas yih vikoristannya Rozglyadayuchi nove zastosuvannya inzhener mozhe porivnyati kilka algoritmiv navchannya ta eksperimentalno viznachiti yakij iz nih pracyuye z nayavnoyu zadacheyu najkrashe div perehresne zatverdzhuvannya Nastroyuvannya produktivnosti algoritmu navchannya mozhe zajmati duzhe bagato chasu Vrahovuyuchi fiksovani resursi chasto krashe vitrachati bilshe chasu na zbirannya dodatkovih trenuvalnih danih ta informativnishih oznak nizh vitrachati dodatkovij chas na nastroyuvannya algoritmiv navchannya Algoritmi Najshirshe vikoristovuvani algoritmi navchannya Opornovektorni mashini Linijna regresiya Logistichna regresiya Nayivnij bayesiv klasifikator Linijnij rozdilyuvalnij analiz Dereva rishen Algoritm k najblizhchih susidiv Nejronni merezhi bagatosharovij perceptron en Yak pracyuyut algoritmi kerovanogo navchannyaDlya zadanogo naboru z N displaystyle N trenuvalnih prikladiv viglyadu x 1 y 1 x N y N displaystyle x 1 y 1 x N y N takogo sho x i displaystyle x i vektor oznak i displaystyle i go prikladu a y i displaystyle y i jogo mitka angl label tobto klas algoritm navchannya shukaye funkciyu g X Y displaystyle g X to Y de X displaystyle X prostir vhodu a Y displaystyle Y prostir vihodu Funkciya g displaystyle g ce element deyakogo prostoru mozhlivih funkcij G displaystyle G zazvichaj zvanogo prostorom gipotez angl hypothesis space Inodi zruchno podavati g displaystyle g za dopomogoyu en f X Y R displaystyle f X times Y to mathbb R takoyi sho g displaystyle g viznachayut yak taku sho povertaye znachennya y displaystyle y yake daye najvishu ocinku g x arg max y f x y displaystyle g x underset y arg max f x y Nehaj F displaystyle F poznachuye prostir ocinkovih funkcij Hocha G displaystyle G ta F displaystyle F mozhut buti bud yakimi prostorami funkcij bagato algoritmiv navchannya ce jmovirnisni modeli de g displaystyle g nabuvaye viglyadu modeli umovnoyi jmovirnosti g x P y x displaystyle g x P y x abo f displaystyle f nabuvaye viglyadu modeli spilnoyi jmovirnosti f x y P x y displaystyle f x y P x y Napriklad nayivnij bayesiv klasifikator ta linijnij rozdilyuvalnij analiz ce modeli spilnoyi jmovirnosti todi yak logistichna regresiya ce model umovnoyi jmovirnosti Ye dva osnovni pidhodi do viboru f displaystyle f abo g displaystyle g minimizaciya empirichnogo riziku ta en Minimizaciya empirichnogo riziku shukaye funkciyu yaka najkrashe dopasovuyetsya do trenuvalnih danih Minimizaciya strukturnogo riziku vklyuchaye shtrafnu funkciyu angl penalty function yaka kontrolyuye kompromis zmishennya dispersiyi V oboh vipadkah vvazhayut sho trenuvalnij nabir skladayetsya z vibirki nezalezhnih odnakovo rozpodilenih par x i y i displaystyle x i y i Shobi vimiryuvati naskilki dobre funkciya dopasovuyetsya do trenuvalnih danih viznachayut funkciyu vtrat L Y Y R 0 displaystyle L Y times Y to mathbb R geq 0 Dlya trenuvalnogo prikladu x i y i displaystyle x i y i vtrata peredbachennya znachennya y displaystyle hat y stanovit L y i y displaystyle L y i hat y Rizik angl risk R g displaystyle R g funkciyi g displaystyle g viznachayut yak ochikuvani vtrati g displaystyle g Yih mozhlivo ocinyuvati z trenuvalnih danih cherez R e m p g 1 N i L y i g x i displaystyle R emp g frac 1 N sum i L y i g x i Minimizaciya empirichnogo riziku Dokladnishe Minimizaciya empirichnogo riziku Pri minimizaciyi empirichnogo riziku algoritm kerovanogo navchannya shukaye taku funkciyu g displaystyle g yaka minimizuye R g displaystyle R g Tozh algoritm kerovanogo navchannya mozhlivo skonstruyuvati zastosuvavshi algoritm optimizaciyi dlya poshuku g displaystyle g Koli g displaystyle g umovnij rozpodil imovirnosti P y x displaystyle P y x a funkciya vtrat vid yemna logarifmichna pravdopodibnist L y y log P y x displaystyle L y hat y log P y x to minimizaciya empirichnogo riziku rivnoznachna ocinci maksimalnoyi pravdopodibnosti Koli G displaystyle G mistit bagato funkcij kandidativ abo trenuvalnij nabir nedostatno velikij minimizaciya empirichnogo riziku prizvodit do velikoyi dispersiyi ta poganogo uzagalnennya Algoritm navchannya zdatnij zapam yatovuvati trenuvalni prikladi bez dobrogo uzagalnennya Ce nazivayut perenavchannyam Minimizaciya strukturnogo riziku en maye na meti zapobigati perenavchannyu vklyuchennyam do optimizaciyi regulyarizacijnogo shtrafu Regulyarizacijnij shtraf mozhlivo rozglyadati yak vtilennya pevnogo viglyadu leza Okkama yake viddaye perevagu prostishim funkciyam pered skladnishimi Zastosovuvali shirokij spektr shtrafiv yaki vidpovidayut riznim viznachennyam skladnosti Dlya prikladu rozglyanmo vipadok koli funkciya g displaystyle g ye linijnoyu funkciyeyu viglyadu g x j 1 d b j x j displaystyle g x sum j 1 d beta j x j Populyarnim regulyarizacijnim shtrafom ye j b j 2 displaystyle sum j beta j 2 sho ye kvadratom evklidovoyi normi vag takozh vidomim yak norma L 2 displaystyle L 2 Do inshih norm nalezhat norma L 1 displaystyle L 1 j b j displaystyle sum j beta j ta en yaka ye chislom nenulovih b j displaystyle beta j Shtraf bude poznachuvano cherez C g displaystyle C g Zadacha optimizaciyi kerovanogo navchannya polyagaye v tomu shobi znajti funkciyu g displaystyle g yaka minimizuye J g R e m p g l C g displaystyle J g R emp g lambda C g Parametr l displaystyle lambda keruye kompromisom zmishennya ta dispersiyi Koli l 0 displaystyle lambda 0 ce zabezpechuye minimizaciyu empirichnogo riziku z malim zmishennyam ta velikoyu dispersiyeyu Koli l displaystyle lambda velikij algoritm navchannya matime velike zmishennya j malu dispersiyu Znachennya l displaystyle lambda mozhlivo obirati empirichno za dopomogoyu perehresnogo zatverdzhuvannya Shtraf za skladnist maye bayesovu interpretaciyu yak vid yemna logarifmichna apriorna jmovirnist g displaystyle g log P g displaystyle log P g u vipadku chogo J g displaystyle J g ye aposteriornoyu jmovirnistyu g displaystyle g Porodzhuvalne trenuvannyaOpisani vishe metodi trenuvannya ye metodami rozriznyuvalnogo trenuvannya angl discriminative training oskilki voni pragnut znajti funkciyu g displaystyle g yaka dobre rozriznyuye vidminni znachennya vihodu div rozriznyuvalnu model Dlya osoblivogo vipadku koli f x y P x y displaystyle f x y P x y ye spilnim rozpodilom imovirnosti a funkciya vtrat ye negativnoyu logarifmichnoyu pravdopodibnistyu i log P x i y i displaystyle sum i log P x i y i kazhut sho algoritm minimizaciyi riziku vikonuye porodzhuvalne trenuvannya angl generative training oskilki f displaystyle f mozhlivo rozglyadati yak porodzhuvalnu model yaka poyasnyuye yak bulo porodzheno dani Algoritmi porodzhuvalnogo trenuvannya chasto prostishi ta obchislyuvalno efektivnishi za algoritmi rozriznyuvalnogo trenuvannya U deyakih vipadkah rozv yazok mozhe buti obchisleno u zamknenomu viglyadi yak u nayivnomu bayesovomu klasifikatori ta linijnomu rozdilyuvalnomu analizi UzagalnennyaIsnuye kilka sposobiv uzagalnennya standartnoyi zadachi kerovanogo navchannya Napivkerovane navchannya abo slabke keruvannya bazhani znachennya vihodu nadayutsya lishe dlya pidmnozhini trenuvalnih danih Reshta danih nemicheni abo micheni netochno en zamist vihoditi z togo sho vsi trenuvalni prikladi navedeno vid pochatku algoritmi aktivnogo navchannya interaktivno zbirayut novi prikladi yak pravilo nadsilayuchi zapiti lyudini koristuvachu Chasto zapiti gruntuyutsya na nemichenih danih sho ye scenariyem yakij poyednuye napivkerovane navchannya z aktivnim Strukturove peredbachuvannya yaksho bazhane znachennya vihodu ce skladnij ob yekt takij yak sintaksichne derevo abo michenij graf standartni metodi potrebuyut rozshirennya Navchannya ranzhuvannyu koli vhid ce nabir ob yektiv a bazhanij vihid ce ranzhuvannya cih ob yektiv standartni metodi tezh potrebuyut rozshirennya Pidhodi ta algoritmiAnalitichne navchannya Shtuchna nejronna merezha Zvorotne poshirennya Pidsilyuvannya metaalgoritm Bayesova statistika en Navchannya derev rishen en Kriging Genetichne programuvannya Metod grupovogo urahuvannya argumentiv en en en en Minimalna dovzhina povidomlennya dereva rishen grafi rishen tosho en Nayivnij bayesiv klasifikator en Umovne vipadkove pole Algoritm najblizhchih susidiv Imovirno priblizno korektne navchannya angl PAC learning en utochniti termin metodologiya nabuvannya znan Simvolni algoritmi mashinnogo navchannya Subsimvolni algoritmi mashinnogo navchannya Opornovektorni mashini Mashini minimalnoyi skladnosti angl MCM Vipadkovi lisi Ansambli klasifikatoriv Poryadkove klasifikuvannya Poperednya obrobka danih Obrobka nezbalansovanih naboriv danih en en algoritm en ZastosuvannyaBioinformatika Hemoinformatika Kilkisne spivvidnoshennya struktura vlastivist en Rozpiznavannya rukopisnogo tekstu Informacijnij poshuk Navchannya ranzhuvannyu Vityaguvannya informaciyi Rozpiznavannya ob yektiv u komp yuternim bachenni Optichne rozpiznavannya simvoliv Viyavlyannya spamu Rozpiznavannya obraziv Rozpiznavannya movlennya Kerovane navchannya ye okremim vipadkom en v biologichnih sistemah Klasifikuvannya relyefu za dopomogoyu suputnikovih znimkiv Klasifikuvannya vitrat u procesah postachannyaZagalni pitannya en en Perenavchannya Nekalibrovani jmovirnosti prinalezhnosti do klasiv Nekerovane navchannya en Div takozhPerelik naboriv danih dlya doslidzhen mashinnogo navchannyaPrimitkiVeres O M Olivko R M 2017 Klasifikaciya metodiv analizu velikih danih Visnik Nacionalnogo universitetu Lvivska politehnika Informacijni sistemi ta merezhi ukr L NULP 872 84 92 Pronina O I 2019 ukr Mariupol PDTU Arhiv originalu za 9 lipnya 2021 Procitovano 4 lipnya 2021 Sinyeglazov Viktor Chumachenko Olena 2022 Bidyuk P I Shugalej L P red Metodi ta tehnologiyi napivkerovanogo navchannya Kurs lekcij PDF ukr Kiyiv NTUU KPI im Igorya Sikorskogo Duda O M Kunanec N E Macyuk O V Pasichnik V V 21 27 travnya 2018 Metodi analitichnogo opracyuvannya big data PDF Intelektualni sistemi prijnyattya rishen ta problemi obchislyuvalnogo intelektu ukr Zaliznij Port s 159 ISBN 978 617 7573 17 2 Kropivnicka V B Magas D M 30 kvitnya 2023 Napivkerovane mashinne navchannya dlya viyavlennya nespravnostej naftogazoprovodiv Modern engineering and innovative technologies ukr 1 18 33 36 doi 10 30890 2567 5273 2023 26 01 010 Melnik A Berestenko D 2022 Doslidzhennya metodiv mashinnogo navchannya PDF Avtomatika komp yuterno integrovani tehnologiyi ta problemi energoefektivnosti v promislovosti i silskomu gospodarstvi AKIT 2022 ukr Kropivnickij KNTU s 41 42 Milyan N 2018 Analiz metodiv mashinnogo navchannya z vchitelem PDF Zbirnik tez Mizhnarodnoyi studentskoyi naukovo tehnichnoyi konferenciyi Prirodnichi ta gumanitarni nauki Aktualni pitannya ukr 1 51 52 Ivanichenko Ye Sablina M Kravchuk K 2021 Vikoristannya mashinnogo navchannya v kiberbezpeci Kiberbezpeka osvita nauka tehnika ukr 4 12 32 142 en Afshin Rostamizadeh Ameet Talwalkar 2012 Foundations of Machine Learning The MIT Press ISBN 9780262018258 angl S Geman E Bienenstock and R Doursat 1992 Neural networks and the bias variance dilemma Neural Computation 4 1 58 angl G James 2003 Variance and Bias for General Loss Functions Machine Learning 51 115 135 http www bcf usc edu gareth research bv pdf 2020 12 08 u Wayback Machine angl C E Brodely and M A Friedl 1999 Identifying and Eliminating Mislabeled Training Instances Journal of Artificial Intelligence Research 11 131 167 http jair org media 606 live 606 1803 jair pdf 2016 05 12 u Wayback Machine angl M R Smith and T Martinez 2011 Improving Classification Accuracy by Identifying and Removing Instances that Should Be Misclassified Proceedings of International Joint Conference on Neural Networks IJCNN 2011 angl s 2690 2697 CiteSeerX 10 1 1 221 1371 doi 10 1109 IJCNN 2011 6033571 Vapnik V N The Nature of Statistical Learning Theory 2nd Ed Springer Verlag 2000 angl A Maity 2016 Supervised Classification of RADARSAT 2 Polarimetric Data for Different Land Features angl arXiv 1608 00501 cs CV Key Technologies for Agile Procurement SIPMM Publications publication sipmm edu sg amer 9 zhovtnya 2020 Procitovano 16 chervnya 2022 PosilannyaVidkrite programne zabezpechennya mashinnogo navchannya angl Machine Learning Open Source Software MLOSS angl