В інформатиці інтеракти́вне маши́нне навча́ння (англ. online machine learning) — це метод машинного навчання, в якому дані стають доступними послідовно, і їх використовують для уточнення найкращого передбачувача для майбутніх даних на кожному кроці, на відміну від методів пакетного навчання (англ. batch learning), які породжують найкращий передбачувач шляхом навчання на всьому тренувальному наборі даних за раз. Інтерактивне навчання є поширеною методикою, яку використовують у сферах машинного навчання, де тренування над усім набором даних обчислювально нездійсненне, що вимагає використання [en]. Його також використовують у ситуаціях, коли необхідно, щоб алгоритм динамічно пристосовувався до нових закономірностей у даних, або коли самі дані породжуються як функція часу, наприклад, у [en]. Алгоритми інтерактивного навчання можуть бути схильними до [en], цю проблему можливо розв'язувати за допомогою підходів покрокового навчання.
Введення
У постановці керованого навчання належить навчитися функції , де розглядають як простір входів, а як простір виходів, яка робить добрі передбачення на випадках, узятих зі спільного розподілу ймовірності на . Насправді учень ніколи не знає справжнього розподілу над примірниками. Натомість учень зазвичай має доступ до тренувального набору прикладів . У цій постановці функцію втрат задають як , так, що вимірює різницю між передбаченим значенням та істинним значенням . Ідеальна мета — обрати таку функцію , де це простір функцій, званий простором гіпотез, щоби деяке поняття загальних втрат було мінімізованим. Залежно від типу моделі (статистична чи змагальна) можливо винаходити різні поняття втрат, які ведуть до різних алгоритмів навчання.
Статистичний вигляд інтерактивного навчання
У моделях статистичного навчання вважають, що тренувальні зразки взято з істинного розподілу , а мета полягає в мінімізації очікуваного «ризику»
Поширена парадигма в цій ситуації — оцінювати функцію через мінімізацію емпіричного ризику або регуляризовану мінімізацію емпіричного ризику (зазвичай регуляризацією Тихонова). Вибір функції втрат тут породжує декілька добре відомих алгоритмів навчання, таких як регуляризовані найменші квадрати та опорновекторні машини. Суто інтерактивна модель у цій категорії вчитиметься на основі лише нового входу , поточного найкращого передбачувача , та деякої додаткової збереженої інформації (від якої зазвичай очікують вимог до зберігання, незалежних від розміру тренувальних даних). Для багатьох формулювань, наприклад, нелінійних ядрових методів, істинне інтерактивне навчання неможливе, хоча можливо використовувати певний вигляд гібридного інтерактивного навчання з рекурсивними алгоритмами, де дозволено залежати від й усіх попередніх точок даних . У цьому випадку сталість вимог до зберігання більше не гарантовано, оскільки він вимагає зберігання всіх попередніх точок даних, але розв'язання може займати менше часу на обчислення з додаванням нової точки даних, у порівнянні з пакетними методиками навчання.
Загальною стратегією подолання вищевказаних проблем є використання мініпакетів (англ. mini-batches), які обробляють невеликий пакет точок даних за раз, це можна вважати псевдоінтерактивним навчанням для , значно меншого за загальну кількість тренувальних точок. Мініпакетні методики використовують з повторюваним проходженням тренувальних даних для отримання оптимізованих [en] версій алгоритмів машинного навчання, наприклад, стохастичного градієнтного спуску. У поєднанні зі зворотним поширенням це наразі є фактичним тренувальним методом для тренування штучних нейронних мереж.
Приклад: лінійні найменші квадрати
Для пояснення різноманітних ідей в інтерактивному навчанні використовують простий приклад лінійних найменших квадратів. Ці ідеї достатньо загальні, щоби їх було можливо застосовувати до інших постановок, наприклад, з іншими опуклими функціями втрат.
Пакетне навчання
Розгляньмо постановку керованого навчання, де — лінійна функція, якої потрібно навчитися:
де — вектор входів (точок даних), а — вектор лінійного фільтра. Мета полягає в обчисленні вектора фільтра . З цією метою квадратичну функція втрат
використовують для обчислення вектора , який мінімізує емпіричні втрати
де
- .
Нехай це матриця даних , а — вектор-стовпець цільових значень після надходження перших точок даних. Виходячи з припущення, що коваріаційна матриця невироджена (в іншому разі краще діяти подібним чином з регуляризацією Тихонова), найкращий розв'язок задачі лінійних найменших квадратів задається через
- .
Тепер, обчислення коваріаційної матриці займає часу, обернення матриці займає часу, тоді як решта множення займає часу, даючи загальний час . Коли загальна кількість точок у наборі даних — , для переобчислення розв'язку після надходження кожної точки даних наївний підхід матиме повну складність . Зауважте, що якщо зберігати матрицю , то для її уточнення на кожному кроці потрібно лише додавати , що займає часу, знижуючи загальний час до , але з додатковим місцем для зберігання , щоби зберігати .
Інтерактивне навчання: рекурсивні найменші квадрати
Алгоритм рекурсивних найменших квадратів (РНК, англ. recursive least squares, RLS) розглядає інтерактивний підхід до задачі найменших квадратів. Можливо показати, що якщо встановити початкові значення та , то розв'язок задачі лінійних найменших квадратів, наведеної в попередньому розділі, можливо обчислювати наступним ітеруванням:
Наведений вище ітеративний алгоритм можливо довести за допомогою індукції за . Це доведення також показує, що . РНК також можливо розглядати в контексті адаптивних фільтрів (див. [en]).
Складність цього алгоритму для кроків становить , що на порядок швидше за відповідну складність пакетного навчання. Вимоги до зберігання на кожному кроці тут — зберігати матрицю , що становить сталі . На той випадок, коли вироджена, розгляньмо регуляризований варіант функції втрат задачі . Відтак легко показати, що працює той самий алгоритм , й ітерації продовжують давати .
Стохастичний градієнтний спуск
Коли це
замінити на
або на , це стає алгоритмом стохастичного градієнтного спуску. В цьому випадку складність цього алгоритму для кроків знижується до . Вимоги до зберігання на кожному кроці сталі, й становлять .
Проте, розмір кроку необхідно обирати ретельно, щоби розв'язати задачу мінімізації очікуваного ризику, як описано вище. Обравши розмір кроку затухання можливо довести збіжність середньої ітерації . Ця постановка є окремим випадком стохастичної оптимізації, добре відомої задачі оптимізації.
Покроковий стохастичний градієнтний спуск
На практиці можливо виконувати декілька стохастичних градієнтних проходів над даними (також званих циклами або епохами). Отриманий таким чином алгоритм носить назву покрокового градієнтного метода (англ. incremental gradient method) й відповідає ітерації
Основна відмінність від методу стохастичного градієнта полягає в тому, що тут обирають послідовність , щоби вирішувати, яку тренувальну точку відвідати на -тому кроці. Така послідовність може бути стохастичною або детермінованою. Відтак кількість ітерацій відокремлюється від кількості точок (кожну точку можливо розглядати декілька разів). Можливо продемонструвати, що метод покрокового градієнта забезпечує мінімізацію емпіричного ризику. Покрокові методи можуть бути корисними при розгляді цільових функцій, складених із суми багатьох членів, наприклад, емпіричної похибки, що відповідає дуже великому набору даних.
Ядрові методи
Ядра можливо використовувати для розширення наведених вище алгоритмів до непараметричних моделей (або моделей, де параметри утворюють нескінченновимірний простір). Відповідна процедура більше не буде істинно інтерактивною, передбачаючи натомість зберігання всіх точок даних, але все ж швидшою за метод грубої сили. Це обговорення обмежується випадком квадратичних втрат, хоча його може бути розширено до будь-яких опуклих втрат. За допомогою простої індукції можливо показати, що якщо це матриця даних, а це результат після кроків алгоритму СГС, то
де , а послідовність задовольняє рекурсію
- і
Зауважте, що тут є просто стандартним ядром на , а передбачувач має вигляд
- .
Тепер, якщо натомість вводять загальне ядро , і покладають передбачувач як
то те саме доведення також покаже, що передбачувач, який мінімізує втрати за методом найменших квадратів, отримується заміною наведеної вище рекурсії на
Наведений вище вираз вимагає зберігання всіх даних для уточнення . Загальна часова складність для рекурсії при оцінюванні для -тої точки даних становить , де це витрати на обчислення ядра на одній парі точок. Таким чином, використання ядра дозволило перейти від скінченновимірного простору параметрів до можливо нескінченновимірної функції, поданої ядром , натомість виконуючи рекурсію на просторі параметрів , розмірність якого така сама, як і розмір тренувального набору даних. Загалом, це наслідок [en].
Інтерактивна опукла оптимізація
Інтерактивна опукла оптимізація (ІОО, англ. online convex optimization, OCO) — це загальна система для ухвалювання рішень, яка використовує для створення ефективних алгоритмів опуклу оптимізацію. Ця система полягає в повторюваній грі наступним чином:
Для
- Учень отримує вхід
- Учень видає з фіксованої опуклої множини
- Природа повертає опуклу функцію втрат .
- Учень зазнає втрат й уточнює свою модель
Метою є мінімізувати смуток, або різницю між сукупними втратами, та втратами ретроспективно найкращої фіксованої точки . Як приклад, розгляньмо випадок інтерактивної лінійної регресії найменших квадратів. Тут вектори ваг походять із опуклої множини , а природа повертає опуклу функцію втрат . Зауважте, що неявно повертається разом з .
Проте деякі задачі інтерактивного передбачування в систему ІОО не вписуються. Наприклад, в інтерактивному класифікуванні область передбачування та функції втрат не опуклі. У таких сценаріях використовують дві прості методики для [en]: рандомізацію та сурогатні функції втрат[].
Нижче наведено кілька простих алгоритмів інтерактивної опуклої оптимізації:
Іди за лідером (ІЗЛ)
Найпростіше правило навчання — намагатися обирати (на поточному кроці) гіпотезу, яка має найменші втрати над усіма минулими раундами. Цей алгоритм має назву «Іди за лідером» (англ. Follow the leader, FTL), а раунд задається просто як
Цей метод відтак можливо розглядати як жадібний алгоритм. Для випадку інтерактивної квадратичної оптимізації (де функція втрат ) можливо продемонструвати межу смутку, яка зростає як . Проте для алгоритму ІЗЛ подібні межі неможливо отримати для інших важливих сімейств моделей, таких як інтерактивна лінійна оптимізація. Для цього потрібно видозмінити ІЗЛ, додавши регуляризацію.
Іди за регуляризованим лідером (ІЗРЛ)
Це природна видозміна ІЗЛ, яку використовують, щоби стабілізувати розв'язки ІЗЛ, й отримувати кращі межі смутку. Обирають функцію регуляризації , і навчання в раунді t виконують таким чином:
Як особливий приклад розгляньмо випадок інтерактивної лінійної оптимізації, тобто коли природа повертає функції втрат вигляду . Крім того, нехай . Припустімо, що обирають функцію регуляризації для деякого додатного числа . Тоді можливо показати, що ітерація мінімізації смутку набуває вигляду
Зауважте, що це можливо переписати як , що виглядає точно як покроковий градієнтний спуск.
Якщо S це натомість деякий опуклий підпростір , то необхідно буде робити проєкцію на S, що дасть видозмінене правило уточнення
Цей алгоритм відомий як відкладена проєкція (англ. lazy projection), оскільки вектор накопичує градієнти. Він також відомий як алгоритм подвійного усереднювання Нестерова. У цьому сценарії лінійної функцій втрат і квадратичної регулярізації смуток обмежений , і відтак середній смуток зводиться до 0, як і бажано.
Інтерактивний субградієнтний спуск (ІСС)
Наведеним вище доведено межу смутку для лінійних функцій втрат . Щоб узагальнити цей алгоритм на довільну опуклу функцію втрат, використовують субградієнт функції втрат як лінійне наближення близько , що дає алгоритм інтерактивного субградієнтного спуску (англ. online subgradient descent, OSD):
Встановити початкові значення параметра
Для
- Зробити передбачення з використанням , отримати від природи .
- Обрати
- Якщо , зробити уточнення
- Якщо , зробити проєкцію сукупних градієнтів на , тобто
Алгоритм ІСС можливо використовувати для виведення меж смутку для інтерактивної версії ОВМ для класифікування, яка використовує завісні втрати
Інші алгоритми
Квадратично регуляризовані алгоритми ІЗРЛ ведуть до алгоритмів відкладених проєкцій градієнта, як описано вище. Щоби використати наведене вище для довільних опуклих функцій і регуляризаторів, використовують [en]. Оптимальну регуляризацію заднім числом може бути виведено для лінійних функцій втрат, це веде до алгоритму [en]. Для евклідової регуляризації можливо показати межу смутку , яку можливо вдосконалити далі до для сильно опуклих та експоненційно угнутих функцій втрат.
Безперервне навчання
Безперервне навчання (англ. continual learning) означає безперервне вдосконалення навченої моделі шляхом обробки безперервних потоків інформації. Можливості безперервного навчання важливі для програмних систем та автономних агентів, які взаємодіють у реальному світі, що постійно змінюється. Проте безперервне навчання це виклик для машинного навчання та моделей нейронних мереж, оскільки безперервне отримання доступної покроково інформації з нестаціонарних розподілів даних зазвичай призводить до [en].
Інтерпретації інтерактивного навчання
Парадигма інтерактивного навчання має різні інтерпретації залежно від вибору моделі навчання, кожна з яких має різні наслідки щодо передбачувальної якості послідовності функцій . Для цього обговорення використано прототип алгоритму стохастичного градієнтного спуску. Як зазначено вище, його рекурсію задано формулою
Перша інтерпретація розглядає метод стохастичного градієнтного спуску в застосуванні до визначеної вище задачі мінімізації очікуваного ризику . Дійсно, у випадку нескінченного потоку даних, оскільки вважається, що приклади беруться з розподілу н. о. р., то послідовність градієнтів у наведеній вище ітерації є н. о. р. вибіркою стохастичних оцінок градієнта очікуваного ризику , й відтак можливо застосувати результати складності для методу стохастичного градієнтного спуску для обмеження відхилення , де це мінімізатор . Ця інтерпретація також справедлива у випадку скінченного тренувального набору; хоч при багатократних проходах даними градієнти вже й не є незалежними, все одно в особливих випадках отримати результати складності можливо.
Друга інтерпретація стосується випадку скінченного тренувального набору й розглядає алгоритм СГС як примірник методу покрокового градієнтного спуску. У цьому випадку натомість дивляться на емпіричний ризик:
Оскільки градієнти в ітераціях покрокового градієнтного спуску також є стохастичними оцінками градієнта , ця інтерпретація також пов'язана з методом стохастичного градієнтного спуску, але застосовується для мінімізації емпіричного ризику, а не очікуваного. Оскільки ця інтерпретація розглядає емпіричний ризик замість очікуваного, багаторазові проходи даними легко дозволені й фактично ведуть до жорсткіших меж на відхилення , де — мінімізатор .
Втілення
- [en]: відкрита швидка позаядрова система інтерактивного навчання, яка вирізняється підтримкою низки зведень машинного навчання, зважування важливості, та вибором різних функцій втрат та алгоритмів оптимізації. Вона використовує [en] для обмеження розміру набору ознак незалежно від обсягу тренувальних даних.
- scikit-learn: пропонує позаядрові втілення алгоритмів для
- Класифікування: перцептрон, класифікатор СГС, наївний баєсів класифікатор.
- Регресії: регресор СГС, пасивно-агресивний регресор.
- Кластерування: мініпакетні k-середні.
- Виділяння ознак: [en], покроковий МГК.
Див. також
Парадигми навчання
- Покрокове навчання
- Відкладене навчання
- [en],[] протилежна модель
- Навчання з підкріпленням
- Багаторукий бандит
- Кероване навчання
Загальні алгоритми
Моделі навчання
Примітки
- L. Rosasco, T. Poggio, Machine Learning: a Regularization Approach, MIT-9.520 Lectures Notes, Manuscript, Dec. 2015. Chapter 7 - Online Learning (англ.)
- Yin, Harold J. Kushner, G. George (2003). Stochastic approximation and recursive algorithms and applications (англ.) (вид. Second). New York: Springer. с. 8–12. ISBN .
- Bertsekas, D. P. (2011). Incremental gradient, subgradient, and proximal methods for convex optimization: a survey. Optimization for Machine Learning, 85. (англ.)
- (2015). Introduction to Online Convex Optimization (PDF) (англ.). Foundations and Trends in Optimization.
- Parisi, German I.; Kemker, Ronald; Part, Jose L.; Kanan, Christopher; Wermter, Stefan (2019). Continual lifelong learning with neural networks: A review. Neural Networks (англ.). 113: 54—71. arXiv:1802.07569. doi:10.1016/j.neunet.2019.01.012. ISSN 0893-6080.
- (1998). Online Algorithms and Stochastic Approximations. Online Learning and Neural Networks (англ.). Cambridge University Press. ISBN .
- Stochastic Approximation Algorithms and Applications, Harold J. Kushner and G. George Yin, New York: Springer-Verlag, 1997. ; 2nd ed., titled Stochastic Approximation and Recursive Algorithms and Applications, 2003, . (англ.)
Посилання
- 6.883: Online Methods in Machine Learning: Theory and Applications. Alexander Rakhlin. MIT (англ.)
Вікіпедія, Українська, Україна, книга, книги, бібліотека, стаття, читати, завантажити, безкоштовно, безкоштовно завантажити, mp3, відео, mp4, 3gp, jpg, jpeg, gif, png, малюнок, музика, пісня, фільм, книга, гра, ігри, мобільний, телефон, android, ios, apple, мобільний телефон, samsung, iphone, xiomi, xiaomi, redmi, honor, oppo, nokia, sonya, mi, ПК, web, Інтернет
Ne plutati z onlajn ta oflajn V informatici interakti vne mashi nne navcha nnya angl online machine learning ce metod mashinnogo navchannya v yakomu dani stayut dostupnimi poslidovno i yih vikoristovuyut dlya utochnennya najkrashogo peredbachuvacha dlya majbutnih danih na kozhnomu kroci na vidminu vid metodiv paketnogo navchannya angl batch learning yaki porodzhuyut najkrashij peredbachuvach shlyahom navchannya na vsomu trenuvalnomu nabori danih za raz Interaktivne navchannya ye poshirenoyu metodikoyu yaku vikoristovuyut u sferah mashinnogo navchannya de trenuvannya nad usim naborom danih obchislyuvalno nezdijsnenne sho vimagaye vikoristannya en Jogo takozh vikoristovuyut u situaciyah koli neobhidno shob algoritm dinamichno pristosovuvavsya do novih zakonomirnostej u danih abo koli sami dani porodzhuyutsya yak funkciya chasu napriklad u en Algoritmi interaktivnogo navchannya mozhut buti shilnimi do en cyu problemu mozhlivo rozv yazuvati za dopomogoyu pidhodiv pokrokovogo navchannya VvedennyaU postanovci kerovanogo navchannya nalezhit navchitisya funkciyi f X Y displaystyle f X to Y de X displaystyle X rozglyadayut yak prostir vhodiv a Y displaystyle Y yak prostir vihodiv yaka robit dobri peredbachennya na vipadkah uzyatih zi spilnogo rozpodilu jmovirnosti p x y displaystyle p x y na X Y displaystyle X times Y Naspravdi uchen nikoli ne znaye spravzhnogo rozpodilu p x y displaystyle p x y nad primirnikami Natomist uchen zazvichaj maye dostup do trenuvalnogo naboru prikladiv x 1 y 1 x n y n displaystyle x 1 y 1 ldots x n y n U cij postanovci funkciyu vtrat zadayut yak V Y Y R displaystyle V Y times Y to mathbb R tak sho V f x y displaystyle V f x y vimiryuye riznicyu mizh peredbachenim znachennyam f x displaystyle f x ta istinnim znachennyam y displaystyle y Idealna meta obrati taku funkciyu f H displaystyle f in mathcal H de H displaystyle mathcal H ce prostir funkcij zvanij prostorom gipotez shobi deyake ponyattya zagalnih vtrat bulo minimizovanim Zalezhno vid tipu modeli statistichna chi zmagalna mozhlivo vinahoditi rizni ponyattya vtrat yaki vedut do riznih algoritmiv navchannya Statistichnij viglyad interaktivnogo navchannyaU modelyah statistichnogo navchannya vvazhayut sho trenuvalni zrazki x i y i displaystyle x i y i vzyato z istinnogo rozpodilu p x y displaystyle p x y a meta polyagaye v minimizaciyi ochikuvanogo riziku I f E V f x y V f x y d p x y displaystyle I f mathbb E V f x y int V f x y dp x y Poshirena paradigma v cij situaciyi ocinyuvati funkciyu f displaystyle hat f cherez minimizaciyu empirichnogo riziku abo regulyarizovanu minimizaciyu empirichnogo riziku zazvichaj regulyarizaciyeyu Tihonova Vibir funkciyi vtrat tut porodzhuye dekilka dobre vidomih algoritmiv navchannya takih yak regulyarizovani najmenshi kvadrati ta opornovektorni mashini Suto interaktivna model u cij kategoriyi vchitimetsya na osnovi lishe novogo vhodu x t 1 y t 1 displaystyle x t 1 y t 1 potochnogo najkrashogo peredbachuvacha f t displaystyle f t ta deyakoyi dodatkovoyi zberezhenoyi informaciyi vid yakoyi zazvichaj ochikuyut vimog do zberigannya nezalezhnih vid rozmiru trenuvalnih danih Dlya bagatoh formulyuvan napriklad nelinijnih yadrovih metodiv istinne interaktivne navchannya nemozhlive hocha mozhlivo vikoristovuvati pevnij viglyad gibridnogo interaktivnogo navchannya z rekursivnimi algoritmami de f t 1 displaystyle f t 1 dozvoleno zalezhati vid f t displaystyle f t j usih poperednih tochok danih x 1 y 1 x t y t displaystyle x 1 y 1 ldots x t y t U comu vipadku stalist vimog do zberigannya bilshe ne garantovano oskilki vin vimagaye zberigannya vsih poperednih tochok danih ale rozv yazannya mozhe zajmati menshe chasu na obchislennya z dodavannyam novoyi tochki danih u porivnyanni z paketnimi metodikami navchannya Zagalnoyu strategiyeyu podolannya vishevkazanih problem ye vikoristannya minipaketiv angl mini batches yaki obroblyayut nevelikij paket b 1 displaystyle b geq 1 tochok danih za raz ce mozhna vvazhati psevdointeraktivnim navchannyam dlya b displaystyle b znachno menshogo za zagalnu kilkist trenuvalnih tochok Minipaketni metodiki vikoristovuyut z povtoryuvanim prohodzhennyam trenuvalnih danih dlya otrimannya optimizovanih en versij algoritmiv mashinnogo navchannya napriklad stohastichnogo gradiyentnogo spusku U poyednanni zi zvorotnim poshirennyam ce narazi ye faktichnim trenuvalnim metodom dlya trenuvannya shtuchnih nejronnih merezh Priklad linijni najmenshi kvadrati Dokladnishe en Dlya poyasnennya riznomanitnih idej v interaktivnomu navchanni vikoristovuyut prostij priklad linijnih najmenshih kvadrativ Ci ideyi dostatno zagalni shobi yih bulo mozhlivo zastosovuvati do inshih postanovok napriklad z inshimi opuklimi funkciyami vtrat Paketne navchannya Rozglyanmo postanovku kerovanogo navchannya de f displaystyle f linijna funkciya yakoyi potribno navchitisya f x j w x j w x j displaystyle f x j langle w x j rangle w cdot x j de x j R d displaystyle x j in mathbb R d vektor vhodiv tochok danih a w R d displaystyle w in mathbb R d vektor linijnogo filtra Meta polyagaye v obchislenni vektora filtra w displaystyle w Z ciyeyu metoyu kvadratichnu funkciya vtrat V f x j y j f x j y j 2 w x j y j 2 displaystyle V f x j y j f x j y j 2 langle w x j rangle y j 2 vikoristovuyut dlya obchislennya vektora w displaystyle w yakij minimizuye empirichni vtrati I n w j 1 n V w x j y j j 1 n x j T w y j 2 displaystyle I n w sum j 1 n V langle w x j rangle y j sum j 1 n x j T w y j 2 de y j R displaystyle y j in mathbb R Nehaj X displaystyle X ce matricya danih i d displaystyle i times d a y R i displaystyle y in mathbb R i vektor stovpec cilovih znachen pislya nadhodzhennya pershih i displaystyle i tochok danih Vihodyachi z pripushennya sho kovariacijna matricya S i X T X displaystyle Sigma i X T X nevirodzhena v inshomu razi krashe diyati podibnim chinom z regulyarizaciyeyu Tihonova najkrashij rozv yazok f x w x displaystyle f x langle w x rangle zadachi linijnih najmenshih kvadrativ zadayetsya cherez w X T X 1 X T y S i 1 j 1 i x j y j displaystyle w X T X 1 X T y Sigma i 1 sum j 1 i x j y j Teper obchislennya kovariacijnoyi matrici S i j 1 i x j x j T displaystyle Sigma i sum j 1 i x j x j T zajmaye O i d 2 displaystyle O id 2 chasu obernennya matrici d d displaystyle d times d zajmaye O d 3 displaystyle O d 3 chasu todi yak reshta mnozhennya zajmaye O d 2 displaystyle O d 2 chasu dayuchi zagalnij chas O i d 2 d 3 displaystyle O id 2 d 3 Koli zagalna kilkist tochok u nabori danih n displaystyle n dlya pereobchislennya rozv yazku pislya nadhodzhennya kozhnoyi tochki danih i 1 n displaystyle i 1 ldots n nayivnij pidhid matime povnu skladnist O n 2 d 2 n d 3 displaystyle O n 2 d 2 nd 3 Zauvazhte sho yaksho zberigati matricyu S i displaystyle Sigma i to dlya yiyi utochnennya na kozhnomu kroci potribno lishe dodavati x i 1 x i 1 T displaystyle x i 1 x i 1 T sho zajmaye O d 2 displaystyle O d 2 chasu znizhuyuchi zagalnij chas do O n d 2 n d 3 O n d 3 displaystyle O nd 2 nd 3 O nd 3 ale z dodatkovim miscem dlya zberigannya O d 2 displaystyle O d 2 shobi zberigati S i displaystyle Sigma i Interaktivne navchannya rekursivni najmenshi kvadrati Algoritm rekursivnih najmenshih kvadrativ RNK angl recursive least squares RLS rozglyadaye interaktivnij pidhid do zadachi najmenshih kvadrativ Mozhlivo pokazati sho yaksho vstanoviti pochatkovi znachennya w 0 0 R d displaystyle textstyle w 0 0 in mathbb R d ta G 0 I R d d displaystyle textstyle Gamma 0 I in mathbb R d times d to rozv yazok zadachi linijnih najmenshih kvadrativ navedenoyi v poperednomu rozdili mozhlivo obchislyuvati nastupnim iteruvannyam G i G i 1 G i 1 x i x i T G i 1 1 x i T G i 1 x i displaystyle Gamma i Gamma i 1 frac Gamma i 1 x i x i T Gamma i 1 1 x i T Gamma i 1 x i w i w i 1 G i x i x i T w i 1 y i displaystyle w i w i 1 Gamma i x i x i T w i 1 y i Navedenij vishe iterativnij algoritm mozhlivo dovesti za dopomogoyu indukciyi za i displaystyle i Ce dovedennya takozh pokazuye sho G i S i 1 displaystyle Gamma i Sigma i 1 RNK takozh mozhlivo rozglyadati v konteksti adaptivnih filtriv div en Skladnist cogo algoritmu dlya n displaystyle n krokiv stanovit O n d 2 displaystyle O nd 2 sho na poryadok shvidshe za vidpovidnu skladnist paketnogo navchannya Vimogi do zberigannya na kozhnomu kroci i displaystyle i tut zberigati matricyu G i displaystyle Gamma i sho stanovit stali O d 2 displaystyle O d 2 Na toj vipadok koli S i displaystyle Sigma i virodzhena rozglyanmo regulyarizovanij variant funkciyi vtrat zadachi j 1 n x j T w y j 2 l w 2 2 displaystyle sum j 1 n x j T w y j 2 lambda w 2 2 Vidtak legko pokazati sho pracyuye toj samij algoritm G 0 I l I 1 displaystyle Gamma 0 I lambda I 1 j iteraciyi prodovzhuyut davati G i S i l I 1 displaystyle Gamma i Sigma i lambda I 1 Stohastichnij gradiyentnij spusk Dokladnishe Stohastichnij gradiyentnij spusk Koli ce w i w i 1 G i x i x i T w i 1 y i displaystyle textstyle w i w i 1 Gamma i x i x i T w i 1 y i zaminiti na w i w i 1 g i x i x i T w i 1 y i w i 1 g i V w i 1 x i y i displaystyle textstyle w i w i 1 gamma i x i x i T w i 1 y i w i 1 gamma i nabla V langle w i 1 x i rangle y i abo G i R d d displaystyle Gamma i in mathbb R d times d na g i R displaystyle gamma i in mathbb R ce staye algoritmom stohastichnogo gradiyentnogo spusku V comu vipadku skladnist cogo algoritmu dlya n displaystyle n krokiv znizhuyetsya do O n d displaystyle O nd Vimogi do zberigannya na kozhnomu kroci i displaystyle i stali j stanovlyat O d displaystyle O d Prote rozmir kroku g i displaystyle gamma i neobhidno obirati retelno shobi rozv yazati zadachu minimizaciyi ochikuvanogo riziku yak opisano vishe Obravshi rozmir kroku zatuhannya g i 1 i displaystyle gamma i approx frac 1 sqrt i mozhlivo dovesti zbizhnist serednoyi iteraciyi w n 1 n i 1 n w i displaystyle overline w n frac 1 n sum i 1 n w i Cya postanovka ye okremim vipadkom stohastichnoyi optimizaciyi dobre vidomoyi zadachi optimizaciyi Pokrokovij stohastichnij gradiyentnij spusk Na praktici mozhlivo vikonuvati dekilka stohastichnih gradiyentnih prohodiv nad danimi takozh zvanih ciklami abo epohami Otrimanij takim chinom algoritm nosit nazvu pokrokovogo gradiyentnogo metoda angl incremental gradient method j vidpovidaye iteraciyi w i w i 1 g i V w i 1 x t i y t i displaystyle textstyle w i w i 1 gamma i nabla V langle w i 1 x t i rangle y t i Osnovna vidminnist vid metodu stohastichnogo gradiyenta polyagaye v tomu sho tut obirayut poslidovnist t i displaystyle t i shobi virishuvati yaku trenuvalnu tochku vidvidati na i displaystyle i tomu kroci Taka poslidovnist mozhe buti stohastichnoyu abo determinovanoyu Vidtak kilkist iteracij vidokremlyuyetsya vid kilkosti tochok kozhnu tochku mozhlivo rozglyadati dekilka raziv Mozhlivo prodemonstruvati sho metod pokrokovogo gradiyenta zabezpechuye minimizaciyu empirichnogo riziku Pokrokovi metodi mozhut buti korisnimi pri rozglyadi cilovih funkcij skladenih iz sumi bagatoh chleniv napriklad empirichnoyi pohibki sho vidpovidaye duzhe velikomu naboru danih Yadrovi metodi Div takozh Yadrovij metod Yadra mozhlivo vikoristovuvati dlya rozshirennya navedenih vishe algoritmiv do neparametrichnih modelej abo modelej de parametri utvoryuyut neskinchennovimirnij prostir Vidpovidna procedura bilshe ne bude istinno interaktivnoyu peredbachayuchi natomist zberigannya vsih tochok danih ale vse zh shvidshoyu za metod gruboyi sili Ce obgovorennya obmezhuyetsya vipadkom kvadratichnih vtrat hocha jogo mozhe buti rozshireno do bud yakih opuklih vtrat Za dopomogoyu prostoyi indukciyi mozhlivo pokazati sho yaksho X i displaystyle X i ce matricya danih a w i displaystyle w i ce rezultat pislya i displaystyle i krokiv algoritmu SGS to w i X i T c i displaystyle w i X i T c i de c i c i 1 c i 2 c i i R i displaystyle textstyle c i c i 1 c i 2 c i i in mathbb R i a poslidovnist c i displaystyle c i zadovolnyaye rekursiyu c 0 0 displaystyle c 0 0 c i j c i 1 j j 1 2 i 1 displaystyle c i j c i 1 j j 1 2 i 1 i c i i g i y i j 1 i 1 c i 1 j x j x i displaystyle c i i gamma i Big y i sum j 1 i 1 c i 1 j langle x j x i rangle Big Zauvazhte sho tut x j x i displaystyle langle x j x i rangle ye prosto standartnim yadrom na R d displaystyle mathbb R d a peredbachuvach maye viglyad f i x w i 1 x j 1 i 1 c i 1 j x j x displaystyle f i x langle w i 1 x rangle sum j 1 i 1 c i 1 j langle x j x rangle Teper yaksho natomist vvodyat zagalne yadro K displaystyle K i pokladayut peredbachuvach yak f i x j 1 i 1 c i 1 j K x j x displaystyle f i x sum j 1 i 1 c i 1 j K x j x to te same dovedennya takozh pokazhe sho peredbachuvach yakij minimizuye vtrati za metodom najmenshih kvadrativ otrimuyetsya zaminoyu navedenoyi vishe rekursiyi na c i i g i y i j 1 i 1 c i 1 j K x j x i displaystyle c i i gamma i Big y i sum j 1 i 1 c i 1 j K x j x i Big Navedenij vishe viraz vimagaye zberigannya vsih danih dlya utochnennya c i displaystyle c i Zagalna chasova skladnist dlya rekursiyi pri ocinyuvanni dlya n displaystyle n toyi tochki danih stanovit O n 2 d k displaystyle O n 2 dk de k displaystyle k ce vitrati na obchislennya yadra na odnij pari tochok Takim chinom vikoristannya yadra dozvolilo perejti vid skinchennovimirnogo prostoru parametriv w i R d displaystyle textstyle w i in mathbb R d do mozhlivo neskinchennovimirnoyi funkciyi podanoyi yadrom K displaystyle K natomist vikonuyuchi rekursiyu na prostori parametriv c i R i displaystyle textstyle c i in mathbb R i rozmirnist yakogo taka sama yak i rozmir trenuvalnogo naboru danih Zagalom ce naslidok en Interaktivna opukla optimizaciya Interaktivna opukla optimizaciya IOO angl online convex optimization OCO ce zagalna sistema dlya uhvalyuvannya rishen yaka vikoristovuye dlya stvorennya efektivnih algoritmiv opuklu optimizaciyu Cya sistema polyagaye v povtoryuvanij gri nastupnim chinom Dlya t 1 2 T displaystyle t 1 2 T Uchen otrimuye vhid x t displaystyle x t Uchen vidaye w t displaystyle w t z fiksovanoyi opukloyi mnozhini S displaystyle S Priroda povertaye opuklu funkciyu vtrat v t S R displaystyle v t S rightarrow mathbb R Uchen zaznaye vtrat v t w t displaystyle v t w t j utochnyuye svoyu model Metoyu ye minimizuvati smutok abo riznicyu mizh sukupnimi vtratami ta vtratami retrospektivno najkrashoyi fiksovanoyi tochki u S displaystyle u in S Yak priklad rozglyanmo vipadok interaktivnoyi linijnoyi regresiyi najmenshih kvadrativ Tut vektori vag pohodyat iz opukloyi mnozhini S R d displaystyle S mathbb R d a priroda povertaye opuklu funkciyu vtrat v t w w x t y t 2 displaystyle v t w langle w x t rangle y t 2 Zauvazhte sho y t displaystyle y t neyavno povertayetsya razom z v t displaystyle v t Prote deyaki zadachi interaktivnogo peredbachuvannya v sistemu IOO ne vpisuyutsya Napriklad v interaktivnomu klasifikuvanni oblast peredbachuvannya ta funkciyi vtrat ne opukli U takih scenariyah vikoristovuyut dvi prosti metodiki dlya en randomizaciyu ta surogatni funkciyi vtrat dzherelo Nizhche navedeno kilka prostih algoritmiv interaktivnoyi opukloyi optimizaciyi Idi za liderom IZL Najprostishe pravilo navchannya namagatisya obirati na potochnomu kroci gipotezu yaka maye najmenshi vtrati nad usima minulimi raundami Cej algoritm maye nazvu Idi za liderom angl Follow the leader FTL a raund t displaystyle t zadayetsya prosto yak w t a r g m i n w S i 1 t 1 v i w R w displaystyle w t operatorname arg min w in S sum i 1 t 1 v i w R w Cej metod vidtak mozhlivo rozglyadati yak zhadibnij algoritm Dlya vipadku interaktivnoyi kvadratichnoyi optimizaciyi de funkciya vtrat v t w w x t 2 2 displaystyle v t w w x t 2 2 mozhlivo prodemonstruvati mezhu smutku yaka zrostaye yak log T displaystyle log T Prote dlya algoritmu IZL podibni mezhi nemozhlivo otrimati dlya inshih vazhlivih simejstv modelej takih yak interaktivna linijna optimizaciya Dlya cogo potribno vidozminiti IZL dodavshi regulyarizaciyu Idi za regulyarizovanim liderom IZRL Ce prirodna vidozmina IZL yaku vikoristovuyut shobi stabilizuvati rozv yazki IZL j otrimuvati krashi mezhi smutku Obirayut funkciyu regulyarizaciyi R S R displaystyle R S rightarrow mathbb R i navchannya v raundi t vikonuyut takim chinom w t a r g m i n w S i 1 t 1 v i w R w displaystyle w t operatorname arg min w in S sum i 1 t 1 v i w R w Yak osoblivij priklad rozglyanmo vipadok interaktivnoyi linijnoyi optimizaciyi tobto koli priroda povertaye funkciyi vtrat viglyadu v t w w z t displaystyle v t w langle w z t rangle Krim togo nehaj S R d displaystyle S mathbb R d Pripustimo sho obirayut funkciyu regulyarizaciyi R w 1 2 h w 2 2 displaystyle R w frac 1 2 eta w 2 2 dlya deyakogo dodatnogo chisla h displaystyle eta Todi mozhlivo pokazati sho iteraciya minimizaciyi smutku nabuvaye viglyadu w t 1 h i 1 t z i w t h z t displaystyle w t 1 eta sum i 1 t z i w t eta z t Zauvazhte sho ce mozhlivo perepisati yak w t 1 w t h v t w t displaystyle w t 1 w t eta nabla v t w t sho viglyadaye tochno yak pokrokovij gradiyentnij spusk Yaksho S ce natomist deyakij opuklij pidprostir R d displaystyle mathbb R d to neobhidno bude robiti proyekciyu na S sho dast vidozminene pravilo utochnennya w t 1 P S h i 1 t z i P S h 8 t 1 displaystyle w t 1 Pi S eta sum i 1 t z i Pi S eta theta t 1 Cej algoritm vidomij yak vidkladena proyekciya angl lazy projection oskilki vektor 8 t 1 displaystyle theta t 1 nakopichuye gradiyenti Vin takozh vidomij yak algoritm podvijnogo userednyuvannya Nesterova U comu scenariyi linijnoyi funkcij vtrat i kvadratichnoyi regulyarizaciyi smutok obmezhenij O T displaystyle O sqrt T i vidtak serednij smutok zvoditsya do 0 yak i bazhano Interaktivnij subgradiyentnij spusk ISS Div takozh Subgradiyentnij metod Navedenim vishe dovedeno mezhu smutku dlya linijnih funkcij vtrat v t w w z t displaystyle v t w langle w z t rangle Shob uzagalniti cej algoritm na dovilnu opuklu funkciyu vtrat vikoristovuyut subgradiyent v t w t displaystyle partial v t w t funkciyi vtrat v t displaystyle v t yak linijne nablizhennya v t displaystyle v t blizko w t displaystyle w t sho daye algoritm interaktivnogo subgradiyentnogo spusku angl online subgradient descent OSD Vstanoviti pochatkovi znachennya parametra h w 1 0 displaystyle eta w 1 0 Dlya t 1 2 T displaystyle t 1 2 T Zrobiti peredbachennya z vikoristannyam w t displaystyle w t otrimati vid prirodi f t displaystyle f t Obrati z t v t w t displaystyle z t in partial v t w t Yaksho S R d displaystyle S mathbb R d zrobiti utochnennya w t 1 w t h z t displaystyle w t 1 w t eta z t Yaksho S R d displaystyle S subset mathbb R d zrobiti proyekciyu sukupnih gradiyentiv na S displaystyle S tobto w t 1 P S h 8 t 1 8 t 1 8 t z t displaystyle w t 1 Pi S eta theta t 1 theta t 1 theta t z t Algoritm ISS mozhlivo vikoristovuvati dlya vivedennya mezh smutku O T displaystyle O sqrt T dlya interaktivnoyi versiyi OVM dlya klasifikuvannya yaka vikoristovuye zavisni vtrati v t w max 0 1 y t w x t displaystyle v t w max 0 1 y t w cdot x t Inshi algoritmi Kvadratichno regulyarizovani algoritmi IZRL vedut do algoritmiv vidkladenih proyekcij gradiyenta yak opisano vishe Shobi vikoristati navedene vishe dlya dovilnih opuklih funkcij i regulyarizatoriv vikoristovuyut en Optimalnu regulyarizaciyu zadnim chislom mozhe buti vivedeno dlya linijnih funkcij vtrat ce vede do algoritmu en Dlya evklidovoyi regulyarizaciyi mozhlivo pokazati mezhu smutku O T displaystyle O sqrt T yaku mozhlivo vdoskonaliti dali do O log T displaystyle O log T dlya silno opuklih ta eksponencijno ugnutih funkcij vtrat Bezperervne navchannyaBezperervne navchannya angl continual learning oznachaye bezperervne vdoskonalennya navchenoyi modeli shlyahom obrobki bezperervnih potokiv informaciyi Mozhlivosti bezperervnogo navchannya vazhlivi dlya programnih sistem ta avtonomnih agentiv yaki vzayemodiyut u realnomu sviti sho postijno zminyuyetsya Prote bezperervne navchannya ce viklik dlya mashinnogo navchannya ta modelej nejronnih merezh oskilki bezperervne otrimannya dostupnoyi pokrokovo informaciyi z nestacionarnih rozpodiliv danih zazvichaj prizvodit do en Interpretaciyi interaktivnogo navchannyaParadigma interaktivnogo navchannya maye rizni interpretaciyi zalezhno vid viboru modeli navchannya kozhna z yakih maye rizni naslidki shodo peredbachuvalnoyi yakosti poslidovnosti funkcij f 1 f 2 f n displaystyle f 1 f 2 ldots f n Dlya cogo obgovorennya vikoristano prototip algoritmu stohastichnogo gradiyentnogo spusku Yak zaznacheno vishe jogo rekursiyu zadano formuloyu w t w t 1 g t V w t 1 x t y t displaystyle textstyle w t w t 1 gamma t nabla V langle w t 1 x t rangle y t Persha interpretaciya rozglyadaye metod stohastichnogo gradiyentnogo spusku v zastosuvanni do viznachenoyi vishe zadachi minimizaciyi ochikuvanogo riziku I w displaystyle I w Dijsno u vipadku neskinchennogo potoku danih oskilki vvazhayetsya sho prikladi x 1 y 1 x 2 y 2 displaystyle x 1 y 1 x 2 y 2 ldots berutsya z rozpodilu p x y displaystyle p x y n o r to poslidovnist gradiyentiv V displaystyle V cdot cdot u navedenij vishe iteraciyi ye n o r vibirkoyu stohastichnih ocinok gradiyenta ochikuvanogo riziku I w displaystyle I w j vidtak mozhlivo zastosuvati rezultati skladnosti dlya metodu stohastichnogo gradiyentnogo spusku dlya obmezhennya vidhilennya I w t I w displaystyle I w t I w ast de w displaystyle w ast ce minimizator I w displaystyle I w Cya interpretaciya takozh spravedliva u vipadku skinchennogo trenuvalnogo naboru hoch pri bagatokratnih prohodah danimi gradiyenti vzhe j ne ye nezalezhnimi vse odno v osoblivih vipadkah otrimati rezultati skladnosti mozhlivo Druga interpretaciya stosuyetsya vipadku skinchennogo trenuvalnogo naboru j rozglyadaye algoritm SGS yak primirnik metodu pokrokovogo gradiyentnogo spusku U comu vipadku natomist divlyatsya na empirichnij rizik I n w 1 n i 1 n V w x i y i displaystyle I n w frac 1 n sum i 1 n V langle w x i rangle y i Oskilki gradiyenti V displaystyle V cdot cdot v iteraciyah pokrokovogo gradiyentnogo spusku takozh ye stohastichnimi ocinkami gradiyenta I n w displaystyle I n w cya interpretaciya takozh pov yazana z metodom stohastichnogo gradiyentnogo spusku ale zastosovuyetsya dlya minimizaciyi empirichnogo riziku a ne ochikuvanogo Oskilki cya interpretaciya rozglyadaye empirichnij rizik zamist ochikuvanogo bagatorazovi prohodi danimi legko dozvoleni j faktichno vedut do zhorstkishih mezh na vidhilennya I n w t I n w n displaystyle I n w t I n w n ast de w n displaystyle w n ast minimizator I n w displaystyle I n w Vtilennya en vidkrita shvidka pozayadrova sistema interaktivnogo navchannya yaka viriznyayetsya pidtrimkoyu nizki zveden mashinnogo navchannya zvazhuvannya vazhlivosti ta viborom riznih funkcij vtrat ta algoritmiv optimizaciyi Vona vikoristovuye en dlya obmezhennya rozmiru naboru oznak nezalezhno vid obsyagu trenuvalnih danih scikit learn proponuye pozayadrovi vtilennya algoritmiv dlya Klasifikuvannya perceptron klasifikator SGS nayivnij bayesiv klasifikator Regresiyi regresor SGS pasivno agresivnij regresor Klasteruvannya minipaketni k seredni Vidilyannya oznak en pokrokovij MGK Div takozhParadigmi navchannya Pokrokove navchannya Vidkladene navchannya en utochniti termin protilezhna model Navchannya z pidkriplennyam Bagatorukij bandit Kerovane navchannya Zagalni algoritmi Interaktivnij algoritm en Potokovij algoritm Stohastichnij gradiyentnij spusk Modeli navchannya en Iyerarhichna chasova pam yat Algoritm k najblizhchih susidiv en PerceptronPrimitkiL Rosasco T Poggio Machine Learning a Regularization Approach MIT 9 520 Lectures Notes Manuscript Dec 2015 Chapter 7 Online Learning angl Yin Harold J Kushner G George 2003 Stochastic approximation and recursive algorithms and applications angl vid Second New York Springer s 8 12 ISBN 978 0 387 21769 7 Bertsekas D P 2011 Incremental gradient subgradient and proximal methods for convex optimization a survey Optimization for Machine Learning 85 angl 2015 Introduction to Online Convex Optimization PDF angl Foundations and Trends in Optimization Parisi German I Kemker Ronald Part Jose L Kanan Christopher Wermter Stefan 2019 Continual lifelong learning with neural networks A review Neural Networks angl 113 54 71 arXiv 1802 07569 doi 10 1016 j neunet 2019 01 012 ISSN 0893 6080 1998 Online Algorithms and Stochastic Approximations Online Learning and Neural Networks angl Cambridge University Press ISBN 978 0 521 65263 6 Stochastic Approximation Algorithms and Applications Harold J Kushner and G George Yin New York Springer Verlag 1997 ISBN 0 387 94916 X 2nd ed titled Stochastic Approximation and Recursive Algorithms and Applications 2003 ISBN 0 387 00894 2 angl Posilannya6 883 Online Methods in Machine Learning Theory and Applications Alexander Rakhlin MIT angl