В машинному навчанні навча́ння озна́к (англ. feature learning) або навча́ння предста́влень (англ. representation learning) — це набір методик, що дозволяє системі автоматично виявляти представлення, необхідні для виявлення ознак, або класифікування з сирих даних. Воно замінює ручне конструювання ознак і дозволяє машині як навчатися ознак, так і застосовувати їх для виконання конкретного завдання.
Необхідність у навчанні ознак обумовлено тим фактом, що такі завдання машинного навчання, як класифікування, часто потребують входу, що є математично та обчислювально зручним для обробки. Проте дані реального світу, такі як зображення, відео та давачеві вимірювання, ще не піддаються спробам алгоритмічного визначення конкретних ознак. Альтернативою є виявляти такі ознаки або представлення через дослідження, не покладаючись на явні алгоритми.
Навчання ознак може бути або керованим, або некерованим.
- У керованому навчанні ознак машина навчається ознак із застосуванням мічених входових даних. До прикладів належать керовані нейронні мережі, багатошаровий перцептрон та (кероване) [en].
- У некерованому навчанні ознак машина навчається ознак з неміченими входовими даними. До прикладів належать навчання словника, [en], автокодувальники, розклад матриць та різні види кластерування.
Кероване
Кероване навчання ознак є навчанням ознак з мічених даних. Мітка даних дозволяє системі обчислювати член похибки, міру, до якої системі не вдається виробити мітку, що може бути потім використано як зворотний зв'язок для правлення процесу навчання (зниження/мінімізування цієї похибки). До його підходів належать:
Кероване навчання словника
Навчання словника виробляє набір (словник) показових елементів із входових даних, таких, що кожну точку даних може бути представлено як зважену суму показових елементів. Елементи словника та вагові коефіцієнти може бути знайдено мінімізацією середньої похибки представлення (над входовими даними), разом з L1-регуляризацією вагових коефіцієнтів для забезпечення розрідженості (тобто, щоби представлення кожної точки даних мало лише декілька ненульових вагових коефіцієнтів).
Кероване навчання словника (англ. supervised dictionary learning) для оптимізації елементів словника використовує як структуру, що стоїть за входовими даними, так і мітки. Наприклад, ця методика керованого навчання словника застосовує навчання словника до задач класифікації шляхом спільної оптимізації на основі входових даних елементів словника, вагових коефіцієнтів для представлення точок даних, та параметрів класифікатора. Зокрема, сформульовано задачу мінімізації, в якій цільова функція складається з похибки класифікації, похибки представлення, L1-регуляризації вагових коефіцієнтів, що представляють кожну точку даних (для забезпечення розрідженого представлення даних) та L2-регуляризації параметрів класифікатора.
Нейронні мережі
Нейронні мережі є сімейством алгоритмів навчання, що використовують «мережу», яка складається з кількох шарів з'єднаних між собою вузлів. Їх натхнено нервовою системою тварин, де вузли розглядають як нейрони, а ребра розглядають як синапси. Кожне ребро має пов'язану з ним вагу, а мережа визначає обчислювальні правила для передавання входових даних з шару входу мережі до шару виходу. Функція мережі, пов'язана з нейронною мережею, характеризує співвідношення між шарами входу та виходу, що параметризується ваговими коефіцієнтами. Для відповідно визначених функцій мережі різні завдання навчання можливо виконувати шляхом мінімізування функції втрат над функцією мережі (ваговими коефіцієнтами).
Для виконання навчання ознак можливо використовувати багатошарові нейронні мережі, оскільки вони навчаються представлення їхнього входу на прихованих шарах, яке потім використовується для класифікації або регресії на шарі виходу. Найпопулярнішою мережною архітектурою цього типу є [en].
Некероване
Некероване навчання ознак навчається ознак з немічених даних. Метою некерованого навчання ознак часто є виявлення ознак низької розмірності, що вловлюють певну структуру, що лежить за входовими даними високої розмірності. Коли навчання ознак виконують некерованим чином, воно уможливлює певний вид напівкерованого навчання, коли ознаки, навчені з неміченого набору даних, потім застосовують для покращення продуктивності в керованому режимі з міченими даними. Далі наведено кілька підходів.
Кластерування методом k–середніх
Одним з підходів до векторного квантування є кластерування методом k–середніх. Зокрема, для заданої множини з n векторів кластерування методом k–середніх групує їх в k кластерів (тобто, підмножин) таким чином, що кожен вектор належить до кластера з найближчим середнім значенням. Ця задача є обчислювально NP-складною, хоча було розроблено підоптимальні жадібні алгоритми.
Кластерування k–середніми можливо застосовувати для групування неміченого набору входів у k кластерів, з наступним використанням центроїдів цих кластерів для формування ознак. Ці ознаки можливо виводити кількома способами. Найпростішим є додавати k двійкових ознак до кожного зразка, де кожна ознака j має одиничне значення тоді й лише тоді, коли j-тий центроїд, навчений k–середніми, є найближчим до зразка, що розглядають. Також можливо використовувати як ознаки відстані до кластерів, принаймні після їх перетворення радіальною базисною функцією (методика, яку застосовували для тренування мереж РБФ). Котс та Ин зауважують, що деякі варіанти k–середніх поводяться подібно до алгоритмів розрідженого кодування.
Під час порівняльної оцінки методів некерованого навчання ознак Котс, Лі та Ин з'ясували, що кластерування k-середніми з відповідним перетворенням в завданні класифікації зображень перевершує винайдені пізніше автокодувальники та ОМБ.K-середні також покращують продуктивність в галузі ОПМ, особливо в розпізнаванні іменованих сутностей; там вони конкурують з [en], а також із розподіленими представленнями слів (також відомими як нейронні вкладення слів).
Метод головних компонент
Для зниження розмірності часто застосовують метод головних компонент (МГК, англ. principal component analysis, PCA). Для заданого неміченого набору n векторів входових даних МГК породжує p (що є набагато меншим за розмірність входових даних) правих сингулярних векторів, що відповідають p найбільшим сингулярним числам матриці даних, де k-тий рядок матриці даних є k-тим входовим вектором входових даних, зсунутим на вибіркове середнє входу (тобто, з відніманням вибіркового середнього від вектора даних). Рівнозначно, ці сингулярні вектори є власними векторами, що відповідають p найбільшим власним значенням вибіркової коваріаційної матриці входових векторів. Ці p сингулярних векторів є векторами ознак, навченими з входових даних, і вони представляють напрямки, вздовж яких дані мають найбільший розкид.
МГК є лінійним підходом до навчання ознак, оскільки p сингулярних векторів є лінійними функціями матриці даних. Сингулярні вектори може бути породжено простим алгоритмом з p ітерацій. На i-тій ітерації віднімають проєкцію матриці даних на (i-1)-й власний вектор, і знаходять i-тий сингулярний вектор як правий сингулярний вектор, що відповідає найбільшому сингулярному числу залишкової матриці даних.
МГК має кілька обмежень. По-перше, він припускає, що напрямки з найбільшою дисперсією становлять найвищий інтерес, що може бути не так. МГК покладається лише на ортогональні перетворення первинних даних, і використовує моменти даних лише першого та другого порядків, які можуть не добре характеризувати цей розподіл даних. Більше того, МГК може дієво зменшувати розмірність лише тоді, коли вектори входових даних є корельованими (що призводить до кількох домінантних власних значень).
Локальне лінійне вкладення
[en] (ЛЛВ, англ. local linear embedding, LLE) є нелінійним підходом до навчання для породження представлень низької розмірності, що зберігають сусідство, з (неміченого) входу високої розмірності. Цей підхід було запропоновано Ровейсом та Солом 2000 року. Загальною ідеєю ЛЛВ є відбудова первинних даних високої розмірності із застосуванням точок нижчої розмірності при збереженні деяких геометричних властивостей околів у первинному наборі даних.
ЛЛВ складається з двох основних етапів. Перший етап слугує «збереженню сусідства», на ньому кожна точка входових даних Xi відбудовують як зважену суму K найближчих сусідніх точок даних, і знаходять оптимальні вагові коефіцієнти шляхом мінімізування середньої квадратичної похибки відбудови (тобто різниці між входовою точкою та її відбудовою) за обмеження, що вагові коефіцієнти, пов'язані з кожною точкою даних, повинні в сумі давати одиницю. Другий етап слугує «зниженню розмірності» шляхом пошуку векторів у просторі нижчої розмірності, що мінімізує похибку представлення із застосуванням оптимізованих вагових коефіцієнтів з першого етапу. Зауважте, що на першому етапі вагові коефіцієнти оптимізують за незмінних даних, що можливо розв'язувати як задачу найменших квадратів. На другому етапі точки нижчої розмірності оптимізують із незмінними ваговими коефіцієнтами, що можливо розв'язувати через розріджений власний розклад.
Вагові коефіцієнти відбудови, отримані на першому етапі, схоплюють «внутрішні геометричні властивості» околу у входових даних. Вважають, що первинні дані лежать на гладкому многовиді нижчої розмірності, і очікують, що «внутрішні геометричні властивості», схоплені ваговими коефіцієнтами первинних даних, є також на цьому многовиді. Ось чому ті ж самі вагові коефіцієнти використовують на другому етапі ЛЛВ. У порівнянні з МГК, ЛЛВ є потужнішим у використанні внутрішньої структури даних.
Метод незалежних компонент
[en] (МНК, англ. Independent component analysis, ICA) — це методика для формування представлення даних із застосуванням зваженої суми незалежних не-ґаусових компонент. Припущення про не-ґаусовість накладають тому, що вагові коефіцієнти не може бути визначено однозначно, якщо всі компоненти слідують ґаусовому розподілу.
Некероване навчання словника
Некероване навчання словника (англ. unsupervised dictionary learning) для оптимізування словникових елементів не користується мітками даних, а використовує лише внутрішню структуру даних. Прикладом некерованого навчання словника є [en], спрямоване на навчання базисних функцій (словникових елементів) для представлення даних із немічених входових даних. Розріджене кодування можливо застосовувати для навчання переповнених словників, у яких кількість елементів є більшою за розмір входових даних. Аарон та ін. для навчання словника елементів, що уможливлює розріджене представлення, запропонували алгоритм [en] (англ. K-SVD).
Багатошарові/глибокі архітектури
Ієрархічна будова біологічної нервової системи надихає архітектури глибокого навчання для навчання ознак декількома накладеними шарами вузлів навчання. Ці архітектури часто розробляють на основі припущення про розподілене представлення: спостережувані дані породжуються взаємодіями багатьох різних чинників на декількох рівнях. В архітектурі глибокого навчання вихід кожного проміжного шару можливо розглядати як представлення первинних входових даних. Кожен рівень використовує представлення, вироблене попереднім рівнем, як вхід, і виробляє нові представлення на виході, що потім подають до вищих рівнів. Входом на найнижчому рівні є сирі дані, а виходом завершального рівня є остаточна ознака або представлення низької розмірності.
Обмежена машина Больцмана
Як будівельні блоки для архітектур багатошарового навчання часто використовують обмежені машини Больцмана (ОМБ, англ. restricted Boltzmann machine, RBM). ОМБ може бути представлено неорієнтованим двочастковим графом, що складається з групи [en]прихованих змінних, групи видимих змінних, та ребер, що з'єднують приховані та видимі вузли. Вона є окремим випадком загальніших машин Больцмана з обмеженням відсутності міжвузлових з'єднань. Кожне ребро в ОМБ пов'язано з ваговим коефіцієнтом. Вагові коефіцієнти разом зі з'єднаннями визначають енергетичну функцію, на основі якої може бути винайдено спільний розподіл видимих та прихованих вузлів. Виходячи з топології ОМБ, приховані (видимі) змінні незалежно обумовлено видимими (прихованими) змінними.[: ком.] Така умовна незалежність полегшує обчислення.
ОМБ можливо розглядати як одношарову архітектуру для некерованого навчання ознак. Зокрема, видимі змінні відповідають входовим даним, а приховані змінні відповідають детекторам ознак. Вагові коефіцієнти може бути треновано максимізацією ймовірності видимих змінних із застосуванням алгоритму контрастового розходження (КР, англ. contrastive divergence, CD) Джефрі Гінтона.
В цілому, тренування ОМБ розв'язанням задачі максимізації призводить в результаті до не розріджених представлень. Для уможливлення розріджених представлень було запропоновано розріджену ОМБ (англ. sparse RBM). Ідея полягає в додаванні до цільової функції правдоподібності даних члена регуляризації, який штрафував би відхилення очікуваних прихованих змінних, починаючи з невеликої сталої .
Автокодувальник
Однією з парадигм для архітектур глибокого навчання є автокодувальник, що складається з кодувальника та декодувальника. Гінтоном та Салахутдіновим було запропоновано приклад, в якому кодувальник використовує сирі дані (наприклад, зображення) як вхід, і виробляє ознаку або представлення як вихід, а декодувальник використовує виявлені кодувальником ознаки як вхід, і відбудовує первинні входові сирі дані як вихід. Кодувальник та декодувальник побудовано накладенням декількох шарів ОМБ. Параметри, залучені до цієї архітектури, в оригіналі було треновано жадібним пошаровим чином: після того, як один шар було навчено детекторів ознак, їх подають вище як видимі змінні для тренування відповідної ОМБ. Поточні підходи зазвичай застосовують тренування з краю в край методами стохастичного градієнтного спуску. Тренування може тривати доти, поки не стане задоволено певні критерії зупинки.
Див. також
Примітки
- Y. Bengio; A. Courville; P. Vincent (2013). Representation Learning: A Review and New Perspectives. IEEE Transactions on Pattern Analysis and Machine Intelligence. 35 (8): 1798—1828. arXiv:1206.5538. doi:10.1109/tpami.2013.50. PMID 23787338. (англ.)
- Nathan Srebro; Jason D. M. Rennie; Tommi S. Jaakkola (2004). Maximum-Margin Matrix Factorization. [en]. (англ.)
- Coates, Adam; Lee, Honglak; Ng, Andrew Y. (2011). (PDF). Int'l Conf. on AI and Statistics (AISTATS). Архів оригіналу (PDF) за 13 серпня 2017. Процитовано 12 січня 2016. (англ.)
- Csurka, Gabriella; Dance, Christopher C.; Fan, Lixin; Willamowski, Jutta; Bray, Cédric (2004). (PDF). ECCV Workshop on Statistical Learning in Computer Vision. Архів оригіналу (PDF) за 13 липня 2019. Процитовано 22 вересня 2019. (англ.)
- ; James H. Martin (2009). Speech and Language Processing. Pearson Education International. с. 145—146. (англ.)
- Mairal, Julien; Bach, Francis; Ponce, Jean; Sapiro, Guillermo; Zisserman, Andrew (2009). Supervised Dictionary Learning. Advances in Neural Information Processing Systems. (англ.)
- Percy Liang (2005). (PDF) (M. Eng.). MIT. с. 44—52. Архів оригіналу (PDF) за 26 лютого 2015. Процитовано 12 січня 2016. (англ.)
- Joseph Turian; Lev Ratinov; Yoshua Bengio (2010). (PDF). Proceedings of the 48th Annual Meeting of the Association for Computational Linguistics. Архів оригіналу (PDF) за 26 лютого 2014. Процитовано 12 січня 2016. (англ.)
- Schwenker, Friedhelm; Kestler, Hans A.; Palm, Günther (2001). Three learning phases for radial-basis-function networks. Neural Networks. 14 (4–5): 439—458. CiteSeerX 10.1.1.109.312. doi:10.1016/s0893-6080(01)00027-2. PMID 11411631. (англ.)
- Coates, Adam; Ng, Andrew Y. (2012). Learning feature representations with k-means. У G. Montavon, G. B. Orr and [en] (ред.). Neural Networks: Tricks of the Trade. Springer. (англ.)
- Dekang Lin; Xiaoyun Wu (2009). (PDF). Proc. J. Conf. of the ACL and 4th Int'l J. Conf. on Natural Language Processing of the AFNLP. с. 1030—1038. Архів оригіналу (PDF) за 3 березня 2016. Процитовано 12 січня 2016. (англ.)
- Roweis, Sam T; Saul, Lawrence K (2000). Nonlinear Dimensionality Reduction by Locally Linear Embedding. Science. New Series. 290 (5500): 2323—2326. Bibcode:2000Sci...290.2323R. doi:10.1126/science.290.5500.2323. JSTOR 3081722. PMID 11125150. (англ.)
- Saul, Lawrence K; Roweis, Sam T (2000). . Архів оригіналу за 14 травня 2009. Процитовано 12 січня 2016. (англ.)
- Hyvärinen, Aapo; Oja, Erkki (2000). Independent Component Analysis: Algorithms and Applications. Neural Networks. 13 (4): 411—430. doi:10.1016/s0893-6080(00)00026-5. PMID 10946390. (англ.)
- Lee, Honglak; Battle, Alexis; Raina, Rajat; Ng, Andrew Y (2007). Efficient sparse coding algorithms. Advances in Neural Information Processing Systems. (англ.)
- Aharon, Michal; Elad, Michael; Bruckstein, Alfred (2006). (PDF). IEEE Trans. Signal Process. 54 (11): 4311—4322. Bibcode:2006ITSP...54.4311A. doi:10.1109/TSP.2006.881199. Архів оригіналу (PDF) за 25 червня 2016. Процитовано 12 січня 2016. (англ.)
- Bengio, Yoshua (2009). Learning Deep Architectures for AI. Foundations and Trends in Machine Learning. 2 (1): 1—127. doi:10.1561/2200000006. (англ.)
- Hinton, G. E.; Salakhutdinov, R. R. (2006). (PDF). Science. 313 (5786): 504—507. Bibcode:2006Sci...313..504H. doi:10.1126/science.1127647. PMID 16873662. Архів оригіналу (PDF) за 23 грудня 2015. Процитовано 12 січня 2016. (англ.)
- Lee, Honglak; Ekanadham, Chaitanya; Andrew, Ng (2008). Sparse deep belief net model for visual area V2. Advances in Neural Information Processing Systems. (англ.)
Вікіпедія, Українська, Україна, книга, книги, бібліотека, стаття, читати, завантажити, безкоштовно, безкоштовно завантажити, mp3, відео, mp4, 3gp, jpg, jpeg, gif, png, малюнок, музика, пісня, фільм, книга, гра, ігри, мобільний, телефон, android, ios, apple, мобільний телефон, samsung, iphone, xiomi, xiaomi, redmi, honor, oppo, nokia, sonya, mi, ПК, web, Інтернет
V mashinnomu navchanni navcha nnya ozna k angl feature learning abo navcha nnya predsta vlen angl representation learning ce nabir metodik sho dozvolyaye sistemi avtomatichno viyavlyati predstavlennya neobhidni dlya viyavlennya oznak abo klasifikuvannya z sirih danih Vono zaminyuye ruchne konstruyuvannya oznak i dozvolyaye mashini yak navchatisya oznak tak i zastosovuvati yih dlya vikonannya konkretnogo zavdannya Neobhidnist u navchanni oznak obumovleno tim faktom sho taki zavdannya mashinnogo navchannya yak klasifikuvannya chasto potrebuyut vhodu sho ye matematichno ta obchislyuvalno zruchnim dlya obrobki Prote dani realnogo svitu taki yak zobrazhennya video ta davachevi vimiryuvannya she ne piddayutsya sprobam algoritmichnogo viznachennya konkretnih oznak Alternativoyu ye viyavlyati taki oznaki abo predstavlennya cherez doslidzhennya ne pokladayuchis na yavni algoritmi Navchannya oznak mozhe buti abo kerovanim abo nekerovanim U kerovanomu navchanni oznak mashina navchayetsya oznak iz zastosuvannyam michenih vhodovih danih Do prikladiv nalezhat kerovani nejronni merezhi bagatosharovij perceptron ta kerovane en U nekerovanomu navchanni oznak mashina navchayetsya oznak z nemichenimi vhodovimi danimi Do prikladiv nalezhat navchannya slovnika en avtokoduvalniki rozklad matric ta rizni vidi klasteruvannya KerovaneKerovane navchannya oznak ye navchannyam oznak z michenih danih Mitka danih dozvolyaye sistemi obchislyuvati chlen pohibki miru do yakoyi sistemi ne vdayetsya virobiti mitku sho mozhe buti potim vikoristano yak zvorotnij zv yazok dlya pravlennya procesu navchannya znizhennya minimizuvannya ciyeyi pohibki Do jogo pidhodiv nalezhat Kerovane navchannya slovnika Navchannya slovnika viroblyaye nabir slovnik pokazovih elementiv iz vhodovih danih takih sho kozhnu tochku danih mozhe buti predstavleno yak zvazhenu sumu pokazovih elementiv Elementi slovnika ta vagovi koeficiyenti mozhe buti znajdeno minimizaciyeyu serednoyi pohibki predstavlennya nad vhodovimi danimi razom z L1 regulyarizaciyeyu vagovih koeficiyentiv dlya zabezpechennya rozridzhenosti tobto shobi predstavlennya kozhnoyi tochki danih malo lishe dekilka nenulovih vagovih koeficiyentiv Kerovane navchannya slovnika angl supervised dictionary learning dlya optimizaciyi elementiv slovnika vikoristovuye yak strukturu sho stoyit za vhodovimi danimi tak i mitki Napriklad cya metodika kerovanogo navchannya slovnika zastosovuye navchannya slovnika do zadach klasifikaciyi shlyahom spilnoyi optimizaciyi na osnovi vhodovih danih elementiv slovnika vagovih koeficiyentiv dlya predstavlennya tochok danih ta parametriv klasifikatora Zokrema sformulovano zadachu minimizaciyi v yakij cilova funkciya skladayetsya z pohibki klasifikaciyi pohibki predstavlennya L1 regulyarizaciyi vagovih koeficiyentiv sho predstavlyayut kozhnu tochku danih dlya zabezpechennya rozridzhenogo predstavlennya danih ta L2 regulyarizaciyi parametriv klasifikatora Nejronni merezhi Nejronni merezhi ye simejstvom algoritmiv navchannya sho vikoristovuyut merezhu yaka skladayetsya z kilkoh shariv z yednanih mizh soboyu vuzliv Yih nathneno nervovoyu sistemoyu tvarin de vuzli rozglyadayut yak nejroni a rebra rozglyadayut yak sinapsi Kozhne rebro maye pov yazanu z nim vagu a merezha viznachaye obchislyuvalni pravila dlya peredavannya vhodovih danih z sharu vhodu merezhi do sharu vihodu Funkciya merezhi pov yazana z nejronnoyu merezheyu harakterizuye spivvidnoshennya mizh sharami vhodu ta vihodu sho parametrizuyetsya vagovimi koeficiyentami Dlya vidpovidno viznachenih funkcij merezhi rizni zavdannya navchannya mozhlivo vikonuvati shlyahom minimizuvannya funkciyi vtrat nad funkciyeyu merezhi vagovimi koeficiyentami Dlya vikonannya navchannya oznak mozhlivo vikoristovuvati bagatosharovi nejronni merezhi oskilki voni navchayutsya predstavlennya yihnogo vhodu na prihovanih sharah yake potim vikoristovuyetsya dlya klasifikaciyi abo regresiyi na shari vihodu Najpopulyarnishoyu merezhnoyu arhitekturoyu cogo tipu ye en NekerovaneNekerovane navchannya oznak navchayetsya oznak z nemichenih danih Metoyu nekerovanogo navchannya oznak chasto ye viyavlennya oznak nizkoyi rozmirnosti sho vlovlyuyut pevnu strukturu sho lezhit za vhodovimi danimi visokoyi rozmirnosti Koli navchannya oznak vikonuyut nekerovanim chinom vono umozhlivlyuye pevnij vid napivkerovanogo navchannya koli oznaki navcheni z nemichenogo naboru danih potim zastosovuyut dlya pokrashennya produktivnosti v kerovanomu rezhimi z michenimi danimi Dali navedeno kilka pidhodiv Klasteruvannya metodom k serednih Odnim z pidhodiv do vektornogo kvantuvannya ye klasteruvannya metodom k serednih Zokrema dlya zadanoyi mnozhini z n vektoriv klasteruvannya metodom k serednih grupuye yih v k klasteriv tobto pidmnozhin takim chinom sho kozhen vektor nalezhit do klastera z najblizhchim serednim znachennyam Cya zadacha ye obchislyuvalno NP skladnoyu hocha bulo rozrobleno pidoptimalni zhadibni algoritmi Klasteruvannya k serednimi mozhlivo zastosovuvati dlya grupuvannya nemichenogo naboru vhodiv u k klasteriv z nastupnim vikoristannyam centroyidiv cih klasteriv dlya formuvannya oznak Ci oznaki mozhlivo vivoditi kilkoma sposobami Najprostishim ye dodavati k dvijkovih oznak do kozhnogo zrazka de kozhna oznaka j maye odinichne znachennya todi j lishe todi koli j tij centroyid navchenij k serednimi ye najblizhchim do zrazka sho rozglyadayut Takozh mozhlivo vikoristovuvati yak oznaki vidstani do klasteriv prinajmni pislya yih peretvorennya radialnoyu bazisnoyu funkciyeyu metodika yaku zastosovuvali dlya trenuvannya merezh RBF Kots ta In zauvazhuyut sho deyaki varianti k serednih povodyatsya podibno do algoritmiv rozridzhenogo koduvannya Pid chas porivnyalnoyi ocinki metodiv nekerovanogo navchannya oznak Kots Li ta In z yasuvali sho klasteruvannya k serednimi z vidpovidnim peretvorennyam v zavdanni klasifikaciyi zobrazhen perevershuye vinajdeni piznishe avtokoduvalniki ta OMB K seredni takozh pokrashuyut produktivnist v galuzi OPM osoblivo v rozpiznavanni imenovanih sutnostej tam voni konkuruyut z en a takozh iz rozpodilenimi predstavlennyami sliv takozh vidomimi yak nejronni vkladennya sliv Metod golovnih komponent Dokladnishe Metod golovnih komponent Dlya znizhennya rozmirnosti chasto zastosovuyut metod golovnih komponent MGK angl principal component analysis PCA Dlya zadanogo nemichenogo naboru n vektoriv vhodovih danih MGK porodzhuye p sho ye nabagato menshim za rozmirnist vhodovih danih pravih singulyarnih vektoriv sho vidpovidayut p najbilshim singulyarnim chislam matrici danih de k tij ryadok matrici danih ye k tim vhodovim vektorom vhodovih danih zsunutim na vibirkove serednye vhodu tobto z vidnimannyam vibirkovogo serednogo vid vektora danih Rivnoznachno ci singulyarni vektori ye vlasnimi vektorami sho vidpovidayut p najbilshim vlasnim znachennyam vibirkovoyi kovariacijnoyi matrici vhodovih vektoriv Ci p singulyarnih vektoriv ye vektorami oznak navchenimi z vhodovih danih i voni predstavlyayut napryamki vzdovzh yakih dani mayut najbilshij rozkid MGK ye linijnim pidhodom do navchannya oznak oskilki p singulyarnih vektoriv ye linijnimi funkciyami matrici danih Singulyarni vektori mozhe buti porodzheno prostim algoritmom z p iteracij Na i tij iteraciyi vidnimayut proyekciyu matrici danih na i 1 j vlasnij vektor i znahodyat i tij singulyarnij vektor yak pravij singulyarnij vektor sho vidpovidaye najbilshomu singulyarnomu chislu zalishkovoyi matrici danih MGK maye kilka obmezhen Po pershe vin pripuskaye sho napryamki z najbilshoyu dispersiyeyu stanovlyat najvishij interes sho mozhe buti ne tak MGK pokladayetsya lishe na ortogonalni peretvorennya pervinnih danih i vikoristovuye momenti danih lishe pershogo ta drugogo poryadkiv yaki mozhut ne dobre harakterizuvati cej rozpodil danih Bilshe togo MGK mozhe diyevo zmenshuvati rozmirnist lishe todi koli vektori vhodovih danih ye korelovanimi sho prizvodit do kilkoh dominantnih vlasnih znachen Lokalne linijne vkladennya en LLV angl local linear embedding LLE ye nelinijnim pidhodom do navchannya dlya porodzhennya predstavlen nizkoyi rozmirnosti sho zberigayut susidstvo z nemichenogo vhodu visokoyi rozmirnosti Cej pidhid bulo zaproponovano Rovejsom ta Solom 2000 roku Zagalnoyu ideyeyu LLV ye vidbudova pervinnih danih visokoyi rozmirnosti iz zastosuvannyam tochok nizhchoyi rozmirnosti pri zberezhenni deyakih geometrichnih vlastivostej okoliv u pervinnomu nabori danih LLV skladayetsya z dvoh osnovnih etapiv Pershij etap sluguye zberezhennyu susidstva na nomu kozhna tochka vhodovih danih Xi vidbudovuyut yak zvazhenu sumu K najblizhchih susidnih tochok danih i znahodyat optimalni vagovi koeficiyenti shlyahom minimizuvannya serednoyi kvadratichnoyi pohibki vidbudovi tobto riznici mizh vhodovoyu tochkoyu ta yiyi vidbudovoyu za obmezhennya sho vagovi koeficiyenti pov yazani z kozhnoyu tochkoyu danih povinni v sumi davati odinicyu Drugij etap sluguye znizhennyu rozmirnosti shlyahom poshuku vektoriv u prostori nizhchoyi rozmirnosti sho minimizuye pohibku predstavlennya iz zastosuvannyam optimizovanih vagovih koeficiyentiv z pershogo etapu Zauvazhte sho na pershomu etapi vagovi koeficiyenti optimizuyut za nezminnih danih sho mozhlivo rozv yazuvati yak zadachu najmenshih kvadrativ Na drugomu etapi tochki nizhchoyi rozmirnosti optimizuyut iz nezminnimi vagovimi koeficiyentami sho mozhlivo rozv yazuvati cherez rozridzhenij vlasnij rozklad Vagovi koeficiyenti vidbudovi otrimani na pershomu etapi shoplyuyut vnutrishni geometrichni vlastivosti okolu u vhodovih danih Vvazhayut sho pervinni dani lezhat na gladkomu mnogovidi nizhchoyi rozmirnosti i ochikuyut sho vnutrishni geometrichni vlastivosti shopleni vagovimi koeficiyentami pervinnih danih ye takozh na comu mnogovidi Os chomu ti zh sami vagovi koeficiyenti vikoristovuyut na drugomu etapi LLV U porivnyanni z MGK LLV ye potuzhnishim u vikoristanni vnutrishnoyi strukturi danih Metod nezalezhnih komponent en MNK angl Independent component analysis ICA ce metodika dlya formuvannya predstavlennya danih iz zastosuvannyam zvazhenoyi sumi nezalezhnih ne gausovih komponent Pripushennya pro ne gausovist nakladayut tomu sho vagovi koeficiyenti ne mozhe buti viznacheno odnoznachno yaksho vsi komponenti sliduyut gausovomu rozpodilu Nekerovane navchannya slovnika Nekerovane navchannya slovnika angl unsupervised dictionary learning dlya optimizuvannya slovnikovih elementiv ne koristuyetsya mitkami danih a vikoristovuye lishe vnutrishnyu strukturu danih Prikladom nekerovanogo navchannya slovnika ye en spryamovane na navchannya bazisnih funkcij slovnikovih elementiv dlya predstavlennya danih iz nemichenih vhodovih danih Rozridzhene koduvannya mozhlivo zastosovuvati dlya navchannya perepovnenih slovnikiv u yakih kilkist elementiv ye bilshoyu za rozmir vhodovih danih Aaron ta in dlya navchannya slovnika elementiv sho umozhlivlyuye rozridzhene predstavlennya zaproponuvali algoritm en angl K SVD Bagatosharovi gliboki arhitekturiIyerarhichna budova biologichnoyi nervovoyi sistemi nadihaye arhitekturi glibokogo navchannya dlya navchannya oznak dekilkoma nakladenimi sharami vuzliv navchannya Ci arhitekturi chasto rozroblyayut na osnovi pripushennya pro rozpodilene predstavlennya sposterezhuvani dani porodzhuyutsya vzayemodiyami bagatoh riznih chinnikiv na dekilkoh rivnyah V arhitekturi glibokogo navchannya vihid kozhnogo promizhnogo sharu mozhlivo rozglyadati yak predstavlennya pervinnih vhodovih danih Kozhen riven vikoristovuye predstavlennya viroblene poperednim rivnem yak vhid i viroblyaye novi predstavlennya na vihodi sho potim podayut do vishih rivniv Vhodom na najnizhchomu rivni ye siri dani a vihodom zavershalnogo rivnya ye ostatochna oznaka abo predstavlennya nizkoyi rozmirnosti Obmezhena mashina Bolcmana Yak budivelni bloki dlya arhitektur bagatosharovogo navchannya chasto vikoristovuyut obmezheni mashini Bolcmana OMB angl restricted Boltzmann machine RBM OMB mozhe buti predstavleno neoriyentovanim dvochastkovim grafom sho skladayetsya z grupi en prihovanih zminnih grupi vidimih zminnih ta reber sho z yednuyut prihovani ta vidimi vuzli Vona ye okremim vipadkom zagalnishih mashin Bolcmana z obmezhennyam vidsutnosti mizhvuzlovih z yednan Kozhne rebro v OMB pov yazano z vagovim koeficiyentom Vagovi koeficiyenti razom zi z yednannyami viznachayut energetichnu funkciyu na osnovi yakoyi mozhe buti vinajdeno spilnij rozpodil vidimih ta prihovanih vuzliv Vihodyachi z topologiyi OMB prihovani vidimi zminni nezalezhno obumovleno vidimimi prihovanimi zminnimi proyasniti kom Taka umovna nezalezhnist polegshuye obchislennya OMB mozhlivo rozglyadati yak odnosharovu arhitekturu dlya nekerovanogo navchannya oznak Zokrema vidimi zminni vidpovidayut vhodovim danim a prihovani zminni vidpovidayut detektoram oznak Vagovi koeficiyenti mozhe buti trenovano maksimizaciyeyu jmovirnosti vidimih zminnih iz zastosuvannyam algoritmu kontrastovogo rozhodzhennya KR angl contrastive divergence CD Dzhefri Gintona V cilomu trenuvannya OMB rozv yazannyam zadachi maksimizaciyi prizvodit v rezultati do ne rozridzhenih predstavlen Dlya umozhlivlennya rozridzhenih predstavlen bulo zaproponovano rozridzhenu OMB angl sparse RBM Ideya polyagaye v dodavanni do cilovoyi funkciyi pravdopodibnosti danih chlena regulyarizaciyi yakij shtrafuvav bi vidhilennya ochikuvanih prihovanih zminnih pochinayuchi z nevelikoyi staloyi p displaystyle p Avtokoduvalnik Odniyeyu z paradigm dlya arhitektur glibokogo navchannya ye avtokoduvalnik sho skladayetsya z koduvalnika ta dekoduvalnika Gintonom ta Salahutdinovim bulo zaproponovano priklad v yakomu koduvalnik vikoristovuye siri dani napriklad zobrazhennya yak vhid i viroblyaye oznaku abo predstavlennya yak vihid a dekoduvalnik vikoristovuye viyavleni koduvalnikom oznaki yak vhid i vidbudovuye pervinni vhodovi siri dani yak vihid Koduvalnik ta dekoduvalnik pobudovano nakladennyam dekilkoh shariv OMB Parametri zalucheni do ciyeyi arhitekturi v originali bulo trenovano zhadibnim posharovim chinom pislya togo yak odin shar bulo navcheno detektoriv oznak yih podayut vishe yak vidimi zminni dlya trenuvannya vidpovidnoyi OMB Potochni pidhodi zazvichaj zastosovuyut trenuvannya z krayu v kraj metodami stohastichnogo gradiyentnogo spusku Trenuvannya mozhe trivati doti poki ne stane zadovoleno pevni kriteriyi zupinki Div takozhAvtomatizovane mashinne navchannya angl AutoML Bazisna funkciya Variacijnij avtokoduvalnik en Vidilyannya oznak Viyavlyannya oznak komp yuterne bachennya Gliboke navchannya Yadrovi metodiPrimitkiY Bengio A Courville P Vincent 2013 Representation Learning A Review and New Perspectives IEEE Transactions on Pattern Analysis and Machine Intelligence 35 8 1798 1828 arXiv 1206 5538 doi 10 1109 tpami 2013 50 PMID 23787338 angl Nathan Srebro Jason D M Rennie Tommi S Jaakkola 2004 Maximum Margin Matrix Factorization en angl Coates Adam Lee Honglak Ng Andrew Y 2011 PDF Int l Conf on AI and Statistics AISTATS Arhiv originalu PDF za 13 serpnya 2017 Procitovano 12 sichnya 2016 angl Csurka Gabriella Dance Christopher C Fan Lixin Willamowski Jutta Bray Cedric 2004 PDF ECCV Workshop on Statistical Learning in Computer Vision Arhiv originalu PDF za 13 lipnya 2019 Procitovano 22 veresnya 2019 angl James H Martin 2009 Speech and Language Processing Pearson Education International s 145 146 angl Mairal Julien Bach Francis Ponce Jean Sapiro Guillermo Zisserman Andrew 2009 Supervised Dictionary Learning Advances in Neural Information Processing Systems angl Percy Liang 2005 PDF M Eng MIT s 44 52 Arhiv originalu PDF za 26 lyutogo 2015 Procitovano 12 sichnya 2016 angl Joseph Turian Lev Ratinov Yoshua Bengio 2010 PDF Proceedings of the 48th Annual Meeting of the Association for Computational Linguistics Arhiv originalu PDF za 26 lyutogo 2014 Procitovano 12 sichnya 2016 angl Schwenker Friedhelm Kestler Hans A Palm Gunther 2001 Three learning phases for radial basis function networks Neural Networks 14 4 5 439 458 CiteSeerX 10 1 1 109 312 doi 10 1016 s0893 6080 01 00027 2 PMID 11411631 angl Coates Adam Ng Andrew Y 2012 Learning feature representations with k means U G Montavon G B Orr and en red Neural Networks Tricks of the Trade Springer angl Dekang Lin Xiaoyun Wu 2009 PDF Proc J Conf of the ACL and 4th Int l J Conf on Natural Language Processing of the AFNLP s 1030 1038 Arhiv originalu PDF za 3 bereznya 2016 Procitovano 12 sichnya 2016 angl Roweis Sam T Saul Lawrence K 2000 Nonlinear Dimensionality Reduction by Locally Linear Embedding Science New Series 290 5500 2323 2326 Bibcode 2000Sci 290 2323R doi 10 1126 science 290 5500 2323 JSTOR 3081722 PMID 11125150 angl Saul Lawrence K Roweis Sam T 2000 Arhiv originalu za 14 travnya 2009 Procitovano 12 sichnya 2016 angl Hyvarinen Aapo Oja Erkki 2000 Independent Component Analysis Algorithms and Applications Neural Networks 13 4 411 430 doi 10 1016 s0893 6080 00 00026 5 PMID 10946390 angl Lee Honglak Battle Alexis Raina Rajat Ng Andrew Y 2007 Efficient sparse coding algorithms Advances in Neural Information Processing Systems angl Aharon Michal Elad Michael Bruckstein Alfred 2006 PDF IEEE Trans Signal Process 54 11 4311 4322 Bibcode 2006ITSP 54 4311A doi 10 1109 TSP 2006 881199 Arhiv originalu PDF za 25 chervnya 2016 Procitovano 12 sichnya 2016 angl Bengio Yoshua 2009 Learning Deep Architectures for AI Foundations and Trends in Machine Learning 2 1 1 127 doi 10 1561 2200000006 angl Hinton G E Salakhutdinov R R 2006 PDF Science 313 5786 504 507 Bibcode 2006Sci 313 504H doi 10 1126 science 1127647 PMID 16873662 Arhiv originalu PDF za 23 grudnya 2015 Procitovano 12 sichnya 2016 angl Lee Honglak Ekanadham Chaitanya Andrew Ng 2008 Sparse deep belief net model for visual area V2 Advances in Neural Information Processing Systems angl