Конструюва́ння озна́к (англ. feature engineering) — це процес застосування знань предметної галузі для створення ознак, які забезпечують роботу алгоритмів машинного навчання. Конструювання ознак є фундаментальним для застосування машинного навчання, і є як складним, так і витратним. Потребу в ручному конструюванні ознак можливо усувати автоматизованим навчанням ознак.
Конструювання ознак є неформальним предметом, але вважається істотним у прикладному машинному навчанні.
Підходити до ознак складно, витратно за часом, вимагає експертних знань. «Прикладне машинне навчання» є в основному конструюванням ознак.Оригінальний текст (англ.)Coming up with features is difficult, time-consuming, requires expert knowledge. "Applied machine learning" is basically feature engineering.— Ендрю Ин, Machine Learning and AI via Brain simulations
Ознаки
Ознака це атрибут або властивість, що поділяють всі незалежні елементи, аналіз або передбачування яких потрібно здійснювати. Ознакою може бути будь-який атрибут, доки він є корисним для моделі.
Призначенням ознаки, на відміну від того, щоби бути просто атрибутом, є набагато легше розуміння контексту задачі. Ознака є характеристикою, яка може допомогти при розв'язуванні задачі.
Важливість
Ознаки є важливими для передбачувальних моделей, і впливають на результати.
Ви можете сказати, що чим кращими є ознаки, тим кращим буде результат. Це не зовсім вірно, оскільки отримувані результати також залежать від моделі та даних, а не лише від обраних ознак. Проте обрання правильних ознак все одно є дуже важливим. Кращі ознаки можуть продукувати простіші та гнучкіші моделі, і вони часто дають кращі результати.
Алгоритми, що ми застосовували, є цілком стандартними для кеґлерів… Ми витратили більшість своїх зусиль на розробку ознак… Ми також були дуже обережними у скасуванні ознак, що могли піддати нас ризику перенавчання нашої моделі.Оригінальний текст (англ.)The algorithms we used are very standard for Kagglers. […] We spent most of our efforts in feature engineering. [...] We were also very careful to discard features likely to expose us to the risk of over-fitting our model.— Xavier Conort, Q&A with Xavier Conort
… деякі проекти машинного навчання досягають успіху, а деякі зазнають невдачі. В чому різниця? Просто найважливішим чинником є використані ознаки.Оригінальний текст (англ.)…some machine learning projects succeed and some fail. What makes the difference? Easily the most important factor is the features used.— Pedro Domingos, A Few Useful Things to Know about Machine Learning
Процес
Процес конструювання ознак:
- Наштурмовування або тестування ознак;
- Ухвалення рішення про те, які ознаки створювати;
- Створення ознак;
- Перевірка, як ці ознаки працюють з вашою моделлю;
- Покращення ознак у разі потреби;
- Повернення до мозкового штурму/створення ще ознак, поки роботу не буде зроблено.
Доречність
Ознака вона може бути сильно доречною (тобто, ця ознака має інформацію, що не існує в жодній іншій ознаці), доречною, слабко доречною (деякою інформацією, що включають інші ознаки), або недоречною. Навіть якщо деякі з ознак і є недоречними, мати забагато краще, ніж упустити важливі. Для запобігання перенавчанню можливо застосовувати обирання ознак.
Вибух ознак
Поєднанням ознак або шаблонами ознак, обидва з яких ведуть до швидкого зростання загальної кількості ознак, може бути спричинено вибух ознак (англ. feature explosion).
- Шаблони ознак — реалізація шаблонів ознак замість кодування нових ознак
- Поєднання ознак — поєднання, що не може бути представлено лінійною системою
Вибух ознак можливо зупиняти такими методиками як регуляризація, ядровий метод, обирання ознак.
Автоматизування
Автоматизування конструювання ознак є передовою темою досліджень. 2015 року дослідники з МТІ представили алгоритм глибинного синтезу ознак (англ. Deep Feature Synthesis algorithm) та показали його дієвість в інтерактивних змаганнях з науки про дані, де він побив 615 з 906 людських команд. Глибинний синтез ознак є доступним як відкрита бібліотека, звана Featuretools. За цією працею з'явилися інші дослідження, включно з OneBM IBM та ExploreKit Берклі. Ці дослідники в IBM заявили, що автоматизування конструювання ознак «допомагає науковцям з даних знижувати час на дослідження даних, даючи їм можливість пробувати методом спроб і помилок багато ідей за короткий час. З іншого боку, воно дає можливість неекспертам, що не знайомі з наукою про дані, швидко виділяти цінність з їхніх даних із невеликими зусиллями, часом та витратами». Автоматичне конструювання ознак дозволяє робити теорема вбудовування Бургена.
Див. також
- (Коваріата)
- [en]
- Ядрові методи
- Перелік наборів даних для досліджень машинного навчання
- [en]
Примітки
- . Stanford University. Архів оригіналу за 15 вересня 2020. Процитовано 1 серпня 2019. (англ.)
- . Machine Learning Mastery. Архів оригіналу за 4 березня 2016. Процитовано 11 листопада 2015. (англ.)
- . Analytics Vidhya. 12 березня 2015. Архів оригіналу за 5 березня 2016. Процитовано 12 листопада 2015. (англ.)
- . kaggle.com. 10 квітня 2013. Архів оригіналу за 27 листопада 2015. Процитовано 12 листопада 2015. (англ.)
- Domingos, Pedro (1 жовтня 2012). (PDF). Communications of the ACM (англ.). 55 (10): 78—87. doi:10.1145/2347736.2347755. Архів оригіналу (PDF) за 23 січня 2016. Процитовано 24 січня 2016. (англ.)
- . youtube.com. Архів оригіналу за 16 березня 2016. Процитовано 24 січня 2016. (англ.)
- Jalal, Ahmed Adeeb (1 січня 2018). . International Journal of Knowledge-based and Intelligent Engineering Systems. 22 (3): 177—193. doi:10.3233/KES-180383. Архів оригіналу за 13 серпня 2019. Процитовано 18 серпня 2019 — через content.iospress.com. (англ.)
- (PDF). 22 квітня 2010. Архів оригіналу (PDF) за 6 вересня 2015. Процитовано 12 листопада 2015. (англ.)
- (PDF). Alexandre Bouchard-Côté. 1 жовтня 2009. Архів оригіналу (PDF) за 14 березня 2016. Процитовано 12 листопада 2015. (англ.)
- (PDF). Zdenek Zabokrtsky. Архів оригіналу (PDF) за 4 березня 2016. Процитовано 12 листопада 2015. (англ.)
- . Архів оригіналу за 14 вересня 2019. Процитовано 18 серпня 2019. (англ.)
- (PDF). Архів оригіналу (PDF) за 18 серпня 2019. Процитовано 18 серпня 2019. (англ.)
- . www.featuretools.com. Архів оригіналу за 18 серпня 2019. Процитовано 22 серпня 2019. (англ.)
- (PDF). Архів оригіналу (PDF) за 4 жовтня 2019. Процитовано 18 серпня 2019. (англ.)
- (PDF). Архів оригіналу (PDF) за 4 жовтня 2019. Процитовано 18 серпня 2019. (англ.)
- Orges Leka. . orges-leka.de. Архів оригіналу за 30 серпня 2019. Процитовано 29 вересня 2019. (англ.)
Вікіпедія, Українська, Україна, книга, книги, бібліотека, стаття, читати, завантажити, безкоштовно, безкоштовно завантажити, mp3, відео, mp4, 3gp, jpg, jpeg, gif, png, малюнок, музика, пісня, фільм, книга, гра, ігри, мобільний, телефон, android, ios, apple, мобільний телефон, samsung, iphone, xiomi, xiaomi, redmi, honor, oppo, nokia, sonya, mi, ПК, web, Інтернет
Konstruyuva nnya ozna k angl feature engineering ce proces zastosuvannya znan predmetnoyi galuzi dlya stvorennya oznak yaki zabezpechuyut robotu algoritmiv mashinnogo navchannya Konstruyuvannya oznak ye fundamentalnim dlya zastosuvannya mashinnogo navchannya i ye yak skladnim tak i vitratnim Potrebu v ruchnomu konstruyuvanni oznak mozhlivo usuvati avtomatizovanim navchannyam oznak Konstruyuvannya oznak ye neformalnim predmetom ale vvazhayetsya istotnim u prikladnomu mashinnomu navchanni Pidhoditi do oznak skladno vitratno za chasom vimagaye ekspertnih znan Prikladne mashinne navchannya ye v osnovnomu konstruyuvannyam oznak Originalnij tekst angl Coming up with features is difficult time consuming requires expert knowledge Applied machine learning is basically feature engineering Endryu In Machine Learning and AI via Brain simulationsOznakiOznaka ce atribut abo vlastivist sho podilyayut vsi nezalezhni elementi analiz abo peredbachuvannya yakih potribno zdijsnyuvati Oznakoyu mozhe buti bud yakij atribut doki vin ye korisnim dlya modeli Priznachennyam oznaki na vidminu vid togo shobi buti prosto atributom ye nabagato legshe rozuminnya kontekstu zadachi Oznaka ye harakteristikoyu yaka mozhe dopomogti pri rozv yazuvanni zadachi VazhlivistOznaki ye vazhlivimi dlya peredbachuvalnih modelej i vplivayut na rezultati Vi mozhete skazati sho chim krashimi ye oznaki tim krashim bude rezultat Ce ne zovsim virno oskilki otrimuvani rezultati takozh zalezhat vid modeli ta danih a ne lishe vid obranih oznak Prote obrannya pravilnih oznak vse odno ye duzhe vazhlivim Krashi oznaki mozhut produkuvati prostishi ta gnuchkishi modeli i voni chasto dayut krashi rezultati Algoritmi sho mi zastosovuvali ye cilkom standartnimi dlya kegleriv Mi vitratili bilshist svoyih zusil na rozrobku oznak Mi takozh buli duzhe oberezhnimi u skasuvanni oznak sho mogli piddati nas riziku perenavchannya nashoyi modeli Originalnij tekst angl The algorithms we used are very standard for Kagglers We spent most of our efforts in feature engineering We were also very careful to discard features likely to expose us to the risk of over fitting our model Xavier Conort Q amp A with Xavier Conort deyaki proekti mashinnogo navchannya dosyagayut uspihu a deyaki zaznayut nevdachi V chomu riznicya Prosto najvazhlivishim chinnikom ye vikoristani oznaki Originalnij tekst angl some machine learning projects succeed and some fail What makes the difference Easily the most important factor is the features used Pedro Domingos A Few Useful Things to Know about Machine LearningProcesProces konstruyuvannya oznak Nashturmovuvannya abo testuvannya oznak Uhvalennya rishennya pro te yaki oznaki stvoryuvati Stvorennya oznak Perevirka yak ci oznaki pracyuyut z vashoyu modellyu Pokrashennya oznak u razi potrebi Povernennya do mozkovogo shturmu stvorennya she oznak poki robotu ne bude zrobleno DorechnistOznaka vona mozhe buti silno dorechnoyu tobto cya oznaka maye informaciyu sho ne isnuye v zhodnij inshij oznaci dorechnoyu slabko dorechnoyu deyakoyu informaciyeyu sho vklyuchayut inshi oznaki abo nedorechnoyu Navit yaksho deyaki z oznak i ye nedorechnimi mati zabagato krashe nizh upustiti vazhlivi Dlya zapobigannya perenavchannyu mozhlivo zastosovuvati obirannya oznak Vibuh oznakPoyednannyam oznak abo shablonami oznak obidva z yakih vedut do shvidkogo zrostannya zagalnoyi kilkosti oznak mozhe buti sprichineno vibuh oznak angl feature explosion Shabloni oznak realizaciya shabloniv oznak zamist koduvannya novih oznak Poyednannya oznak poyednannya sho ne mozhe buti predstavleno linijnoyu sistemoyu Vibuh oznak mozhlivo zupinyati takimi metodikami yak regulyarizaciya yadrovij metod obirannya oznak AvtomatizuvannyaAvtomatizuvannya konstruyuvannya oznak ye peredovoyu temoyu doslidzhen 2015 roku doslidniki z MTI predstavili algoritm glibinnogo sintezu oznak angl Deep Feature Synthesis algorithm ta pokazali jogo diyevist v interaktivnih zmagannyah z nauki pro dani de vin pobiv 615 z 906 lyudskih komand Glibinnij sintez oznak ye dostupnim yak vidkrita biblioteka zvana Featuretools Za ciyeyu praceyu z yavilisya inshi doslidzhennya vklyuchno z OneBM IBM ta ExploreKit Berkli Ci doslidniki v IBM zayavili sho avtomatizuvannya konstruyuvannya oznak dopomagaye naukovcyam z danih znizhuvati chas na doslidzhennya danih dayuchi yim mozhlivist probuvati metodom sprob i pomilok bagato idej za korotkij chas Z inshogo boku vono daye mozhlivist neekspertam sho ne znajomi z naukoyu pro dani shvidko vidilyati cinnist z yihnih danih iz nevelikimi zusillyami chasom ta vitratami Avtomatichne konstruyuvannya oznak dozvolyaye robiti teorema vbudovuvannya Burgena Div takozhKovariata en Yadrovi metodi Perelik naboriv danih dlya doslidzhen mashinnogo navchannya en Primitki Stanford University Arhiv originalu za 15 veresnya 2020 Procitovano 1 serpnya 2019 angl Machine Learning Mastery Arhiv originalu za 4 bereznya 2016 Procitovano 11 listopada 2015 angl Analytics Vidhya 12 bereznya 2015 Arhiv originalu za 5 bereznya 2016 Procitovano 12 listopada 2015 angl kaggle com 10 kvitnya 2013 Arhiv originalu za 27 listopada 2015 Procitovano 12 listopada 2015 angl Domingos Pedro 1 zhovtnya 2012 PDF Communications of the ACM angl 55 10 78 87 doi 10 1145 2347736 2347755 Arhiv originalu PDF za 23 sichnya 2016 Procitovano 24 sichnya 2016 angl youtube com Arhiv originalu za 16 bereznya 2016 Procitovano 24 sichnya 2016 angl Jalal Ahmed Adeeb 1 sichnya 2018 International Journal of Knowledge based and Intelligent Engineering Systems 22 3 177 193 doi 10 3233 KES 180383 Arhiv originalu za 13 serpnya 2019 Procitovano 18 serpnya 2019 cherez content iospress com angl PDF 22 kvitnya 2010 Arhiv originalu PDF za 6 veresnya 2015 Procitovano 12 listopada 2015 angl PDF Alexandre Bouchard Cote 1 zhovtnya 2009 Arhiv originalu PDF za 14 bereznya 2016 Procitovano 12 listopada 2015 angl PDF Zdenek Zabokrtsky Arhiv originalu PDF za 4 bereznya 2016 Procitovano 12 listopada 2015 angl Arhiv originalu za 14 veresnya 2019 Procitovano 18 serpnya 2019 angl PDF Arhiv originalu PDF za 18 serpnya 2019 Procitovano 18 serpnya 2019 angl www featuretools com Arhiv originalu za 18 serpnya 2019 Procitovano 22 serpnya 2019 angl PDF Arhiv originalu PDF za 4 zhovtnya 2019 Procitovano 18 serpnya 2019 angl PDF Arhiv originalu PDF za 4 zhovtnya 2019 Procitovano 18 serpnya 2019 angl Orges Leka orges leka de Arhiv originalu za 30 serpnya 2019 Procitovano 29 veresnya 2019 angl