Ця стаття потребує додаткових для поліпшення її . (Липень 2020) |
В машинному навчанні поширеною задачею є дослідження та побудова алгоритмів, здатних навчатися з даних та робити передбачування на них. Такі алгоритми працюють, роблячи керовані даними передбачування або рішення шляхом побудови математичної моделі з вхідних даних.
Дані, які використовують для побудови остаточної моделі, зазвичай походять з декількох наборів даних. Зокрема, на різних етапах створення моделі зазвичай використовують три набори даних.
Модель початково допасовують на тренува́льному набо́рі да́них (англ. training dataset), який є набором прикладів, що використовують для допасовування параметрів моделі (наприклад, ваг з'єднань між нейронами в штучній нейронній мережі). Модель (наприклад, нейронну мережу чи наївний баєсів класифікатор) тренують на тренувальному наборі даних, використовуючи якийсь метод керованого навчання, наприклад, використовуючи методи оптимізації, такі як градієнтний спуск або стохастичний градієнтний спуск. На практиці тренувальний набір даних часто складається з пар векторів (або скалярів) входу та відповідних векторів (або скалярів) виходу, де ключ відповіді зазвичай позначують як ціль (англ. target, або мітку, англ. label). Поточну модель проганяють на тренувальнім наборі даних та отримують результат, який потім порівнюють з ціллю для кожного вектору входу в тренувальнім наборі даних. На основі результату цього порівняння та конкретного використовуваного алгоритму навчання параметри моделі підганяють. Допасовування моделі може включати як обирання змінних, так й оцінювання параметрів.
Далі цю допасовану модель використовують для передбачення відгуків для спостережень у другому наборі даних, званому затве́рджувальним набо́ром да́них (англ. validation dataset). Затверджувальний набір даних забезпечує неупереджену оцінку допасованості моделі на тренувальному наборі даних при налаштовуванні гіперпараметрів моделі (наприклад, числа прихованих вузлів (шарів та ширин шарів) у нейронній мережі). Затверджувальні набори даних можливо використовувати для регуляризації шляхом ранньої зупинки (зупинки тренування, коли похибка на затверджувальному наборі даних починає зростати, оскільки це є ознакою перенавчання тренувального набору даних). Ця проста процедура на практиці є ускладненою тим фактом, що похибка затверджувального набору даних може флуктувати протягом навчання, виробляючи декілька локальних мінімумів. Це ускладнення привело до створення багатьох спеціальних правил для вирішування, коли перенавчання справді почалося.
Нарешті, випро́бувальний набі́р да́них (англ. test dataset) — це набір даних, який використовують для забезпечення неупередженої оцінки допасованості остаточної моделі на тренувальному наборі даних. Якщо дані випробувального набору ніколи не використовуються в тренуванні (наприклад, в перехреснім затверджуванні), то випробувальний набір також називають притри́маним набо́ром да́них (англ. holdout dataset).
Тренувальний набір даних
Тренувальний набір даних (англ. training dataset) — це набір даних прикладів, які використовують під час процесу навчання, та використовують для допасовування параметрів (наприклад, ваг), наприклад, класифікатора.
Більшість підходів, які здійснюють пошук емпіричних взаємозв'язків у тренувальних даних, мають схильність до перенавчання цих даних, тобто, можуть виявляти та використовувати видимі взаємозв'язки в тренувальних даних, які в загальному випадку дійсними не є.
Випробувальний набір даних
Випробувальний набір даних (англ. test dataset) — це набір даних, що є незалежним від тренувального набору даних, але слідує тому же розподілові ймовірності, що й тренувальний. Якщо модель, допасована до тренувального набору даних, також добре допасовується й до випробувального набору даних, то було мінімальне перенавчання (див. рисунок нижче). Краща допасованість до тренувального набору даних, на противагу до випробувального набору даних, зазвичай вказує на перенавчання.
Відтак, випробувальний набір є набором прикладів, які використовують лише для оцінювання продуктивності (тобто, узагальнюваності) повністю визначеного класифікатора.
Затверджувальний набір даних
Затверджувальний набір даних (англ. validation dataset) — це набір даних прикладів, який використовують для налаштовування гіперпараметрів (тобто, архітектури) класифікатора. Його іноді також називають розробницьким набором (англ. development set, "dev set"). До прикладів гіперпараметрів для штучних нейронних мереж належить число прихованих вузлів у кожному з шарів. Він, як і випробувальний набір (як зазначено вище), повинен слідувати тому ж розподілові ймовірності, що й тренувальний набір даних.
Щоби запобігати перенавчанню, коли будь-який параметр класифікації вимагає підлаштовування, необхідно мати затверджувальний набір даних на додачу до тренувального та випробувального наборів даних. Наприклад, якщо шукають найпридатніший класифікатор для заданої задачі, тренувальний набір даних використовують для тренування алгоритмів-кандидатів, затверджувальний набір використовують для порівнювання їхньої продуктивності й вирішування, який з них взяти, і, нарешті, випробувальний набір даних використовують для отримання характеристик продуктивності, таких як точність, чутливість, специфічність, F-міра тощо. Випробувальний набір діє гібридно: він є тренувальними даними, які використовують для випробування, але не є ані частиною низькорівневого тренування, ані частиною остаточного випробування.
Спрощений процес застосування затверджувального набору даних для обирання моделі (як частини з-поміж тренувального, затверджувального та випробувального наборів даних) виглядає так:
Оскільки нашою метою є знайти мережу, що має найкращу продуктивність на нових даних, найпростішим підходом до порівнювання різних мереж є оцінювати функцію похибки із застосуванням даних, що є незалежними від тих, які було використано в тренуванні. Різні мережі тренують шляхом мінімізування відповідної функції похибки, визначеної по відношенню до тренувального набору даних. Потім продуктивність цих мереж порівнюють шляхом оцінювання функції похибки із застосуванням незалежного затверджувального набору, й обирають мережу з найменшою похибкою відносно затверджувального набору. Цей підхід називають методом притримування. Оскільки ця процедура може й сама вести до деякого перенавчання затверджувального набору, продуктивність обраної мережі повинно бути підтверджено вимірюванням її продуктивності на третім незалежнім наборі даних, званім випробувальним.Оригінальний текст (англ.)Since our goal is to find the network having the best performance on new data, the simplest approach to the comparison of different networks is to evaluate the error function using data which is independent of that used for training. Various networks are trained by minimization of an appropriate error function defined with respect to a training data set. The performance of the networks is then compared by evaluating the error function using an independent validation set, and the network having the smallest error with respect to the validation set is selected. This approach is called the hold out method. Since this procedure can itself lead to some overfitting to the validation set, the performance of the selected network should be confirmed by measuring its performance on a third independent set of data called a test set.
Цей метод застосовують в ранній зупинці, де моделі-кандидати є послідовними ітераціями однієї й тієї ж мережі, й де тренування припиняють, коли похибка на затверджувальному наборі показує зростання, обираючи попередню модель (ту, що з мінімальною похибкою).
Притриманий набір
Частину первинного набору даних може бути відкладено, й використано як випробувальний набір: це є відомим як ме́тод притри́мування (англ. holdout method).
Плутанина в термінології
Терміни випробувальний набір (англ. test set) та затверджувальний набір (англ. validation set), як в академічному середовищі, так і в промисловості, іноді використовують таким чином, що їхні значення міняються місцями. В помилковому застосуванні «випробувальний набір» стає розробницьким набором (англ. development set), а «затверджувальний набір» є незалежним набором, який використовують для оцінювання продуктивності повністю визначеного класифікатора.
Література з машинного навчання часто міняє значення «затверджувального» та «випробувального» наборів на протилежні. Це є найяскравішим прикладом термінологічної плутанини, що пронизує дослідження штучного інтелекту.
Оригінальний текст (англ.)The literature on machine learning often reverses the meaning of “validation” and “test” sets. This is the most blatant example of the terminological confusion that pervades artificial intelligence research.
Перехресне затверджування
Набір даних може бути повторювано розбивано на тренувальний та затверджувальний набори: це є відомим як перехресне затверджування. Ці повторювані розбиття може бути виконувано різними способами, такими як поділ на 2 рівні набори значень та використання їх як тренувального/затверджувального, а потім як затверджувального/тренувального, або як повторюване вибирання випадкового піднабору як затверджувального набору даних.[] Для затверджування продуктивності моделі іноді використовують додатковий набір даних, притриманий від перехресного затверджування.
Ієрархічна класифікація
Іншим прикладом підлаштовування параметрів є ієрархі́чна класифіка́ція (англ. hierarchical classification, іноді звана ро́зкладом про́стору зразкі́в, англ. instance space decomposition), яка розбиває повну багатокласову задачу на набір менших задач класифікації. Вона слугує навчанню точніших понять через простіші межі класифікації в підзадачах, та окремі процедури обирання ознак для підзадач. При здійсненні розкладання класифікації центральним вибором є порядок поєднання менших кроків класифікації, званий шляхом класифікації (англ. classification path). Залежно від застосування, його можливо виводити з матриці невідповідностей, розкриванням причин типових помилок, та пошуком шляхів запобігання повторюванню їх системою в майбутньому. Наприклад, на затверджувальному наборі видно класи, які система найчастіше взаємно плутає між собою, тоді розклад простору зразків виконують наступним чином: спершу класифікацію виконують серед добре розпізнаваних класів, а класи, розділювати які складно, розглядають як єдиний спільний клас, а тоді, як другий крок класифікації, цей спільний клас класифікують на ті два взаємно переплутувані класи.
Комерційні інструменти
Для створювання тренувальних даних існують комерційні інструменти, такі як Diffgram [ 15 серпня 2020 у Wayback Machine.] та Supervisely [ 18 липня 2020 у Wayback Machine.].
Див. також
Примітки
- Ron Kohavi; Foster Provost (1998). . Machine Learning. 30: 271—274. doi:10.1023/A:1007411609915. Архів оригіналу за 11 листопада 2019. Процитовано 8 липня 2020. (англ.)
- Bishop, Christopher M. (2006). Pattern Recognition and Machine Learning. New York: Springer. с. vii. ISBN .
Pattern recognition has its origins in engineering, whereas machine learning grew out of computer science. However, these activities can be viewed as two facets of the same field, and together they have undergone substantial development over the past ten years.
(англ.) - James, Gareth (2013). . Springer. с. 176. ISBN . Архів оригіналу за 23 червня 2019. Процитовано 7 серпня 2018. (англ.)
- Ripley, Brian (1996). Pattern Recognition and Neural Networks. Cambridge University Press. с. 354. ISBN . (англ.)
- Brownlee, Jason (13 липня 2017). . Архів оригіналу за 10 грудня 2019. Процитовано 12 жовтня 2017. (англ.)
- Prechelt, Lutz; Geneviève B. Orr (1 січня 2012). Early Stopping — But When?. У Grégoire Montavon; (ред.). Neural Networks: Tricks of the Trade. Lecture Notes in Computer Science. Springer Berlin Heidelberg. с. 53–67. doi:10.1007/978-3-642-35289-8_5. ISBN . (англ.)
- Ripley, B.D. (1996) Pattern Recognition and Neural Networks, Cambridge: Cambridge University Press, p. 354 (англ.)
- "Subject: What are the population, sample, training set, design set, validation set, and test set? [ 10 березня 2021 у Wayback Machine.]", Neural Network FAQ, part 1 of 7: Introduction [ 10 березня 2021 у Wayback Machine.] (txt), comp.ai.neural-nets, Sarle, W.S., ed. (1997, last modified 2002-05-17) (англ.)
- Bishop, C.M. (1995), Neural Networks for Pattern Recognition [ 18 липня 2020 у Wayback Machine.], Oxford: Oxford University Press, p. 372 (англ.)
- Kohavi, Ron (3 березня 2001). A Study of Cross-Validation and Bootstrap for Accuracy Estimation and Model Selection. 14. (англ.)
- Ripley, Brian D. (2009). Pattern recognition and neural networks. Cambridge Univ. Press. с. Glossary. ISBN . OCLC 601063414. (англ.)
- Cohen, S.; Rokach, L.; Maimon, O. (2007). Decision-tree instance-space decomposition with grouped gain-ratio. Information Sciences. Elsevier. 177 (17): 3592—3612. doi:10.1016/j.ins.2007.01.016. (англ.)
- Sidorova, J., Badia, T. "ESEDA: tool for enhanced speech emotion detection and analysis [ 1 червня 2020 у Wayback Machine.]". The 4th International Conference on Automated Solutions for Cross Media Content and Multi-Channel Distribution (AXMEDIS 2008). Florence, November, 17-19, pp. 257–260. IEEE press. (англ.)
- Loop, Humans in the (28 травня 2019). The best image annotation platforms for computer vision (+ an honest review of each). Medium (англ.). Процитовано 27 листопада 2019. (англ.)
Посилання
- FAQ: What are the population, sample, training set, design set, validation set, and test set? [ 10 березня 2021 у Wayback Machine.] (англ.)
- What is the Difference Between Test and Validation Datasets? [ 10 грудня 2019 у Wayback Machine.] (англ.)
- What is training, validation, and testing data-sets scenario in machine learning? (англ.)
- Is there a rule-of-thumb for how to divide a dataset into training and validation sets? (англ.)
Вікіпедія, Українська, Україна, книга, книги, бібліотека, стаття, читати, завантажити, безкоштовно, безкоштовно завантажити, mp3, відео, mp4, 3gp, jpg, jpeg, gif, png, малюнок, музика, пісня, фільм, книга, гра, ігри, мобільний, телефон, android, ios, apple, мобільний телефон, samsung, iphone, xiomi, xiaomi, redmi, honor, oppo, nokia, sonya, mi, ПК, web, Інтернет
Cya stattya potrebuye dodatkovih posilan na dzherela dlya polipshennya yiyi perevirnosti Bud laska dopomozhit udoskonaliti cyu stattyu dodavshi posilannya na nadijni avtoritetni dzherela Zvernitsya na storinku obgovorennya za poyasnennyami ta dopomozhit vipraviti nedoliki Material bez dzherel mozhe buti piddano sumnivu ta vilucheno Lipen 2020 V mashinnomu navchanni poshirenoyu zadacheyu ye doslidzhennya ta pobudova algoritmiv zdatnih navchatisya z danih ta robiti peredbachuvannya na nih Taki algoritmi pracyuyut roblyachi kerovani danimi peredbachuvannya abo rishennya shlyahom pobudovi matematichnoyi modeli z vhidnih danih Dani yaki vikoristovuyut dlya pobudovi ostatochnoyi modeli zazvichaj pohodyat z dekilkoh naboriv danih Zokrema na riznih etapah stvorennya modeli zazvichaj vikoristovuyut tri nabori danih Model pochatkovo dopasovuyut na trenuva lnomu nabo ri da nih angl training dataset yakij ye naborom prikladiv sho vikoristovuyut dlya dopasovuvannya parametriv modeli napriklad vag z yednan mizh nejronami v shtuchnij nejronnij merezhi Model napriklad nejronnu merezhu chi nayivnij bayesiv klasifikator trenuyut na trenuvalnomu nabori danih vikoristovuyuchi yakijs metod kerovanogo navchannya napriklad vikoristovuyuchi metodi optimizaciyi taki yak gradiyentnij spusk abo stohastichnij gradiyentnij spusk Na praktici trenuvalnij nabir danih chasto skladayetsya z par vektoriv abo skalyariv vhodu ta vidpovidnih vektoriv abo skalyariv vihodu de klyuch vidpovidi zazvichaj poznachuyut yak cil angl target abo mitku angl label Potochnu model proganyayut na trenuvalnim nabori danih ta otrimuyut rezultat yakij potim porivnyuyut z cillyu dlya kozhnogo vektoru vhodu v trenuvalnim nabori danih Na osnovi rezultatu cogo porivnyannya ta konkretnogo vikoristovuvanogo algoritmu navchannya parametri modeli pidganyayut Dopasovuvannya modeli mozhe vklyuchati yak obirannya zminnih tak j ocinyuvannya parametriv Dali cyu dopasovanu model vikoristovuyut dlya peredbachennya vidgukiv dlya sposterezhen u drugomu nabori danih zvanomu zatve rdzhuvalnim nabo rom da nih angl validation dataset Zatverdzhuvalnij nabir danih zabezpechuye neuperedzhenu ocinku dopasovanosti modeli na trenuvalnomu nabori danih pri nalashtovuvanni giperparametriv modeli napriklad chisla prihovanih vuzliv shariv ta shirin shariv u nejronnij merezhi Zatverdzhuvalni nabori danih mozhlivo vikoristovuvati dlya regulyarizaciyi shlyahom rannoyi zupinki zupinki trenuvannya koli pohibka na zatverdzhuvalnomu nabori danih pochinaye zrostati oskilki ce ye oznakoyu perenavchannya trenuvalnogo naboru danih Cya prosta procedura na praktici ye uskladnenoyu tim faktom sho pohibka zatverdzhuvalnogo naboru danih mozhe fluktuvati protyagom navchannya viroblyayuchi dekilka lokalnih minimumiv Ce uskladnennya privelo do stvorennya bagatoh specialnih pravil dlya virishuvannya koli perenavchannya spravdi pochalosya Nareshti vipro buvalnij nabi r da nih angl test dataset ce nabir danih yakij vikoristovuyut dlya zabezpechennya neuperedzhenoyi ocinki dopasovanosti ostatochnoyi modeli na trenuvalnomu nabori danih Yaksho dani viprobuvalnogo naboru nikoli ne vikoristovuyutsya v trenuvanni napriklad v perehresnim zatverdzhuvanni to viprobuvalnij nabir takozh nazivayut pritri manim nabo rom da nih angl holdout dataset Trenuvalnij nabir danihTrenuvalnij nabir danih angl training dataset ce nabir danih prikladiv yaki vikoristovuyut pid chas procesu navchannya ta vikoristovuyut dlya dopasovuvannya parametriv napriklad vag napriklad klasifikatora Bilshist pidhodiv yaki zdijsnyuyut poshuk empirichnih vzayemozv yazkiv u trenuvalnih danih mayut shilnist do perenavchannya cih danih tobto mozhut viyavlyati ta vikoristovuvati vidimi vzayemozv yazki v trenuvalnih danih yaki v zagalnomu vipadku dijsnimi ne ye Viprobuvalnij nabir danihViprobuvalnij nabir danih angl test dataset ce nabir danih sho ye nezalezhnim vid trenuvalnogo naboru danih ale sliduye tomu zhe rozpodilovi jmovirnosti sho j trenuvalnij Yaksho model dopasovana do trenuvalnogo naboru danih takozh dobre dopasovuyetsya j do viprobuvalnogo naboru danih to bulo minimalne perenavchannya div risunok nizhche Krasha dopasovanist do trenuvalnogo naboru danih na protivagu do viprobuvalnogo naboru danih zazvichaj vkazuye na perenavchannya Vidtak viprobuvalnij nabir ye naborom prikladiv yaki vikoristovuyut lishe dlya ocinyuvannya produktivnosti tobto uzagalnyuvanosti povnistyu viznachenogo klasifikatora Sinimi tochkami poznacheno trenuvalnij nabir livoruch ta viprobuvalnij nabir pravoruch z odniyeyi j tiyeyi zh statistichnoyi sukupnosti Do trenuvalnih danih dopasovano dvi peredbachuvalni modeli Obidvi dopasovani modeli zobrazheno razom yak z trenuvalnim tak i z viprobuvalnim naborami V trenuvalnim nabori SKP dopasuvannya zobrazhenogo pomaranchevim stanovit 4 todi yak SKP dopasuvannya zobrazhenogo zelenim stanovit 9 U viprobuvalnim nabori SKP dopasuvannya zobrazhenogo pomaranchevim stanovit 15 a SKP dopasuvannya zobrazhenogo zelenim stanovit 13 Pomarancheva kriva silno perenavchayetsya na trenuvalnih danih oskilki yiyi SKP zbilshuyetsya majzhe v chotiri razi dlya viprobuvalnogo naboru proti trenuvalnogo Zelena kriva perenavchayetsya na trenuvalnih danih nabagato menshe oskilki yiyi SKP zbilshuyetsya menshe nizh vdvichi Zatverdzhuvalnij nabir danihZatverdzhuvalnij nabir danih angl validation dataset ce nabir danih prikladiv yakij vikoristovuyut dlya nalashtovuvannya giperparametriv tobto arhitekturi klasifikatora Jogo inodi takozh nazivayut rozrobnickim naborom angl development set dev set Do prikladiv giperparametriv dlya shtuchnih nejronnih merezh nalezhit chislo prihovanih vuzliv u kozhnomu z shariv Vin yak i viprobuvalnij nabir yak zaznacheno vishe povinen sliduvati tomu zh rozpodilovi jmovirnosti sho j trenuvalnij nabir danih Shobi zapobigati perenavchannyu koli bud yakij parametr klasifikaciyi vimagaye pidlashtovuvannya neobhidno mati zatverdzhuvalnij nabir danih na dodachu do trenuvalnogo ta viprobuvalnogo naboriv danih Napriklad yaksho shukayut najpridatnishij klasifikator dlya zadanoyi zadachi trenuvalnij nabir danih vikoristovuyut dlya trenuvannya algoritmiv kandidativ zatverdzhuvalnij nabir vikoristovuyut dlya porivnyuvannya yihnoyi produktivnosti j virishuvannya yakij z nih vzyati i nareshti viprobuvalnij nabir danih vikoristovuyut dlya otrimannya harakteristik produktivnosti takih yak tochnist chutlivist specifichnist F mira tosho Viprobuvalnij nabir diye gibridno vin ye trenuvalnimi danimi yaki vikoristovuyut dlya viprobuvannya ale ne ye ani chastinoyu nizkorivnevogo trenuvannya ani chastinoyu ostatochnogo viprobuvannya Sproshenij proces zastosuvannya zatverdzhuvalnogo naboru danih dlya obirannya modeli yak chastini z pomizh trenuvalnogo zatverdzhuvalnogo ta viprobuvalnogo naboriv danih viglyadaye tak Oskilki nashoyu metoyu ye znajti merezhu sho maye najkrashu produktivnist na novih danih najprostishim pidhodom do porivnyuvannya riznih merezh ye ocinyuvati funkciyu pohibki iz zastosuvannyam danih sho ye nezalezhnimi vid tih yaki bulo vikoristano v trenuvanni Rizni merezhi trenuyut shlyahom minimizuvannya vidpovidnoyi funkciyi pohibki viznachenoyi po vidnoshennyu do trenuvalnogo naboru danih Potim produktivnist cih merezh porivnyuyut shlyahom ocinyuvannya funkciyi pohibki iz zastosuvannyam nezalezhnogo zatverdzhuvalnogo naboru j obirayut merezhu z najmenshoyu pohibkoyu vidnosno zatverdzhuvalnogo naboru Cej pidhid nazivayut metodom pritrimuvannya Oskilki cya procedura mozhe j sama vesti do deyakogo perenavchannya zatverdzhuvalnogo naboru produktivnist obranoyi merezhi povinno buti pidtverdzheno vimiryuvannyam yiyi produktivnosti na tretim nezalezhnim nabori danih zvanim viprobuvalnim Originalnij tekst angl Since our goal is to find the network having the best performance on new data the simplest approach to the comparison of different networks is to evaluate the error function using data which is independent of that used for training Various networks are trained by minimization of an appropriate error function defined with respect to a training data set The performance of the networks is then compared by evaluating the error function using an independent validation set and the network having the smallest error with respect to the validation set is selected This approach is called the hold out method Since this procedure can itself lead to some overfitting to the validation set the performance of the selected network should be confirmed by measuring its performance on a third independent set of data called a test set Cej metod zastosovuyut v rannij zupinci de modeli kandidati ye poslidovnimi iteraciyami odniyeyi j tiyeyi zh merezhi j de trenuvannya pripinyayut koli pohibka na zatverdzhuvalnomu nabori pokazuye zrostannya obirayuchi poperednyu model tu sho z minimalnoyu pohibkoyu Pritrimanij nabirChastinu pervinnogo naboru danih mozhe buti vidkladeno j vikoristano yak viprobuvalnij nabir ce ye vidomim yak me tod pritri muvannya angl holdout method Plutanina v terminologiyiTermini viprobuvalnij nabir angl test set ta zatverdzhuvalnij nabir angl validation set yak v akademichnomu seredovishi tak i v promislovosti inodi vikoristovuyut takim chinom sho yihni znachennya minyayutsya miscyami V pomilkovomu zastosuvanni viprobuvalnij nabir staye rozrobnickim naborom angl development set a zatverdzhuvalnij nabir ye nezalezhnim naborom yakij vikoristovuyut dlya ocinyuvannya produktivnosti povnistyu viznachenogo klasifikatora Literatura z mashinnogo navchannya chasto minyaye znachennya zatverdzhuvalnogo ta viprobuvalnogo naboriv na protilezhni Ce ye najyaskravishim prikladom terminologichnoyi plutanini sho pronizuye doslidzhennya shtuchnogo intelektu Originalnij tekst angl The literature on machine learning often reverses the meaning of validation and test sets This is the most blatant example of the terminological confusion that pervades artificial intelligence research Perehresne zatverdzhuvannyaNabir danih mozhe buti povtoryuvano rozbivano na trenuvalnij ta zatverdzhuvalnij nabori ce ye vidomim yak perehresne zatverdzhuvannya Ci povtoryuvani rozbittya mozhe buti vikonuvano riznimi sposobami takimi yak podil na 2 rivni nabori znachen ta vikoristannya yih yak trenuvalnogo zatverdzhuvalnogo a potim yak zatverdzhuvalnogo trenuvalnogo abo yak povtoryuvane vibirannya vipadkovogo pidnaboru yak zatverdzhuvalnogo naboru danih dzherelo Dlya zatverdzhuvannya produktivnosti modeli inodi vikoristovuyut dodatkovij nabir danih pritrimanij vid perehresnogo zatverdzhuvannya Iyerarhichna klasifikaciyaInshim prikladom pidlashtovuvannya parametriv ye iyerarhi chna klasifika ciya angl hierarchical classification inodi zvana ro zkladom pro storu zrazki v angl instance space decomposition yaka rozbivaye povnu bagatoklasovu zadachu na nabir menshih zadach klasifikaciyi Vona sluguye navchannyu tochnishih ponyat cherez prostishi mezhi klasifikaciyi v pidzadachah ta okremi proceduri obirannya oznak dlya pidzadach Pri zdijsnenni rozkladannya klasifikaciyi centralnim viborom ye poryadok poyednannya menshih krokiv klasifikaciyi zvanij shlyahom klasifikaciyi angl classification path Zalezhno vid zastosuvannya jogo mozhlivo vivoditi z matrici nevidpovidnostej rozkrivannyam prichin tipovih pomilok ta poshukom shlyahiv zapobigannya povtoryuvannyu yih sistemoyu v majbutnomu Napriklad na zatverdzhuvalnomu nabori vidno klasi yaki sistema najchastishe vzayemno plutaye mizh soboyu todi rozklad prostoru zrazkiv vikonuyut nastupnim chinom spershu klasifikaciyu vikonuyut sered dobre rozpiznavanih klasiv a klasi rozdilyuvati yaki skladno rozglyadayut yak yedinij spilnij klas a todi yak drugij krok klasifikaciyi cej spilnij klas klasifikuyut na ti dva vzayemno pereplutuvani klasi Komercijni instrumentiDlya stvoryuvannya trenuvalnih danih isnuyut komercijni instrumenti taki yak Diffgram 15 serpnya 2020 u Wayback Machine ta Supervisely 18 lipnya 2020 u Wayback Machine Div takozhStatistichna klasifikaciya Spisok naboriv danih dlya doslidzhen z mashinnogo navchannyaPrimitkiRon Kohavi Foster Provost 1998 Machine Learning 30 271 274 doi 10 1023 A 1007411609915 Arhiv originalu za 11 listopada 2019 Procitovano 8 lipnya 2020 angl Bishop Christopher M 2006 Pattern Recognition and Machine Learning New York Springer s vii ISBN 0 387 31073 8 Pattern recognition has its origins in engineering whereas machine learning grew out of computer science However these activities can be viewed as two facets of the same field and together they have undergone substantial development over the past ten years angl James Gareth 2013 Springer s 176 ISBN 978 1461471370 Arhiv originalu za 23 chervnya 2019 Procitovano 7 serpnya 2018 angl Ripley Brian 1996 Pattern Recognition and Neural Networks Cambridge University Press s 354 ISBN 978 0521717700 angl Brownlee Jason 13 lipnya 2017 Arhiv originalu za 10 grudnya 2019 Procitovano 12 zhovtnya 2017 angl Prechelt Lutz Genevieve B Orr 1 sichnya 2012 Early Stopping But When U Gregoire Montavon red Neural Networks Tricks of the Trade Lecture Notes in Computer Science Springer Berlin Heidelberg s 53 67 doi 10 1007 978 3 642 35289 8 5 ISBN 978 3 642 35289 8 angl Ripley B D 1996 Pattern Recognition and Neural Networks Cambridge Cambridge University Press p 354 angl Subject What are the population sample training set design set validation set and test set 10 bereznya 2021 u Wayback Machine Neural Network FAQ part 1 of 7 Introduction 10 bereznya 2021 u Wayback Machine txt comp ai neural nets Sarle W S ed 1997 last modified 2002 05 17 angl Bishop C M 1995 Neural Networks for Pattern Recognition 18 lipnya 2020 u Wayback Machine Oxford Oxford University Press p 372 angl Kohavi Ron 3 bereznya 2001 A Study of Cross Validation and Bootstrap for Accuracy Estimation and Model Selection 14 angl Ripley Brian D 2009 Pattern recognition and neural networks Cambridge Univ Press s Glossary ISBN 9780521717700 OCLC 601063414 angl Cohen S Rokach L Maimon O 2007 Decision tree instance space decomposition with grouped gain ratio Information Sciences Elsevier 177 17 3592 3612 doi 10 1016 j ins 2007 01 016 angl Sidorova J Badia T ESEDA tool for enhanced speech emotion detection and analysis 1 chervnya 2020 u Wayback Machine The 4th International Conference on Automated Solutions for Cross Media Content and Multi Channel Distribution AXMEDIS 2008 Florence November 17 19 pp 257 260 IEEE press angl Loop Humans in the 28 travnya 2019 The best image annotation platforms for computer vision an honest review of each Medium angl Procitovano 27 listopada 2019 angl PosilannyaFAQ What are the population sample training set design set validation set and test set 10 bereznya 2021 u Wayback Machine angl What is the Difference Between Test and Validation Datasets 10 grudnya 2019 u Wayback Machine angl What is training validation and testing data sets scenario in machine learning angl Is there a rule of thumb for how to divide a dataset into training and validation sets angl