У статистиці та машиннім навчанні ви́тік (також ви́тік да́них або ви́тік ці́лі, англ. leakage, data leakage, target leakage) — це використання в процесі тренування моделі такої інформації, яка не буде очікувано доступною в момент передбачування, що спричинює переоцінювання передбачувальними оцінками (метриками) корисності моделі для виконання її у виробничім середовищі.
Витік часто буває тонким та непрямим, ускладнюючи його виявляння та усування. Витік може спричинювати обрання моделювальником неоптимальної моделі, яку в іншому випадку могла би перевершити безвитокова модель.
Режими витоку
Витік може траплятися на багатьох етапах процесу машинного навчання. Причини витоку можливо класифікувати за двома можливими джерелами витоку для моделі: ознаки, та тренувальні зразки.
Витік ознак
Стовпчиковий витік спричинюється включенням під час тренування моделі стовпчиків, що є одними з: повторів мітки, посередників для мітки, або самою міткою, які не є доступними в момент передбачування (анахронізми). До них можуть належати витоки, які частково видають мітку.
Наприклад, включення стовпчика «ЩомісячнаЗарплатня» при передбачуванні стовпчика «РічнаЗарплатня», або «ХвилинЗапізнення» при передбачуванні «ЧиБулоЗапізнення», або, тонше, «ЧислоЗатриманихПлатежів» при передбачуванні «ЧиНадатиПозику».
Витік тренувальних зразків
Рядковий витік спричинюється неправильним поділом інформації рядками даних.
Типи витоків даних:
- Передчасне обозначування, витік від передчасного обозначування перед поділом ПЗ/Тренування/Перевірка (мусить допасовуватися MinMax/n-грамів/тощо лише на тренувальній долі, а потім перетворювати перевірний набір).
- Дублювання рядків між тренуванням/затверджуванням/перевіркою (наприклад, перевибирання набору даних, щоби доповнити його розмір, до поділу, наприклад, різними обертаннями/збільшеннями одного зображення, натяжковим вибиранням перед поділом, або дублюванням рядків для [en] класу меншості)
- Не н. о. р. дані
- Часовий витік (наприклад, розбивання набору даних часового ряду випадковим чином замість новіших даних у перевірному наборі при застосуванні поділу Тренування/Перевірка, або перехресного затверджування з ковзним початком)
- Груповий витік — не включення стовпчика поділу на групи (наприклад, група Ендрю Ина мала 100 тис. рентгенівських знімків 30 тис. пацієнтів, що означає близько 3 знімків на пацієнта. У цій праці використовували випадкове розбивання, замість забезпечувати, щоби всі знімки одного пацієнта були в одній і тій же долі. Тож модель частково запам'ятовувала пацієнтів замість навчатися розпізнавати пневмонію на рентгенівських знімках грудної клітини. Переглянута праця мала падіння в оцінках.)
Для залежних від часу наборів даних структура досліджуваної системи змінюється з часом (тобто, є «нестаціонарною»). Це може вносити систематичні відмінності між тренувальним та затверджувальним наборами. Наприклад, якщо модель для [en] тренують на певному п'ятирічному періоді, нереалістично розглядати наступний п'ятирічний період як витягнутий з тієї ж генеральної сукупності. Як інший приклад, припустімо, що модель розроблюють для передбачування ризику особи отримати діагноз певної хвороби протягом наступного року.
Виявляння
Цей розділ потребує доповнення. (листопад 2020) |
Див. також
Примітки
- Shachar Kaufman; Saharon Rosset; Claudia Perlich (January 2011). Leakage in Data Mining: Formulation, Detection, and Avoidance. Proceedings of the ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. 6: 556—563. doi:10.1145/2020408.2020496. Процитовано 13 січня 2020. (англ.)
- Soumen Chakrabarti (2008). 9. Data Mining: Know it All. Morgan Kaufmann Publishers. с. 383. ISBN .
Анахронічні змінні є згубною проблемою для добування. Проте вони не становлять жодної проблеми під час розгортання, хіба що хтось очікує, що ця модель працюватиме! Анахронічні змінні перебувають не на своєму місці в часі. Конкретніше, під час моделювання даних вони переносять інформацію у зворотному напрямку, із майбутнього до минулого.
(англ.) - Guts, Yuriy (30 жовтня 2018). . AI Ukraine Conference. Ukraine. Архів оригіналу (Talk) за 17 листопада 2020. Процитовано 14 листопада 2020.
{{}}
: Проігноровано невідомий параметр|lay-url=
() (англ.) - Nick, Roberts (16 листопада 2017). Replying to @AndrewYNg @pranavrajpurkar and 2 others. Brooklyn, NY, USA: Twitter. оригіналу за 10 June 2018. Процитовано 13 січня 2020.
Replying to @AndrewYNg @pranavrajpurkar and 2 others ... Were you concerned that the network could memorize patient anatomy since patients cross train and validation? “ChestX-ray14 dataset contains 112,120 frontal-view X-ray images of 30,805 unique patients. We randomly split the entire dataset into 80% training, and 20% validation.”
(англ.)
Це незавершена стаття зі штучного інтелекту. Ви можете проєкту, виправивши або дописавши її. |
Вікіпедія, Українська, Україна, книга, книги, бібліотека, стаття, читати, завантажити, безкоштовно, безкоштовно завантажити, mp3, відео, mp4, 3gp, jpg, jpeg, gif, png, малюнок, музика, пісня, фільм, книга, гра, ігри, мобільний, телефон, android, ios, apple, мобільний телефон, samsung, iphone, xiomi, xiaomi, redmi, honor, oppo, nokia, sonya, mi, ПК, web, Інтернет
U statistici ta mashinnim navchanni vi tik takozh vi tik da nih abo vi tik ci li angl leakage data leakage target leakage ce vikoristannya v procesi trenuvannya modeli takoyi informaciyi yaka ne bude ochikuvano dostupnoyu v moment peredbachuvannya sho sprichinyuye pereocinyuvannya peredbachuvalnimi ocinkami metrikami korisnosti modeli dlya vikonannya yiyi u virobnichim seredovishi Vitik chasto buvaye tonkim ta nepryamim uskladnyuyuchi jogo viyavlyannya ta usuvannya Vitik mozhe sprichinyuvati obrannya modelyuvalnikom neoptimalnoyi modeli yaku v inshomu vipadku mogla bi perevershiti bezvitokova model Rezhimi vitokuVitik mozhe traplyatisya na bagatoh etapah procesu mashinnogo navchannya Prichini vitoku mozhlivo klasifikuvati za dvoma mozhlivimi dzherelami vitoku dlya modeli oznaki ta trenuvalni zrazki Vitik oznak Stovpchikovij vitik sprichinyuyetsya vklyuchennyam pid chas trenuvannya modeli stovpchikiv sho ye odnimi z povtoriv mitki poserednikiv dlya mitki abo samoyu mitkoyu yaki ne ye dostupnimi v moment peredbachuvannya anahronizmi Do nih mozhut nalezhati vitoki yaki chastkovo vidayut mitku Napriklad vklyuchennya stovpchika ShomisyachnaZarplatnya pri peredbachuvanni stovpchika RichnaZarplatnya abo HvilinZapiznennya pri peredbachuvanni ChiBuloZapiznennya abo tonshe ChisloZatrimanihPlatezhiv pri peredbachuvanni ChiNadatiPoziku Vitik trenuvalnih zrazkiv Ryadkovij vitik sprichinyuyetsya nepravilnim podilom informaciyi ryadkami danih Tipi vitokiv danih Peredchasne oboznachuvannya vitik vid peredchasnogo oboznachuvannya pered podilom PZ Trenuvannya Perevirka musit dopasovuvatisya MinMax n gramiv tosho lishe na trenuvalnij doli a potim peretvoryuvati perevirnij nabir Dublyuvannya ryadkiv mizh trenuvannyam zatverdzhuvannyam perevirkoyu napriklad perevibirannya naboru danih shobi dopovniti jogo rozmir do podilu napriklad riznimi obertannyami zbilshennyami odnogo zobrazhennya natyazhkovim vibirannyam pered podilom abo dublyuvannyam ryadkiv dlya en klasu menshosti Ne n o r dani Chasovij vitik napriklad rozbivannya naboru danih chasovogo ryadu vipadkovim chinom zamist novishih danih u perevirnomu nabori pri zastosuvanni podilu Trenuvannya Perevirka abo perehresnogo zatverdzhuvannya z kovznim pochatkom Grupovij vitik ne vklyuchennya stovpchika podilu na grupi napriklad grupa Endryu Ina mala 100 tis rentgenivskih znimkiv 30 tis paciyentiv sho oznachaye blizko 3 znimkiv na paciyenta U cij praci vikoristovuvali vipadkove rozbivannya zamist zabezpechuvati shobi vsi znimki odnogo paciyenta buli v odnij i tij zhe doli Tozh model chastkovo zapam yatovuvala paciyentiv zamist navchatisya rozpiznavati pnevmoniyu na rentgenivskih znimkah grudnoyi klitini Pereglyanuta pracya mala padinnya v ocinkah Dlya zalezhnih vid chasu naboriv danih struktura doslidzhuvanoyi sistemi zminyuyetsya z chasom tobto ye nestacionarnoyu Ce mozhe vnositi sistematichni vidminnosti mizh trenuvalnim ta zatverdzhuvalnim naborami Napriklad yaksho model dlya en trenuyut na pevnomu p yatirichnomu periodi nerealistichno rozglyadati nastupnij p yatirichnij period yak vityagnutij z tiyeyi zh generalnoyi sukupnosti Yak inshij priklad pripustimo sho model rozroblyuyut dlya peredbachuvannya riziku osobi otrimati diagnoz pevnoyi hvorobi protyagom nastupnogo roku ViyavlyannyaCej rozdil potrebuye dopovnennya listopad 2020 Div takozhAvtoMN Perehresne zatverdzhuvannya Perenavchannya en Kerovane navchannya Trenuvalnij zatverdzhuvalnij ta viprobuvalnij naboriPrimitkiShachar Kaufman Saharon Rosset Claudia Perlich January 2011 Leakage in Data Mining Formulation Detection and Avoidance Proceedings of the ACM SIGKDD International Conference on Knowledge Discovery and Data Mining 6 556 563 doi 10 1145 2020408 2020496 Procitovano 13 sichnya 2020 angl Soumen Chakrabarti 2008 9 Data Mining Know it All Morgan Kaufmann Publishers s 383 ISBN 978 0 12 374629 0 Anahronichni zminni ye zgubnoyu problemoyu dlya dobuvannya Prote voni ne stanovlyat zhodnoyi problemi pid chas rozgortannya hiba sho htos ochikuye sho cya model pracyuvatime Anahronichni zminni perebuvayut ne na svoyemu misci v chasi Konkretnishe pid chas modelyuvannya danih voni perenosyat informaciyu u zvorotnomu napryamku iz majbutnogo do minulogo angl Guts Yuriy 30 zhovtnya 2018 AI Ukraine Conference Ukraine Arhiv originalu Talk za 17 listopada 2020 Procitovano 14 listopada 2020 a href wiki D0 A8 D0 B0 D0 B1 D0 BB D0 BE D0 BD Cite conference title Shablon Cite conference cite conference a Proignorovano nevidomij parametr lay url dovidka angl Nick Roberts 16 listopada 2017 Replying to AndrewYNg pranavrajpurkar and 2 others Brooklyn NY USA Twitter originalu za 10 June 2018 Procitovano 13 sichnya 2020 Replying to AndrewYNg pranavrajpurkar and 2 others Were you concerned that the network could memorize patient anatomy since patients cross train and validation ChestX ray14 dataset contains 112 120 frontal view X ray images of 30 805 unique patients We randomly split the entire dataset into 80 training and 20 validation angl Ce nezavershena stattya zi shtuchnogo intelektu Vi mozhete dopomogti proyektu vipravivshi abo dopisavshi yiyi