Ця стаття потребує додаткових для поліпшення її . (квітень 2020) |
Допасо́ваність (англ. goodness of fit) статистичної моделі описує, наскільки добре її допасовано до набору спостережень. Міри допасованості зазвичай роблять підсумок незгідності між спостережуваними значеннями та значеннями, очікуваними за моделі, що розглядають. Такі міри можливо використовувати в перевірці статистичних гіпотез, наприклад, для перевірки нормальності залишків, для перевірки того, чи дві вибірки вибрано з ідентичних розподілів (див. критерій Колмогорова — Смирнова), чи для перевірки того, чи слідують виходові частоти певному розподілові (див. критерій хі-квадрат Пірсона). В дисперсійному аналізі однією зі складових, на яку розбивають дисперсію, може бути [en].
Допасованість розподілів
При оцінюванні того, чи підходить даний розподіл до набору даних, можливо використовувати наступні критерії та міри допасованості, що лежать в їх основі:
- Баєсів інформаційний критерій
- Критерій Колмогорова — Смирнова
- [en]
- Критерій Андерсона — Дарлінга
- [en]
- Критерій хі-квадрат
- Інформаційний критерій Акаіке
- [en]
- Критерій Куйпера
- Ядрована незгідність Штайна (англ. kernelized Stein discrepancy)
- Критерії Чжана ZK, ZC та ZA (англ. Zhang's ZK, ZC and ZA tests)
- [en]
Регресійний аналіз
В регресійному аналізі до допасованості мають стосунок такі предмети:
- Коефіцієнт детермінації (міра допасованості R-квадрат);
- [en];
- [en].
- [en]
- [en]
Категорійні дані
Далі наведено приклади, що виникають у контексті категорійних даних.
Критерій хі-квадрат Пірсона
Критерій хі-квадрат Пірсона використовує міру допасованості, яка є сумою різниць між спостережуваними та очікуваними виходовими частотами (тобто, кількостями спостережень), кожну з яких піднесено до квадрату, й поділено на очікувану:
де
- Oi = спостережувана кількість для засіку (англ. bin) i
- Ei = очікувана кількість для засіку i, підтримувана нульовою гіпотезою.
Очікувану частоту обчислюють як
де
- F = кумулятивна функція розподілу ймовірності для розподілу ймовірності, що перевіряють.
- Yu = верхня (англ. upper) межа класу i,
- Yl = нижня (англ. lower) межа класу i,
- N = розмір вибірки
Отримуване в результаті значення можливо порівнювати з розподілом хі-квадрат для визначення допасованості. Розподіл хі-квадрат має (k − c) ступенів вільності, де k є числом не порожніх комірок, а c є числом оцінюваних параметрів розподілу (включно з параметрами положення, масштабу та форми) плюс один. Наприклад, для 3-параметрового розподілу Вейбула, c = 4.
Приклад: однакові частоти чоловіків та жінок
Наприклад, щоби перевірити гіпотезу, що випадкову вибірку зі 100 людей вибрано із сукупності, в якій чоловіки та жінки є рівними за частотою, спостережуване число чоловіків та жінок порівнюватиметься з теоретичними частотами 50 чоловіків та 50 жінок. Якщо в вибірці було 44 чоловіки та 56 жінок, то
Якщо нульова гіпотеза є істинною (тобто, чоловіків та жінок вибирають з рівною частотою у вибірці), то перевірну статистику вибиратимуть з розподілу хі-квадрат з одним ступенем вільності. І хоча можна було би очікувати двох ступенів вільності (по одному для чоловіків та жінок), ми мусимо враховувати те, що загальне число чоловіків та жінок є обмеженим (100), і відтак є лише один ступінь вільності (2 − 1). Або ж, якщо кількість чоловіків є відомою, то кількість жінок є визначеною, і навпаки.
Результат звернення до розподілу хі-квадрат для 1 ступеню вільності показує, що ймовірність спостереження цієї відмінності (або екстремальнішої за цю), якщо чоловіки та жінки є однаково численними в генеральній сукупності, становить приблизно 0.23. Ця ймовірність є вищою за загальноприйнятий критерій статистичної значущості (.001-.05), тож звичайно ми не відкидатимемо нульову гіпотезу про те, що число чоловіків у сукупності є таким же, як і число жінок (тобто, ми розглядатимемо нашу вибірку як таку, що знаходиться в межах того, що ми би очікували для співвідношення чоловіків/жінок 50/50).
Зверніть увагу на припущення, що механізм, який породив цю вибірку, є випадковим, в сенсі незалежного випадкового вибирання з однаковою ймовірністю, тут 0.5 як для чоловіків, так і для жінок. Якщо ж, наприклад, кожен з обраних 44 чоловіків приведе приятеля-чоловіка, й кожна з обраних 56 жінок приведе приятельку-жінку, то кожне збільшиться в 4 рази, тоді як кожне збільшиться в 2 рази. Значення цієї статистики подвоїться до 2.88. Знаючи цей внутрішній механізм, ми, звісно, повинні були би рахувати пари. В загальному випадку, якщо механізм не є обґрунтовано випадковим, він буде невідомим. Розподіл, до якого повинно бути віднесено перевірну статистику, може, відповідно, дуже відрізнятися від розподілу хі-квадрат.
Біноміальний випадок
Біноміальний експеримент є послідовністю незалежних проб, у якій проби можуть призводити в результаті до двох виходів, успіху чи відмови. Є n проб, кожна з імовірністю успіху, позначуваною через p. Якщо npi ≫ 1 для кожного i (де i = 1, 2, ..., k), то
Це приблизно має розподіл хі-квадрат з k − 1 ступенями вільності. Той факт, що ступенів вільності є k − 1, є наслідком обмеження . Ми знаємо, що є k спостережуваних лічильників клітин, проте щойно стають відомими будь-які k − 1, то один, що лишився, визначається однозначно. В принципі, можна сказати, що є лише k − 1 лічильників клітин, що визначаються вільно, звідси k − 1 ступенів вільності.
G-критерій
[en] є перевірками статистичної значущості відношенням правдоподібностей, які все ширше застосовують у ситуаціях, в яких раніше радили критерії хі-квадрат Пірсона.
Загальною формулою G є
де та є тим же, що й для критерію хі-квадрат, позначує натуральний логарифм, а суму беруть над усіма не порожніми комірками. Крім того, загальна спостережена кількість повинна дорівнювати загальній очікуваній кількості:де є загальним числом спостережень.
G-критерії почали радити щонайменше починаючи з випуску популярного статистичного підручника [en] та [en] 1981 року.
Див. також
- [en]
- [en] (пов'язана з [en])
- Перенавчання
- Затверджування статистичної моделі
- [en]
- Функція допасованості
Примітки
- goodness of fit // Англійсько-українсько-англійський словник наукової мови (фізика та споріднені науки). Частина ІІ українсько-англійська / уклад. О. Кочерга, Є. Мейнарович. — 2010.
- Liu, Qiang; Lee, Jason; Jordan, Michael (20 червня 2016). . Proceedings of the 33rd International Conference on Machine Learning. The 33rd International Conference on Machine Learning. New York, New York, USA: Proceedings of Machine Learning Research. с. 276—284. Архів оригіналу за 1 серпня 2020. Процитовано 18 квітня 2020. (англ.)
- Chwialkowski, Kacper; Strathmann, Heiko; Gretton, Arthur (20 червня 2016). . Proceedings of the 33rd International Conference on Machine Learning. The 33rd International Conference on Machine Learning. New York, New York, USA: Proceedings of Machine Learning Research. с. 2606—2615. Архів оригіналу за 17 лютого 2020. Процитовано 18 квітня 2020. (англ.)
- Zhang, Jin (2002). (PDF). J. R. Stat. Soc. B. 64: 281—294. Архів оригіналу (PDF) за 23 листопада 2018. Процитовано 5 листопада 2018. (англ.)
- Maindonald, J. H.; Braun, W. J. (2010). Data Analysis and Graphics Using R. An Example-Based Approach (вид. Third). New York: Cambridge University Press. с. 116—118. ISBN . (англ.)
- McDonald, J.H. (2014). G–test of goodness-of-fit. (вид. Third). Baltimore, Maryland: Sparky House Publishing. с. 53—58. Архів оригіналу за 26 травня 2020. Процитовано 18 квітня 2020. (англ.)
- Sokal, R. R.; Rohlf, F. J. (1981). Biometry: The Principles and Practice of Statistics in Biological Research (вид. Second). [en]. ISBN . (англ.)
Література
- Карташов М. В. Імовірність, процеси, статистика. — Київ : ВПЦ Київський університет, 2007. — 504 с.
- Гнеденко Б. В. Курс теории вероятностей. — 6-е изд. — Москва : Наука, 1988. — 446 с.(рос.)
- Гихман И. И., Скороход А. В., Ядренко М. В. Теория вероятностей и математическая статистика. — Київ : Вища школа, 1988. — 436 с.(рос.)
- Huber-Carol, C.; Balakrishnan, N.; Nikulin, M. S.; Mesbah, M., ред. (2002), Goodness-of-Fit Tests and Model Validity, (англ.)
- Ingster, Yu. I.; Suslina, I. A. (2003), Nonparametric Goodness-of-Fit Testing Under Gaussian Models, (англ.)
- Rayner, J. C. W.; Thas, O.; Best, D. J. (2009), Smooth Tests of Goodness of Fit (вид. 2nd), (англ.)
- Vexlera, Albert; Gurevich, Gregory (2010), Empirical likelihood ratios applied to goodness-of-fit tests based on sample entropy, [en], 54: 531—545, doi:10.1016/j.csda.2009.09.025 (англ.)
Вікіпедія, Українська, Україна, книга, книги, бібліотека, стаття, читати, завантажити, безкоштовно, безкоштовно завантажити, mp3, відео, mp4, 3gp, jpg, jpeg, gif, png, малюнок, музика, пісня, фільм, книга, гра, ігри, мобільний, телефон, android, ios, apple, мобільний телефон, samsung, iphone, xiomi, xiaomi, redmi, honor, oppo, nokia, sonya, mi, ПК, web, Інтернет
Cya stattya potrebuye dodatkovih posilan na dzherela dlya polipshennya yiyi perevirnosti Bud laska dopomozhit udoskonaliti cyu stattyu dodavshi posilannya na nadijni avtoritetni dzherela Zvernitsya na storinku obgovorennya za poyasnennyami ta dopomozhit vipraviti nedoliki Material bez dzherel mozhe buti piddano sumnivu ta vilucheno kviten 2020 Dopaso vanist angl goodness of fit statistichnoyi modeli opisuye naskilki dobre yiyi dopasovano do naboru sposterezhen Miri dopasovanosti zazvichaj roblyat pidsumok nezgidnosti mizh sposterezhuvanimi znachennyami ta znachennyami ochikuvanimi za modeli sho rozglyadayut Taki miri mozhlivo vikoristovuvati v perevirci statistichnih gipotez napriklad dlya perevirki normalnosti zalishkiv dlya perevirki togo chi dvi vibirki vibrano z identichnih rozpodiliv div kriterij Kolmogorova Smirnova chi dlya perevirki togo chi sliduyut vihodovi chastoti pevnomu rozpodilovi div kriterij hi kvadrat Pirsona V dispersijnomu analizi odniyeyu zi skladovih na yaku rozbivayut dispersiyu mozhe buti en Dopasovanist rozpodilivPri ocinyuvanni togo chi pidhodit danij rozpodil do naboru danih mozhlivo vikoristovuvati nastupni kriteriyi ta miri dopasovanosti sho lezhat v yih osnovi Bayesiv informacijnij kriterij Kriterij Kolmogorova Smirnova en Kriterij Andersona Darlinga en Kriterij hi kvadrat Informacijnij kriterij Akaike en Kriterij Kujpera Yadrovana nezgidnist Shtajna angl kernelized Stein discrepancy Kriteriyi Chzhana ZK ZC ta ZA angl Zhang s ZK ZC and ZA tests en Regresijnij analizV regresijnomu analizi do dopasovanosti mayut stosunok taki predmeti Koeficiyent determinaciyi mira dopasovanosti R kvadrat en en en en Kategorijni daniDali navedeno prikladi sho vinikayut u konteksti kategorijnih danih Kriterij hi kvadrat Pirsona Kriterij hi kvadrat Pirsona vikoristovuye miru dopasovanosti yaka ye sumoyu riznic mizh sposterezhuvanimi ta ochikuvanimi vihodovimi chastotami tobto kilkostyami sposterezhen kozhnu z yakih pidneseno do kvadratu j podileno na ochikuvanu x 2 i 1 n O i E i E i 2 displaystyle chi 2 sum i 1 n frac O i E i E i 2 de Oi sposterezhuvana kilkist dlya zasiku angl bin i Ei ochikuvana kilkist dlya zasiku i pidtrimuvana nulovoyu gipotezoyu Ochikuvanu chastotu obchislyuyut yak E i F Y u F Y l N displaystyle E i bigg F Y u F Y l bigg N de F kumulyativna funkciya rozpodilu jmovirnosti dlya rozpodilu jmovirnosti sho pereviryayut Yu verhnya angl upper mezha klasu i Yl nizhnya angl lower mezha klasu i N rozmir vibirki Otrimuvane v rezultati znachennya mozhlivo porivnyuvati z rozpodilom hi kvadrat dlya viznachennya dopasovanosti Rozpodil hi kvadrat maye k c stupeniv vilnosti de k ye chislom ne porozhnih komirok a c ye chislom ocinyuvanih parametriv rozpodilu vklyuchno z parametrami polozhennya masshtabu ta formi plyus odin Napriklad dlya 3 parametrovogo rozpodilu Vejbula c 4 Priklad odnakovi chastoti cholovikiv ta zhinok Napriklad shobi pereviriti gipotezu sho vipadkovu vibirku zi 100 lyudej vibrano iz sukupnosti v yakij choloviki ta zhinki ye rivnimi za chastotoyu sposterezhuvane chislo cholovikiv ta zhinok porivnyuvatimetsya z teoretichnimi chastotami 50 cholovikiv ta 50 zhinok Yaksho v vibirci bulo 44 choloviki ta 56 zhinok to x 2 44 50 2 50 56 50 2 50 1 44 displaystyle chi 2 44 50 2 over 50 56 50 2 over 50 1 44 Yaksho nulova gipoteza ye istinnoyu tobto cholovikiv ta zhinok vibirayut z rivnoyu chastotoyu u vibirci to perevirnu statistiku vibiratimut z rozpodilu hi kvadrat z odnim stupenem vilnosti I hocha mozhna bulo bi ochikuvati dvoh stupeniv vilnosti po odnomu dlya cholovikiv ta zhinok mi musimo vrahovuvati te sho zagalne chislo cholovikiv ta zhinok ye obmezhenim 100 i vidtak ye lishe odin stupin vilnosti 2 1 Abo zh yaksho kilkist cholovikiv ye vidomoyu to kilkist zhinok ye viznachenoyu i navpaki Rezultat zvernennya do rozpodilu hi kvadrat dlya 1 stupenyu vilnosti pokazuye sho jmovirnist sposterezhennya ciyeyi vidminnosti abo ekstremalnishoyi za cyu yaksho choloviki ta zhinki ye odnakovo chislennimi v generalnij sukupnosti stanovit priblizno 0 23 Cya jmovirnist ye vishoyu za zagalnoprijnyatij kriterij statistichnoyi znachushosti 001 05 tozh zvichajno mi ne vidkidatimemo nulovu gipotezu pro te sho chislo cholovikiv u sukupnosti ye takim zhe yak i chislo zhinok tobto mi rozglyadatimemo nashu vibirku yak taku sho znahoditsya v mezhah togo sho mi bi ochikuvali dlya spivvidnoshennya cholovikiv zhinok 50 50 Zvernit uvagu na pripushennya sho mehanizm yakij porodiv cyu vibirku ye vipadkovim v sensi nezalezhnogo vipadkovogo vibirannya z odnakovoyu jmovirnistyu tut 0 5 yak dlya cholovikiv tak i dlya zhinok Yaksho zh napriklad kozhen z obranih 44 cholovikiv privede priyatelya cholovika j kozhna z obranih 56 zhinok privede priyatelku zhinku to kozhne O i E i 2 textstyle O i E i 2 zbilshitsya v 4 razi todi yak kozhne E i textstyle E i zbilshitsya v 2 razi Znachennya ciyeyi statistiki podvoyitsya do 2 88 Znayuchi cej vnutrishnij mehanizm mi zvisno povinni buli bi rahuvati pari V zagalnomu vipadku yaksho mehanizm ne ye obgruntovano vipadkovim vin bude nevidomim Rozpodil do yakogo povinno buti vidneseno perevirnu statistiku mozhe vidpovidno duzhe vidriznyatisya vid rozpodilu hi kvadrat Binomialnij vipadok Binomialnij eksperiment ye poslidovnistyu nezalezhnih prob u yakij probi mozhut prizvoditi v rezultati do dvoh vihodiv uspihu chi vidmovi Ye n prob kozhna z imovirnistyu uspihu poznachuvanoyu cherez p Yaksho npi 1 dlya kozhnogo i de i 1 2 k to x 2 i 1 k N i n p i 2 n p i a l l c e l l s O E 2 E displaystyle chi 2 sum i 1 k frac N i np i 2 np i sum mathrm all cells frac mathrm O mathrm E 2 mathrm E Ce priblizno maye rozpodil hi kvadrat z k 1 stupenyami vilnosti Toj fakt sho stupeniv vilnosti ye k 1 ye naslidkom obmezhennya N i n displaystyle sum N i n Mi znayemo sho ye k sposterezhuvanih lichilnikiv klitin prote shojno stayut vidomimi bud yaki k 1 to odin sho lishivsya viznachayetsya odnoznachno V principi mozhna skazati sho ye lishe k 1 lichilnikiv klitin sho viznachayutsya vilno zvidsi k 1 stupeniv vilnosti G kriterij en ye perevirkami statistichnoyi znachushosti vidnoshennyam pravdopodibnostej yaki vse shirshe zastosovuyut u situaciyah v yakih ranishe radili kriteriyi hi kvadrat Pirsona Zagalnoyu formuloyu G ye G 2 i O i ln O i E i displaystyle G 2 sum i O i cdot ln left frac O i E i right de O i textstyle O i ta E i textstyle E i ye tim zhe sho j dlya kriteriyu hi kvadrat ln textstyle ln poznachuye naturalnij logarifm a sumu berut nad usima ne porozhnimi komirkami Krim togo zagalna sposterezhena kilkist povinna dorivnyuvati zagalnij ochikuvanij kilkosti i O i i E i N displaystyle sum i O i sum i E i N de N textstyle N ye zagalnim chislom sposterezhen G kriteriyi pochali raditi shonajmenshe pochinayuchi z vipusku populyarnogo statistichnogo pidruchnika en ta en 1981 roku Div takozh en en pov yazana z en Perenavchannya Zatverdzhuvannya statistichnoyi modeli en Funkciya dopasovanostiPrimitkigoodness of fit Anglijsko ukrayinsko anglijskij slovnik naukovoyi movi fizika ta sporidneni nauki Chastina II ukrayinsko anglijska uklad O Kocherga Ye Mejnarovich 2010 Liu Qiang Lee Jason Jordan Michael 20 chervnya 2016 Proceedings of the 33rd International Conference on Machine Learning The 33rd International Conference on Machine Learning New York New York USA Proceedings of Machine Learning Research s 276 284 Arhiv originalu za 1 serpnya 2020 Procitovano 18 kvitnya 2020 angl Chwialkowski Kacper Strathmann Heiko Gretton Arthur 20 chervnya 2016 Proceedings of the 33rd International Conference on Machine Learning The 33rd International Conference on Machine Learning New York New York USA Proceedings of Machine Learning Research s 2606 2615 Arhiv originalu za 17 lyutogo 2020 Procitovano 18 kvitnya 2020 angl Zhang Jin 2002 PDF J R Stat Soc B 64 281 294 Arhiv originalu PDF za 23 listopada 2018 Procitovano 5 listopada 2018 angl Maindonald J H Braun W J 2010 Data Analysis and Graphics Using R An Example Based Approach vid Third New York Cambridge University Press s 116 118 ISBN 978 0 521 76293 9 angl McDonald J H 2014 G test of goodness of fit vid Third Baltimore Maryland Sparky House Publishing s 53 58 Arhiv originalu za 26 travnya 2020 Procitovano 18 kvitnya 2020 angl Sokal R R Rohlf F J 1981 Biometry The Principles and Practice of Statistics in Biological Research vid Second en ISBN 0 7167 2411 1 angl LiteraturaKartashov M V Imovirnist procesi statistika Kiyiv VPC Kiyivskij universitet 2007 504 s Gnedenko B V Kurs teorii veroyatnostej 6 e izd Moskva Nauka 1988 446 s ros Gihman I I Skorohod A V Yadrenko M V Teoriya veroyatnostej i matematicheskaya statistika Kiyiv Visha shkola 1988 436 s ros Huber Carol C Balakrishnan N Nikulin M S Mesbah M red 2002 Goodness of Fit Tests and Model Validity Springer angl Ingster Yu I Suslina I A 2003 Nonparametric Goodness of Fit Testing Under Gaussian Models Springer angl Rayner J C W Thas O Best D J 2009 Smooth Tests of Goodness of Fit vid 2nd Wiley angl Vexlera Albert Gurevich Gregory 2010 Empirical likelihood ratios applied to goodness of fit tests based on sample entropy en 54 531 545 doi 10 1016 j csda 2009 09 025 angl