У статистиці та оптимізації по́хибки (англ. errors) та за́лишки (англ. residuals) є тісно пов'язаними мірами відхилення спостережуваного значення елементу вибірки від його «теоретичного значення», які легко сплутати. Похибка (або збу́рення) спостережуваного значення є відхиленням цього спостережуваного значення від (не спостережуваного) істинного значення досліджуваної величини (наприклад, середнього значення генеральної сукупності), а залишком спостережуваної змінної є різниця між цим спостережуваним значенням та оцінкою значення досліджуваної величини (наприклад, середнім значенням вибірки). Найважливішою ця відмінність є в регресійному аналізі, де вона приводить до поняття [en].
Введення
Припустімо, що є ряд спостережень з [en], і ми хочемо оцінити середнє значення цього розподілу (так звану модель зсуву). В цьому випадку похибки є відхиленнями спостережень від середнього значення сукупності, а залишки є відхиленнями спостережень від середнього значення вибірки.
Статистична похибка (або збурення) є величиною, на яку спостереження відрізняється від його математичного сподівання, коли останнє ґрунтується на всій сукупності, з якої було випадково вибрано об'єкт статистичного спостереження. Наприклад, якщо середній зріст в загальній сукупності 21-річних чоловіків є 1.75 метрів, і один випадково вибраний чоловік має зріст 1.80 метрів, то «похибка» є 0.05 метрів; якщо випадково вибраний чоловік має зріст 1.70 метрів, то «похибка» є -0.05 метрів. Математичне сподівання, будучи середнім арифметичним всієї сукупності, є зазвичай неспостережним, і отже статистичну похибку також неможливо спостерігати.
З іншого боку, залишком (або відхиленням допасованості) є спостережувана оцінка неспостережуваної статистичної похибки. Розгляньмо попередній приклад зі зростами чоловіків, і припустімо, що ми маємо випадкову вибірку з n людей. Гарною оцінкою середнього значення сукупності могло би слугувати вибіркове середнє. В такому разі ми маємо:
- Відмінність зросту кожного чоловіка у вибірці від неспостережуваного середнього значення сукупності є статистичною похибкою, тоді як
- Відмінність зросту кожного чоловіка у вибірці від спостережуваного середнього значення вибірки є залишком.
Зауважте, що сума залишків у випадковій вибірці обов'язково є нульовою, і тому залишки є обов'язково не незалежними. З іншого боку, статистичні похибки є незалежними, і їхня сума в межах випадкової вибірки майже напевно є ненульовою.
Можна стандартизувати статистичні похибки (особливо нормального розподілу) за z-оцінкою (або «стандартизованою оцінкою»), і стандартизувати залишки за [en], або, загальніше, [en].
В одновимірних розподілах
Якщо ми розглядаємо нормально розподілену сукупність із середнім значенням μ та стандартним відхиленням σ, і вибираємо осіб незалежно, то ми маємо
є випадковою змінною, розподіленою таким чином:
Тоді статистичні похибки є
а залишки є
Сума квадратів статистичних похибок, поділена на σ2, має розподіл хі-квадрат з n ступенями вільності:
Проте ця величина не є спостережною. З іншого боку, сума квадратів залишків є спостережною. Частка від ділення цієї суми на σ2 має розподіл хі-квадрат з лише n − 1 ступенями вільності:
Ця різниця між n та n − 1 ступенями вільності має наслідком поправку Бесселя для оцінки дисперсії вибірки із сукупності з невідомим середнім значенням та невідомою дисперсією, хоча якщо середнє значення є відомим, то поправка не потрібна.
Зауваження
Примітно, що може бути показано, наприклад, за допомогою [en], що [en] та середнє значення вибірки є незалежними одне від одного. Цей факт, а також наведені вище нормальний та хі-квадратичний розподіли, формують основу обчислень із залученням дробу
який, як правило, називають [en].
Розподіли ймовірності чисельника та знаменника окремо залежать від значення неспостережуваного стандартного розподілу сукупності σ, але σ з'являється як в чисельнику, так і в знаменнику, і скорочується. Це вдача, оскільки це означає, що, незважаючи на те, що ми не знаємо σ, ми знаємо розподіл імовірності цієї частки: вона має t-розподіл Стьюдента з n − 1 ступенями вільності. Отже, ми можемо застосовувати цю частку для знаходження довірчого інтервалу μ.
Регресії
В регресійному аналізі відмінність між похибками та залишками є тонкою та важливою, і приводить до поняття [en]. Якщо дано неспостережувану функцію, що ставить у відповідність незалежну змінну до залежної, — скажімо, лінію, — то відхилення спостережень залежної змінної від цієї функції є неспостережуваними похибками. Якщо запустити регресію на якихось даних, то відхилення спостережень залежної змінної від допасованої функції є залишками.
Проте термінологічна різниця проявляється у вираженні середньоквадратичної похибки (СКП, англ. MSE). Середньоквадратична похибка регресії є числом, обчисленим як сума квадратів обчислених залишків, а не неспостережуваних похибок. Якщо цю суму квадратів поділити на n, кількість спостережень, то результатом буде середнє значення квадратичних залишків. Оскільки це є упередженою оцінкою дисперсії неспостережуваних похибок, упередження усувається множенням середнього значення квадратичних залишків на n / df, де df є числом ступенів вільності (n мінус кількість оцінюваних параметрів). Цей метод дає такий точно результат, як і метод із застосуванням середнього значення квадратичних похибок. Крайня формула служить неупередженою оцінкою дисперсії неспостережуваних похибок, і називається середньоквадратичною похибкою.
Інший метод обчислення середнього квадрату похибки при аналізі дисперсії лінійної регресії із застосуванням такого прийому, як застосовується в дисперсійному аналізі (вони однакові, оскільки дисперсійний аналіз є одним з типів регресії), сума квадратів залишків (відома також як сума квадратів похибки) ділиться на ступені вільності (де ступені вільності дорівнюють n-p-1, де p є числом «параметрів», або провісників, що використовуються в моделі, тобто кількістю змінних у рівнянні регресії). Також можна обчислювати середній квадрат моделі діленням суми квадратів моделі мінус ступені вільності, що є просто кількістю параметрів. Тоді значення F може обчислюватися діленням СК(моделі) на СК(похибки), і ми можемо визначати значущість (ось для чого починати з середніх квадратів.).
Тим не менш, через поведінку процесу регресії розподіли залишків у різних точках даних (вхідного масиву) можуть різнитися, навіть якщо самі похибки мають ідентичні розподіли. Конкретно, в лінійній регресії, в якій похибки мають ідентичні розподіли, мінливість залишків входів у середині області визначення буде вищою, ніж мінливість залишків на її краях:[] лінійна регресія допасовується до крайових точок краще, ніж до середніх. Це відбивається також і на функціях впливу різних точок даних на коефіцієнти регресії: крайові точки мають більший вплив.
Таким чином, для порівняння залишків на різних входах необхідне регулювання залишків очікуваною мінливістю залишків, що називається стюдентизацією. Це особливо важливо у випадку виявлення викидів: великий залишок може бути очікуваним в середині області визначення, але розглядатися як викид на її краях.
Інші застосування слова «похибка» у статистиці
Термін «похибка» при обговоренні в попередніх розділах застосовується в сенсі відхилення значення від гіпотетичного неспостережуваного значення. У статистиці зустрічаються щонайменше два інших застосування, і обидва мають на увазі похибки спостережуваного передбачення:
Середньоквадратична похибка, або середня квадратична похибка (скорочується як СКП, англ. MSE) та [en] (КСКП, англ. RMSE) розглядають суму, на яку значення, передбачені оцінювачем, відрізняються від оцінюваних значень (зазвичай за межами вибірки, з якої робиться оцінка моделі).
Сума квадратичних похибок (англ. sum of squared errors, SSE або SSe), розглядає [en] (суму квадратичних залишків) регресії; вона є сумою квадратів відхилень фактичних значень від передбачених в межах вибірки, що застосовується для оцінки. Аналогічно, сума абсолютних похибок (англ. sum of absolute errors, SAE) розглядає суму модулів значень залишків, що мінімізується в підході до регресії [en].
Див. також
- Міри розсіяння
- [en]
- Похибка вимірювання
- Виявлення та виправлення помилок
- [en]
- [en]
- Межа похибки
- [en]
- [en]
- [en]
- Помилки першого і другого роду
- Поширення похибки
- Пояснена сума квадратів
- [en]
- [en]
- [en]
- Узгоджений прогноз
Примітки
- Steel, Robert G. D.; Torrie, James H. (1960). Principles and Procedures of Statistics, with Special Reference to Biological Sciences. McGraw-Hill. с. 288. (англ.)
- Zelterman, Daniel (2010). Applied linear models with SAS (вид. [Online-Ausg.].). Cambridge: Cambridge University Press. ISBN . (англ.)
Література
- Cook, R. Dennis; Weisberg, Sanford (1982). Residuals and Influence in Regression (вид. Repr.). New York: . ISBN . Процитовано 23 лютого 2013. (англ.)
- Weisberg, Sanford (1985). Applied Linear Regression (вид. 2nd). New York: Wiley. ISBN . Процитовано 23 лютого 2013. (англ.)
- Hazewinkel, Michiel, ред. (2001), theory of Errors, theory of, Математична енциклопедія, , ISBN (англ.)
Вікіпедія, Українська, Україна, книга, книги, бібліотека, стаття, читати, завантажити, безкоштовно, безкоштовно завантажити, mp3, відео, mp4, 3gp, jpg, jpeg, gif, png, малюнок, музика, пісня, фільм, книга, гра, ігри, мобільний, телефон, android, ios, apple, мобільний телефон, samsung, iphone, xiomi, xiaomi, redmi, honor, oppo, nokia, sonya, mi, ПК, web, Інтернет
U statistici ta optimizaciyi po hibki angl errors ta za lishki angl residuals ye tisno pov yazanimi mirami vidhilennya sposterezhuvanogo znachennya elementu vibirki vid jogo teoretichnogo znachennya yaki legko splutati Pohibka abo zbu rennya sposterezhuvanogo znachennya ye vidhilennyam cogo sposterezhuvanogo znachennya vid ne sposterezhuvanogo istinnogo znachennya doslidzhuvanoyi velichini napriklad serednogo znachennya generalnoyi sukupnosti a zalishkom sposterezhuvanoyi zminnoyi ye riznicya mizh cim sposterezhuvanim znachennyam ta ocinkoyu znachennya doslidzhuvanoyi velichini napriklad serednim znachennyam vibirki Najvazhlivishoyu cya vidminnist ye v regresijnomu analizi de vona privodit do ponyattya en VvedennyaPripustimo sho ye ryad sposterezhen z en i mi hochemo ociniti serednye znachennya cogo rozpodilu tak zvanu model zsuvu V comu vipadku pohibki ye vidhilennyami sposterezhen vid serednogo znachennya sukupnosti a zalishki ye vidhilennyami sposterezhen vid serednogo znachennya vibirki Statistichna pohibka abo zburennya ye velichinoyu na yaku sposterezhennya vidriznyayetsya vid jogo matematichnogo spodivannya koli ostannye gruntuyetsya na vsij sukupnosti z yakoyi bulo vipadkovo vibrano ob yekt statistichnogo sposterezhennya Napriklad yaksho serednij zrist v zagalnij sukupnosti 21 richnih cholovikiv ye 1 75 metriv i odin vipadkovo vibranij cholovik maye zrist 1 80 metriv to pohibka ye 0 05 metriv yaksho vipadkovo vibranij cholovik maye zrist 1 70 metriv to pohibka ye 0 05 metriv Matematichne spodivannya buduchi serednim arifmetichnim vsiyeyi sukupnosti ye zazvichaj nesposterezhnim i otzhe statistichnu pohibku takozh nemozhlivo sposterigati Z inshogo boku zalishkom abo vidhilennyam dopasovanosti ye sposterezhuvana ocinka nesposterezhuvanoyi statistichnoyi pohibki Rozglyanmo poperednij priklad zi zrostami cholovikiv i pripustimo sho mi mayemo vipadkovu vibirku z n lyudej Garnoyu ocinkoyu serednogo znachennya sukupnosti moglo bi sluguvati vibirkove serednye V takomu razi mi mayemo Vidminnist zrostu kozhnogo cholovika u vibirci vid nesposterezhuvanogo serednogo znachennya sukupnosti ye statistichnoyu pohibkoyu todi yak Vidminnist zrostu kozhnogo cholovika u vibirci vid sposterezhuvanogo serednogo znachennya vibirki ye zalishkom Zauvazhte sho suma zalishkiv u vipadkovij vibirci obov yazkovo ye nulovoyu i tomu zalishki ye obov yazkovo ne nezalezhnimi Z inshogo boku statistichni pohibki ye nezalezhnimi i yihnya suma v mezhah vipadkovoyi vibirki majzhe napevno ye nenulovoyu Mozhna standartizuvati statistichni pohibki osoblivo normalnogo rozpodilu za z ocinkoyu abo standartizovanoyu ocinkoyu i standartizuvati zalishki za en abo zagalnishe en V odnovimirnih rozpodilahYaksho mi rozglyadayemo normalno rozpodilenu sukupnist iz serednim znachennyam m ta standartnim vidhilennyam s i vibirayemo osib nezalezhno to mi mayemo X 1 X n N m s 2 displaystyle X 1 dots X n sim N mu sigma 2 i serednye znachennya vibirki X X 1 X n n displaystyle overline X X 1 cdots X n over n ye vipadkovoyu zminnoyu rozpodilenoyu takim chinom X N m s 2 n displaystyle overline X sim N mu sigma 2 n Todi statistichni pohibki ye e i X i m displaystyle e i X i mu a zalishki ye r i X i X displaystyle r i X i overline X Suma kvadrativ statistichnih pohibok podilena na s2 maye rozpodil hi kvadrat z n stupenyami vilnosti 1 s 2 i 1 n e i 2 x n 2 displaystyle frac 1 sigma 2 sum i 1 n e i 2 sim chi n 2 Prote cya velichina ne ye sposterezhnoyu Z inshogo boku suma kvadrativ zalishkiv ye sposterezhnoyu Chastka vid dilennya ciyeyi sumi na s2 maye rozpodil hi kvadrat z lishe n 1 stupenyami vilnosti 1 s 2 i 1 n r i 2 x n 1 2 displaystyle frac 1 sigma 2 sum i 1 n r i 2 sim chi n 1 2 Cya riznicya mizh n ta n 1 stupenyami vilnosti maye naslidkom popravku Besselya dlya ocinki dispersiyi vibirki iz sukupnosti z nevidomim serednim znachennyam ta nevidomoyu dispersiyeyu hocha yaksho serednye znachennya ye vidomim to popravka ne potribna Zauvazhennya Primitno sho mozhe buti pokazano napriklad za dopomogoyu en sho en ta serednye znachennya vibirki ye nezalezhnimi odne vid odnogo Cej fakt a takozh navedeni vishe normalnij ta hi kvadratichnij rozpodili formuyut osnovu obchislen iz zaluchennyam drobu X n m S n n displaystyle overline X n mu over S n sqrt n yakij yak pravilo nazivayut en Rozpodili jmovirnosti chiselnika ta znamennika okremo zalezhat vid znachennya nesposterezhuvanogo standartnogo rozpodilu sukupnosti s ale s z yavlyayetsya yak v chiselniku tak i v znamenniku i skorochuyetsya Ce vdacha oskilki ce oznachaye sho nezvazhayuchi na te sho mi ne znayemo s mi znayemo rozpodil imovirnosti ciyeyi chastki vona maye t rozpodil Styudenta z n 1 stupenyami vilnosti Otzhe mi mozhemo zastosovuvati cyu chastku dlya znahodzhennya dovirchogo intervalu m RegresiyiV regresijnomu analizi vidminnist mizh pohibkami ta zalishkami ye tonkoyu ta vazhlivoyu i privodit do ponyattya en Yaksho dano nesposterezhuvanu funkciyu sho stavit u vidpovidnist nezalezhnu zminnu do zalezhnoyi skazhimo liniyu to vidhilennya sposterezhen zalezhnoyi zminnoyi vid ciyeyi funkciyi ye nesposterezhuvanimi pohibkami Yaksho zapustiti regresiyu na yakihos danih to vidhilennya sposterezhen zalezhnoyi zminnoyi vid dopasovanoyi funkciyi ye zalishkami Prote terminologichna riznicya proyavlyayetsya u virazhenni serednokvadratichnoyi pohibki SKP angl MSE Serednokvadratichna pohibka regresiyi ye chislom obchislenim yak suma kvadrativ obchislenih zalishkiv a ne nesposterezhuvanih pohibok Yaksho cyu sumu kvadrativ podiliti na n kilkist sposterezhen to rezultatom bude serednye znachennya kvadratichnih zalishkiv Oskilki ce ye uperedzhenoyu ocinkoyu dispersiyi nesposterezhuvanih pohibok uperedzhennya usuvayetsya mnozhennyam serednogo znachennya kvadratichnih zalishkiv na n df de df ye chislom stupeniv vilnosti n minus kilkist ocinyuvanih parametriv Cej metod daye takij tochno rezultat yak i metod iz zastosuvannyam serednogo znachennya kvadratichnih pohibok Krajnya formula sluzhit neuperedzhenoyu ocinkoyu dispersiyi nesposterezhuvanih pohibok i nazivayetsya serednokvadratichnoyu pohibkoyu Inshij metod obchislennya serednogo kvadratu pohibki pri analizi dispersiyi linijnoyi regresiyi iz zastosuvannyam takogo prijomu yak zastosovuyetsya v dispersijnomu analizi voni odnakovi oskilki dispersijnij analiz ye odnim z tipiv regresiyi suma kvadrativ zalishkiv vidoma takozh yak suma kvadrativ pohibki dilitsya na stupeni vilnosti de stupeni vilnosti dorivnyuyut n p 1 de p ye chislom parametriv abo provisnikiv sho vikoristovuyutsya v modeli tobto kilkistyu zminnih u rivnyanni regresiyi Takozh mozhna obchislyuvati serednij kvadrat modeli dilennyam sumi kvadrativ modeli minus stupeni vilnosti sho ye prosto kilkistyu parametriv Todi znachennya F mozhe obchislyuvatisya dilennyam SK modeli na SK pohibki i mi mozhemo viznachati znachushist os dlya chogo pochinati z serednih kvadrativ Tim ne mensh cherez povedinku procesu regresiyi rozpodili zalishkiv u riznih tochkah danih vhidnogo masivu mozhut riznitisya navit yaksho sami pohibki mayut identichni rozpodili Konkretno v linijnij regresiyi v yakij pohibki mayut identichni rozpodili minlivist zalishkiv vhodiv u seredini oblasti viznachennya bude vishoyu nizh minlivist zalishkiv na yiyi krayah dzherelo linijna regresiya dopasovuyetsya do krajovih tochok krashe nizh do serednih Ce vidbivayetsya takozh i na funkciyah vplivu riznih tochok danih na koeficiyenti regresiyi krajovi tochki mayut bilshij vpliv Takim chinom dlya porivnyannya zalishkiv na riznih vhodah neobhidne regulyuvannya zalishkiv ochikuvanoyu minlivistyu zalishkiv sho nazivayetsya styudentizaciyeyu Ce osoblivo vazhlivo u vipadku viyavlennya vikidiv velikij zalishok mozhe buti ochikuvanim v seredini oblasti viznachennya ale rozglyadatisya yak vikid na yiyi krayah Inshi zastosuvannya slova pohibka u statisticiDiv takozh Uperedzhennya statistika Termin pohibka pri obgovorenni v poperednih rozdilah zastosovuyetsya v sensi vidhilennya znachennya vid gipotetichnogo nesposterezhuvanogo znachennya U statistici zustrichayutsya shonajmenshe dva inshih zastosuvannya i obidva mayut na uvazi pohibki sposterezhuvanogo peredbachennya Serednokvadratichna pohibka abo serednya kvadratichna pohibka skorochuyetsya yak SKP angl MSE ta en KSKP angl RMSE rozglyadayut sumu na yaku znachennya peredbacheni ocinyuvachem vidriznyayutsya vid ocinyuvanih znachen zazvichaj za mezhami vibirki z yakoyi robitsya ocinka modeli Suma kvadratichnih pohibok angl sum of squared errors SSE abo SSe rozglyadaye en sumu kvadratichnih zalishkiv regresiyi vona ye sumoyu kvadrativ vidhilen faktichnih znachen vid peredbachenih v mezhah vibirki sho zastosovuyetsya dlya ocinki Analogichno suma absolyutnih pohibok angl sum of absolute errors SAE rozglyadaye sumu moduliv znachen zalishkiv sho minimizuyetsya v pidhodi do regresiyi en Div takozhMiri rozsiyannya en Pohibka vimiryuvannya Viyavlennya ta vipravlennya pomilok en en Mezha pohibki en en en Pomilki pershogo i drugogo rodu Poshirennya pohibki Poyasnena suma kvadrativ en en en Uzgodzhenij prognozPrimitkiSteel Robert G D Torrie James H 1960 Principles and Procedures of Statistics with Special Reference to Biological Sciences McGraw Hill s 288 angl Zelterman Daniel 2010 Applied linear models with SAS vid Online Ausg Cambridge Cambridge University Press ISBN 9780521761598 angl LiteraturaCook R Dennis Weisberg Sanford 1982 Residuals and Influence in Regression vid Repr New York Chapman amp Hall ISBN 041224280X Procitovano 23 lyutogo 2013 angl Weisberg Sanford 1985 Applied Linear Regression vid 2nd New York Wiley ISBN 9780471879572 Procitovano 23 lyutogo 2013 angl Hazewinkel Michiel red 2001 theory of Errors theory of Matematichna enciklopediya Springer ISBN 978 1 55608 010 4 angl