Поправка Бесселя, названа на честь Фрідріха Бесселя, полягає у використанні замість у формулі для дисперсії вибірки та стандартного відхилення вибірки, де є числом спостережень у вибірці. Це виправляє зміщення в оцінці дисперсії популяції та частково виправляє зміщення в оцінці стандартного відхилення популяції.
Тобто, під час оцінювання дисперсії та стандартного відхилення популяції з певної вибірки коли математичне сподівання для популяції невідоме, дисперсія вибірки оцінюється як середнє квадратичне відхилення значень вибірки від її математичного сподівання (тобто із використанням множника , але таким чином ми отримуємо зміщену оцінку дисперсії усієї популяції, зазвичай отримана оцінка буде заниженою. Домножуючи дисперсію вибірки на (тотожно до використання замість ) виправляє це, і дає незміщену оцінку для дисперсії усієї популяції. Іноді множник називають поправкою Бесселя.
Інтуїтивно поправку Бесселя можна зрозуміти як кількість степенів вільності у векторі залишків (залишків, а не помилок, бо математичне очікування популяції невідоме):
де є середнім значенням (математичним сподіванням) вибірки. Хоча маємо n незалежних елементів, наявні лише n − 1 незалежних залишків, оскільки в сумі вони дають 0.
Джерело зміщення
Розглянемо приклад. Припустимо середнє значення для всієї популяції становить 2050, але ми не знаємо цього і повинні оцінити його покладаючись на нашу маленьку вибірку, яку ми отримали випадковим чином:
Один зі способів обчислити середнє значення для вибірки:
Це може слугувати як спостережна оцінка для неспостережного середнього усієї популяції, яке дорівнює 2050. Тепер перед нами постає завдання оцінювання дисперсії. Це середнє значення квадратичних відхилень від 2050. Якби ми знали середнє значення для популяції, то ми могли зробити так:
Але наша оцінка для середнього значення усієї популяції це середнє значення для вибірки, 2052, а не 2050. Отже, ми робимо, що можемо:
Це значно менша оцінка. Отже постає питання: чи значення дисперсії отримане таким чином завжди менше ніж ми б отримали із використанням середнього значення для усієї популяції? Відповіддю є так окрім випадку коли середнє значення вибірки збігається із середнім значенням для популяції.
Ми шукаємо суму квадратів відстаней від середнього значення для усієї популяції, але отримуємо суму квадратів різниць із середнім значенням вибірки, яке, як ми побачимо, є числом, що мінімізує цю суму квадратів відстаней. Отже, якщо тільки вибірка не має такого ж самого середнього значення як і у популяції в цілому, ця оцінка завжди недооцінюватиме дисперсію популяції.
Щоб побачити чому так, ми використаємо просту алгебраїчну тотожність:
Де представляє відхилення від окремого значення до середнього значення вибірки, і представляє відхилення від середнього значення вибірки до середнього значення популяції. Ми просто розклали відхилення від (невідомого) середнього значення популяції на дві частини: відхилення від середнього значення вибірки, яке ми можемо обчислити, і додатково відхилення від середнього значення для популяції, яке ми не можемо обчислити. Тепер застосуємо цю тотожність до квадратів відхилення від середнього значення популяції:
Тепер застосуємо це до всіх спостережень:
Сума елементів цього стовпчика повинна дорівнювати 0 |
Сума елементів у середньому стовпчику повинна дорівнювати нулю, тому що сума відхилень від середнього значення вибірки повинна дорівнювати нулю. Коли середній стовпчик зник, ми бачимо, що
- Сума елементів першого стовпчика (a2) є сумою квадратів відхилень від середнього значення вибірки;
- Сума всіх елементів у двох стовпчиках, що залишились (a2 і b2) дорівнює сумі квадратів відхилень від середнього значення популяції, бо саме ці квадратичні відхилення є лівими частинами кожної рівності. У випадку першої рівності це [2053 − 2050]2;
- Сума всіх елементів повинна бути більшої ніж сума елементів першого стовпчика, оскільки всі елементи, що не зникли є додатними (окрім випадку коли середнє значення популяції дорівнює середньому значенню вибірки, у такому разі останній стовпчик буде нульовим).
Отже:
- Сума квадратів відхилень від середнього значення популяції буде більшою ніж сума квадратів відхилень від середнього значення вибірки (окрім випадку коли середні значення однакові, тоді ці суми дорівнюють одна одній).
Саме через це сума квадратів відхилень від середнього значення вибірки є занадто малою, щоб дати незміщену оцінку дисперсії усієї популяції.
Термінологія
Ця поправка настільки поширена, що термін «дисперсія вибірки» і «стандартне відхилення вибірки» часто вживаються для позначення вже правильних оцінок (незміщеної дисперсії вибірки, менш зміщеного стандартного відхилення вибірки), використовуючи n − 1. Тут ми дотримуватимемось таких символів і визначень:
- μ — це середнє значення популяції
- — це середнє значення вибірки
- σ2 — дисперсія популяції
- sn2 — зміщена дисперсія вибірки (тобто без поправки Бесселя)
- s2 — незміщена дисперсія вибірки (тобто з поправкою Бесселя)
Стандартні відхилення тоді будуть квадратними корінями відповідних дисперсій. Оскільки квадратний корінь спричиняє зміщення, термінологія «невиправлена» і «виправлена» бажаніша для оцінок стандартного відхилення:
- sn — це невиправлене стандартне відхилення вибірки (тобто без поправки Бесселя)
- s — це виправлене стандартне відхилення (тобто з поправкою Бесселя), менш зміщене, але все ж зміщене
Формула
Середнє значення вибірки задається так:
Зміщена дисперсія вибірки записується так:
і незміщена дисперсія вибірки:
Доведення правильності
Тут ми використаємо тотожність , що випливає з означення стандартного відхилення і лінійності математичного сподівання.
Дуже корисним є спостереження того, що для будь-якого розподілу дисперсія рівна половині математичного сподівання коли незалежні проби з цього розподілу. Для доведення цього спостереження ми використаємо факт того, що (що слідує з їх незалежності) і лінійність математичного сподівання:
Зараз, коли спостереження доведено, достатньо показати, що очікувана різниця в квадраті між двома пробами з вибірки дорівнює помножене на очікувану різницю в квадраті двох проб з початкового розподілу. Щоб побачити це, зауважте, що коли ми вибираємо і використовуючи цілі u, v вибрані незалежно і рівномірно з 1 до n, частка з усіх двійок ми має u=v і різниця в квадраті такої пари рівна нулю, незалежно від початкового розподілу. разів, що залишились, значення — це очікувана різниця в квадраті між двома непов'язаними пробами з початкового розподілу. Отже, ділячи очікувану різницю в квадраті вибірки на , або тотожно множачи на отримуємо незміщену оцінку початкової очікуваної різниці в квадраті.
Посилання
- Weisstein, Eric W. Поправка Бесселя(англ.) на сайті Wolfram MathWorld.
- Анімований дослід, що демонструє поправку, на Khan Academy
Вікіпедія, Українська, Україна, книга, книги, бібліотека, стаття, читати, завантажити, безкоштовно, безкоштовно завантажити, mp3, відео, mp4, 3gp, jpg, jpeg, gif, png, малюнок, музика, пісня, фільм, книга, гра, ігри, мобільний, телефон, android, ios, apple, мобільний телефон, samsung, iphone, xiomi, xiaomi, redmi, honor, oppo, nokia, sonya, mi, ПК, web, Інтернет
Popravka Besselya nazvana na chest Fridriha Besselya polyagaye u vikoristanni n 1 displaystyle n 1 zamist n displaystyle n u formuli dlya dispersiyi vibirki ta standartnogo vidhilennya vibirki de n displaystyle n ye chislom sposterezhen u vibirci Ce vipravlyaye zmishennya v ocinci dispersiyi populyaciyi ta chastkovo vipravlyaye zmishennya v ocinci standartnogo vidhilennya populyaciyi Tobto pid chas ocinyuvannya dispersiyi ta standartnogo vidhilennya populyaciyi z pevnoyi vibirki koli matematichne spodivannya dlya populyaciyi nevidome dispersiya vibirki ocinyuyetsya yak serednye kvadratichne vidhilennya znachen vibirki vid yiyi matematichnogo spodivannya tobto iz vikoristannyam mnozhnika 1n displaystyle frac 1 n ale takim chinom mi otrimuyemo zmishenu ocinku dispersiyi usiyeyi populyaciyi zazvichaj otrimana ocinka bude zanizhenoyu Domnozhuyuchi dispersiyu vibirki na nn 1 displaystyle frac n n 1 totozhno do vikoristannya 1n 1 displaystyle frac 1 n 1 zamist 1n displaystyle frac 1 n vipravlyaye ce i daye nezmishenu ocinku dlya dispersiyi usiyeyi populyaciyi Inodi mnozhnik nn 1 displaystyle frac n n 1 nazivayut popravkoyu Besselya Intuyitivno popravku Besselya mozhna zrozumiti yak kilkist stepeniv vilnosti u vektori zalishkiv zalishkiv a ne pomilok bo matematichne ochikuvannya populyaciyi nevidome x1 x xn x displaystyle x 1 overline x dots x n overline x de x displaystyle overline x ye serednim znachennyam matematichnim spodivannyam vibirki Hocha mayemo n nezalezhnih elementiv nayavni lishe n 1 nezalezhnih zalishkiv oskilki v sumi voni dayut 0 Dzherelo zmishennyaRozglyanemo priklad Pripustimo serednye znachennya dlya vsiyeyi populyaciyi stanovit 2050 ale mi ne znayemo cogo i povinni ociniti jogo pokladayuchis na nashu malenku vibirku yaku mi otrimali vipadkovim chinom 2051 2053 2055 2050 2051 displaystyle 2051 quad 2053 quad 2055 quad 2050 quad 2051 Odin zi sposobiv obchisliti serednye znachennya dlya vibirki 15 2051 2053 2055 2050 2051 2052 displaystyle frac 1 5 left 2051 2053 2055 2050 2051 right 2052 Ce mozhe sluguvati yak sposterezhna ocinka dlya nesposterezhnogo serednogo usiyeyi populyaciyi yake dorivnyuye 2050 Teper pered nami postaye zavdannya ocinyuvannya dispersiyi Ce serednye znachennya kvadratichnih vidhilen vid 2050 Yakbi mi znali serednye znachennya dlya populyaciyi to mi mogli zrobiti tak 15 2051 2050 2 2053 2050 2 2055 2050 2 2050 2050 2 2051 2050 2 365 7 2 displaystyle begin aligned amp frac 1 5 left 2051 2050 2 2053 2050 2 2055 2050 2 2050 2050 2 2051 2050 2 right amp frac 36 5 7 2 end aligned Ale nasha ocinka dlya serednogo znachennya usiyeyi populyaciyi ce serednye znachennya dlya vibirki 2052 a ne 2050 Otzhe mi robimo sho mozhemo 15 2051 2052 2 2053 2052 2 2055 2052 2 2050 2052 2 2051 2052 2 165 3 2 displaystyle begin aligned amp frac 1 5 left 2051 2052 2 2053 2052 2 2055 2052 2 2050 2052 2 2051 2052 2 right amp frac 16 5 3 2 end aligned Ce znachno mensha ocinka Otzhe postaye pitannya chi znachennya dispersiyi otrimane takim chinom zavzhdi menshe nizh mi b otrimali iz vikoristannyam serednogo znachennya dlya usiyeyi populyaciyi Vidpoviddyu ye tak okrim vipadku koli serednye znachennya vibirki zbigayetsya iz serednim znachennyam dlya populyaciyi Mi shukayemo sumu kvadrativ vidstanej vid serednogo znachennya dlya usiyeyi populyaciyi ale otrimuyemo sumu kvadrativ riznic iz serednim znachennyam vibirki yake yak mi pobachimo ye chislom sho minimizuye cyu sumu kvadrativ vidstanej Otzhe yaksho tilki vibirka ne maye takogo zh samogo serednogo znachennya yak i u populyaciyi v cilomu cya ocinka zavzhdi nedoocinyuvatime dispersiyu populyaciyi Shob pobachiti chomu tak mi vikoristayemo prostu algebrayichnu totozhnist a b 2 a2 2ab b2 displaystyle a b 2 a 2 2ab b 2 De a displaystyle a predstavlyaye vidhilennya vid okremogo znachennya do serednogo znachennya vibirki i b displaystyle b predstavlyaye vidhilennya vid serednogo znachennya vibirki do serednogo znachennya populyaciyi Mi prosto rozklali vidhilennya vid nevidomogo serednogo znachennya populyaciyi na dvi chastini vidhilennya vid serednogo znachennya vibirki yake mi mozhemo obchisliti i dodatkovo vidhilennya vid serednogo znachennya dlya populyaciyi yake mi ne mozhemo obchisliti Teper zastosuyemo cyu totozhnist do kvadrativ vidhilennya vid serednogo znachennya populyaciyi 2053 2050 2 2053 2052 2052 2050 2 2053 2052 2 2 2053 2052 2052 2050 2052 2050 2 displaystyle begin aligned 2053 2050 2 amp 2053 2052 2052 2050 2 amp 2053 2052 2 2 2053 2052 2052 2050 2052 2050 2 end aligned Teper zastosuyemo ce do vsih sposterezhen 2051 2052 2 a2 displaystyle overbrace 2051 2052 2 a 2 displaystyle 2 2051 2052 2052 2050 2ab displaystyle overbrace 2 2051 2052 2052 2050 2ab displaystyle 2052 2050 2 b2 displaystyle overbrace 2052 2050 2 b 2 2053 2052 2 displaystyle 2053 2052 2 displaystyle 2 2053 2052 2052 2050 displaystyle 2 2053 2052 2052 2050 displaystyle 2052 2050 2 displaystyle 2052 2050 2 2055 2052 2 displaystyle 2055 2052 2 displaystyle 2 2055 2052 2052 2050 displaystyle 2 2055 2052 2052 2050 displaystyle 2052 2050 2 displaystyle 2052 2050 2 2050 2052 2 displaystyle 2050 2052 2 displaystyle 2 2050 2052 2052 2050 displaystyle 2 2050 2052 2052 2050 displaystyle 2052 2050 2 displaystyle 2052 2050 2 2051 2052 2 displaystyle 2051 2052 2 displaystyle 2 2051 2052 2052 2050 displaystyle underbrace 2 2051 2052 2052 2050 displaystyle 2052 2050 2 displaystyle 2052 2050 2 Suma elementiv cogo stovpchika povinna dorivnyuvati 0 Suma elementiv u serednomu stovpchiku povinna dorivnyuvati nulyu tomu sho suma vidhilen vid serednogo znachennya vibirki povinna dorivnyuvati nulyu Koli serednij stovpchik znik mi bachimo sho Suma elementiv pershogo stovpchika a2 ye sumoyu kvadrativ vidhilen vid serednogo znachennya vibirki Suma vsih elementiv u dvoh stovpchikah sho zalishilis a2 i b2 dorivnyuye sumi kvadrativ vidhilen vid serednogo znachennya populyaciyi bo same ci kvadratichni vidhilennya ye livimi chastinami kozhnoyi rivnosti U vipadku pershoyi rivnosti ce 2053 2050 2 Suma vsih elementiv povinna buti bilshoyi nizh suma elementiv pershogo stovpchika oskilki vsi elementi sho ne znikli ye dodatnimi okrim vipadku koli serednye znachennya populyaciyi dorivnyuye serednomu znachennyu vibirki u takomu razi ostannij stovpchik bude nulovim Otzhe Suma kvadrativ vidhilen vid serednogo znachennya populyaciyi bude bilshoyu nizh suma kvadrativ vidhilen vid serednogo znachennya vibirki okrim vipadku koli seredni znachennya odnakovi todi ci sumi dorivnyuyut odna odnij Same cherez ce suma kvadrativ vidhilen vid serednogo znachennya vibirki ye zanadto maloyu shob dati nezmishenu ocinku dispersiyi usiyeyi populyaciyi TerminologiyaCya popravka nastilki poshirena sho termin dispersiya vibirki i standartne vidhilennya vibirki chasto vzhivayutsya dlya poznachennya vzhe pravilnih ocinok nezmishenoyi dispersiyi vibirki mensh zmishenogo standartnogo vidhilennya vibirki vikoristovuyuchi n 1 Tut mi dotrimuvatimemos takih simvoliv i viznachen m ce serednye znachennya populyaciyix displaystyle overline x ce serednye znachennya vibirkis2 dispersiya populyaciyisn2 zmishena dispersiya vibirki tobto bez popravki Besselya s2 nezmishena dispersiya vibirki tobto z popravkoyu Besselya Standartni vidhilennya todi budut kvadratnimi korinyami vidpovidnih dispersij Oskilki kvadratnij korin sprichinyaye zmishennya terminologiya nevipravlena i vipravlena bazhanisha dlya ocinok standartnogo vidhilennya sn ce nevipravlene standartne vidhilennya vibirki tobto bez popravki Besselya s ce vipravlene standartne vidhilennya tobto z popravkoyu Besselya mensh zmishene ale vse zh zmisheneFormulaSerednye znachennya vibirki zadayetsya tak x 1n i 1nxi displaystyle overline x frac 1 n sum i 1 n x i Zmishena dispersiya vibirki zapisuyetsya tak sn2 1n i 1n xi x 2 i 1n xi2 n i 1nxi 2n2 displaystyle s n 2 frac 1 n sum i 1 n left x i overline x right 2 frac sum i 1 n left x i 2 right n frac left sum i 1 n x i right 2 n 2 i nezmishena dispersiya vibirki s2 1n 1 i 1n xi x 2 i 1n xi2 n 1 i 1nxi 2 n 1 n nn 1 sn2 displaystyle s 2 frac 1 n 1 sum i 1 n left x i overline x right 2 frac sum i 1 n left x i 2 right n 1 frac left sum i 1 n x i right 2 n 1 n left frac n n 1 right s n 2 Dovedennya pravilnostiKlacnit pokazati shob rozgornuti Tut mi vikoristayemo totozhnist E x2 m2 s2 displaystyle E x 2 mu 2 sigma 2 sho viplivaye z oznachennya standartnogo vidhilennya i linijnosti matematichnogo spodivannya Duzhe korisnim ye sposterezhennya togo sho dlya bud yakogo rozpodilu dispersiya rivna polovini matematichnogo spodivannya x1 x2 2 displaystyle x 1 x 2 2 koli x1 x2 displaystyle x 1 x 2 nezalezhni probi z cogo rozpodilu Dlya dovedennya cogo sposterezhennya mi vikoristayemo fakt togo sho E x1x2 E x1 E x2 displaystyle E x 1 x 2 E x 1 E x 2 sho sliduye z yih nezalezhnosti i linijnist matematichnogo spodivannya E x1 x2 2 E x12 E 2x1x2 E x22 s2 m2 2m2 s2 m2 2s2 displaystyle E x 1 x 2 2 E x 1 2 E 2x 1 x 2 E x 2 2 sigma 2 mu 2 2 mu 2 sigma 2 mu 2 2 sigma 2 Zaraz koli sposterezhennya dovedeno dostatno pokazati sho ochikuvana riznicya v kvadrati mizh dvoma probami z vibirki x1 xn displaystyle x 1 ldots x n dorivnyuye n 1 n displaystyle n 1 n pomnozhene na ochikuvanu riznicyu v kvadrati dvoh prob z pochatkovogo rozpodilu Shob pobachiti ce zauvazhte sho koli mi vibirayemo xu displaystyle x u i xv displaystyle x v vikoristovuyuchi cili u v vibrani nezalezhno i rivnomirno z 1 do n chastka n n2 1 n displaystyle n n 2 1 n z usih dvijok mi maye u v i riznicya v kvadrati takoyi pari rivna nulyu nezalezhno vid pochatkovogo rozpodilu 1 1 n displaystyle 1 1 n raziv sho zalishilis znachennya E xu xv 2 displaystyle E x u x v 2 ce ochikuvana riznicya v kvadrati mizh dvoma nepov yazanimi probami z pochatkovogo rozpodilu Otzhe dilyachi ochikuvanu riznicyu v kvadrati vibirki na 1 1 n displaystyle 1 1 n abo totozhno mnozhachi na 1 1 1 n n n 1 displaystyle 1 1 1 n n n 1 otrimuyemo nezmishenu ocinku pochatkovoyi ochikuvanoyi riznici v kvadrati PosilannyaWeisstein Eric W Popravka Besselya angl na sajti Wolfram MathWorld Animovanij doslid sho demonstruye popravku na Khan Academy