У статистиці відстань Кука є загальноприйнятою оцінкою впливу спостереження під час застосування методу найменших квадратів у регресійному аналізі. На практиці, при застосуванні методу найменших квадратів, відстань Кука може використовуватися для наступних цілей: визначити впливові спостереження даних, які потрібно перевірити на валідність; визначення областей простору, у яких непогано було б отримати більше результатів спостереження. Відстань названа на честь американського статистика [en], який у 1977 році запропонував дану концепцію.
Означення
Дані з великими значеннями залишків (викиди) та/або великими значеннями важелів можуть спотворювати результати й точність регресійної моделі. Відстань Кука вимірює ефект видалення даного спостереження з вибірки. Вважається, що для спостережень з великою відстанню Кука доцільно проводити більш глибокий аналіз.
Для алгебраїчного представлення спочатку визначимо:
де — похибки регресії, — параметри регресії, — матриця регресорів із одиничним першим стовпчиком. Тоді оцінка коефіцієнтів регресії методом найменших квадратів має представлення , а отже, відповідно, прогнозовані значення для обчислюються за формулою:
де — проєкційна матриця. Причому -тий діагональний елемент матриці , що обчислюється як , називається важелем -го спостереження. Аналогічно, -тий елемент вектора залишків має вигляд і позначається як .
Відстань Кука спостереження визначається як сума всіх змін у регресійній моделі, у разі видалення -го спостереження
де — прогноз відгука, отриманий вилученням -го спостереження,
де — середньоквадратична похибка регресійної моделі.
Аналогічно, відстань Кука можна виразити через важелі
Визначення спостережень із великим впливом
Існують різні припущення щодо того, які межі використовувати для виявлення точок із великим впливом. Пропонується, у разі ввжати спостереження впливовим. Також, іноді використовується припущення, що слід враховувати , де - кількість спостережень.
Інтерпретація
Зокрема, можна інтерпретувати як відстань, яку проходить оцінка, в межах довірчого еліпсоїда, що є областю вірогідних значень параметра.[] Це показується за допомогою альтернативного, проте еквівалентного зображення відстані Кука в термінах зміни оцінки параметра у випадку включення та виключення конкретного спотсереження з регресіного аналізу.
Посилання
- Mendenhall, William; Sincich, Terry (1996). A Second Course in Statistics: Regression Analysis (вид. 5th). Upper Saddle River, NJ: Prentice-Hall. с. 422. ISBN .
A measure of overall influence an outlying observation has on the estimated coefficients was proposed by R. D. Cook (1979). Cook's distance, Di, is calculated...
- Cook, R. Dennis (February 1977). Detection of Influential Observations in Linear Regression. Technometrics. American Statistical Association. 19 (1): 15—18. doi:10.2307/1268249. JSTOR 1268249. MR 0436478.
- Cook, R. Dennis (March 1979). Influential Observations in Linear Regression. Journal of the American Statistical Association. American Statistical Association. 74 (365): 169—174. doi:10.2307/2286747. JSTOR 2286747. MR 0529533.
- Hayashi, Fumio (2000). . Princeton University Press. с. 21—23. Архів оригіналу за 28 травня 2016. Процитовано 24 грудня 2017.
- (PDF). Purdue University. Архів оригіналу (PDF) за 30 листопада 2016. Процитовано 24 грудня 2017.
- Cook, R. Dennis; Weisberg, Sanford (1982). . New York, NY: Chapman & Hall. ISBN . Архів оригіналу за 26 квітня 2016. Процитовано 24 грудня 2017.
- Bollen, Kenneth A.; Jackman, Robert W. (1990). Fox, John; (ред.). Regression Diagnostics: An Expository Treatment of Outliers and Influential Cases. Newbury Park, CA: Sage. с. 257—91. ISBN .
Література
- Atkinson, Anthony; Riani, Marco (2000). . Robust Diagnostics and Regression Analysis. New York: Springer. с. 22—25. ISBN . Архів оригіналу за 2 травня 2016. Процитовано 11 січня 2018.
- Heiberger, Richard M.; Holland, Burt (2013). . Statistical Analysis and Data Display. Springer Science & Business Media. с. 312—27. ISBN . Архів оригіналу за 6 травня 2016. Процитовано 11 січня 2018.
- Krasker, William S.; Kuh, Edwin; Welsch, Roy E. (1983). Estimation for dirty data and flawed models. Handbook of Econometrics. Т. 1. Elsevier. с. 651—698. doi:10.1016/S1573-4412(83)01015-6.
- Aguinis, Herman; Gottfredson, Ryan K.; Joo, Harry (2013). (PDF). Organizational Research Methods. Sage. 16 (2): 270—301. Архів оригіналу (PDF) за 12 січня 2018. Процитовано 11 січня 2018.
Вікіпедія, Українська, Україна, книга, книги, бібліотека, стаття, читати, завантажити, безкоштовно, безкоштовно завантажити, mp3, відео, mp4, 3gp, jpg, jpeg, gif, png, малюнок, музика, пісня, фільм, книга, гра, ігри, мобільний, телефон, android, ios, apple, мобільний телефон, samsung, iphone, xiomi, xiaomi, redmi, honor, oppo, nokia, sonya, mi, ПК, web, Інтернет
U statistici vidstan Kuka ye zagalnoprijnyatoyu ocinkoyu vplivu sposterezhennya pid chas zastosuvannya metodu najmenshih kvadrativ u regresijnomu analizi Na praktici pri zastosuvanni metodu najmenshih kvadrativ vidstan Kuka mozhe vikoristovuvatisya dlya nastupnih cilej viznachiti vplivovi sposterezhennya danih yaki potribno pereviriti na validnist viznachennya oblastej prostoru u yakih nepogano bulo b otrimati bilshe rezultativ sposterezhennya Vidstan nazvana na chest amerikanskogo statistika en yakij u 1977 roci zaproponuvav danu koncepciyu OznachennyaDani z velikimi znachennyami zalishkiv vikidi ta abo velikimi znachennyami vazheliv mozhut spotvoryuvati rezultati j tochnist regresijnoyi modeli Vidstan Kuka vimiryuye efekt vidalennya danogo sposterezhennya z vibirki Vvazhayetsya sho dlya sposterezhen z velikoyu vidstannyu Kuka docilno provoditi bilsh glibokij analiz Dlya algebrayichnogo predstavlennya spochatku viznachimo y n 1 X n p b p 1 ϵ n 1 displaystyle underset n times 1 mathbf y underset n times p mathbf X quad underset p times 1 boldsymbol beta quad quad underset n times 1 boldsymbol epsilon de ϵ N 0 s 2 I displaystyle boldsymbol epsilon sim mathcal N left 0 sigma 2 mathbf I right pohibki regresiyi b b 0 b 1 b p 1 T displaystyle boldsymbol beta left beta 0 beta 1 dots beta p 1 right mathsf T parametri regresiyi X displaystyle mathbf X matricya regresoriv iz odinichnim pershim stovpchikom Todi ocinka koeficiyentiv regresiyi metodom najmenshih kvadrativ maye predstavlennya b X T X 1 X T y displaystyle mathbf b left mathbf X mathsf T mathbf X right 1 mathbf X mathsf T mathbf y a otzhe vidpovidno prognozovani znachennya dlya y displaystyle mathbf y obchislyuyutsya za formuloyu y X b X X T X 1 X T y H y displaystyle mathbf hat y mathbf X mathbf b mathbf X left mathbf X mathsf T mathbf X right 1 mathbf X mathsf T mathbf y mathbf H mathbf y de H X X T X 1 X T displaystyle mathbf H equiv mathbf X mathbf X mathsf T mathbf X 1 mathbf X mathsf T proyekcijna matricya Prichomu i displaystyle i tij diagonalnij element matrici H displaystyle mathbf H sho obchislyuyetsya yak h i x i T X T X 1 x i displaystyle h i equiv mathbf x i mathsf T mathbf X mathsf T mathbf X 1 mathbf x i nazivayetsya vazhelem i displaystyle i go sposterezhennya Analogichno i displaystyle i tij element vektora zalishkiv maye viglyad e y y I H y displaystyle mathbf e mathbf y mathbf hat y left mathbf I mathbf H right mathbf y i poznachayetsya yak e i displaystyle e i Vidstan Kuka D i displaystyle D i sposterezhennya i i 1 n displaystyle i forall i 1 dots n viznachayetsya yak suma vsih zmin u regresijnij modeli u razi vidalennya i displaystyle i go sposterezhennya D i j 1 n y j y j i 2 p s 2 displaystyle D i frac sum j 1 n left hat y j hat y j i right 2 ps 2 de y j i displaystyle hat y j i prognoz vidguka otrimanij viluchennyam i displaystyle i go sposterezhennya de s 2 n p 1 e e displaystyle s 2 equiv left n p right 1 mathbf e top mathbf e serednokvadratichna pohibka regresijnoyi modeli Analogichno vidstan Kuka mozhna viraziti cherez vazheli D i e i 2 s 2 p h i 1 h i 2 displaystyle D i frac e i 2 s 2 p left frac h i 1 h i 2 right Viznachennya sposterezhen iz velikim vplivomIsnuyut rizni pripushennya shodo togo yaki mezhi vikoristovuvati dlya viyavlennya tochok iz velikim vplivom Proponuyetsya u razi D i gt 1 displaystyle D i gt 1 vvzhati sposterezhennya vplivovim Takozh inodi vikoristovuyetsya pripushennya sho slid vrahovuvati D i gt 4 n displaystyle D i gt 4 n de n displaystyle n kilkist sposterezhen InterpretaciyaZokrema D i displaystyle D i mozhna interpretuvati yak vidstan yaku prohodit ocinka v mezhah dovirchogo elipsoyida sho ye oblastyu virogidnih znachen parametra proyasniti Ce pokazuyetsya za dopomogoyu alternativnogo prote ekvivalentnogo zobrazhennya vidstani Kuka v terminah zmini ocinki parametra u vipadku vklyuchennya ta viklyuchennya konkretnogo spotserezhennya z regresinogo analizu PosilannyaMendenhall William Sincich Terry 1996 A Second Course in Statistics Regression Analysis vid 5th Upper Saddle River NJ Prentice Hall s 422 ISBN 0 13 396821 9 A measure of overall influence an outlying observation has on the estimated b displaystyle beta coefficients was proposed by R D Cook 1979 Cook s distance Di is calculated Cook R Dennis February 1977 Detection of Influential Observations in Linear Regression Technometrics American Statistical Association 19 1 15 18 doi 10 2307 1268249 JSTOR 1268249 MR 0436478 Cook R Dennis March 1979 Influential Observations in Linear Regression Journal of the American Statistical Association American Statistical Association 74 365 169 174 doi 10 2307 2286747 JSTOR 2286747 MR 0529533 Hayashi Fumio 2000 Princeton University Press s 21 23 Arhiv originalu za 28 travnya 2016 Procitovano 24 grudnya 2017 PDF Purdue University Arhiv originalu PDF za 30 listopada 2016 Procitovano 24 grudnya 2017 Cook R Dennis Weisberg Sanford 1982 New York NY Chapman amp Hall ISBN 0 412 24280 X Arhiv originalu za 26 kvitnya 2016 Procitovano 24 grudnya 2017 Bollen Kenneth A Jackman Robert W 1990 Fox John red Regression Diagnostics An Expository Treatment of Outliers and Influential Cases Newbury Park CA Sage s 257 91 ISBN 0 8039 3366 5 LiteraturaAtkinson Anthony Riani Marco 2000 Robust Diagnostics and Regression Analysis New York Springer s 22 25 ISBN 0 387 95017 6 Arhiv originalu za 2 travnya 2016 Procitovano 11 sichnya 2018 Heiberger Richard M Holland Burt 2013 Statistical Analysis and Data Display Springer Science amp Business Media s 312 27 ISBN 9781475742848 Arhiv originalu za 6 travnya 2016 Procitovano 11 sichnya 2018 Krasker William S Kuh Edwin Welsch Roy E 1983 Estimation for dirty data and flawed models Handbook of Econometrics T 1 Elsevier s 651 698 doi 10 1016 S1573 4412 83 01015 6 Aguinis Herman Gottfredson Ryan K Joo Harry 2013 PDF Organizational Research Methods Sage 16 2 270 301 Arhiv originalu PDF za 12 sichnya 2018 Procitovano 11 sichnya 2018