У статистиці відстань Кука є загальноприйнятою оцінкою впливу спостереження під час застосування методу найменших квадратів у регресійному аналізі. На практиці, при застосуванні методу найменших квадратів, відстань Кука може використовуватися для наступних цілей: визначити впливові спостереження даних, які потрібно перевірити на валідність; визначення областей простору, у яких непогано було б отримати більше результатів спостереження. Відстань названа на честь американського статистика [en], який у 1977 році запропонував дану концепцію.
Означення
Дані з великими значеннями залишків (викиди) та/або великими значеннями важелів можуть спотворювати результати й точність регресійної моделі. Відстань Кука вимірює ефект видалення даного спостереження з вибірки. Вважається, що для спостережень з великою відстанню Кука доцільно проводити більш глибокий аналіз.
Для алгебраїчного представлення спочатку визначимо:
де — похибки регресії,
— параметри регресії,
— матриця регресорів із одиничним першим стовпчиком. Тоді оцінка коефіцієнтів регресії методом найменших квадратів має представлення
, а отже, відповідно, прогнозовані значення для
обчислюються за формулою:
де — проєкційна матриця. Причому
-тий діагональний елемент матриці
, що обчислюється як
, називається важелем
-го спостереження. Аналогічно,
-тий елемент вектора залишків має вигляд
і позначається як
.
Відстань Кука спостереження
визначається як сума всіх змін у регресійній моделі, у разі видалення
-го спостереження
де — прогноз відгука, отриманий вилученням
-го спостереження,
де — середньоквадратична похибка регресійної моделі.
Аналогічно, відстань Кука можна виразити через важелі
Визначення спостережень із великим впливом
Існують різні припущення щодо того, які межі використовувати для виявлення точок із великим впливом. Пропонується, у разі ввжати спостереження впливовим. Також, іноді використовується припущення, що слід враховувати
, де
- кількість спостережень.
Інтерпретація
Зокрема, можна інтерпретувати як відстань, яку проходить оцінка, в межах довірчого еліпсоїда, що є областю вірогідних значень параметра.[] Це показується за допомогою альтернативного, проте еквівалентного зображення відстані Кука в термінах зміни оцінки параметра у випадку включення та виключення конкретного спотсереження з регресіного аналізу.
Посилання
- Mendenhall, William; Sincich, Terry (1996). A Second Course in Statistics: Regression Analysis (вид. 5th). Upper Saddle River, NJ: Prentice-Hall. с. 422. ISBN .
A measure of overall influence an outlying observation has on the estimated
coefficients was proposed by R. D. Cook (1979). Cook's distance, Di, is calculated...
- Cook, R. Dennis (February 1977). Detection of Influential Observations in Linear Regression. Technometrics. American Statistical Association. 19 (1): 15—18. doi:10.2307/1268249. JSTOR 1268249. MR 0436478.
- Cook, R. Dennis (March 1979). Influential Observations in Linear Regression. Journal of the American Statistical Association. American Statistical Association. 74 (365): 169—174. doi:10.2307/2286747. JSTOR 2286747. MR 0529533.
- Hayashi, Fumio (2000). . Princeton University Press. с. 21—23. Архів оригіналу за 28 травня 2016. Процитовано 24 грудня 2017.
- (PDF). Purdue University. Архів оригіналу (PDF) за 30 листопада 2016. Процитовано 24 грудня 2017.
- Cook, R. Dennis; Weisberg, Sanford (1982). . New York, NY: Chapman & Hall. ISBN . Архів оригіналу за 26 квітня 2016. Процитовано 24 грудня 2017.
- Bollen, Kenneth A.; Jackman, Robert W. (1990). Fox, John; (ред.). Regression Diagnostics: An Expository Treatment of Outliers and Influential Cases. Newbury Park, CA: Sage. с. 257—91. ISBN .
Література
- Atkinson, Anthony; Riani, Marco (2000). . Robust Diagnostics and Regression Analysis. New York: Springer. с. 22—25. ISBN . Архів оригіналу за 2 травня 2016. Процитовано 11 січня 2018.
- Heiberger, Richard M.; Holland, Burt (2013). . Statistical Analysis and Data Display. Springer Science & Business Media. с. 312—27. ISBN . Архів оригіналу за 6 травня 2016. Процитовано 11 січня 2018.
- Krasker, William S.; Kuh, Edwin; Welsch, Roy E. (1983). Estimation for dirty data and flawed models. Handbook of Econometrics. Т. 1. Elsevier. с. 651—698. doi:10.1016/S1573-4412(83)01015-6.
- Aguinis, Herman; Gottfredson, Ryan K.; Joo, Harry (2013). (PDF). Organizational Research Methods. Sage. 16 (2): 270—301. Архів оригіналу (PDF) за 12 січня 2018. Процитовано 11 січня 2018.
Вікіпедія, Українська, Україна, книга, книги, бібліотека, стаття, читати, завантажити, безкоштовно, безкоштовно завантажити, mp3, відео, mp4, 3gp, jpg, jpeg, gif, png, малюнок, музика, пісня, фільм, книга, гра, ігри, мобільний, телефон, android, ios, apple, мобільний телефон, samsung, iphone, xiomi, xiaomi, redmi, honor, oppo, nokia, sonya, mi, ПК, web, Інтернет