Коефіцієнт кореляції рангу Спірмена — непараметрична міра статистичної залежності між двома змінними; названий на честь Чарльза Спірмена. Він оцінює наскільки добре можна описати відношення між двома змінними за допомогою монотонної функції. Якщо немає повторних значень даних, то коефіцієнт Спірмена дорівнює 1 або −1, це відбувається коли кожна змінна є монотонною функцією від іншої змінної. Коефіцієнт кореляції, як і будь-яке обчислення кореляції, підходить для безперервних та дискретних змінних, у тому числі порядкових.
Визначення та розрахунок
Коефіцієнт кореляції Спірмена визначається як коефіцієнт кореляції Пірсона між ранжуванням змінних. Для вибірки обсягу n множини Xi, Yi перетворюються в ряди xi, yi та обчислюється таким чином:
Однаковим значенням (ранг зв'язків або величина дублікатів) присвоюється ранг, що дорівнює середньому числу їхніх позицій в порядку зростанні величини. У наведеній нижче таблиці зверніть увагу, що ранг значень xi при однаковій величині змінної Xi є однаковими:
Зміна | Позиція в порядку зростання | Ранг |
---|---|---|
0.8 | 1 | 1 |
1.2 | 2 | |
1.2 | 3 | |
2.3 | 4 | 4 |
18 | 5 | 5 |
У застосуваннях, де повторювані значення відсутні, для розрахунку може бути використана проста процедура. Різниця між рангами кожного спостереження від двох змінних вираховуються і визначається за формулою: Зауважимо, що цей останній спосіб не слід використовувати в тих випадках, коли набір даних буде скорочуватись, тобто, коли коефіцієнт кореляції Спірмена бажаний для верхнього запису X (або шляхом попереднього зміни положення або після зміни рангу або й те, й інше).
Пов'язані величини
Є кілька інших числових критеріїв, які кількісно визначають ступінь статистичної залежності між парами спостережень. Найбільш поширеним з них є коефіцієнт Пірсона, який є аналогічним до методу кореляції рангу Спірмена, який вимірює «лінійні» співвідношення між значеннями, а не між їхніми рангами.
Альтернативна назва для рангової кореляції Спірмена є «степінь кореляції», в ній «ранг» зі спостережень замінюється на «степінь». В неперервних розподілах, степінь спостереження, за домовленістю, завжди вдвічі менше, ніж ранг, і, отже, степінь і ранг кореляції по суті одна й таж величина. У більш загальному сенсі «степінь» спостережень пропорційна оцінці частки населення менше заданого значення, при цьому половина спостереження регулюється досліджуваними величинами. Таким чином, це відповідає одній можливій обробці пов'язаних рангів. У той час як незвичайне, термін «степінь кореляції» досі використовується.
Інтерпретація
Знак кореляції Спірмена вказує напрямок зв'язку між Х (незалежною змінною) та Y (залежною змінною). Якщо Y має тенденцію до збільшення, коли Х збільшується, коефіцієнт кореляції Спірмена є додатнім. Якщо Y має тенденцію до зменшення, коли X збільшується, коефіцієнт кореляції Спірмена від'ємний. Коефіцієнт Спірмена рівний нулю вказує на те, що Y не збільшується та не зменшується при збільшенні X. Збільшення коефіцієнта Спірмена відбувається при наближенні величин X та Y один до одного таким чином, що вони можуть стати монотонною функцією один одного. Коли X і Y монотонно пов'язані, коефіцієнт кореляції Спірмена набуває значення 1. Ідеальне монотонне зростання співвідношення передбачає, що для будь-яких двох пар значень даних (xi, yi) та (xj, yj): xi- xj та yi- yj завжди мають однаковий знак. Ідеальне монотонно спадне співвідношення передбачає, що xi- xj та yi- yj завжди мають протилежні знаки. Коефіцієнт кореляції Спірмена часто описується як «непараметричний». Це може мати два значення. По-перше, той факт, що найкращі результати повної кореляції Спірмена які бувають тоді, коли X та Y пов'язані будь-якою монотонною функцією, можна порівняти з кореляцією Пірсона, яка приймає найкраще значення лише коли X та Y зв'язані лінійною функцією. По-друге, кореляція Спірмена є непараметричною в тому сенсі, що його точний розподіл вибірки може бути отриманий без необхідності відомостей про параметри спільного розподілу імовірності X та Y.
Приклад
У цьому прикладі ми будемо використовувати вихідні дані в таблиці, щоб обчислити кореляцію між IQ людини з кількістю годин, проведених перед телевізором на тиждень.
IQ, | Години, проведені за телевізором — |
106 | 7 |
86 | 0 |
100 | 27 |
101 | 50 |
99 | 28 |
103 | 29 |
97 | 20 |
113 | 12 |
112 | 6 |
110 | 17 |
По-перше, ми повинні знайти значення . Для цього ми зробимо наступні кроки, відображені в таблиці нижче: 1. Сортування даних першої колонки (). Створення нової колонки і привласнити його ранжируваних значень 1,2,3, … N. 2. Далі, сортування даних другої колонки (). Створення четвертої колонки і так само присвоїти їй ранжируваних значень 1,2,3, … N. 3. Створення п'ятої колонки , що є різницею двох стовпців рангу ( та ). 4. Створення останнього стовпця для зберігання значення стовпця у квадраті.
IQ, | Години, проведені за телевізором | ранг | ранг | ||
86 | 0 | 1 | 1 | 0 | 0 |
97 | 20 | 2 | 6 | −4 | 16 |
99 | 28 | 3 | 8 | −5 | 25 |
100 | 27 | 4 | 7 | −3 | 9 |
101 | 50 | 5 | 10 | −5 | 25 |
103 | 29 | 6 | 9 | −3 | 9 |
106 | 7 | 7 | 3 | 4 | 16 |
110 | 17 | 8 | 5 | 3 | 9 |
112 | 6 | 9 | 2 | 7 | 49 |
113 | 12 | 10 | 4 | 6 | 36 |
Коли знайдено , ми можемо знайти . n=10 . Таким чином, тепер ці значення можна підставити в рівняння: де ρ = -29/165 = −0.175757575…
ρ- рівень (статистична значущість) дорівнює 0,68640058 (використали t розподіл Стьюдента).
Таке невелике значення показує, що кореляція між IQ та годинами, проведеними за телевізором дуже низька. У випадку коли вихідні значення пов'язані — ця формула не може бути використана. Замість коефіцієнта кореляції Персона повинні бути пораховані ранги.
Визначення терміну
Один з підходів до тестування: наскільки спостережуване значення ρ значно відрізняється від нуля (г завжди в діапазоні −1 ≤ г ≤ 1) — це обчислення ймовірності того, що значення ρ було б більше або дорівнює змінній г, враховуючи нульову гіпотезу, за допомогою тесту перестановки. Перевагою цього підходу є те, що він автоматично враховує кількість прив'язаних значень даних, що є в зразку, і способі, яким розглядали при обчисленні рангу кореляції. Інший підхід паралельно використовує перетворення Фішера у розумінні коефіцієнта кореляції Персона. Тобто, довірчий інтервал та перевірка гіпотези, пов'язаних з значенням можуть бути знайдені за допомогою перетворення Фішера:
Якщо F(r) є перетворенням Фішера для r, то для коефіцієнта кореляції рангу Спірмена та n — розміру вибірки справедливо :
Це є z — значення для r, які приблизно наближується до нормального розподілу в нульовій гіпотезі статистичної незалежності (ρ=0). Можна також перевірити на використання значення:
яка поширюється приблизно як t-розподіл Стьюдента з ступенями свободи при нульовій гіпотезі. Обґрунтування цього результату залежить від перестановки аргументів. Узагальненням коефіцієнта Спірмена корисно використовувати в ситуаціях, коли є три або більше умов, ряд спостережуваних суб'єктів та відомо, що спостереження матимуть певний порядок. Наприклад, ряду суб'єктів може бути дано три випробування з використанням однакових завдань, і це передбачає, що від випробування до випробування буде відбуватися поліпшення якості виконання. Тест значущості тенденції між умовами в такій ситуації був розроблений E. B. Page і, як правило, називається тестом Пейджа для тенденцій між упорядкованими альтернативами.
Джерела
- Карташов М. В. Імовірність, процеси, статистика. — Київ : ВПЦ Київський університет, 2007. — 504 с.
- Гнеденко Б. В. Курс теории вероятностей. — 6-е изд. — Москва : Наука, 1988. — 446 с.(рос.)
- Гихман И. И., Скороход А. В., Ядренко М. В. Теория вероятностей и математическая статистика. — Київ : Вища школа, 1988. — 436 с.(рос.)
Примітки
Вікіпедія, Українська, Україна, книга, книги, бібліотека, стаття, читати, завантажити, безкоштовно, безкоштовно завантажити, mp3, відео, mp4, 3gp, jpg, jpeg, gif, png, малюнок, музика, пісня, фільм, книга, гра, ігри, мобільний, телефон, android, ios, apple, мобільний телефон, samsung, iphone, xiomi, xiaomi, redmi, honor, oppo, nokia, sonya, mi, ПК, web, Інтернет
Koeficiyent korelyaciyi rangu Spirmena neparametrichna mira statistichnoyi zalezhnosti mizh dvoma zminnimi nazvanij na chest Charlza Spirmena Vin ocinyuye naskilki dobre mozhna opisati vidnoshennya mizh dvoma zminnimi za dopomogoyu monotonnoyi funkciyi Yaksho nemaye povtornih znachen danih to koeficiyent Spirmena dorivnyuye 1 abo 1 ce vidbuvayetsya koli kozhna zminna ye monotonnoyu funkciyeyu vid inshoyi zminnoyi Koeficiyent korelyaciyi yak i bud yake obchislennya korelyaciyi pidhodit dlya bezperervnih ta diskretnih zminnih u tomu chisli poryadkovih Korelyaciya Spirmena rivna 1 koli dvi zminni monotonno pov yazani mizh soboyu navit yaksho ce vidnoshennya ne ye linijnim Z inshogo boku ce ne daye doskonaloyi korelyaciyi Pirsona Koli dani priblizno eliptichno rozpodileni i nemaye pomitnih vikidiv koeficiyenti korelyaciyi Spirmena ta Pirsona dayut blizki znachennya Korelyaciya Spirmena ye mensh chutlivoyu nizh korelyaciya Pirsona vidnosno silnih vikidiv yaki znahodyatsya v kinci oboh zrazkiv Viznachennya ta rozrahunokKoeficiyent korelyaciyi Spirmena viznachayetsya yak koeficiyent korelyaciyi Pirsona mizh ranzhuvannyam zminnih Dlya vibirki obsyagu n mnozhini Xi Yi peretvoryuyutsya v ryadi xi yi ta obchislyuyetsya takim chinom r i x i x y i y i x i x 2 i y i y 2 displaystyle rho frac sum i x i bar x y i bar y sqrt sum i x i bar x 2 sum i y i bar y 2 Odnakovim znachennyam rang zv yazkiv abo velichina dublikativ prisvoyuyetsya rang sho dorivnyuye serednomu chislu yihnih pozicij v poryadku zrostanni velichini U navedenij nizhche tablici zvernit uvagu sho rang znachen xi pri odnakovij velichini zminnoyi Xi ye odnakovimi Zmina X i displaystyle X i Poziciya v poryadku zrostannya Rang x i displaystyle x i 0 8 1 1 1 2 2 2 3 2 2 5 displaystyle frac 2 3 2 2 5 1 2 3 2 3 2 2 5 displaystyle frac 2 3 2 2 5 2 3 4 4 18 5 5 U zastosuvannyah de povtoryuvani znachennya vidsutni dlya rozrahunku mozhe buti vikoristana prosta procedura Riznicya d i x i y i displaystyle d i x i y i mizh rangami kozhnogo sposterezhennya vid dvoh zminnih virahovuyutsya i viznachayetsya za formuloyu r 1 6 d i 2 n n 2 1 displaystyle rho 1 frac 6 sum d i 2 n n 2 1 Zauvazhimo sho cej ostannij sposib ne slid vikoristovuvati v tih vipadkah koli nabir danih bude skorochuvatis tobto koli koeficiyent korelyaciyi Spirmena bazhanij dlya verhnogo zapisu X abo shlyahom poperednogo zmini polozhennya abo pislya zmini rangu abo j te j inshe Pov yazani velichiniYe kilka inshih chislovih kriteriyiv yaki kilkisno viznachayut stupin statistichnoyi zalezhnosti mizh parami sposterezhen Najbilsh poshirenim z nih ye koeficiyent Pirsona yakij ye analogichnim do metodu korelyaciyi rangu Spirmena yakij vimiryuye linijni spivvidnoshennya mizh znachennyami a ne mizh yihnimi rangami Alternativna nazva dlya rangovoyi korelyaciyi Spirmena ye stepin korelyaciyi v nij rang zi sposterezhen zaminyuyetsya na stepin V neperervnih rozpodilah stepin sposterezhennya za domovlenistyu zavzhdi vdvichi menshe nizh rang i otzhe stepin i rang korelyaciyi po suti odna j tazh velichina U bilsh zagalnomu sensi stepin sposterezhen proporcijna ocinci chastki naselennya menshe zadanogo znachennya pri comu polovina sposterezhennya regulyuyetsya doslidzhuvanimi velichinami Takim chinom ce vidpovidaye odnij mozhlivij obrobci pov yazanih rangiv U toj chas yak nezvichajne termin stepin korelyaciyi dosi vikoristovuyetsya Interpretaciyadodatnya ta vid yemna korelyaciya Spirmena dodatnij koeficiyent korelyaciyi Spirmena vidpovidaye zbilshennyu monotonnosti mizh X i Y vid yemnij koeficiyent korelyaciya Spirmena vidpovidaye monotonnomu zmenshennyu mizh X i Y Znak korelyaciyi Spirmena vkazuye napryamok zv yazku mizh H nezalezhnoyu zminnoyu ta Y zalezhnoyu zminnoyu Yaksho Y maye tendenciyu do zbilshennya koli H zbilshuyetsya koeficiyent korelyaciyi Spirmena ye dodatnim Yaksho Y maye tendenciyu do zmenshennya koli X zbilshuyetsya koeficiyent korelyaciyi Spirmena vid yemnij Koeficiyent Spirmena rivnij nulyu vkazuye na te sho Y ne zbilshuyetsya ta ne zmenshuyetsya pri zbilshenni X Zbilshennya koeficiyenta Spirmena vidbuvayetsya pri nablizhenni velichin X ta Y odin do odnogo takim chinom sho voni mozhut stati monotonnoyu funkciyeyu odin odnogo Koli X i Y monotonno pov yazani koeficiyent korelyaciyi Spirmena nabuvaye znachennya 1 Idealne monotonne zrostannya spivvidnoshennya peredbachaye sho dlya bud yakih dvoh par znachen danih xi yi ta xj yj xi xj ta yi yj zavzhdi mayut odnakovij znak Idealne monotonno spadne spivvidnoshennya peredbachaye sho xi xj ta yi yj zavzhdi mayut protilezhni znaki Koeficiyent korelyaciyi Spirmena chasto opisuyetsya yak neparametrichnij Ce mozhe mati dva znachennya Po pershe toj fakt sho najkrashi rezultati povnoyi korelyaciyi Spirmena yaki buvayut todi koli X ta Y pov yazani bud yakoyu monotonnoyu funkciyeyu mozhna porivnyati z korelyaciyeyu Pirsona yaka prijmaye najkrashe znachennya lishe koli X ta Y zv yazani linijnoyu funkciyeyu Po druge korelyaciya Spirmena ye neparametrichnoyu v tomu sensi sho jogo tochnij rozpodil vibirki mozhe buti otrimanij bez neobhidnosti vidomostej pro parametri spilnogo rozpodilu imovirnosti X ta Y PrikladU comu prikladi mi budemo vikoristovuvati vihidni dani v tablici shob obchisliti korelyaciyu mizh IQ lyudini z kilkistyu godin provedenih pered televizorom na tizhden IQ X i displaystyle X i Godini provedeni za televizorom Y i displaystyle Y i 106 7 86 0 100 27 101 50 99 28 103 29 97 20 113 12 112 6 110 17 Po pershe mi povinni znajti znachennya d i 2 displaystyle d i 2 Dlya cogo mi zrobimo nastupni kroki vidobrazheni v tablici nizhche 1 Sortuvannya danih pershoyi kolonki X i displaystyle X i Stvorennya novoyi kolonki i privlasniti jogo ranzhiruvanih znachen 1 2 3 N 2 Dali sortuvannya danih drugoyi kolonki Y i displaystyle Y i Stvorennya chetvertoyi kolonki i tak samo prisvoyiti yij ranzhiruvanih znachen 1 2 3 N 3 Stvorennya p yatoyi kolonki d i displaystyle d i sho ye rizniceyu dvoh stovpciv rangu X i displaystyle X i ta Y i displaystyle Y i 4 Stvorennya ostannogo stovpcya d i 2 displaystyle d i 2 dlya zberigannya znachennya stovpcya d i displaystyle d i u kvadrati IQ X i displaystyle X i Godini provedeni za televizorom Y i displaystyle Y i rang x i displaystyle x i rang y i displaystyle y i d i displaystyle d i d i 2 displaystyle d i 2 86 0 1 1 0 0 97 20 2 6 4 16 99 28 3 8 5 25 100 27 4 7 3 9 101 50 5 10 5 25 103 29 6 9 3 9 106 7 7 3 4 16 110 17 8 5 3 9 112 6 9 2 7 49 113 12 10 4 6 36 Koli znajdeno d i 2 displaystyle d i 2 mi mozhemo znajti d i 2 194 displaystyle sum d i 2 194 n 10 Takim chinom teper ci znachennya mozhna pidstaviti v rivnyannya r 1 6 194 10 10 2 1 displaystyle rho 1 frac 6 times 194 10 10 2 1 de r 29 165 0 175757575 r riven statistichna znachushist dorivnyuye 0 68640058 vikoristali t rozpodil Styudenta Take nevelike znachennya pokazuye sho korelyaciya mizh IQ ta godinami provedenimi za televizorom duzhe nizka U vipadku koli vihidni znachennya pov yazani cya formula ne mozhe buti vikoristana Zamist koeficiyenta korelyaciyi Persona povinni buti porahovani rangi Viznachennya terminuOdin z pidhodiv do testuvannya naskilki sposterezhuvane znachennya r znachno vidriznyayetsya vid nulya g zavzhdi v diapazoni 1 g 1 ce obchislennya jmovirnosti togo sho znachennya r bulo b bilshe abo dorivnyuye zminnij g vrahovuyuchi nulovu gipotezu za dopomogoyu testu perestanovki Perevagoyu cogo pidhodu ye te sho vin avtomatichno vrahovuye kilkist priv yazanih znachen danih sho ye v zrazku i sposobi yakim rozglyadali pri obchislenni rangu korelyaciyi Inshij pidhid paralelno vikoristovuye peretvorennya Fishera u rozuminni koeficiyenta korelyaciyi Persona Tobto dovirchij interval ta perevirka gipotezi pov yazanih z znachennyam mozhut buti znajdeni za dopomogoyu peretvorennya Fishera F r 1 2 ln 1 r 1 r arctanh r displaystyle F r 1 over 2 ln 1 r over 1 r operatorname arctanh r Yaksho F r ye peretvorennyam Fishera dlya r to dlya koeficiyenta korelyaciyi rangu Spirmena ta n rozmiru vibirki spravedlivo z n 3 1 06 F r displaystyle z sqrt frac n 3 1 06 F r Ce ye z znachennya dlya r yaki priblizno nablizhuyetsya do normalnogo rozpodilu v nulovij gipotezi statistichnoyi nezalezhnosti r 0 Mozhna takozh pereviriti na vikoristannya znachennya t r n 2 1 r 2 displaystyle t r sqrt frac n 2 1 r 2 yaka poshiryuyetsya priblizno yak t rozpodil Styudenta z n 2 displaystyle n 2 stupenyami svobodi pri nulovij gipotezi Obgruntuvannya cogo rezultatu zalezhit vid perestanovki argumentiv Uzagalnennyam koeficiyenta Spirmena korisno vikoristovuvati v situaciyah koli ye tri abo bilshe umov ryad sposterezhuvanih sub yektiv ta vidomo sho sposterezhennya matimut pevnij poryadok Napriklad ryadu sub yektiv mozhe buti dano tri viprobuvannya z vikoristannyam odnakovih zavdan i ce peredbachaye sho vid viprobuvannya do viprobuvannya bude vidbuvatisya polipshennya yakosti vikonannya Test znachushosti tendenciyi mizh umovami v takij situaciyi buv rozroblenij E B Page i yak pravilo nazivayetsya testom Pejdzha dlya tendencij mizh uporyadkovanimi alternativami DzherelaKartashov M V Imovirnist procesi statistika Kiyiv VPC Kiyivskij universitet 2007 504 s Gnedenko B V Kurs teorii veroyatnostej 6 e izd Moskva Nauka 1988 446 s ros Gihman I I Skorohod A V Yadrenko M V Teoriya veroyatnostej i matematicheskaya statistika Kiyiv Visha shkola 1988 436 s ros PrimitkiPage E B 1963 Ordered hypotheses for multiple treatments A significance test for linear ranks Journal of the American Statistical Association 58 301 216 230 doi 10 2307 2282965 JSTOR 2282965