У статистиці, коефіціє́нт кореля́ції Пі́рсона (ККП, англ. Pearson correlation coefficient, PCC) — це коефіцієнт кореляції, який вимірює [en] кореляцію між двома наборами даних. Це відношення коваріації двох змінних до добутку їхніх стандартних відхилень; таким чином, це, по суті, унормована міра коваріації, така, що її результат завжди має значення між −1 та 1. Як і сама коваріація, ця міра може відображати лише лінійну кореляцію змінних, і не враховує багатьох інших типів взаємозв'язків і кореляцій. Як простий приклад, можна було би очікувати, що вік і зріст групи підлітків із середньої школи матимуть коефіцієнт кореляції Пірсона значно більший за 0, але менший за 1 (оскільки 1 означало би нереалістично ідеальну кореляцію).
Назва й історія
Розробив його Карл Пірсон на основі спорідненої ідеї, запропонованої Френсісом Гальтоном у 1880-х роках, математичну формулу для якої вивів та опублікував Огюст Браве 1844 року. Назва цього коефіцієнта є одним із прикладів закону Стіглера.
Визначення
Коефіцієнт кореляції Пірсона це коваріація двох змінних, поділена на добуток їхніх стандартних відхилень. Вигляд цього визначення містить «момент добутку», тобто середнє значення (перший момент відносно початку координат) добутку змінних, скоригованих на їхні середні значення; тому в назві й використовують означення «моменту добутку».
Для сукупності
Коефіцієнт кореляції Пірсона, коли його застосовують до сукупності, зазвичай позначують грецькою літерою ρ (ро), й можуть називати коефіцієнтом кореляції сукупності (англ. population correlation coefficient) або коефіцієнтом кореляції Пірсона для сукупності (англ. population Pearson correlation coefficient). Для пари випадкових змінних (наприклад, Зріст та Вага), формулою для ρ є
де
- — коваріація
- — стандартне відхилення
- — стандартне відхилення .
Формулу для можливо виразити через середнє значення та математичне сподівання. Оскільки
формулу для також можливо записати як
де
- та визначено як вище
- — середнє значення
- — середнє значення
- — математичне сподівання.
Формулу для можливо виразити через нецентровані моменти. Оскільки
формулу для також можливо записати як
Для вибірки
Коефіцієнт кореляції Пірсона, коли його застосовують до вибірки, зазвичай позначують через і можуть називати коефіцієнтом кореляції вибірки (англ. sample correlation coefficient) або коефіцієнтом кореляції Пірсона для вибірки (англ. sample Pearson correlation coefficient). Формулу для можливо отримати, підставивши оцінки коваріацій та дисперсій на основі вибірки до наведеної вище формули. Для парних даних , що складаються з пар, визначають як
де
- — розмір вибірки
- — окремі точки вибірки з індексом i
- (середнє значення вибірки); й аналогічно для .
Перегрупування дає таку формулу для :
де визначено як вище.
Ця формула пропонує зручний однопрохідний алгоритм обчислення кореляцій вибірок, хоча, залежно від задіяних чисел, вона іноді може бути чисельно нестійкою.
Подальше перегрупування дає таку формулу для :
де визначено як вище.
Еквівалентний вираз дає формулу для як середнє добутків стандартних оцінок наступним чином:
де
- визначено як вище, а визначено нижче
- — стандартна оцінка (й аналогічно для стандартної оцінки ).
Доступні й альтернативні формули для . Наприклад, можливо використовувати наступну формулу для :
де
- визначено як вище, а
- (ви́біркове стандартне відхилення); й аналогічно для .
Для спільно гауссових розподілів
Якщо спільно гауссові, з нульовим середнім значенням і дисперсією , то .
Практичні проблеми
В умовах сильного шуму виділяння коефіцієнта кореляції між двома наборами стохастичних змінних нетривіальне, особливо коли канонічно-кореляційний аналіз показує зниження значень кореляції через значний внесок шуму. Узагальнення цього підходу наведено в іншому місці.
У випадку відсутності даних, Ґаррен вивів оцінювання максимальною правдоподібністю.
Деякі розподіли (наприклад, стійкі розподіли, відмінні від нормального) не мають визначеної дисперсії.
Математичні властивості
Значення коефіцієнта кореляції Пірсона як для вибірки, так і для сукупності перебувають на або між −1 та 1. Кореляції, які дорівнюють +1 чи −1, відповідають точкам даних, що лежать точно на прямій (у випадку коефіцієнта кореляції вибірки), або двовимірному розподілу, [en] якого лежить на прямій (у випадку коефіцієнта кореляції сукупності). Коефіцієнт кореляції Пірсона симетричний: corr(X,Y) = corr(Y,X).
Ключовою математичною властивістю коефіцієнта кореляції Пірсона є його [en] щодо окремих змін розташування та масштабу в обох змінних. Тобто ми можемо перетворити X на a + bX, і перетворити Y на c + dY, де a, b, c, та d сталі, а b, d > 0, не змінивши коефіцієнта кореляції. (Це справджується як для коефіцієнта кореляції сукупності, так і для коефіцієнта кореляції вибірки.) Загальніші лінійні перетворення кореляцію змінюють: щодо того, як це застосовувати, див. § Декореляція n випадкових змінних.
Тлумачення
Коефіцієнт кореляції набуває значень з −1 по 1. Абсолютне рівне значення 1 означає, що лінійне рівняння описує взаємозв'язок між X та Y ідеально, з усіма точками даних на одній прямій. Знак кореляції визначається нахилом регресії: значення +1 означає, що всі точки даних лежать на прямій, за якої Y зростає зі зростанням X, і навпаки для −1. Значення 0 означає, що між змінними немає лінійної залежності.
Загальніше, (Xi − X)(Yi − Y) додатний тоді й лише тоді, коли Xi та Yi перебувають з одного боку від своїх середніх значень. Відтак, коефіцієнт кореляції додатний, коли Xi та Yi схильні бути одночасно більшими або одночасно меншими за свої середні значення. Коефіцієнт кореляції від'ємний (антикореляція), коли Xi та Yi схильні перебувати по різні боки від своїх середніх значень. Більше того, що сильніша будь-яка з цих тенденцій, то більше абсолютне значення коефіцієнта кореляції.
Роджерс та Найсвандер перелічили тринадцять способів тлумачення кореляції або простих функцій від неї:
- Функція від сирих оцінок та середніх значень
- Стандартизована коваріація
- Стандартизований нахил лінії регресії
- Геометричне середнє двох нахилів регресії
- Квадратний корінь відношення двох дисперсій
- Середній векторний добуток стандартизованих змінних
- Функція кута між двома стандартизованими регресійними лініями
- Функція кута між двома векторами змінних
- Перемасштабована дисперсія різниці стандартизованих оцінок
- Оцінка за правилом повітряної кульки
- Пов'язана з двовимірними еліпсами ізоконцентрації
- Функція статистичного критерію із запланованих експериментів
- Відношення двох середніх
Геометричне тлумачення
Для нецентрованих даних існує зв'язок між коефіцієнтом кореляції та кутом φ між двома регресійними лініями, y = gX(x) та x = gY(y), отриманими в результаті регресії y на x та x на y відповідно. (Тут φ відкладають проти годинникової стрілки в першому квадранті, утвореному навколо точки перетину ліній, якщо r > 0, чи проти годинникової стрілки з четвертого до другого квадранту, якщо r < 0.) Можливо показати, що якщо стандартні відхилення рівні, то r = sec φ − tg φ, де sec та tg — тригонометричні функції.
Для центрованих даних (тобто даних, зміщених на середні значення їхніх відповідних змінних, таким чином, щоби середнє значення кожної змінної було нульовим) коефіцієнт кореляції також можливо розглядати як косинус кута θ між двома спостережуваними векторами в N-вимірному просторі (для N спостережень кожної змінної).
Коефіцієнти як нецентрованої (не пірсоново сумісної), так і центрованої кореляції можливо визначати для набору даних. Наприклад, припустімо, що виявлено, що п'ять країн мають валовий національний продукт 1, 2, 3, 5 та 8 мільярдів доларів відповідно. Припустімо, що ці ж п'ять країн (у тому ж порядку) мають 11 %, 12 %, 13 %, 15 % та 18 % бідності. Тоді нехай x та y будуть впорядкованими 5-елементними векторами, що містять наведені вище дані: x = (1, 2, 3, 5, 8) та y = (0.11, 0.12, 0.13, 0.15, 0.18).
За звичайною процедурою визначення кута θ між двома векторами (див. скалярний добуток) коефіцієнт нецентрованої кореляції становить
Цей коефіцієнт нецентрованої кореляції ідентичний косинусній подібності. Наведені вище дані було свідомо обрано так, щоби вони бути ідеально корельованими: y = 0.10 + 0.01 x. Тому коефіцієнт кореляції Пірсона мусить дорівнювати рівно одиниці. Центрування даних (зміщення x на ℰ(x) = 3.8 та y на ℰ(y) = 0.138) дає x = (−2.8, −1.8, −0.8, 1.2, 4.2) та y = (−0.028, −0.018, −0.008, 0.012, 0.042), звідки
як і очікувалося.
Тлумачення розміру кореляції
Декілька авторів запропонували настанови для тлумачення коефіцієнта кореляції. Проте всі такі критерії дещо довільні. Тлумачення коефіцієнта кореляції залежить від контексту та цілей. Кореляція 0,8 може бути дуже низькою, якщо йдеться про перевірку фізичного закону з використанням високоякісних інструментів, але може вважатися дуже високою в соціальних науках, де внесок від ускладнювальних чинників може бути більшим.
Висновування
Статистичне висновування на основі коефіцієнті кореляції Пірсона часто зосереджується на одній з наступних двох цілей:
- Одна мета полягає в перевірці нульової гіпотези, що істинний коефіцієнт кореляції ρ дорівнює 0, на основі значення коефіцієнта кореляції вибірки r.
- Інша мета полягає в тому, щоби вивести довірчий інтервал, який при повторюваному вибиранні має задану ймовірність містити ρ.
Методи досягнення однієї або обох цих цілей обговорюються нижче.
Використання перестановкового критерію
Перстановкові критерії забезпечують прямий підхід до здійснення перевірок гіпотез і побудови довірчих інтервалів. Перестановковий критерій для коефіцієнта кореляції Пірсона містить наступні два кроки:
- Використовуючи первинні паровані дані (xi, yi), випадково визначити пари заново, створивши новий набір даних (xi, yi′), де i′ — перестановка множини {1,…,n}. Перестановку i′ вибирають випадково, з рівними ймовірностями для всіх n! можливих перестановок. Це рівнозначне вибиранню i′ випадково без повторів з множини {1, …, n}. У натяжці, тісно пов'язаному підході, i та i′ є рівними й вибираються з {1, …, n} з повторами;
- Побудувати коефіцієнт кореляції r з цих увипадковлених даних.
Щоби виконати перевірку перестановкового критерію, повторіть кроки (1) та (2) велику кількість разів. p-значення для перестановкового критерію — це частка значень r, породжених на кроці (2), більших за коефіцієнт кореляції Пірсона, обчислений із первинних даних. Тут «більший» може означати як більший за абсолютним значенням, так і більший за значенням зі знаком, залежно від того, чи потрібен [en], чи [en] критерій.
Використання натяжки
Для побудови довірчих інтервалів для коефіцієнта кореляції Пірсона можливо використовувати натяжку. В «непараметричній» натяжці n пар (xi, yi) перевибирають зі спостережуваного набору з n пар «з повторами», й коефіцієнт кореляції r обчислюють на основі цих перевибраних даних. Цей процес повторюють велику кількість разів, і цей емпіричний розподіл перевибраних значень r використовують для наближення вибіркового розподілу цієї статистики. 95 %-вий довірчий інтервал для ρ можливо визначити як інтервал, що простягається від 2,5-го до 97,5-го перцентиля перевибраних значень r.
Стандартна похибка
Якщо та — випадкові змінні, то стандартною похибкою, пов'язаною з кореляцією у випадку нульової гіпотези, є
де — кореляція (за припущення r≈0), а — розмір вибірки.
Перевірка з використанням розподілу Ст'юдента
Для пар з некорельованого двовимірного нормального розподілу, вибірковий розподіл ст'юдентованого коефіцієнта кореляції Пірсона дотримується t-розподілу Ст'юдента зі ступенями вільності n − 2. Зокрема, якщо змінні в основі мають двовимірний нормальний розподіл, то змінна
у випадку нульової гіпотези (нульової кореляції) має розподіл Ст'юдента. Це приблизно виконується у випадку не нормальних спостережуваних значень, якщо розміри вибірок достатньо великі. Для визначення критичних значень для r потрібна обернена функція:
Також можливо використовувати асимптотичні підходи для великих вибірок.
Інша рання стаття пропонує графіки та таблиці для загальних значень ρ, для малих розмірів вибірки, та обговорює підходи до обчислень.
У випадку, якщо змінні в основі не нормальні, вибірковий розподіл коефіцієнта кореляції Пірсона дотримується розподілу Ст'юдента, але ступені вільності знижуються.
Використання точного розподілу
Для даних, що слідують двовимірному нормальному розподілу, точною функцією густини f(r) для вибіркового коефіцієнта кореляції r нормального двовимірного розподілу є
де — це гамма-функція, а — гауссова гіпергеометрична функція.
В окремому випадку, коли (нульова кореляція в сукупності), точну функцію густини f(r) можливо записати як
де — це бета-функція, що є одним зі способів запису густини t-розподілу Ст'юдента для ст'юдентованого вибіркового коефіцієнта кореляції, як зазначено вище.
Використання точного довірчого розподілу
Довірчі інтервали та критерії можливо розраховувати з [en]. Точна довірча густина для ρ становить
де — це гауссова гіпергеометрична функція, а .
Використання перетворення Фішера
На практиці обчислення довірчих інтервалів та перевірки гіпотез щодо ρ зазвичай виконують за допомогою [en], :
F(r) приблизно дотримується нормальному розподілу, де
де n — розмір вибірки. Похибка наближення найнижча для великого розміру вибірки і малих значень та , і збільшується в іншому випадку.
За використання цього наближення z-оцінка становить
за нульовою гіпотезою, що , за припущення, що пари вибірки незалежні й однаково розподілені та дотримуються двовимірного нормального розподілу. Відтак, можливо отримати наближене p-значення з таблиці нормальної ймовірності. Наприклад, якщо спостерігається z = 2.2 й потрібне двобічне p-значення для перевірки нульової гіпотези, що , то p-значення становитиме 2 Φ(−2.2) = 0.028, де Φ — це стандартна нормальна функція розподілу.
Щоб отримати довірчий інтервал для ρ, спочатку обчислімо довірчий інтервал для F():
Обернене перетворення Фішера повертає інтервал до шкали кореляції.
Наприклад, припустімо, що ми спостерігаємо r = 0.7 з розміром вибірки n=50, і хочемо отримати 95 %-вий довірчий інтервал для ρ. Перетворене значення становить , тому довірчий інтервал у перетвореній шкалі становить , або (0.5814, 1.1532). Перетворення назад до шкали кореляції дає (0.5237, 0.8188).
В регресійному аналізі методом найменших квадратів
Квадрат коефіцієнта кореляції вибірки зазвичай позначують через r2, він є окремим випадком коефіцієнта детермінації. У цьому випадку він оцінює частку дисперсії Y, яку пояснює X через просту лінійну регресію. Отже, якщо є спостережуваний набір даних та допасований набір даних , то як відправну точку повну дисперсію Yi навколо їхнього середнього значення можливо розкласти як
де — це допасовані значення з регресійного аналізу. Це можливо переформулювати як
Обидва доданки вище — це частка дисперсії в Y, яку пояснює X (правий), та яку X не пояснює (лівий).
Далі, ми застосовуємо властивість регресійних моделей найменших квадратів, що вибіркова коваріація між та нульова. Тож вибірковий коефіцієнт кореляції між спостережуваними та допасованими значеннями відгуку в регресії можливо записати (обчислення виконується виходячи з очікування гауссової статистики) як
Тож
де — частка дисперсії Y, пояснювана лінійною функцією X.
У наведеному вище виведенні той факт, що
можливо довести, відмітивши, що частинні похідні [en] (RSS) за β0 та β1 у моделі найменших квадратів дорівнюють 0, де
- .
Кінець кінцем, рівняння можливо записати як
де
- .
Символ називають сумою квадратів регресії, також відомою як пояснена сума квадратів, а — [en] (пропорційна дисперсії даних).
Чутливість до розподілу даних
Існування
Коефіцієнт кореляції Пірсона для сукупності визначено через моменти, й тому він існує для будь-якого двовимірного розподілу ймовірності, для якого визначені коваріація сукупності та відособлені дисперсії сукупності, й вони ненульові. Деякі розподіли ймовірності, такі як розподіл Коші, мають невизначену дисперсію, й відтак якщо X або Y відповідають такому розподілові, то ρ невизначений. У деяких практичних застосуваннях, дані в яких підозрюють на відповідність [en], це важливий аспект. Проте, існування коефіцієнта кореляції зазвичай не проблема; наприклад, якщо діапазон розподілу обмежений, ρ завжди визначений.
Розмір вибірки
- Якщо розмір вибірки помірний або великий і сукупність нормальна, то у випадку двовимірного нормального розподілу вибірковий коефіцієнт кореляції є максимально-правдоподібнісною оцінкою коефіцієнта кореляції сукупності, [en][en] та [en], що приблизно означає неможливість побудувати оцінку, точнішу за вибірковий коефіцієнт кореляції.
- Якщо розмір вибірки великий і сукупність не нормальна, то вибірковий коефіцієнт кореляції залишається приблизно незміщеним, але може не бути ефективним.
- Якщо розмір вибірки великий, то вибірковий коефіцієнт кореляції є слушною оцінкою коефіцієнта кореляції сукупності, за умови, що середні значення вибірки, дисперсії та коваріація слушні (що гарантовано, коли можливо застосувати закон великих чисел).
- Якщо розмір вибірки малий, то вибірковий коефіцієнт кореляції r не є незміщеною оцінкою ρ. Замість цього слід використовувати скоригований коефіцієнт кореляції: визначення див. далі у цій статті.
- Кореляції можуть бути різними для незбалансованих дихотомних даних, коли у вибірці є помилка дисперсії.
Робастність
Як і багато інших часто використовуваних статистик, вибіркова статистика r не робастна, тож за наявності викидів її значення може бути оманливим. Зокрема, коефіцієнт кореляції моменту добутку не робастний ані щодо розподілу, ані щодо викидів (див. (Робастність у статистиці § Поняття робастності)). Перевірка діаграми розсіяння між X та Y зазвичай виявляє ситуацію, коли робастність може бути проблемою, і в таких випадках може бути рекомендовано використовувати робастну міру пов'язаності. Проте слід зазначити, що хоч більшість робастних оцінювачів пов'язаності і вимірюють якимось чином статистичну залежність, вони зазвичай не інтерпретовні тою ж мірою, що й коефіцієнт кореляції Пірсона.
Статистичне висновування для коефіцієнта кореляції Пірсона чутливе до розподілу даних. Точні критерії та асимптотичні критерії на основі [en] можливо застосовувати, якщо дані розподілені приблизно нормально, але в іншому разі вони можуть бути оманливими. У деяких ситуаціях можливо використовувати натяжку для створення довірчих інтервалів, а перестановкові критерії — для здійснення перевірки гіпотез. Ці [en] підходи можуть давати змістовніші результати в деяких ситуаціях, коли двовимірна нормальність не виконується. Проте стандартні версії цих підходів покладаються на [en] даних, що означає, що не існує впорядкування чи групування аналізованих пар даних, які могли би вплинути на поведінку оцінки кореляції.
Стратифікований аналіз — це один зі способів або пристосування до відсутності двовимірної нормальності, або для відокремлення кореляції, що випливає з одного чинника при контролі над іншим. Якщо W подає приналежність до кластеру або інший чинник, який хочеться контролювати, можливо стратифікувати дані на основі значення W, а потім обчислити коефіцієнт кореляції в межах кожної страти. Оцінки на рівні страт потім можливо об'єднати для оцінки загальної кореляції при контролі над W.
Варіанти
Існують різні варіації коефіцієнта кореляції, які можливо обчислювати для різних цілей. Ось декілька прикладів.
Скоригований коефіцієнт кореляції
Вибірковий коефіцієнт кореляції r не є незміщеною оцінкою ρ. Для даних, що дотримуються двовимірному нормальному розподілу, математичне сподівання E[r] вибіркового коефіцієнта кореляції r нормальної двовимірності становить
- тож r є зміщеним оцінювачем
Унікальний мінімально-дисперсійний незміщений оцінювач (англ. unique minimum variance unbiased estimator) radj задається як
-
(
)
де:
- визначено як вище,
- — гауссова гіпергеометрична функція.
Приблизно незміщений оцінювач (англ. approximately unbiased estimator) radj можливо отримати[] шляхом утинання E[r] та розв'язання цього утятого рівняння:
-
(
)
Приблизним розв'язком[] рівняння (2) є
-
(
)
де у (3)
- визначено як вище,
- radj — субоптимальний оцінювач,[][: ком.]
- radj також можливо отримати максимізуванням log(f(r)),
- radj має мінімальну дисперсію за великих значень n,
- radj має зміщення порядку 1⁄(n − 1).
Іншим запропонованим скоригованим коефіцієнтом кореляції (англ. adjusted correlation coefficient) є[]
radj ≈ r за великих значень n.
Коефіцієнт зваженої кореляції
Покладімо, що спостереження, які потрібно скорелювати, мають різні ступені важливості, які можливо виразити ваговим вектором w. Щоб обчислити кореляцію між векторами x та y з ваговим вектором w (всі довжиною n),
- Зважене середнє:
- Зважена коваріація:
- Зважена кореляція (англ. weighted correlation):
Віддзеркалювальний коефіцієнт кореляції
Віддзеркалювальна кореляція (англ. reflective correlation) — це варіант пірсонової кореляції, в якому дані не центровано навколо їхніх середніх значень.[] Віддзеркалювальна кореляція сукупності це
Віддзеркалювальна кореляція симетрична, але не інваріантна щодо паралельного перенесення:
Віддзеркалювальна кореляція вибірки еквівалентна косинусній подібності:
Зважена версія вибіркової віддзеркалювальної кореляції це
Масштабний коефіцієнт кореляції
Масштабна кореляція (англ. scaled correlation) — це варіант кореляції Пірсона, в якому діапазон даних обмежують навмисно й контрольовано, щоби виявляти кореляції між швидкими складовими в часових рядах. Масштабну кореляцію визначають як середню кореляцію над короткими сегментами даних.
Нехай це кількість сегментів, які можуть вміститися в загальну довжину сигналу для заданого масштабу :
Тоді масштабну кореляцію над усім сигналом обчислюють як
де — коефіцієнт кореляції Пірсона для сегмента .
Шляхом обирання параметра зменшують діапазон значень, і кореляції на довгих часових масштабах відфільтровуються, так, що виявляються лише кореляції на коротких часових масштабах. Таким чином усувають внески повільних складових і зберігають внески швидких складових.
Відстань Пірсона
Метрику відстані для двох змінних X та Y, відому як відстань Пірсона (англ. Pearson's distance), можливо визначати з коефіцієнта їхньої кореляції як
Враховуючи те, що коефіцієнт кореляції Пірсона перебуває в межах [−1, +1], відстань Пірсона лежить на проміжку [0, 2]. Відстань Пірсона використовували в кластерному аналізі та виявлянні даних для передавання та зберігання з невідомими передавальним коефіцієнтом та зміщенням.
Визначена таким чином «відстань» Пірсона для від'ємних кореляцій встановлює відстань понад 1. Насправді, значення мають як сильна додатна, так і сильна від'ємна кореляції, тому потрібно бути обережними при використанні «відстані» Пірсона в алгоритмах найближчих сусідів, оскільки такі алгоритми включатимуть лише сусідів із додатною кореляцією й виключати сусідів із від'ємною. Як альтернативу, можливо застосовувати відстань з абсолютним значенням, , яка враховуватиме як додатні, так і від'ємні кореляції. Інформацію про додатну та від'ємну пов'язаність можливо виділяти окремо пізніше.
Коловий коефіцієнт кореляції
Для змінних X = {x1,…,xn} та Y = {y1,…,yn}, визначених на одиничному колі , можливо визначити коловий (англ. circular) аналог коефіцієнта Пірсона. Це робиться шляхом такого перетворення даних в X та Y за допомогою функції синуса, що коефіцієнт кореляції визначається як
де та — [en]X та Y. Ця міра може бути корисною в таких галузях як метеорологія, де важливий кутовий напрямок даних.
Частинна кореляція
Якщо сукупність або набір даних характеризується понад двома змінними, коефіцієнт частинної кореляції вимірює силу залежності між парою змінних, яка не пояснюється тим, як вони обидві змінюються у відповідь на варіації в обраній підмножині інших змінних.
Декореляція n випадкових змінних
Завжди можливо усунути кореляції між усіма парами довільного числа випадкових змінних за допомогою перетворення даних, навіть якщо взаємозв'язок між цими змінними нелінійний. Подання цього результату для розподілів сукупностей навели Кокс та Гінклі.
Існує відповідний результат для зведення до нуля й вибіркових кореляцій. Припустімо, що вектор з n випадкових змінних спостерігають m разів. Нехай X — матриця, де — j-та змінна спостереження i. Нехай — квадратна матриця m на m з усіма елементами 1. Тоді D — це дані, перетворені так, що кожна випадкова змінна має нульове середнє, а T — це дані, перетворені так, що всі змінні мають нульове середнє й нульову кореляцію з усіма іншими змінними, — вибіркова кореляційна матриця T буде одиничною матрицею. Це потрібно додатково поділити на стандартне відхилення, щоб отримати одиничну дисперсію. Перетворені змінні будуть некорельованими, хоч вони й можуть бути не незалежними.
де степінь −+1⁄2 подає квадратний корінь оберненої матриці. Матриця кореляції T буде одиничною. Якщо нове спостереження даних x це рядковий вектор з n елементів, то те саме перетворення можливо застосувати й до x, щоб отримати перетворені вектори d та t:
Декореляція пов'язана з аналізом головних компонент для багатовимірних даних.
Програмні втілення
- У базовому пакеті статистики R цей коефіцієнт кореляції втілено через
cor(x, y)
, або (з P-значенням) черезcor.test(x, y)
. - У бібліотеці Python SciPy — через
pearsonr(x, y)
. - Бібліотека Python Pandas втілює обчислення коефіцієнта кореляції Пірсона як варіант за замовчуванням для методу
pandas.DataFrame.corr
- Wolfram Mathematica — через функцію
Correlation
, або (з P-значенням) черезCorrelationTest
. - Бібліотека Boost — через функцію
correlation_coefficient
. - Excel має вбудовану функцію
correl(array1, array2)
для обчислення коефіцієнта кореляції Пірсона.
Див. також
- [en]
- [en]
- [en]
- Квартет Анскомбе
- [en]
- [en]
- [en]
- [en]
- Коефіцієнт кореляції рангу Спірмена
- [en]
- [en]
- [en]
- Кореляція і залежність
- [en]
- [en]
- [en]
- Пов'язаність (статистика)
- [en]
- [en]
- Частинна кореляція
Виноски
- Відомий також як r Пі́рсона (англ. Pearson's r), коефіціє́нт кореля́ції моме́нту до́бутку Пі́рсона (англ. Pearson product-moment correlation coefficient, PPMCC), двови́мірна кореля́ція (англ. bivariate correlation) та просто неконкретизований коефіціє́нт кореля́ції (англ. correlation coefficient)
- Ще 1877 року Гальтон використовував термін «реверсія» (англ. "reversion", див. регресію до середнього) й символ «r» для того, що згодом стане «регресією» (англ. "regression").
Примітки
- SPSS Tutorials: Pearson Correlation (англ.).
- Correlation Coefficient: Simple Definition, Formula, Easy Steps. Statistics How To (англ.).
- Galton, F. (5–19 April 1877). Typical laws of heredity. Nature (англ.). 15 (388, 389, 390): 492—495, 512—514, 532—533. Bibcode:1877Natur..15..492.. doi:10.1038/015492a0. S2CID 4136393. У додатку «Appendix» на сторінці 532 Гальтон використовує термін «reversion» та символ r.
- Galton, F. (24 September 1885). The British Association: Section II, Anthropology: Opening address by Francis Galton, F.R.S., etc., President of the Anthropological Institute, President of the Section. Nature (англ.). 32 (830): 507—510.
- Galton, F. (1886). Regression towards mediocrity in hereditary stature. Journal of the Anthropological Institute of Great Britain and Ireland (англ.). 15: 246—263. doi:10.2307/2841583. JSTOR 2841583.
- Pearson, Karl (20 June 1895). Notes on regression and inheritance in the case of two parents. Proceedings of the Royal Society of London (англ.). 58: 240—242. Bibcode:1895RSPS...58..240P.
- Stigler, Stephen M. (1989). Francis Galton's account of the invention of correlation. Statistical Science (англ.). 4 (2): 73—79. doi:10.1214/ss/1177012580. JSTOR 2245329.
- Analyse mathematique sur les probabilités des erreurs de situation d'un point. Mem. Acad. Roy. Sci. Inst. France. Sci. Math, et Phys. (фр.). 9: 255—332. 1844 — через Google Books.
- Wright, S. (1921). Correlation and causation. Journal of Agricultural Research (англ.). 20 (7): 557—585.
- Real Statistics Using Excel, "Basic Concepts of Correlation" (англ.), отримано 22 лютого 2015 р.
- Weisstein, Eric W. Statistical Correlation. Wolfram MathWorld (англ.). Процитовано 22 серпня 2020.
- Moriya, N. (2008). Noise-related multivariate optimal joint-analysis in longitudinal stochastic processes. У Yang, Fengshan (ред.). (англ.). [en]. с. 223–260. ISBN .
- Garren, Steven T. (15 червня 1998). Maximum likelihood estimation of the correlation coefficient in a bivariate normal model, with missing data. Statistics & Probability Letters (англ.). 38 (3): 281—288. doi:10.1016/S0167-7152(98)00035-2.
- 2.6 - (Pearson) Correlation Coefficient r. STAT 462 (англ.). Процитовано 10 липня 2021.
- Introductory Business Statistics: The Correlation Coefficient r. opentextbc.ca (англ.). Процитовано 21 серпня 2020.
- Rodgers; Nicewander (1988). Thirteen ways to look at the correlation coefficient (PDF). The American Statistician (англ.). 42 (1): 59—66. doi:10.2307/2685263. JSTOR 2685263.
- Schmid, John Jr. (грудень 1947). The relationship between the coefficient of correlation and the angle included between regression lines. The Journal of Educational Research (англ.). 41 (4): 311—313. doi:10.1080/00220671.1947.10881608. JSTOR 27528906.
- Rummel, R.J. (1976). Understanding Correlation (англ.). гл. 5 (як проілюстровано для особливого випадку в наступному абзаці).
- Buda, Andrzej; Jarynowski, Andrzej (грудень 2010). Life Time of Correlations and its Applications (англ.). Wydawnictwo Niezależne. с. 5—21. ISBN .
- Cohen, J. (1988). Statistical Power Analysis for the Behavioral Sciences (англ.) (вид. 2nd).
- Bowley, A. L. (1928). The Standard Deviation of the Correlation Coefficient. Journal of the American Statistical Association (англ.). 23 (161): 31—34. doi:10.2307/2277400. ISSN 0162-1459. JSTOR 2277400.
- Derivation of the standard error for Pearson's correlation coefficient. Cross Validated (англ.). Процитовано 30 липня 2021.
- Rahman, N. A. (1968) A Course in Theoretical Statistics (англ.), Charles Griffin and Company, 1968
- Kendall, M. G., Stuart, A. (1973) The Advanced Theory of Statistics, Volume 2: Inference and Relationship (англ.), Griffin. (Section 31.19)
- ; Young, A.W.; Cave, B.M.; Lee, A.; Pearson, K. (1917). On the distribution of the correlation coefficient in small samples. Appendix II to the papers of "Student" and R.A. Fisher. A co-operative study. [en] (англ.). 11 (4): 328—413. doi:10.1093/biomet/11.4.328.
- Davey, Catherine E.; Grayden, David B.; Egan, Gary F.; Johnston, Leigh A. (January 2013). Filtering induces correlation in fMRI resting state data. NeuroImage (англ.). 64: 728—740. doi:10.1016/j.neuroimage.2012.08.022. hdl:11343/44035. PMID 22939874. S2CID 207184701.
- Hotelling, Harold (1953). New Light on the Correlation Coefficient and its Transforms. Journal of the Royal Statistical Society. Series B (Methodological) (англ.). 15 (2): 193—232. doi:10.1111/j.2517-6161.1953.tb00135.x. JSTOR 2983768.
- Kenney, J.F.; Keeping, E.S. (1951). Mathematics of Statistics (англ.). Т. Part 2 (вид. 2nd). Princeton, NJ: Van Nostrand.
- Weisstein, Eric W. Correlation Coefficient—Bivariate Normal Distribution. Wolfram MathWorld (англ.).
- Taraldsen, Gunnar (2020). Confidence in Correlation. ResearchGate (англ.). doi:10.13140/RG.2.2.23673.49769.
- Lai, Chun Sing; Tao, Yingshan; Xu, Fangyuan; Ng, Wing W.Y.; Jia, Youwei; Yuan, Haoliang; Huang, Chao; Lai, Loi Lei; Xu, Zhao; Locatelli, Giorgio (січень 2019). A robust correlation analysis framework for imbalanced and dichotomous data with uncertainty (PDF). Information Sciences (англ.). 470: 58—77. doi:10.1016/j.ins.2018.08.017. S2CID 52878443.
- Wilcox, Rand R. (2005). Introduction to robust estimation and hypothesis testing (англ.). Academic Press.
- ; Gnanadesikan, R.; Kettenring J.R. (1975). Robust estimation and outlier detection with correlation coefficients. Biometrika (англ.). 62 (3): 531—545. doi:10.1093/biomet/62.3.531. JSTOR 2335508.
- Huber, Peter. J. (2004). Robust Statistics (англ.). Wiley.[]
- Vaart, A. W. van der (13 жовтня 1998). Asymptotic Statistics (англ.). Cambridge University Press. ISBN .
- Katz., Mitchell H. (2006) Multivariable Analysis – A Practical Guide for Clinicians. 2nd Edition. Cambridge University Press. (англ.) .
- Hotelling, H. (1953). New Light on the Correlation Coefficient and its Transforms. Journal of the Royal Statistical Society. Series B (Methodological) (англ.). 15 (2): 193—232. doi:10.1111/j.2517-6161.1953.tb00135.x. JSTOR 2983768.
- Olkin, Ingram; Pratt,John W. (March 1958). Unbiased Estimation of Certain Correlation Coefficients. The Annals of Mathematical Statistics (англ.). 29 (1): 201—211. doi:10.1214/aoms/1177706717. JSTOR 2237306..
- Re: Compute a weighted correlation. sci.tech-archive.net (англ.).
- (англ.). Архів оригіналу за 15 травня 2021. Процитовано 14 січня 2024.
- Nikolić, D; Muresan, RC; Feng, W; Singer, W (2012). Scaled correlation analysis: a better way to compute a cross-correlogram (PDF). European Journal of Neuroscience (англ.). 35 (5): 1—21. doi:10.1111/j.1460-9568.2011.07987.x. PMID 22324876. S2CID 4694570.
- Fulekar (Ed.), M.H. (2009) Bioinformatics: Applications in Life and Environmental Sciences, Springer (англ.) (pp. 110)
- Immink, K. Schouhamer; Weber, J. (жовтень 2010). Minimum Pearson distance detection for multilevel channels with gain and / or offset mismatch. IEEE Transactions on Information Theory (англ.). 60 (10): 5966—5974. CiteSeerX 10.1.1.642.9971. doi:10.1109/tit.2014.2342744. S2CID 1027502. Процитовано 11 лютого 2018.
- Jammalamadaka, S. Rao; SenGupta, A. (2001). Topics in circular statistics (англ.). New Jersey: World Scientific. с. 176. ISBN . Процитовано 21 вересня 2016.
- Cox, D.R.; Hinkley, D.V. (1974). Theoretical Statistics (англ.). Chapman & Hall. Appendix 3. ISBN .
Посилання
- cocor. comparingcorrelations.org (англ.). — Безкоштовний вебінтерфейс та пакет R для статистичного порівняння двох залежних або незалежних кореляцій з перетинними або неперетинними змінними.
- Correlation. nagysandor.eu (англ.). — інтерактивна флешсимуляція кореляції двох нормально розподілених змінних.
- Correlation coefficient calculator. hackmath.net. Linear regression (англ.).
- Critical values for Pearson's correlation coefficient (PDF). frank.mtsu.edu/~dkfuller. — велика таблиця.
- Guess the Correlation (англ.). — Гра, в якій гравці вгадують, наскільки корельовані дві змінні на діаграмі розсіювання, щоби краще зрозуміти поняття кореляції.
Вікіпедія, Українська, Україна, книга, книги, бібліотека, стаття, читати, завантажити, безкоштовно, безкоштовно завантажити, mp3, відео, mp4, 3gp, jpg, jpeg, gif, png, малюнок, музика, пісня, фільм, книга, гра, ігри, мобільний, телефон, android, ios, apple, мобільний телефон, samsung, iphone, xiomi, xiaomi, redmi, honor, oppo, nokia, sonya, mi, ПК, web, Інтернет
U statistici koeficiye nt korelya ciyi Pi rsona KKP angl Pearson correlation coefficient PCC ce koeficiyent korelyaciyi yakij vimiryuye en korelyaciyu mizh dvoma naborami danih Ce vidnoshennya kovariaciyi dvoh zminnih do dobutku yihnih standartnih vidhilen takim chinom ce po suti unormovana mira kovariaciyi taka sho yiyi rezultat zavzhdi maye znachennya mizh 1 ta 1 Yak i sama kovariaciya cya mira mozhe vidobrazhati lishe linijnu korelyaciyu zminnih i ne vrahovuye bagatoh inshih tipiv vzayemozv yazkiv i korelyacij Yak prostij priklad mozhna bulo bi ochikuvati sho vik i zrist grupi pidlitkiv iz serednoyi shkoli matimut koeficiyent korelyaciyi Pirsona znachno bilshij za 0 ale menshij za 1 oskilki 1 oznachalo bi nerealistichno idealnu korelyaciyu Prikladi diagram rozsiyuvannya z riznimi znachennyami koeficiyenta korelyaciyi r Ne plutati z koeficiyentom determinaciyi Dekilka naboriv tochok x y z koeficiyentom korelyaciyi mizh x ta y dlya kozhnogo naboru Korelyaciya vidobrazhuye silu ta napryamok linijnogo zv yazku verhnij ryad ale ne nahil cogo zv yazku serednij ani bagato aspektiv nelinijnih zv yazkiv nizhnij Primitka figura v centri maye nahil 0 ale v comu vipadku koeficiyent korelyaciyi neviznachenij oskilki dispersiya Y nulova Nazva j istoriyaRozrobiv jogo Karl Pirson na osnovi sporidnenoyi ideyi zaproponovanoyi Frensisom Galtonom u 1880 h rokah matematichnu formulu dlya yakoyi viviv ta opublikuvav Ogyust Brave 1844 roku Nazva cogo koeficiyenta ye odnim iz prikladiv zakonu Stiglera ViznachennyaKoeficiyent korelyaciyi Pirsona ce kovariaciya dvoh zminnih podilena na dobutok yihnih standartnih vidhilen Viglyad cogo viznachennya mistit moment dobutku tobto serednye znachennya pershij moment vidnosno pochatku koordinat dobutku zminnih skorigovanih na yihni seredni znachennya tomu v nazvi j vikoristovuyut oznachennya momentu dobutku Dlya sukupnosti Koeficiyent korelyaciyi Pirsona koli jogo zastosovuyut do sukupnosti zazvichaj poznachuyut greckoyu literoyu r ro j mozhut nazivati koeficiyentom korelyaciyi sukupnosti angl population correlation coefficient abo koeficiyentom korelyaciyi Pirsona dlya sukupnosti angl population Pearson correlation coefficient Dlya pari vipadkovih zminnih X Y displaystyle X Y napriklad Zrist ta Vaga formuloyu dlya r ye rX Y cov X Y sXsY displaystyle rho X Y frac operatorname cov X Y sigma X sigma Y de cov displaystyle operatorname cov kovariaciya sX displaystyle sigma X standartne vidhilennya X displaystyle X sY displaystyle sigma Y standartne vidhilennya Y displaystyle Y Formulu dlya cov X Y displaystyle operatorname cov X Y mozhlivo viraziti cherez serednye znachennya ta matematichne spodivannya Oskilki cov X Y E X mX Y mY displaystyle operatorname cov X Y operatorname mathbb E X mu X Y mu Y formulu dlya r displaystyle rho takozh mozhlivo zapisati yak rX Y E X mX Y mY sXsY displaystyle rho X Y frac operatorname mathbb E X mu X Y mu Y sigma X sigma Y de sY displaystyle sigma Y ta sX displaystyle sigma X viznacheno yak vishe mX displaystyle mu X serednye znachennya X displaystyle X mY displaystyle mu Y serednye znachennya Y displaystyle Y E displaystyle operatorname mathbb E matematichne spodivannya Formulu dlya r displaystyle rho mozhlivo viraziti cherez necentrovani momenti Oskilki mX E X mY E Y sX2 E X E X 2 E X2 E X 2sY2 E Y E Y 2 E Y2 E Y 2E X mX Y mY E X E X Y E Y E XY E X E Y displaystyle begin aligned mu X amp operatorname mathbb E X mu Y amp operatorname mathbb E Y sigma X 2 amp operatorname mathbb E left left X operatorname mathbb E X right 2 right operatorname mathbb E left X 2 right left operatorname mathbb E X right 2 sigma Y 2 amp operatorname mathbb E left left Y operatorname mathbb E Y right 2 right operatorname mathbb E left Y 2 right left operatorname mathbb E Y right 2 amp operatorname mathbb E left X mu X right left Y mu Y right operatorname mathbb E left X operatorname mathbb E X right left Y operatorname mathbb E Y right operatorname mathbb E X Y operatorname mathbb E X operatorname mathbb E Y end aligned formulu dlya r displaystyle rho takozh mozhlivo zapisati yak rX Y E XY E X E Y E X2 E X 2 E Y2 E Y 2 displaystyle rho X Y frac operatorname mathbb E X Y operatorname mathbb E X operatorname mathbb E Y sqrt operatorname mathbb E left X 2 right left operatorname mathbb E X right 2 sqrt operatorname mathbb E left Y 2 right left operatorname mathbb E Y right 2 Dlya vibirki Koeficiyent korelyaciyi Pirsona koli jogo zastosovuyut do vibirki zazvichaj poznachuyut cherez rxy displaystyle r xy i mozhut nazivati koeficiyentom korelyaciyi vibirki angl sample correlation coefficient abo koeficiyentom korelyaciyi Pirsona dlya vibirki angl sample Pearson correlation coefficient Formulu dlya rxy displaystyle r xy mozhlivo otrimati pidstavivshi ocinki kovariacij ta dispersij na osnovi vibirki do navedenoyi vishe formuli Dlya parnih danih x1 y1 xn yn displaystyle left x 1 y 1 ldots x n y n right sho skladayutsya z n displaystyle n par rxy displaystyle r xy viznachayut yak rxy i 1n xi x yi y i 1n xi x 2 i 1n yi y 2 displaystyle r xy frac sum i 1 n x i bar x y i bar y sqrt sum i 1 n x i bar x 2 sqrt sum i 1 n y i bar y 2 de n displaystyle n rozmir vibirki xi yi displaystyle x i y i okremi tochki vibirki z indeksom i x 1n i 1nxi textstyle bar x frac 1 n sum i 1 n x i serednye znachennya vibirki j analogichno dlya y displaystyle bar y Peregrupuvannya daye taku formulu dlya rxy displaystyle r xy rxy n xiyi xi yin xi2 xi 2 n yi2 yi 2 displaystyle r xy frac n sum x i y i sum x i sum y i sqrt n sum x i 2 left sum x i right 2 sqrt n sum y i 2 left sum y i right 2 de n xi yi displaystyle n x i y i viznacheno yak vishe Cya formula proponuye zruchnij odnoprohidnij algoritm obchislennya korelyacij vibirok hocha zalezhno vid zadiyanih chisel vona inodi mozhe buti chiselno nestijkoyu Podalshe peregrupuvannya daye taku formulu dlya rxy displaystyle r xy rxy ixiyi nx y ixi2 nx 2 iyi2 ny 2 displaystyle r xy frac sum i x i y i n bar x bar y sqrt sum i x i 2 n bar x 2 sqrt sum i y i 2 n bar y 2 de n xi yi x y displaystyle n x i y i bar x bar y viznacheno yak vishe Ekvivalentnij viraz daye formulu dlya rxy displaystyle r xy yak serednye dobutkiv standartnih ocinok nastupnim chinom rxy 1n 1 i 1n xi x sx yi y sy displaystyle r xy frac 1 n 1 sum i 1 n left frac x i bar x s x right left frac y i bar y s y right de n xi yi x y displaystyle n x i y i bar x bar y viznacheno yak vishe a sx sy displaystyle s x s y viznacheno nizhche xi x sx textstyle left frac x i bar x s x right standartna ocinka j analogichno dlya standartnoyi ocinki y displaystyle y Dostupni j alternativni formuli dlya rxy displaystyle r xy Napriklad mozhlivo vikoristovuvati nastupnu formulu dlya rxy displaystyle r xy rxy xiyi nx y n 1 sxsy displaystyle r xy frac sum x i y i n bar x bar y n 1 s x s y de n xi yi x y displaystyle n x i y i bar x bar y viznacheno yak vishe a sx 1n 1 i 1n xi x 2 textstyle s x sqrt frac 1 n 1 sum i 1 n x i bar x 2 vi birkove standartne vidhilennya j analogichno dlya sy displaystyle s y Dlya spilno gaussovih rozpodiliv Yaksho X Y displaystyle X Y spilno gaussovi z nulovim serednim znachennyam i dispersiyeyu S displaystyle Sigma to S sX2rX YsXsYrX YsXsYsY2 displaystyle Sigma begin bmatrix sigma X 2 amp rho X Y sigma X sigma Y rho X Y sigma X sigma Y amp sigma Y 2 end bmatrix Praktichni problemi V umovah silnogo shumu vidilyannya koeficiyenta korelyaciyi mizh dvoma naborami stohastichnih zminnih netrivialne osoblivo koli kanonichno korelyacijnij analiz pokazuye znizhennya znachen korelyaciyi cherez znachnij vnesok shumu Uzagalnennya cogo pidhodu navedeno v inshomu misci U vipadku vidsutnosti danih Garren viviv ocinyuvannya maksimalnoyu pravdopodibnistyu Deyaki rozpodili napriklad stijki rozpodili vidminni vid normalnogo ne mayut viznachenoyi dispersiyi Matematichni vlastivostiZnachennya koeficiyenta korelyaciyi Pirsona yak dlya vibirki tak i dlya sukupnosti perebuvayut na abo mizh 1 ta 1 Korelyaciyi yaki dorivnyuyut 1 chi 1 vidpovidayut tochkam danih sho lezhat tochno na pryamij u vipadku koeficiyenta korelyaciyi vibirki abo dvovimirnomu rozpodilu en yakogo lezhit na pryamij u vipadku koeficiyenta korelyaciyi sukupnosti Koeficiyent korelyaciyi Pirsona simetrichnij corr X Y corr Y X Klyuchovoyu matematichnoyu vlastivistyu koeficiyenta korelyaciyi Pirsona ye jogo en shodo okremih zmin roztashuvannya ta masshtabu v oboh zminnih Tobto mi mozhemo peretvoriti X na a bX i peretvoriti Y na c dY de a b c ta d stali a b d gt 0 ne zminivshi koeficiyenta korelyaciyi Ce spravdzhuyetsya yak dlya koeficiyenta korelyaciyi sukupnosti tak i dlya koeficiyenta korelyaciyi vibirki Zagalnishi linijni peretvorennya korelyaciyu zminyuyut shodo togo yak ce zastosovuvati div Dekorelyaciya n vipadkovih zminnih TlumachennyaKoeficiyent korelyaciyi nabuvaye znachen z 1 po 1 Absolyutne rivne znachennya 1 oznachaye sho linijne rivnyannya opisuye vzayemozv yazok mizh X ta Y idealno z usima tochkami danih na odnij pryamij Znak korelyaciyi viznachayetsya nahilom regresiyi znachennya 1 oznachaye sho vsi tochki danih lezhat na pryamij za yakoyi Y zrostaye zi zrostannyam X i navpaki dlya 1 Znachennya 0 oznachaye sho mizh zminnimi nemaye linijnoyi zalezhnosti Zagalnishe Xi X Yi Y dodatnij todi j lishe todi koli Xi ta Yi perebuvayut z odnogo boku vid svoyih serednih znachen Vidtak koeficiyent korelyaciyi dodatnij koli Xi ta Yi shilni buti odnochasno bilshimi abo odnochasno menshimi za svoyi seredni znachennya Koeficiyent korelyaciyi vid yemnij antikorelyaciya koli Xi ta Yi shilni perebuvati po rizni boki vid svoyih serednih znachen Bilshe togo sho silnisha bud yaka z cih tendencij to bilshe absolyutne znachennya koeficiyenta korelyaciyi Rodzhers ta Najsvander perelichili trinadcyat sposobiv tlumachennya korelyaciyi abo prostih funkcij vid neyi Funkciya vid sirih ocinok ta serednih znachen Standartizovana kovariaciya Standartizovanij nahil liniyi regresiyi Geometrichne serednye dvoh nahiliv regresiyi Kvadratnij korin vidnoshennya dvoh dispersij Serednij vektornij dobutok standartizovanih zminnih Funkciya kuta mizh dvoma standartizovanimi regresijnimi liniyami Funkciya kuta mizh dvoma vektorami zminnih Peremasshtabovana dispersiya riznici standartizovanih ocinok Ocinka za pravilom povitryanoyi kulki Pov yazana z dvovimirnimi elipsami izokoncentraciyi Funkciya statistichnogo kriteriyu iz zaplanovanih eksperimentiv Vidnoshennya dvoh serednihGeometrichne tlumachennya Liniyi regresiyi dlya y gX x chervona ta x gY y sinya Dlya necentrovanih danih isnuye zv yazok mizh koeficiyentom korelyaciyi ta kutom f mizh dvoma regresijnimi liniyami y gX x ta x gY y otrimanimi v rezultati regresiyi y na x ta x na y vidpovidno Tut f vidkladayut proti godinnikovoyi strilki v pershomu kvadranti utvorenomu navkolo tochki peretinu linij yaksho r gt 0 chi proti godinnikovoyi strilki z chetvertogo do drugogo kvadrantu yaksho r lt 0 Mozhlivo pokazati sho yaksho standartni vidhilennya rivni to r sec f tg f de sec ta tg trigonometrichni funkciyi Dlya centrovanih danih tobto danih zmishenih na seredni znachennya yihnih vidpovidnih zminnih takim chinom shobi serednye znachennya kozhnoyi zminnoyi bulo nulovim koeficiyent korelyaciyi takozh mozhlivo rozglyadati yak kosinus kuta 8 mizh dvoma sposterezhuvanimi vektorami v N vimirnomu prostori dlya N sposterezhen kozhnoyi zminnoyi Koeficiyenti yak necentrovanoyi ne pirsonovo sumisnoyi tak i centrovanoyi korelyaciyi mozhlivo viznachati dlya naboru danih Napriklad pripustimo sho viyavleno sho p yat krayin mayut valovij nacionalnij produkt 1 2 3 5 ta 8 milyardiv dolariv vidpovidno Pripustimo sho ci zh p yat krayin u tomu zh poryadku mayut 11 12 13 15 ta 18 bidnosti Todi nehaj x ta y budut vporyadkovanimi 5 elementnimi vektorami sho mistyat navedeni vishe dani x 1 2 3 5 8 ta y 0 11 0 12 0 13 0 15 0 18 Za zvichajnoyu proceduroyu viznachennya kuta 8 mizh dvoma vektorami div skalyarnij dobutok koeficiyent necentrovanoyi korelyaciyi stanovit cos 8 x y x y 2 931030 0983 0 920814711 displaystyle cos theta frac mathbf x cdot mathbf y left mathbf x right left mathbf y right frac 2 93 sqrt 103 sqrt 0 0983 0 920814711 Cej koeficiyent necentrovanoyi korelyaciyi identichnij kosinusnij podibnosti Navedeni vishe dani bulo svidomo obrano tak shobi voni buti idealno korelovanimi y 0 10 0 01 x Tomu koeficiyent korelyaciyi Pirsona musit dorivnyuvati rivno odinici Centruvannya danih zmishennya x na ℰ x 3 8 ta y na ℰ y 0 138 daye x 2 8 1 8 0 8 1 2 4 2 ta y 0 028 0 018 0 008 0 012 0 042 zvidki cos 8 x y x y 0 30830 80 00308 1 rxy displaystyle cos theta frac mathbf x cdot mathbf y left mathbf x right left mathbf y right frac 0 308 sqrt 30 8 sqrt 0 00308 1 rho xy yak i ochikuvalosya Tlumachennya rozmiru korelyaciyi Cej risunok daye uyavlennya pro te yak korisnist korelyaciyi Pirsona dlya peredbachuvannya znachen zminyuyetsya zalezhno vid yiyi velichini Dlya spilno normalnih X Y z korelyaciyeyu r 1 1 r2 displaystyle 1 sqrt 1 rho 2 zobrazhenij tut yak funkciya r ce koeficiyent na yakij mozhe buti zmensheno zadanij en dlya Y z urahuvannyam vidpovidnogo znachennya X Napriklad yaksho r 0 5 to 95 vij interval peredbachennya Y X bude priblizno na 13 menshim za 95 vij interval peredbachennya Y Dekilka avtoriv zaproponuvali nastanovi dlya tlumachennya koeficiyenta korelyaciyi Prote vsi taki kriteriyi desho dovilni Tlumachennya koeficiyenta korelyaciyi zalezhit vid kontekstu ta cilej Korelyaciya 0 8 mozhe buti duzhe nizkoyu yaksho jdetsya pro perevirku fizichnogo zakonu z vikoristannyam visokoyakisnih instrumentiv ale mozhe vvazhatisya duzhe visokoyu v socialnih naukah de vnesok vid uskladnyuvalnih chinnikiv mozhe buti bilshim VisnovuvannyaStatistichne visnovuvannya na osnovi koeficiyenti korelyaciyi Pirsona chasto zoseredzhuyetsya na odnij z nastupnih dvoh cilej Odna meta polyagaye v perevirci nulovoyi gipotezi sho istinnij koeficiyent korelyaciyi r dorivnyuye 0 na osnovi znachennya koeficiyenta korelyaciyi vibirki r Insha meta polyagaye v tomu shobi vivesti dovirchij interval yakij pri povtoryuvanomu vibiranni maye zadanu jmovirnist mistiti r Metodi dosyagnennya odniyeyi abo oboh cih cilej obgovoryuyutsya nizhche Vikoristannya perestanovkovogo kriteriyu Perstanovkovi kriteriyi zabezpechuyut pryamij pidhid do zdijsnennya perevirok gipotez i pobudovi dovirchih intervaliv Perestanovkovij kriterij dlya koeficiyenta korelyaciyi Pirsona mistit nastupni dva kroki Vikoristovuyuchi pervinni parovani dani xi yi vipadkovo viznachiti pari zanovo stvorivshi novij nabir danih xi yi de i perestanovka mnozhini 1 n Perestanovku i vibirayut vipadkovo z rivnimi jmovirnostyami dlya vsih n mozhlivih perestanovok Ce rivnoznachne vibirannyu i vipadkovo bez povtoriv z mnozhini 1 n U natyazhci tisno pov yazanomu pidhodi i ta i ye rivnimi j vibirayutsya z 1 n z povtorami Pobuduvati koeficiyent korelyaciyi r z cih uvipadkovlenih danih Shobi vikonati perevirku perestanovkovogo kriteriyu povtorit kroki 1 ta 2 veliku kilkist raziv p znachennya dlya perestanovkovogo kriteriyu ce chastka znachen r porodzhenih na kroci 2 bilshih za koeficiyent korelyaciyi Pirsona obchislenij iz pervinnih danih Tut bilshij mozhe oznachati yak bilshij za absolyutnim znachennyam tak i bilshij za znachennyam zi znakom zalezhno vid togo chi potriben en chi en kriterij Vikoristannya natyazhki Dlya pobudovi dovirchih intervaliv dlya koeficiyenta korelyaciyi Pirsona mozhlivo vikoristovuvati natyazhku V neparametrichnij natyazhci n par xi yi perevibirayut zi sposterezhuvanogo naboru z n par z povtorami j koeficiyent korelyaciyi r obchislyuyut na osnovi cih perevibranih danih Cej proces povtoryuyut veliku kilkist raziv i cej empirichnij rozpodil perevibranih znachen r vikoristovuyut dlya nablizhennya vibirkovogo rozpodilu ciyeyi statistiki 95 vij dovirchij interval dlya r mozhlivo viznachiti yak interval sho prostyagayetsya vid 2 5 go do 97 5 go percentilya perevibranih znachen r Standartna pohibka Yaksho x displaystyle x ta y displaystyle y vipadkovi zminni to standartnoyu pohibkoyu pov yazanoyu z korelyaciyeyu u vipadku nulovoyi gipotezi ye sr 1 r2n 2 displaystyle sigma r sqrt frac 1 r 2 n 2 de r displaystyle r korelyaciya za pripushennya r 0 a n displaystyle n rozmir vibirki Perevirka z vikoristannyam rozpodilu St yudenta Kritichni znachennya koeficiyenta korelyaciyi Pirsona yaki maye buti perevisheno shobi vvazhati jogo znachno nenulovim na rivni 0 05 Dlya par z nekorelovanogo dvovimirnogo normalnogo rozpodilu vibirkovij rozpodil st yudentovanogo koeficiyenta korelyaciyi Pirsona dotrimuyetsya t rozpodilu St yudenta zi stupenyami vilnosti n 2 Zokrema yaksho zminni v osnovi mayut dvovimirnij normalnij rozpodil to zminna t rsr rn 21 r2 displaystyle t frac r sigma r r sqrt frac n 2 1 r 2 u vipadku nulovoyi gipotezi nulovoyi korelyaciyi maye rozpodil St yudenta Ce priblizno vikonuyetsya u vipadku ne normalnih sposterezhuvanih znachen yaksho rozmiri vibirok dostatno veliki Dlya viznachennya kritichnih znachen dlya r potribna obernena funkciya r tn 2 t2 displaystyle r frac t sqrt n 2 t 2 Takozh mozhlivo vikoristovuvati asimptotichni pidhodi dlya velikih vibirok Insha rannya stattya proponuye grafiki ta tablici dlya zagalnih znachen r dlya malih rozmiriv vibirki ta obgovoryuye pidhodi do obchislen U vipadku yaksho zminni v osnovi ne normalni vibirkovij rozpodil koeficiyenta korelyaciyi Pirsona dotrimuyetsya rozpodilu St yudenta ale stupeni vilnosti znizhuyutsya Vikoristannya tochnogo rozpodilu Dlya danih sho sliduyut dvovimirnomu normalnomu rozpodilu tochnoyu funkciyeyu gustini f r dlya vibirkovogo koeficiyenta korelyaciyi r normalnogo dvovimirnogo rozpodilu ye f r n 2 G n 1 1 r2 n 12 1 r2 n 422pG n 12 1 rr n 322F1 12 12 12 2n 1 12 rr 1 displaystyle f r frac n 2 mathrm Gamma n 1 left 1 rho 2 right frac n 1 2 left 1 r 2 right frac n 4 2 sqrt 2 pi operatorname Gamma mathord left n tfrac 1 2 right 1 rho r n frac 3 2 2 mathrm F 1 mathord left tfrac 1 2 tfrac 1 2 tfrac 1 2 2n 1 tfrac 1 2 rho r 1 right de G displaystyle Gamma ce gamma funkciya a 2F1 a b c z displaystyle 2 mathrm F 1 a b c z gaussova gipergeometrichna funkciya V okremomu vipadku koli r 0 displaystyle rho 0 nulova korelyaciya v sukupnosti tochnu funkciyu gustini f r mozhlivo zapisati yak f r 11 r2 n 12n 2B 12 n 22 displaystyle f r frac left frac 1 1 r 2 right frac n 1 2 sqrt n 2 operatorname mathrm B mathord left tfrac 1 2 tfrac n 2 2 right de B displaystyle mathrm B ce beta funkciya sho ye odnim zi sposobiv zapisu gustini t rozpodilu St yudenta dlya st yudentovanogo vibirkovogo koeficiyenta korelyaciyi yak zaznacheno vishe Vikoristannya tochnogo dovirchogo rozpodilu Dovirchi intervali ta kriteriyi mozhlivo rozrahovuvati z en Tochna dovircha gustina dlya r stanovit p r r n n 1 G n 1 2pG n 12 1 r2 n 12 1 r2 n 22 1 rr 1 2n2F 32 12 n 12 1 rr2 displaystyle pi rho mid r frac nu nu 1 Gamma nu 1 sqrt 2 pi Gamma left nu frac 1 2 right left 1 r 2 right frac nu 1 2 cdot left 1 rho 2 right frac nu 2 2 cdot left 1 r rho right frac 1 2 nu 2 operatorname F left tfrac 3 2 tfrac 1 2 nu tfrac 1 2 tfrac 1 r rho 2 right de F displaystyle operatorname F ce gaussova gipergeometrichna funkciya a n n 1 gt 1 displaystyle nu n 1 gt 1 Vikoristannya peretvorennya Fishera Dokladnishe en Na praktici obchislennya dovirchih intervaliv ta perevirki gipotez shodo r zazvichaj vikonuyut za dopomogoyu en F displaystyle F F r 12ln 1 r1 r arth r displaystyle F r equiv tfrac 1 2 ln left frac 1 r 1 r right operatorname arth r F r priblizno dotrimuyetsya normalnomu rozpodilu de serednye F r arth r displaystyle text serednye F rho operatorname arth rho a standartna pohibka SE 1n 3 displaystyle text SE frac 1 sqrt n 3 de n rozmir vibirki Pohibka nablizhennya najnizhcha dlya velikogo rozmiru vibirki n displaystyle n i malih znachen r displaystyle r ta r0 displaystyle rho 0 i zbilshuyetsya v inshomu vipadku Za vikoristannya cogo nablizhennya z ocinka stanovit z x serednyeSE F r F r0 n 3 displaystyle z frac x text serednye text SE F r F rho 0 sqrt n 3 za nulovoyu gipotezoyu sho r r0 displaystyle rho rho 0 za pripushennya sho pari vibirki nezalezhni j odnakovo rozpodileni ta dotrimuyutsya dvovimirnogo normalnogo rozpodilu Vidtak mozhlivo otrimati nablizhene p znachennya z tablici normalnoyi jmovirnosti Napriklad yaksho sposterigayetsya z 2 2 j potribne dvobichne p znachennya dlya perevirki nulovoyi gipotezi sho r 0 displaystyle rho 0 to p znachennya stanovitime 2 F 2 2 0 028 de F ce standartna normalna funkciya rozpodilu Shob otrimati dovirchij interval dlya r spochatku obchislimo dovirchij interval dlya F r displaystyle rho 100 1 a CI arth r arth r za 2SE displaystyle 100 1 alpha text CI operatorname arth rho in operatorname arth r pm z alpha 2 text SE Obernene peretvorennya Fishera povertaye interval do shkali korelyaciyi 100 1 a CI r th arth r za 2SE th arth r za 2SE displaystyle 100 1 alpha text CI rho in operatorname th operatorname arth r z alpha 2 text SE operatorname th operatorname arth r z alpha 2 text SE Napriklad pripustimo sho mi sposterigayemo r 0 7 z rozmirom vibirki n 50 i hochemo otrimati 95 vij dovirchij interval dlya r Peretvorene znachennya stanovit arth r 0 8673 textstyle operatorname arth left r right 0 8673 tomu dovirchij interval u peretvorenij shkali stanovit 0 8673 1 9647 displaystyle 0 8673 pm frac 1 96 sqrt 47 abo 0 5814 1 1532 Peretvorennya nazad do shkali korelyaciyi daye 0 5237 0 8188 V regresijnomu analizi metodom najmenshih kvadrativPro zagalnishu ne linijnu zalezhnist div en en Kvadrat koeficiyenta korelyaciyi vibirki zazvichaj poznachuyut cherez r2 vin ye okremim vipadkom koeficiyenta determinaciyi U comu vipadku vin ocinyuye chastku dispersiyi Y yaku poyasnyuye X cherez prostu linijnu regresiyu Otzhe yaksho ye sposterezhuvanij nabir danih Y1 Yn displaystyle Y 1 dots Y n ta dopasovanij nabir danih Y 1 Y n displaystyle hat Y 1 dots hat Y n to yak vidpravnu tochku povnu dispersiyu Yi navkolo yihnogo serednogo znachennya mozhlivo rozklasti yak i Yi Y 2 i Yi Y i 2 i Y i Y 2 displaystyle sum i Y i bar Y 2 sum i Y i hat Y i 2 sum i hat Y i bar Y 2 de Y i displaystyle hat Y i ce dopasovani znachennya z regresijnogo analizu Ce mozhlivo pereformulyuvati yak 1 i Yi Y i 2 i Yi Y 2 i Y i Y 2 i Yi Y 2 displaystyle 1 frac sum i Y i hat Y i 2 sum i Y i bar Y 2 frac sum i hat Y i bar Y 2 sum i Y i bar Y 2 Obidva dodanki vishe ce chastka dispersiyi v Y yaku poyasnyuye X pravij ta yaku X ne poyasnyuye livij Dali mi zastosovuyemo vlastivist regresijnih modelej najmenshih kvadrativ sho vibirkova kovariaciya mizh Y i displaystyle hat Y i ta Yi Y i displaystyle Y i hat Y i nulova Tozh vibirkovij koeficiyent korelyaciyi mizh sposterezhuvanimi ta dopasovanimi znachennyami vidguku v regresiyi mozhlivo zapisati obchislennya vikonuyetsya vihodyachi z ochikuvannya gaussovoyi statistiki yak r Y Y i Yi Y Y i Y i Yi Y 2 i Y i Y 2 i Yi Y i Y i Y Y i Y i Yi Y 2 i Y i Y 2 i Yi Y i Y i Y Y i Y 2 i Yi Y 2 i Y i Y 2 i Y i Y 2 i Yi Y 2 i Y i Y 2 i Y i Y 2 i Yi Y 2 displaystyle begin aligned r Y hat Y amp frac sum i Y i bar Y hat Y i bar Y sqrt sum i Y i bar Y 2 cdot sum i hat Y i bar Y 2 6pt amp frac sum i Y i hat Y i hat Y i bar Y hat Y i bar Y sqrt sum i Y i bar Y 2 cdot sum i hat Y i bar Y 2 6pt amp frac sum i Y i hat Y i hat Y i bar Y hat Y i bar Y 2 sqrt sum i Y i bar Y 2 cdot sum i hat Y i bar Y 2 6pt amp frac sum i hat Y i bar Y 2 sqrt sum i Y i bar Y 2 cdot sum i hat Y i bar Y 2 6pt amp sqrt frac sum i hat Y i bar Y 2 sum i Y i bar Y 2 end aligned Tozh r Y Y 2 i Y i Y 2 i Yi Y 2 displaystyle r Y hat Y 2 frac sum i hat Y i bar Y 2 sum i Y i bar Y 2 de r Y Y 2 displaystyle r Y hat Y 2 chastka dispersiyi Y poyasnyuvana linijnoyu funkciyeyu X U navedenomu vishe vivedenni toj fakt sho i Yi Y i Y i Y 0 displaystyle sum i Y i hat Y i hat Y i bar Y 0 mozhlivo dovesti vidmitivshi sho chastinni pohidni en RSS za b0 ta b1 u modeli najmenshih kvadrativ dorivnyuyut 0 de RSS i Yi Y i 2 displaystyle text RSS sum i Y i hat Y i 2 Kinec kincem rivnyannya mozhlivo zapisati yak r Y Y 2 SSregSStot displaystyle r Y hat Y 2 frac text SS text reg text SS text tot de SSreg i Y i Y 2 displaystyle text SS text reg sum i hat Y i bar Y 2 SStot i Yi Y 2 displaystyle text SS text tot sum i Y i bar Y 2 Simvol SSreg displaystyle text SS text reg nazivayut sumoyu kvadrativ regresiyi takozh vidomoyu yak poyasnena suma kvadrativ a SStot displaystyle text SS text tot en proporcijna dispersiyi danih Chutlivist do rozpodilu danihDokladnishe Korelyaciya i zalezhnist Chutlivist do rozpodilu danih Isnuvannya Koeficiyent korelyaciyi Pirsona dlya sukupnosti viznacheno cherez momenti j tomu vin isnuye dlya bud yakogo dvovimirnogo rozpodilu jmovirnosti dlya yakogo viznacheni kovariaciya sukupnosti ta vidosobleni dispersiyi sukupnosti j voni nenulovi Deyaki rozpodili jmovirnosti taki yak rozpodil Koshi mayut neviznachenu dispersiyu j vidtak yaksho X abo Y vidpovidayut takomu rozpodilovi to r neviznachenij U deyakih praktichnih zastosuvannyah dani v yakih pidozryuyut na vidpovidnist en ce vazhlivij aspekt Prote isnuvannya koeficiyenta korelyaciyi zazvichaj ne problema napriklad yaksho diapazon rozpodilu obmezhenij r zavzhdi viznachenij Rozmir vibirki Yaksho rozmir vibirki pomirnij abo velikij i sukupnist normalna to u vipadku dvovimirnogo normalnogo rozpodilu vibirkovij koeficiyent korelyaciyi ye maksimalno pravdopodibnisnoyu ocinkoyu koeficiyenta korelyaciyi sukupnosti en en ta en sho priblizno oznachaye nemozhlivist pobuduvati ocinku tochnishu za vibirkovij koeficiyent korelyaciyi Yaksho rozmir vibirki velikij i sukupnist ne normalna to vibirkovij koeficiyent korelyaciyi zalishayetsya priblizno nezmishenim ale mozhe ne buti efektivnim Yaksho rozmir vibirki velikij to vibirkovij koeficiyent korelyaciyi ye slushnoyu ocinkoyu koeficiyenta korelyaciyi sukupnosti za umovi sho seredni znachennya vibirki dispersiyi ta kovariaciya slushni sho garantovano koli mozhlivo zastosuvati zakon velikih chisel Yaksho rozmir vibirki malij to vibirkovij koeficiyent korelyaciyi r ne ye nezmishenoyu ocinkoyu r Zamist cogo slid vikoristovuvati skorigovanij koeficiyent korelyaciyi viznachennya div dali u cij statti Korelyaciyi mozhut buti riznimi dlya nezbalansovanih dihotomnih danih koli u vibirci ye pomilka dispersiyi Robastnist Yak i bagato inshih chasto vikoristovuvanih statistik vibirkova statistika r ne robastna tozh za nayavnosti vikidiv yiyi znachennya mozhe buti omanlivim Zokrema koeficiyent korelyaciyi momentu dobutku ne robastnij ani shodo rozpodilu ani shodo vikidiv div Robastnist u statistici Ponyattya robastnosti Perevirka diagrami rozsiyannya mizh X ta Y zazvichaj viyavlyaye situaciyu koli robastnist mozhe buti problemoyu i v takih vipadkah mozhe buti rekomendovano vikoristovuvati robastnu miru pov yazanosti Prote slid zaznachiti sho hoch bilshist robastnih ocinyuvachiv pov yazanosti i vimiryuyut yakimos chinom statistichnu zalezhnist voni zazvichaj ne interpretovni toyu zh miroyu sho j koeficiyent korelyaciyi Pirsona Statistichne visnovuvannya dlya koeficiyenta korelyaciyi Pirsona chutlive do rozpodilu danih Tochni kriteriyi ta asimptotichni kriteriyi na osnovi en mozhlivo zastosovuvati yaksho dani rozpodileni priblizno normalno ale v inshomu razi voni mozhut buti omanlivimi U deyakih situaciyah mozhlivo vikoristovuvati natyazhku dlya stvorennya dovirchih intervaliv a perestanovkovi kriteriyi dlya zdijsnennya perevirki gipotez Ci en pidhodi mozhut davati zmistovnishi rezultati v deyakih situaciyah koli dvovimirna normalnist ne vikonuyetsya Prote standartni versiyi cih pidhodiv pokladayutsya na en danih sho oznachaye sho ne isnuye vporyadkuvannya chi grupuvannya analizovanih par danih yaki mogli bi vplinuti na povedinku ocinki korelyaciyi Stratifikovanij analiz ce odin zi sposobiv abo pristosuvannya do vidsutnosti dvovimirnoyi normalnosti abo dlya vidokremlennya korelyaciyi sho viplivaye z odnogo chinnika pri kontroli nad inshim Yaksho W podaye prinalezhnist do klasteru abo inshij chinnik yakij hochetsya kontrolyuvati mozhlivo stratifikuvati dani na osnovi znachennya W a potim obchisliti koeficiyent korelyaciyi v mezhah kozhnoyi strati Ocinki na rivni strat potim mozhlivo ob yednati dlya ocinki zagalnoyi korelyaciyi pri kontroli nad W VariantiDiv takozh Korelyaciya i zalezhnist Inshi miri zalezhnosti mizh vipadkovimi velichinami Isnuyut rizni variaciyi koeficiyenta korelyaciyi yaki mozhlivo obchislyuvati dlya riznih cilej Os dekilka prikladiv Skorigovanij koeficiyent korelyaciyi Vibirkovij koeficiyent korelyaciyi r ne ye nezmishenoyu ocinkoyu r Dlya danih sho dotrimuyutsya dvovimirnomu normalnomu rozpodilu matematichne spodivannya E r vibirkovogo koeficiyenta korelyaciyi r normalnoyi dvovimirnosti stanovit E r r r 1 r2 2n displaystyle operatorname mathbb E left r right rho frac rho left 1 rho 2 right 2n cdots quad tozh r ye zmishenim ocinyuvachem r displaystyle rho Unikalnij minimalno dispersijnij nezmishenij ocinyuvach angl unique minimum variance unbiased estimator radj zadayetsya yak radj r2F1 12 12 n 12 1 r2 displaystyle r text adj r mathbf 2 F 1 left frac 1 2 frac 1 2 frac n 1 2 1 r 2 right 1 de r n displaystyle r n viznacheno yak vishe 2F1 a b c z displaystyle mathbf 2 F 1 a b c z gaussova gipergeometrichna funkciya Priblizno nezmishenij ocinyuvach angl approximately unbiased estimator radj mozhlivo otrimati dzherelo shlyahom utinannya E r ta rozv yazannya cogo utyatogo rivnyannya r E r radj radj 1 radj2 2n displaystyle r operatorname mathbb E r approx r text adj frac r text adj left 1 r text adj 2 right 2n 2 Pribliznim rozv yazkom dzherelo rivnyannya 2 ye radj r 1 1 r22n displaystyle r text adj approx r left 1 frac 1 r 2 2n right 3 de u 3 r n displaystyle r n viznacheno yak vishe radj suboptimalnij ocinyuvach dzherelo proyasniti kom radj takozh mozhlivo otrimati maksimizuvannyam log f r radj maye minimalnu dispersiyu za velikih znachen n radj maye zmishennya poryadku 1 n 1 Inshim zaproponovanim skorigovanim koeficiyentom korelyaciyi angl adjusted correlation coefficient ye dzherelo radj 1 1 r2 n 1 n 2 displaystyle r text adj sqrt 1 frac 1 r 2 n 1 n 2 radj r za velikih znachen n Koeficiyent zvazhenoyi korelyaciyi Pokladimo sho sposterezhennya yaki potribno skorelyuvati mayut rizni stupeni vazhlivosti yaki mozhlivo viraziti vagovim vektorom w Shob obchisliti korelyaciyu mizh vektorami x ta y z vagovim vektorom w vsi dovzhinoyu n Zvazhene serednye m x w iwixi iwi displaystyle operatorname m x w frac sum i w i x i sum i w i Zvazhena kovariaciya cov x y w iwi xi m x w yi m y w iwi displaystyle operatorname cov x y w frac sum i w i cdot x i operatorname m x w y i operatorname m y w sum i w i Zvazhena korelyaciya angl weighted correlation corr x y w cov x y w cov x x w cov y y w displaystyle operatorname corr x y w frac operatorname cov x y w sqrt operatorname cov x x w operatorname cov y y w Viddzerkalyuvalnij koeficiyent korelyaciyi Viddzerkalyuvalna korelyaciya angl reflective correlation ce variant pirsonovoyi korelyaciyi v yakomu dani ne centrovano navkolo yihnih serednih znachen dzherelo Viddzerkalyuvalna korelyaciya sukupnosti ce corrr X Y E XY E X2 E Y2 displaystyle operatorname corr r X Y frac operatorname mathbb E X Y sqrt operatorname mathbb E X 2 cdot operatorname mathbb E Y 2 Viddzerkalyuvalna korelyaciya simetrichna ale ne invariantna shodo paralelnogo perenesennya corrr X Y corrr Y X corrr X bY corrr X a bY a 0 b gt 0 displaystyle operatorname corr r X Y operatorname corr r Y X operatorname corr r X bY neq operatorname corr r X a bY quad a neq 0 b gt 0 Viddzerkalyuvalna korelyaciya vibirki ekvivalentna kosinusnij podibnosti rrxy xiyi xi2 yi2 displaystyle rr xy frac sum x i y i sqrt sum x i 2 sum y i 2 Zvazhena versiya vibirkovoyi viddzerkalyuvalnoyi korelyaciyi ce rrxy w wixiyi wixi2 wiyi2 displaystyle rr xy w frac sum w i x i y i sqrt sum w i x i 2 sum w i y i 2 Masshtabnij koeficiyent korelyaciyi Dokladnishe en Masshtabna korelyaciya angl scaled correlation ce variant korelyaciyi Pirsona v yakomu diapazon danih obmezhuyut navmisno j kontrolovano shobi viyavlyati korelyaciyi mizh shvidkimi skladovimi v chasovih ryadah Masshtabnu korelyaciyu viznachayut yak serednyu korelyaciyu nad korotkimi segmentami danih Nehaj K displaystyle K ce kilkist segmentiv yaki mozhut vmistitisya v zagalnu dovzhinu signalu T displaystyle T dlya zadanogo masshtabu s displaystyle s K round Ts displaystyle K operatorname round left frac T s right Todi masshtabnu korelyaciyu nad usim signalom r s displaystyle bar r s obchislyuyut yak r s 1K k 1Krk displaystyle bar r s frac 1 K sum limits k 1 K r k de rk displaystyle r k koeficiyent korelyaciyi Pirsona dlya segmenta k displaystyle k Shlyahom obirannya parametra s displaystyle s zmenshuyut diapazon znachen i korelyaciyi na dovgih chasovih masshtabah vidfiltrovuyutsya tak sho viyavlyayutsya lishe korelyaciyi na korotkih chasovih masshtabah Takim chinom usuvayut vneski povilnih skladovih i zberigayut vneski shvidkih skladovih Vidstan Pirsona Metriku vidstani dlya dvoh zminnih X ta Y vidomu yak vidstan Pirsona angl Pearson s distance mozhlivo viznachati z koeficiyenta yihnoyi korelyaciyi yak dX Y 1 rX Y displaystyle d X Y 1 rho X Y Vrahovuyuchi te sho koeficiyent korelyaciyi Pirsona perebuvaye v mezhah 1 1 vidstan Pirsona lezhit na promizhku 0 2 Vidstan Pirsona vikoristovuvali v klasternomu analizi ta viyavlyanni danih dlya peredavannya ta zberigannya z nevidomimi peredavalnim koeficiyentom ta zmishennyam Viznachena takim chinom vidstan Pirsona dlya vid yemnih korelyacij vstanovlyuye vidstan ponad 1 Naspravdi znachennya mayut yak silna dodatna tak i silna vid yemna korelyaciyi tomu potribno buti oberezhnimi pri vikoristanni vidstani Pirsona v algoritmah najblizhchih susidiv oskilki taki algoritmi vklyuchatimut lishe susidiv iz dodatnoyu korelyaciyeyu j viklyuchati susidiv iz vid yemnoyu Yak alternativu mozhlivo zastosovuvati vidstan z absolyutnim znachennyam dX Y 1 rX Y displaystyle d X Y 1 rho X Y yaka vrahovuvatime yak dodatni tak i vid yemni korelyaciyi Informaciyu pro dodatnu ta vid yemnu pov yazanist mozhlivo vidilyati okremo piznishe Kolovij koeficiyent korelyaciyi Dokladnishe Krugova statistika Dlya zminnih X x1 xn ta Y y1 yn viznachenih na odinichnomu koli 0 2p displaystyle 0 2 pi mozhlivo viznachiti kolovij angl circular analog koeficiyenta Pirsona Ce robitsya shlyahom takogo peretvorennya danih v X ta Y za dopomogoyu funkciyi sinusa sho koeficiyent korelyaciyi viznachayetsya yak rcircular i 1nsin xi x sin yi y i 1nsin xi x 2 i 1nsin yi y 2 displaystyle r text circular frac sum i 1 n sin x i bar x sin y i bar y sqrt sum i 1 n sin x i bar x 2 sqrt sum i 1 n sin y i bar y 2 de x displaystyle bar x ta y displaystyle bar y en X ta Y Cya mira mozhe buti korisnoyu v takih galuzyah yak meteorologiya de vazhlivij kutovij napryamok danih Chastinna korelyaciya Dokladnishe Chastinna korelyaciya Yaksho sukupnist abo nabir danih harakterizuyetsya ponad dvoma zminnimi koeficiyent chastinnoyi korelyaciyi vimiryuye silu zalezhnosti mizh paroyu zminnih yaka ne poyasnyuyetsya tim yak voni obidvi zminyuyutsya u vidpovid na variaciyi v obranij pidmnozhini inshih zminnih Dekorelyaciya n vipadkovih zminnihDokladnishe en Zavzhdi mozhlivo usunuti korelyaciyi mizh usima parami dovilnogo chisla vipadkovih zminnih za dopomogoyu peretvorennya danih navit yaksho vzayemozv yazok mizh cimi zminnimi nelinijnij Podannya cogo rezultatu dlya rozpodiliv sukupnostej naveli Koks ta Ginkli Isnuye vidpovidnij rezultat dlya zvedennya do nulya j vibirkovih korelyacij Pripustimo sho vektor z n vipadkovih zminnih sposterigayut m raziv Nehaj X matricya de Xi j displaystyle X i j j ta zminna sposterezhennya i Nehaj Zm m displaystyle Z m m kvadratna matricya m na m z usima elementami 1 Todi D ce dani peretvoreni tak sho kozhna vipadkova zminna maye nulove serednye a T ce dani peretvoreni tak sho vsi zminni mayut nulove serednye j nulovu korelyaciyu z usima inshimi zminnimi vibirkova korelyacijna matricya T bude odinichnoyu matriceyu Ce potribno dodatkovo podiliti na standartne vidhilennya shob otrimati odinichnu dispersiyu Peretvoreni zminni budut nekorelovanimi hoch voni j mozhut buti ne nezalezhnimi D X 1mZm mX displaystyle D X frac 1 m Z m m X T D DTD 12 displaystyle T D D mathsf T D frac 1 2 de stepin 1 2 podaye kvadratnij korin obernenoyi matrici Matricya korelyaciyi T bude odinichnoyu Yaksho nove sposterezhennya danih x ce ryadkovij vektor z n elementiv to te same peretvorennya mozhlivo zastosuvati j do x shob otrimati peretvoreni vektori d ta t d x 1mZ1 mX displaystyle d x frac 1 m Z 1 m X t d DTD 12 displaystyle t d D mathsf T D frac 1 2 Dekorelyaciya pov yazana z analizom golovnih komponent dlya bagatovimirnih danih Programni vtilennyaU bazovomu paketi statistiki R cej koeficiyent korelyaciyi vtileno cherez cor x y abo z P znachennyam cherez cor test x y U biblioteci Python SciPy cherez pearsonr x y Biblioteka Python Pandas vtilyuye obchislennya koeficiyenta korelyaciyi Pirsona yak variant za zamovchuvannyam dlya metodu pandas DataFrame corr Wolfram Mathematica cherez funkciyu Correlation abo z P znachennyam cherez CorrelationTest Biblioteka C Boost cherez funkciyu correlation coefficient Excel maye vbudovanu funkciyu correl array1 array2 dlya obchislennya koeficiyenta korelyaciyi Pirsona Div takozhPortal Matematika en en en Kvartet Anskombe en en en en Koeficiyent korelyaciyi rangu Spirmena en en en Korelyaciya i zalezhnist en en en Pov yazanist statistika en en Chastinna korelyaciyaVinoskiVidomij takozh yak r Pi rsona angl Pearson s r koeficiye nt korelya ciyi mome ntu do butku Pi rsona angl Pearson product moment correlation coefficient PPMCC dvovi mirna korelya ciya angl bivariate correlation ta prosto nekonkretizovanij koeficiye nt korelya ciyi angl correlation coefficient She 1877 roku Galton vikoristovuvav termin reversiya angl reversion div regresiyu do serednogo j simvol r dlya togo sho zgodom stane regresiyeyu angl regression PrimitkiSPSS Tutorials Pearson Correlation angl Correlation Coefficient Simple Definition Formula Easy Steps Statistics How To angl Galton F 5 19 April 1877 Typical laws of heredity Nature angl 15 388 389 390 492 495 512 514 532 533 Bibcode 1877Natur 15 492 doi 10 1038 015492a0 S2CID 4136393 U dodatku Appendix na storinci 532 Galton vikoristovuye termin reversion ta simvol r Galton F 24 September 1885 The British Association Section II Anthropology Opening address by Francis Galton F R S etc President of the Anthropological Institute President of the Section Nature angl 32 830 507 510 Galton F 1886 Regression towards mediocrity in hereditary stature Journal of the Anthropological Institute of Great Britain and Ireland angl 15 246 263 doi 10 2307 2841583 JSTOR 2841583 Pearson Karl 20 June 1895 Notes on regression and inheritance in the case of two parents Proceedings of the Royal Society of London angl 58 240 242 Bibcode 1895RSPS 58 240P Stigler Stephen M 1989 Francis Galton s account of the invention of correlation Statistical Science angl 4 2 73 79 doi 10 1214 ss 1177012580 JSTOR 2245329 Analyse mathematique sur les probabilites des erreurs de situation d un point Mem Acad Roy Sci Inst France Sci Math et Phys fr 9 255 332 1844 cherez Google Books Wright S 1921 Correlation and causation Journal of Agricultural Research angl 20 7 557 585 Real Statistics Using Excel Basic Concepts of Correlation angl otrimano 22 lyutogo 2015 r Weisstein Eric W Statistical Correlation Wolfram MathWorld angl Procitovano 22 serpnya 2020 Moriya N 2008 Noise related multivariate optimal joint analysis in longitudinal stochastic processes U Yang Fengshan red angl en s 223 260 ISBN 978 1 60021 976 4 Garren Steven T 15 chervnya 1998 Maximum likelihood estimation of the correlation coefficient in a bivariate normal model with missing data Statistics amp Probability Letters angl 38 3 281 288 doi 10 1016 S0167 7152 98 00035 2 2 6 Pearson Correlation Coefficient r STAT 462 angl Procitovano 10 lipnya 2021 Introductory Business Statistics The Correlation Coefficient r opentextbc ca angl Procitovano 21 serpnya 2020 Rodgers Nicewander 1988 Thirteen ways to look at the correlation coefficient PDF The American Statistician angl 42 1 59 66 doi 10 2307 2685263 JSTOR 2685263 Schmid John Jr gruden 1947 The relationship between the coefficient of correlation and the angle included between regression lines The Journal of Educational Research angl 41 4 311 313 doi 10 1080 00220671 1947 10881608 JSTOR 27528906 Rummel R J 1976 Understanding Correlation angl gl 5 yak proilyustrovano dlya osoblivogo vipadku v nastupnomu abzaci Buda Andrzej Jarynowski Andrzej gruden 2010 Life Time of Correlations and its Applications angl Wydawnictwo Niezalezne s 5 21 ISBN 9788391527290 Cohen J 1988 Statistical Power Analysis for the Behavioral Sciences angl vid 2nd Bowley A L 1928 The Standard Deviation of the Correlation Coefficient Journal of the American Statistical Association angl 23 161 31 34 doi 10 2307 2277400 ISSN 0162 1459 JSTOR 2277400 Derivation of the standard error for Pearson s correlation coefficient Cross Validated angl Procitovano 30 lipnya 2021 Rahman N A 1968 A Course in Theoretical Statistics angl Charles Griffin and Company 1968 Kendall M G Stuart A 1973 The Advanced Theory of Statistics Volume 2 Inference and Relationship angl Griffin ISBN 0 85264 215 6 Section 31 19 Young A W Cave B M Lee A Pearson K 1917 On the distribution of the correlation coefficient in small samples Appendix II to the papers of Student and R A Fisher A co operative study en angl 11 4 328 413 doi 10 1093 biomet 11 4 328 Davey Catherine E Grayden David B Egan Gary F Johnston Leigh A January 2013 Filtering induces correlation in fMRI resting state data NeuroImage angl 64 728 740 doi 10 1016 j neuroimage 2012 08 022 hdl 11343 44035 PMID 22939874 S2CID 207184701 Hotelling Harold 1953 New Light on the Correlation Coefficient and its Transforms Journal of the Royal Statistical Society Series B Methodological angl 15 2 193 232 doi 10 1111 j 2517 6161 1953 tb00135 x JSTOR 2983768 Kenney J F Keeping E S 1951 Mathematics of Statistics angl T Part 2 vid 2nd Princeton NJ Van Nostrand Weisstein Eric W Correlation Coefficient Bivariate Normal Distribution Wolfram MathWorld angl Taraldsen Gunnar 2020 Confidence in Correlation ResearchGate angl doi 10 13140 RG 2 2 23673 49769 Lai Chun Sing Tao Yingshan Xu Fangyuan Ng Wing W Y Jia Youwei Yuan Haoliang Huang Chao Lai Loi Lei Xu Zhao Locatelli Giorgio sichen 2019 A robust correlation analysis framework for imbalanced and dichotomous data with uncertainty PDF Information Sciences angl 470 58 77 doi 10 1016 j ins 2018 08 017 S2CID 52878443 Wilcox Rand R 2005 Introduction to robust estimation and hypothesis testing angl Academic Press Gnanadesikan R Kettenring J R 1975 Robust estimation and outlier detection with correlation coefficients Biometrika angl 62 3 531 545 doi 10 1093 biomet 62 3 531 JSTOR 2335508 Huber Peter J 2004 Robust Statistics angl Wiley storinka Vaart A W van der 13 zhovtnya 1998 Asymptotic Statistics angl Cambridge University Press ISBN 978 0 511 80225 6 Katz Mitchell H 2006 Multivariable Analysis A Practical Guide for Clinicians 2nd Edition Cambridge University Press angl ISBN 978 0 521 54985 1 ISBN 0 521 54985 X Hotelling H 1953 New Light on the Correlation Coefficient and its Transforms Journal of the Royal Statistical Society Series B Methodological angl 15 2 193 232 doi 10 1111 j 2517 6161 1953 tb00135 x JSTOR 2983768 Olkin Ingram Pratt John W March 1958 Unbiased Estimation of Certain Correlation Coefficients The Annals of Mathematical Statistics angl 29 1 201 211 doi 10 1214 aoms 1177706717 JSTOR 2237306 Re Compute a weighted correlation sci tech archive net angl angl Arhiv originalu za 15 travnya 2021 Procitovano 14 sichnya 2024 Nikolic D Muresan RC Feng W Singer W 2012 Scaled correlation analysis a better way to compute a cross correlogram PDF European Journal of Neuroscience angl 35 5 1 21 doi 10 1111 j 1460 9568 2011 07987 x PMID 22324876 S2CID 4694570 Fulekar Ed M H 2009 Bioinformatics Applications in Life and Environmental Sciences Springer angl pp 110 ISBN 1 4020 8879 5 Immink K Schouhamer Weber J zhovten 2010 Minimum Pearson distance detection for multilevel channels with gain and or offset mismatch IEEE Transactions on Information Theory angl 60 10 5966 5974 CiteSeerX 10 1 1 642 9971 doi 10 1109 tit 2014 2342744 S2CID 1027502 Procitovano 11 lyutogo 2018 Jammalamadaka S Rao SenGupta A 2001 Topics in circular statistics angl New Jersey World Scientific s 176 ISBN 978 981 02 3778 3 Procitovano 21 veresnya 2016 Cox D R Hinkley D V 1974 Theoretical Statistics angl Chapman amp Hall Appendix 3 ISBN 0 412 12420 3 Posilannyacocor comparingcorrelations org angl Bezkoshtovnij vebinterfejs ta paket R dlya statistichnogo porivnyannya dvoh zalezhnih abo nezalezhnih korelyacij z peretinnimi abo neperetinnimi zminnimi Correlation nagysandor eu angl interaktivna fleshsimulyaciya korelyaciyi dvoh normalno rozpodilenih zminnih Correlation coefficient calculator hackmath net Linear regression angl Critical values for Pearson s correlation coefficient PDF frank mtsu edu dkfuller velika tablicya Guess the Correlation angl Gra v yakij gravci vgaduyut naskilki korelovani dvi zminni na diagrami rozsiyuvannya shobi krashe zrozumiti ponyattya korelyaciyi