У статистиці кореля́ція (англ. correlation) або зале́жність (англ. dependence) — це будь-який статистичний взаємозв'язок, причинний чи ні, між двома випадковими змінними або [en]. Хоч у найширшому сенсі «кореляція» й може вказувати на будь-який тип пов'язаності, у статистиці вона зазвичай означає ступінь, до якого пара змінних пов'язані лінійно. До добре відомих прикладів залежних явищ належать кореляція між зростом батьків та їхніх нащадків, а також кореляція між ціною товару та кількістю, яку споживачі готові придбати, як це зображують на так званій кривій попиту.
Кореляції корисні, бо вони можуть вказувати на передбачальний зв'язок, який можливо використовувати на практиці. Наприклад, енергогенерувальна компанія може виробляти менше електроенергії в день з помірною погодою на основі кореляції між попитом на електроенергію та погодою. У цьому прикладі існує причинно-наслідковий зв'язок, оскільки екстремальна погода змушує людей використовувати більше електроенергії для опалення чи кондиціювання. Проте в загальному випадку, щоби зробити висновок про наявність причинно-наслідкового зв'язку, наявності кореляції недостатньо (тобто, кореляція не означає спричинювання).
Формально випадкові змінні залежні, якщо вони не задовольняють математичній властивості ймовірнісної незалежності. Неформальною мовою кореляція є синонімом залежності. Проте при використанні в технічному сенсі кореляція означає будь-яку з декількох конкретних типів математичних операцій між випробуваними змінними та їхніми відповідними математичними сподіваннями. По суті, кореляція — це міра того, як дві чи більше змінні пов'язані одна з одною. Існує декілька коефіцієнтів кореляції, часто позначуваних через або , які вимірюють ступінь кореляції. Найпоширеніший з них — коефіцієнт кореляції Пірсона, чутливий лише до лінійного взаємозв'язку між двома змінними (який може мати місце, навіть якщо одна змінна є нелінійною функцією іншої). Інші коефіцієнти кореляції — наприклад, рангову кореляцію Спірмена, — було розроблено для більшої робастності, ніж в пірсонового, тобто більшої чутливості до нелінійних взаємозв'язків. Для вимірювання взаємозалежності двох змінних також можливо застосовувати взаємну інформацію.
Коефіцієнт кореляції моменту добутку Пірсона
Найбільш загальновідомою мірою залежності між двома величинами є коефіцієнт кореляції моменту добутку Пірсона (англ. Pearson product-moment correlation coefficient, PPMCC), або «коефіцієнт кореляції Пірсона» (англ. Pearson's correlation coefficient), який зазвичай називають просто «коефіцієнт кореляції» (англ. the correlation coefficient). Його отримують взяттям відношення коваріації двох розгляданих змінних нашого чисельного набору даних, унормованої квадратним коренем їхніх дисперсій. Математично, коваріацію цих двох змінних просто ділять на добуток їхніх стандартних відхилень. Карл Пірсон розробив цей коефіцієнт на основі подібної, але дещо відмінної ідеї Френсіса Гальтона.
Коефіцієнт кореляції Пірсона намагається встановити лінію, яка найкраще допасовується до набору даних із двох змінних, по суті викладаючи очікувані значення, а отриманий коефіцієнт кореляції Пірсона вказує, наскільки далеким від очікуваних значень є фактичний набір даних. Залежно від знаку нашого коефіцієнта кореляції Пірсона ми можемо отримати як від'ємну, так і додатну кореляцію, якщо якийсь зв'язок між змінними нашого набору даних існує.[]
Генеральний коефіцієнт кореляції (англ. population correlation coefficient) між двома випадковими змінними та з математичними сподіваннями та та стандартними відхиленнями та визначають як
де — оператор математичного сподівання, означає коваріацію, а — широко вживане альтернативне позначення коефіцієнту кореляції. Кореляція Пірсона визначається лише в тому випадку, якщо обидва стандартні відхилення є скінченними й додатними. Альтернативною формулою чисто в термінах моментів є
Кореляція та незалежність
Наслідком нерівності Коші — Буняковського є те, що модуль коефіцієнта кореляції Пірсона не перевищує 1. Таким чином, значення коефіцієнта кореляції лежать у проміжку з −1 по +1. Коефіцієнт кореляції дорівнює +1 у випадку ідеального прямого (висхідного) лінійного взаємозв'язку (кореляції), −1 у випадку ідеального зворотного (спадного) лінійного взаємозв'язку (антикореля́ція, англ. anti-correlation), і деякому значенню в інтервалі у всіх інших випадках, показуючи ступінь лінійної залежності між змінними. У міру його наближення до нуля взаємозв'язок послаблюється (ближче до некорельованих). Що ближчий цей коефіцієнт до −1 чи 1, то сильніша кореляція між змінними.
Якщо змінні незалежні, то коефіцієнт кореляції Пірсона дорівнює 0, але зворотне не істинне, оскільки коефіцієнт кореляції виявляє лише лінійні залежності між двома змінними. Простіше кажучи, якщо дві випадкові змінні та незалежні, то вони некорельовані, але якщо дві випадкові змінні некорельовані, то вони можуть бути, а можуть і не бути незалежними.
Наприклад, припустімо, що випадкова змінна симетрично розподілена навколо нуля, а . Тоді цілком визначено через , тож та цілком залежні, але їхня кореляція дорівнює нулеві: вони некорельовані. Проте в особливому випадку, коли та [en], некорельованість рівнозначна незалежності.
Незважаючи на те, що некорельованість даних не обов'язково означає незалежність, можливо пересвідчуватися, що випадкові змінні незалежні, якщо їхня взаємна інформація дорівнює 0.
Ви́бірковий коефіцієнт кореляції
За заданого ряду з вимірів пари , пронумерованих за , для оцінювання генеральної кореляції Пірсона між та можливо використовувати ви́бірковий коефіцієнт кореляції (англ. sample correlation coefficient). Цей вибірковий коефіцієнт кореляції визначають як
де та — вибіркові середні значення та , а та — скориговані вибіркові стандартні відхилення та .
Еквівалентними виразами для є
де та — нескориговані вибіркові стандартні відхилення та .
Якщо та — результати вимірювань, що містять похибку вимірювання, то реалістичні межі коефіцієнта кореляції становлять не від −1 до +1, а менший проміжок. Для випадку лінійної моделі з єдиною незалежною змінною коефіцієнтом детермінації (R-квадрат) є квадрат , коефіцієнту кореляції Пірсона.
Приклад
Розгляньмо спільний розподіл імовірності X та Y, наведений у таблиці нижче.
- yx
−1 0 1 0 0 1/3 0 1 1/3 0 1/3
Відособлені розподіли для цього спільного розподілу:
Це дає наступні математичні сподівання та дисперсії:
Отже,
Коефіцієнти рангової кореляції
Коефіцієнти рангової кореляції, як-от коефіцієнт рангової кореляції Спірмена та коефіцієнт рангової кореляції Кендалла (τ), вимірюють, до якої міри в разі збільшення однієї змінної інша змінна схильна збільшуватися, не вимагаючи, щоби це збільшення було подано лінійною залежністю. Якщо за збільшення однієї змінної інша зменшується, то коефіцієнти рангової кореляції будуть від'ємними. Ці коефіцієнти рангової кореляції часто розглядають як альтернативи коефіцієнту Пірсона, яку використовують або для зменшення кількості обчислень, або для того, щоби зробити коефіцієнт менш чутливим до не нормальності в розподілах. Проте ця точка зору має мало математичних підстав, оскільки коефіцієнти рангової кореляції вимірюють інший тип зв'язку, ніж коефіцієнт кореляції Пірсона, і їх найкраще розглядати як показники іншого типу зв'язку, а не як альтернативну міру генерального коефіцієнту кореляції.
Щоби унаочнити природу рангової кореляції та її відмінність від лінійної кореляції, розгляньмо наступні чотири пари чисел :
- (0, 1), (10, 100), (101, 500), (102, 2000).
В міру просування від кожної пари до наступної збільшується, й те саме робить . Цей взаємозв'язок ідеальний, у тому сенсі, що збільшення в завжди супроводжується збільшенням в . Це означає, що ми маємо ідеальну рангову кореляцію, й обидва коефіцієнти кореляції Спірмена та Кендалла дорівнюють 1, тоді як у цьому прикладі коефіцієнт кореляції Пірсона дорівнює 0,7544, вказуючи на те, що точки далеко не лежать на одній прямій. Так само, якщо завжди зменшується, коли збільшується, коефіцієнти рангової кореляції становитимуть −1, тоді як коефіцієнт кореляції Пірсона може бути або не бути близьким до −1, залежно від того, наскільки близько до прямої лінії розташовані ці точки. Хоча в граничних випадках ідеальної рангової кореляції ці два коефіцієнти рівні (чи то обидва +1, чи обидва −1), зазвичай це не так, і тому значення цих двох коефіцієнтів неможливо порівнювати змістовно. Наприклад, для трьох пар (1, 1) (2, 3) (3, 2) коефіцієнт Спірмена дорівнює 1/2, а коефіцієнт Кендалла дорівнює 1/3.
Інші міри залежності між випадковими змінними
Інформації, яку надає коефіцієнт кореляції, недостатньо для визначення структури залежності між випадковими змінними. Коефіцієнт кореляції повністю визначає структуру залежності лише в дуже окремих випадках, наприклад, коли розподіл є багатовимірним нормальним розподілом (див. рисунок вище). У випадку еліптичних розподілів він характеризує (гіпер-)еліпси рівної густини, проте він не повністю характеризує структуру залежності (наприклад, ступені вільності [en] визначають рівень хвостової залежності).
Для подолання того недоліку кореляції Пірсона, що вона може бути нульовою для залежних змінних, було запропоновано [en] (англ. distance correlation), нульова кореляція по віддалі означає незалежність.
Рандомізований коефіцієнт залежності (РКЗ, англ. Randomized Dependence Coefficient, RDC) — це обчислювально ефективна міра залежності між багатовимірними випадковими змінними на основі копул. РКЗ інваріантний щодо нелінійного масштабування випадкових змінних, здатний виявляти широкий спектр моделей функціональних асоціацій, і набуває нульового значення при незалежності.
Для двох [en] [en] вимірює їхню залежність і набуває діапазону невід'ємних чисел, потенційно нескінченних:. Схожі статистики, як-от [en] та [en], унормовують його до подібного на кореляцію проміжку . Відношення шансів узагальнено логістичною моделлю для моделювання випадків, коли залежні змінні є дискретними, й може бути одна або декілька незалежних змінних.
[en], взаємна інформація на основі ентропії, [en], [en] та [en] також здатні виявляти загальніші залежності, як і розгляд копули між ними, тоді як коефіцієнт детермінації узагальнює коефіцієнт кореляції до [en].
Чутливість до розподілу даних
Ступінь залежності між змінними X та Y не залежить від масштабу, в якому виражено ці змінні. Тобто, якщо ми аналізуємо взаємозв'язок між X та Y, перетворення X на a + bX й Y на c + dY, де a, b, c та d є сталими (b та d додатні), на більшість мір кореляції не впливає. Це стосується деяких кореляційних статистик, а також їхніх генеральних аналогів. Деякі кореляційні статистики, як-от коефіцієнт рангової кореляції, також інваріантні щодо монотонних перетворень відособлених розподілів X та/або Y.
Більшість мір кореляції чутливі до способу вибирання X та Y. Залежності, як правило, сильніші, якщо розглядати їх на ширшому діапазоні значень. Таким чином, якщо ми розглянемо коефіцієнт кореляції між зростом батьків та їхніх синів над усіма дорослими чоловіками, та порівняємо його з тим же коефіцієнтом кореляції, розрахованим, коли вибрано батьків зростом від 165 см до 170 см, то в останньому випадку кореляція буде слабшою. Було розроблено кілька методик, які намагаються виправляти обмеження діапазону в одній або обох змінних, і які зазвичай використовують в метааналізі; найпоширенішими є рівняння Торндайка другого та третього випадків.
Деякі використовувані міри кореляції можуть бути невизначеними для певних спільних розподілів X та Y. Наприклад, коефіцієнт кореляції Пірсона визначено в термінах моментів, і, отже, буде не визначено, якщо не визначено моменти. Завжди визначено міри залежності, які ґрунтуються на квантилях. Статистики на основі вибірки, призначені оцінювати генеральні міри залежності, можуть мати або не мати бажаних статистичних властивостей, наприклад бути незміщеними та асимптотично слушними, залежно від просторової структури сукупності, з якої було вибрано дані.
Чутливість до розподілу даних можливо використовувати як перевагу. Наприклад, [en] розроблено так, щоби використовувати чутливість до діапазону задля вихоплювання кореляції між швидкими складовими часових рядів. Шляхом контрольованого зменшення діапазону значення кореляції на довгому часовому масштабі відфільтровуються, й виявляються лише кореляції на коротких часових масштабах.
Кореляційні матриці
Кореляційна матриця випадкових змінних — це матриця , чиїм елементом є
Таким чином, всі її діагональні елементи однаково одиничні. Якщо всі використовувані міри кореляції є коефіцієнтами кореляції Пірсона, то кореляційна матриця така же, як і коваріаційна матриця стандартизованих випадкових змінних для . Це стосується як генеральної кореляційної матриці (у цьому випадку — генеральне стандартне відхилення), так і ви́біркової кореляційної матриці (у цьому випадку позначує вибіркове стандартне відхилення). Отже, кожна з них обов'язково є додатно напіввизначеною матрицею. Більше того, кореляційна матриця строго додатно визначена, якщо жодна змінна не може мати всі свої значення точно породженими як лінійна функція значень інших.
Кореляційна матриця симетрична, оскільки кореляція між та це те саме, що й кореляція між та .
Кореляційна матриця з'являється, наприклад, в одній формулі для [en], міри допасованості у [en].
У статистичному моделюванні кореляційні матриці, що подають зв'язки між змінними, категоризують до різних кореляційних структур, які розрізнюють за такими чинниками як кількість параметрів, необхідних для їхнього оцінювання. Наприклад, у [en] кореляційній матриці всі пари змінних змодельовано як такі, що мають однакову кореляцію, так що все недіагональні елементи матриці дорівнюють один одному. З іншого боку, авторегресійну матрицю часто використовують, коли змінні подають часовий ряд, оскільки кореляції, ймовірно, будуть більшими, коли вимірювання ближчі в часі. До інших прикладів належать незалежні, неструктуровані, M-залежні матриці, та матриці Тепліца.
В розвідувальному аналізі даних [en] полягає в заміні кореляційної матриці діаграмою, де «визначні» кореляції подають суцільною лінією (додатна кореляція), або пунктирною лінією (від'ємна кореляція).
Найближча чинна кореляційна матриця
У деяких застосуваннях (наприклад, побудові моделей даних з лише частково спостережуваних даних) потрібно знаходити «найближчу» кореляційну матрицю до «приблизної» кореляційної матриці (наприклад, матриці, якій зазвичай бракує напіввизначеної додатності через те, яким чином її було обчислено).
2002 року Хаєм формалізував поняття близькості за допомогою норми Фробеніуса та запропонував метод обчислення найближчої кореляційної матриці за допомогою [en], втілення якого доступне як інтерактивний [en].
Це викликало інтерес до даного предмета, з отриманими в наступні роки новими теоретичними (наприклад, обчислення найближчої кореляційної матриці з факторною структурою) та чисельними (наприклад, використання методу Ньютона для обчислення найближчої кореляційної матриці) результатами.
Некорельованість і незалежність стохастичних процесів
Аналогічно для двох стохастичних процесів та : Якщо вони незалежні, то вони некорельовані. Протилежне цьому твердженню може бути неправильним. Навіть якщо дві змінні не корельовані, вони можуть не бути незалежними одна від одної.
Поширені непорозуміння
Корельованість та причинність
Поширений вислів «корелювання не означає спричинювання» означає, що кореляцію неможливо використовувати саму по собі для висновування причинно-наслідкового зв'язку між змінними. Цей вислів не слід сприймати так, що кореляції не можуть вказувати на потенційне існування причинно-наслідкових зв'язків. Проте причини, що лежать в основі кореляції, якщо вони й існують, можуть бути непрямими або невідомими, а високі кореляції також перекриваються з відношеннями тотожності (тавтології), де процесу спричинювання не існує. Отже, кореляція між двома змінними не є достатньою умовою для встановлення причинно-наслідкового зв'язку (в будь-якому з напрямків).
Кореляція між віком та зростом у дітей є досить причиннісно прозорою, але кореляція між настроєм і здоров'ям у людей — не настільки. Чи поліпшення настрою призводить до покращення здоров'я, чи гарне здоров'я призводить до гарного настрою, чи обидва? Чи якийсь інший чинник лежить в основі обох? Іншими словами, кореляцію можна вважати свідченням можливого причинно-наслідкового зв'язку, але вона не може вказувати, яким може бути причинний зв'язок, якщо він взагалі існує.
Прості лінійні кореляції
Коефіцієнт кореляції Пірсона показує силу лінійного взаємозв'язку між двома змінними, але його значення, як правило, характеризує їхній взаємозв'язок не повністю. Зокрема, якщо умовне середнє за заданого , позначуване через , не лінійне за , то коефіцієнт кореляції не повністю визначатиме вигляд .
На сусідньому зображенні показано діаграми розсіювання квартету Анскомбе, набору з чотирьох різних пар змінних, створеного [en]. Чотири змінні мають однакове середнє значення (7,5), дисперсію (4,12), кореляцію (0,816) та лінію регресії (). Проте, як видно на цих графіках, розподіл змінних дуже різний. Перші (вгорі ліворуч) видаються розподіленими нормально й відповідають тому, що можна було би очікувати, розглядаючи дві змінні, які корелюють, й дотримуються припущення нормальності. Другі (вгорі праворуч) розподілено не нормально, і хоча й можливо спостерігати очевидний взаємозв'язок між цими двома змінними, він не є лінійним. У цьому випадку коефіцієнт кореляції Пірсона не вказує, що існує точна функційна залежність: лише ступінь, до якого цей взаємозв'язок можливо наблизити лінійним співвідношенням. У третьому випадку (внизу ліворуч) лінійна залежність є ідеальною, за винятком одного викиду, який чинить достатній вплив, щоби знизити коефіцієнт кореляції з 1 до 0,816. Нарешті, четвертий приклад (унизу праворуч) показує інший приклад, коли одного викиду достатньо для отримання високого коефіцієнта кореляції, навіть якщо взаємозв'язок між двома змінними не є лінійним.
Ці приклади показують, що коефіцієнт кореляції як зведена статистика не здатен замінити візуальне дослідження даних. Іноді кажуть, що ці приклади демонструють, що кореляція Пірсона передбачає, що дані мають нормальний розподіл, але це правильно лише частково. Кореляцію Пірсона можливо точно розрахувати для будь-якого розподілу, який має скінченну коваріаційну матрицю, що включає більшість розподілів, які зустрічаються на практиці. Проте, достатньою статистикою коефіцієнт кореляції Пірсона (взятий разом із вибірковим середнім значенням та дисперсією) є лише в тому випадку, якщо дані взято з багатовимірного нормального розподілу. В результаті, коефіцієнт кореляції Пірсона повністю характеризує зв'язок між змінними тоді й лише тоді, коли дані вибирають із багатовимірного нормального розподілу.
Двовимірний нормальний розподіл
Якщо пара випадкових змінних слідує двовимірному нормальному розподілу, то умовне середнє є лінійною функцією від , а умовне середнє є лінійною функцією від Коефіцієнт кореляції між та й відособлені середні значення та дисперсії та визначають цю лінійну залежність:
де та — математичні сподівання та відповідно, а та — стандартні відхилення та відповідно.
Емпірична кореляція — це оцінка коефіцієнта кореляції Оцінку розподілу для задають через
де — гауссова гіпергеометрична функція.
Ця густина є одночасно баєсовою апостеріорною густиною, й точною оптимальною густиною [en].
Див. також
- Автокореляція
- Взаємна кореляція
- [en]
- [en]
- [en]
- [en]
- [en]
- [en]
- Ілюзорна кореляція
- Канонічна кореляція
- Коваріація
- Коваріація та кореляція
- Коефіцієнт детермінації
- [en]
- [en]
- Кореляційна функція
- [en]
- [en]
- [en]
- [en]
- [en]
- [en]
- [en]
- [en]
- Помилкова кореляція
- [en]
- [en]
- [en]
Примітки
- Croxton, Frederick Emory; Cowden, Dudley Johnstone; Klein, Sidney (1968) Applied General Statistics (англ.), Pitman. (page 625)
- Dietrich, Cornelius Frank (1991) Uncertainty, Calibration and Probability: The Statistics of Scientific and Industrial Measurement 2nd Edition (англ.), A. Higler. (Page 331)
- Aitken, Alexander Craig (1957) Statistical Mathematics 8th Edition (англ.). Oliver & Boyd. (Page 95)
- Rodgers, J. L.; Nicewander, W. A. (1988). Thirteen ways to look at the correlation coefficient. The American Statistician (англ.). 42 (1): 59—66. doi:10.1080/00031305.1988.10475524. JSTOR 2685263.
- Dowdy, S. and Wearden, S. (1983). "Statistics for Research" (англ.), Wiley. pp 230
- Francis, DP; Coats AJ; Gibson D (1999). How high can a correlation coefficient be?. Int J Cardiol (англ.). 69 (2): 185—199. doi:10.1016/S0167-5273(99)00028-5. PMID 10549842.
- Yule, G.U and Kendall, M.G. (1950), "An Introduction to the Theory of Statistics", 14th Edition (5th Impression 1968) (англ.). Charles Griffin & Co. pp 258–270
- Kendall, M. G. (1955) "Rank Correlation Methods" (англ.), Charles Griffin & Co.
- Mahdavi Damghani B. (2013). The Non-Misleading Value of Inferred Correlation: An Introduction to the Cointelation Model. Wilmott Magazine (англ.). 2013 (67): 50—61. doi:10.1002/wilm.10252.
- Székely, G. J. Rizzo; Bakirov, N. K. (2007). Measuring and testing independence by correlation of distances. [en] (англ.). 35 (6): 2769—2794. arXiv:0803.4101. doi:10.1214/009053607000000505.
- Székely, G. J.; Rizzo, M. L. (2009). Brownian distance covariance. Annals of Applied Statistics (англ.). 3 (4): 1233—1303. arXiv:1010.0297. doi:10.1214/09-AOAS312. PMC 2889501. PMID 20574547.
- Lopez-Paz D. and Hennig P. and Schölkopf B. (2013). "The Randomized Dependence Coefficient", "[en]" Reprint [ 3 серпня 2020 у Wayback Machine.] (англ.)
- Thorndike, Robert Ladd (1947). Research problems and techniques (Report No. 3) (англ.). Washington DC: US Govt. print. off.
- Nikolić, D; Muresan, RC; Feng, W; Singer, W (2012). Scaled correlation analysis: a better way to compute a cross-correlogram. European Journal of Neuroscience (англ.). 35 (5): 1—21. doi:10.1111/j.1460-9568.2011.07987.x. PMID 22324876.
- Higham, Nicholas J. (2002). Computing the nearest correlation matrix—a problem from finance. IMA Journal of Numerical Analysis (англ.). 22 (3): 329—343. CiteSeerX 10.1.1.661.2180. doi:10.1093/imanum/22.3.329.
- . portfoliooptimizer.io (англ.). Архів оригіналу за 3 січня 2022. Процитовано 30 січня 2021.
- Borsdorf, Rudiger; Higham, Nicholas J.; Raydan, Marcos (2010). (PDF). SIAM J. Matrix Anal. Appl. (англ.). 31 (5): 2603—2622. doi:10.1137/090776718. Архів оригіналу (PDF) за 30 грудня 2021. Процитовано 3 січня 2022.
- Qi, HOUDUO; Sun, DEFENG (2006). A quadratically convergent Newton method for computing the nearest correlation matrix. SIAM J. Matrix Anal. Appl. (англ.). 28 (2): 360—385. doi:10.1137/050624509.
- Park, Kun Il (2018). Fundamentals of Probability and Stochastic Processes with Applications to Communications (англ.). Springer. ISBN .
- Aldrich, John (1995). Correlations Genuine and Spurious in Pearson and Yule. Statistical Science (англ.). 10 (4): 364—376. doi:10.1214/ss/1177009870. JSTOR 2246135.
- Mahdavi Damghani, Babak (2012). The Misleading Value of Measured Correlation. [en] (англ.). 2012 (1): 64—73. doi:10.1002/wilm.10167.
- Anscombe, Francis J. (1973). Graphs in statistical analysis. The American Statistician (англ.). 27 (1): 17—21. doi:10.2307/2682899. JSTOR 2682899.
- Taraldsen, Gunnar (2021). The confidence density for correlation. Sankhya A (англ.). 85: 600—616. doi:10.1007/s13171-021-00267-y. ISSN 0976-8378. S2CID 244594067.
- Taraldsen, Gunnar (2020). Confidence in correlation. researchgate.net (preprint) (англ.). doi:10.13140/RG.2.2.23673.49769.
Література
- Карташов М. В. Імовірність, процеси, статистика. — Київ : ВПЦ Київський університет, 2007. — 504 с.
- Гнеденко Б. В. Курс теории вероятностей. — 6-е изд. — Москва : Наука, 1988. — 446 с.(рос.)
- Гихман И. И., Скороход А. В., Ядренко М. В. Теория вероятностей и математическая статистика. — Київ : Вища школа, 1988. — 436 с.(рос.)
- Cohen, J.; Cohen P.; West, S.G. & (2002). Applied multiple regression/correlation analysis for the behavioral sciences (англ.) (вид. 3rd). Psychology Press. ISBN .
- Hazewinkel, Michiel, ред. (2001), (in statistics) Correlation (in statistics), Математична енциклопедія, , ISBN (англ.)
- Oestreicher, J. & D. R. (26 лютого 2015). Plague of Equals: A science thriller of international disease, politics and drug discovery (англ.). California: Omega Cat Press. с. 408. ISBN .
Посилання
У Вікісловнику є сторінка кореляція. |
Вікісховище має мультимедійні дані за темою: Кореляція |
- Сторінка MathWorld про коефіцієнт/и (взаємної) кореляції вибірки [ 31 серпня 2019 у Wayback Machine.] (англ.)
- Обчислення значущості між двома кореляціями [ 3 січня 2022 у Wayback Machine.] для порівняння двох значень кореляції.
- . Архів оригіналу за 24 квітня 2021.
- Доведення того, що вибіркова двовимірна кореляція має межі плюс та мінус 1 [ 17 жовтня 2016 у Wayback Machine.] (англ.)
- Інтерактивна Flash-симуляція кореляції двох нормально розподілених змінних [ 17 травня 2021 у Wayback Machine.] від Юги Пуранена.
- (англ.)
- R-Psychologist Correlation [ 17 серпня 2020 у Wayback Machine.]: унаочнення кореляції між двома числовими змінними
Вікіпедія, Українська, Україна, книга, книги, бібліотека, стаття, читати, завантажити, безкоштовно, безкоштовно завантажити, mp3, відео, mp4, 3gp, jpg, jpeg, gif, png, малюнок, музика, пісня, фільм, книга, гра, ігри, мобільний, телефон, android, ios, apple, мобільний телефон, samsung, iphone, xiomi, xiaomi, redmi, honor, oppo, nokia, sonya, mi, ПК, web, Інтернет
Cya stattya pro korelyaciyu ta zalezhnist u statistichnih danih Pro inshi znachennya div Korelyaciya znachennya U statistici korelya ciya angl correlation abo zale zhnist angl dependence ce bud yakij statistichnij vzayemozv yazok prichinnij chi ni mizh dvoma vipadkovimi zminnimi abo en Hoch u najshirshomu sensi korelyaciya j mozhe vkazuvati na bud yakij tip pov yazanosti u statistici vona zazvichaj oznachaye stupin do yakogo para zminnih pov yazani linijno Do dobre vidomih prikladiv zalezhnih yavish nalezhat korelyaciya mizh zrostom batkiv ta yihnih nashadkiv a takozh korelyaciya mizh cinoyu tovaru ta kilkistyu yaku spozhivachi gotovi pridbati yak ce zobrazhuyut na tak zvanij krivij popitu Dekilka naboriv tochok x y z koeficiyentami korelyaciyi Pirsona x ta y dlya kozhnogo naboru Korelyaciya vidobrazhaye zashumlenist i napryamok linijnogo vzayemozv yazku verhnij ryad ale ani nahil cogo vzayemozv yazku serednij ani bagato aspektiv nelinijnih vzayemozv yazkiv nizhnij Primitka figura v centri maye nahil 0 ale v comu vipadku koeficiyent korelyaciyi neviznachenij oskilki dispersiya Y dorivnyuye nulevi Korelyaciyi korisni bo voni mozhut vkazuvati na peredbachalnij zv yazok yakij mozhlivo vikoristovuvati na praktici Napriklad energogeneruvalna kompaniya mozhe viroblyati menshe elektroenergiyi v den z pomirnoyu pogodoyu na osnovi korelyaciyi mizh popitom na elektroenergiyu ta pogodoyu U comu prikladi isnuye prichinno naslidkovij zv yazok oskilki ekstremalna pogoda zmushuye lyudej vikoristovuvati bilshe elektroenergiyi dlya opalennya chi kondiciyuvannya Prote v zagalnomu vipadku shobi zrobiti visnovok pro nayavnist prichinno naslidkovogo zv yazku nayavnosti korelyaciyi nedostatno tobto korelyaciya ne oznachaye sprichinyuvannya Formalno vipadkovi zminni zalezhni yaksho voni ne zadovolnyayut matematichnij vlastivosti jmovirnisnoyi nezalezhnosti Neformalnoyu movoyu korelyaciya ye sinonimom zalezhnosti Prote pri vikoristanni v tehnichnomu sensi korelyaciya oznachaye bud yaku z dekilkoh konkretnih tipiv matematichnih operacij mizh viprobuvanimi zminnimi ta yihnimi vidpovidnimi matematichnimi spodivannyami Po suti korelyaciya ce mira togo yak dvi chi bilshe zminni pov yazani odna z odnoyu Isnuye dekilka koeficiyentiv korelyaciyi chasto poznachuvanih cherez r displaystyle rho abo r displaystyle r yaki vimiryuyut stupin korelyaciyi Najposhirenishij z nih koeficiyent korelyaciyi Pirsona chutlivij lishe do linijnogo vzayemozv yazku mizh dvoma zminnimi yakij mozhe mati misce navit yaksho odna zminna ye nelinijnoyu funkciyeyu inshoyi Inshi koeficiyenti korelyaciyi napriklad rangovu korelyaciyu Spirmena bulo rozrobleno dlya bilshoyi robastnosti nizh v pirsonovogo tobto bilshoyi chutlivosti do nelinijnih vzayemozv yazkiv Dlya vimiryuvannya vzayemozalezhnosti dvoh zminnih takozh mozhlivo zastosovuvati vzayemnu informaciyu Koeficiyent korelyaciyi momentu dobutku PirsonaDokladnishe Koeficiyent korelyaciyi momentu dobutku Pirsona Prikladi diagram rozsiyuvannya riznih naboriv danih z riznimi koeficiyentami korelyaciyi Najbilsh zagalnovidomoyu miroyu zalezhnosti mizh dvoma velichinami ye koeficiyent korelyaciyi momentu dobutku Pirsona angl Pearson product moment correlation coefficient PPMCC abo koeficiyent korelyaciyi Pirsona angl Pearson s correlation coefficient yakij zazvichaj nazivayut prosto koeficiyent korelyaciyi angl the correlation coefficient Jogo otrimuyut vzyattyam vidnoshennya kovariaciyi dvoh rozglyadanih zminnih nashogo chiselnogo naboru danih unormovanoyi kvadratnim korenem yihnih dispersij Matematichno kovariaciyu cih dvoh zminnih prosto dilyat na dobutok yihnih standartnih vidhilen Karl Pirson rozrobiv cej koeficiyent na osnovi podibnoyi ale desho vidminnoyi ideyi Frensisa Galtona Koeficiyent korelyaciyi Pirsona namagayetsya vstanoviti liniyu yaka najkrashe dopasovuyetsya do naboru danih iz dvoh zminnih po suti vikladayuchi ochikuvani znachennya a otrimanij koeficiyent korelyaciyi Pirsona vkazuye naskilki dalekim vid ochikuvanih znachen ye faktichnij nabir danih Zalezhno vid znaku nashogo koeficiyenta korelyaciyi Pirsona mi mozhemo otrimati yak vid yemnu tak i dodatnu korelyaciyu yaksho yakijs zv yazok mizh zminnimi nashogo naboru danih isnuye dzherelo Generalnij koeficiyent korelyaciyi angl population correlation coefficient r X Y displaystyle rho X Y mizh dvoma vipadkovimi zminnimi X displaystyle X ta Y displaystyle Y z matematichnimi spodivannyami m X displaystyle mu X ta m Y displaystyle mu Y ta standartnimi vidhilennyami s X displaystyle sigma X ta s Y displaystyle sigma Y viznachayut yak r X Y corr X Y cov X Y s X s Y E X m X Y m Y s X s Y if s X s Y gt 0 displaystyle rho X Y operatorname corr X Y operatorname cov X Y over sigma X sigma Y operatorname E X mu X Y mu Y over sigma X sigma Y quad text if sigma X sigma Y gt 0 de E displaystyle operatorname E operator matematichnogo spodivannya cov displaystyle operatorname cov oznachaye kovariaciyu a corr displaystyle operatorname corr shiroko vzhivane alternativne poznachennya koeficiyentu korelyaciyi Korelyaciya Pirsona viznachayetsya lishe v tomu vipadku yaksho obidva standartni vidhilennya ye skinchennimi j dodatnimi Alternativnoyu formuloyu chisto v terminah momentiv ye r X Y E X Y E X E Y E X 2 E X 2 E Y 2 E Y 2 displaystyle rho X Y operatorname E XY operatorname E X operatorname E Y over sqrt operatorname E X 2 operatorname E X 2 cdot sqrt operatorname E Y 2 operatorname E Y 2 Korelyaciya ta nezalezhnist Naslidkom nerivnosti Koshi Bunyakovskogo ye te sho modul koeficiyenta korelyaciyi Pirsona ne perevishuye 1 Takim chinom znachennya koeficiyenta korelyaciyi lezhat u promizhku z 1 po 1 Koeficiyent korelyaciyi dorivnyuye 1 u vipadku idealnogo pryamogo vishidnogo linijnogo vzayemozv yazku korelyaciyi 1 u vipadku idealnogo zvorotnogo spadnogo linijnogo vzayemozv yazku antikorelya ciya angl anti correlation i deyakomu znachennyu v intervali 1 1 displaystyle 1 1 u vsih inshih vipadkah pokazuyuchi stupin linijnoyi zalezhnosti mizh zminnimi U miru jogo nablizhennya do nulya vzayemozv yazok poslablyuyetsya blizhche do nekorelovanih Sho blizhchij cej koeficiyent do 1 chi 1 to silnisha korelyaciya mizh zminnimi Yaksho zminni nezalezhni to koeficiyent korelyaciyi Pirsona dorivnyuye 0 ale zvorotne ne istinne oskilki koeficiyent korelyaciyi viyavlyaye lishe linijni zalezhnosti mizh dvoma zminnimi Prostishe kazhuchi yaksho dvi vipadkovi zminni X displaystyle X ta Y displaystyle Y nezalezhni to voni nekorelovani ale yaksho dvi vipadkovi zminni nekorelovani to voni mozhut buti a mozhut i ne buti nezalezhnimi X Y nezalezhni r X Y 0 X Y nekorelovani r X Y 0 X Y nekorelovani X Y nezalezhni displaystyle begin aligned X Y text nezalezhni quad amp Rightarrow quad rho X Y 0 quad X Y text nekorelovani rho X Y 0 quad X Y text nekorelovani quad amp nRightarrow quad X Y text nezalezhni end aligned Napriklad pripustimo sho vipadkova zminna X displaystyle X simetrichno rozpodilena navkolo nulya a Y X 2 displaystyle Y X 2 Todi Y displaystyle Y cilkom viznacheno cherez X displaystyle X tozh X displaystyle X ta Y displaystyle Y cilkom zalezhni ale yihnya korelyaciya dorivnyuye nulevi voni nekorelovani Prote v osoblivomu vipadku koli X displaystyle X ta Y displaystyle Y en nekorelovanist rivnoznachna nezalezhnosti Nezvazhayuchi na te sho nekorelovanist danih ne obov yazkovo oznachaye nezalezhnist mozhlivo peresvidchuvatisya sho vipadkovi zminni nezalezhni yaksho yihnya vzayemna informaciya dorivnyuye 0 Vi birkovij koeficiyent korelyaciyi Za zadanogo ryadu z n displaystyle n vimiriv pari X i Y i displaystyle X i Y i pronumerovanih za i 1 n displaystyle i 1 ldots n dlya ocinyuvannya generalnoyi korelyaciyi Pirsona r X Y displaystyle rho X Y mizh X displaystyle X ta Y displaystyle Y mozhlivo vikoristovuvati vi birkovij koeficiyent korelyaciyi angl sample correlation coefficient Cej vibirkovij koeficiyent korelyaciyi viznachayut yak r x y d e f i 1 n x i x y i y n 1 s x s y i 1 n x i x y i y i 1 n x i x 2 i 1 n y i y 2 displaystyle r xy quad overset underset mathrm def quad frac sum limits i 1 n x i bar x y i bar y n 1 s x s y frac sum limits i 1 n x i bar x y i bar y sqrt sum limits i 1 n x i bar x 2 sum limits i 1 n y i bar y 2 de x displaystyle overline x ta y displaystyle overline y vibirkovi seredni znachennya X displaystyle X ta Y displaystyle Y a s x displaystyle s x ta s y displaystyle s y skorigovani vibirkovi standartni vidhilennya X displaystyle X ta Y displaystyle Y Ekvivalentnimi virazami dlya r x y displaystyle r xy ye r x y x i y i n x y n s x s y n x i y i x i y i n x i 2 x i 2 n y i 2 y i 2 displaystyle begin aligned r xy amp frac sum x i y i n bar x bar y ns x s y 5pt amp frac n sum x i y i sum x i sum y i sqrt n sum x i 2 sum x i 2 sqrt n sum y i 2 sum y i 2 end aligned de s x displaystyle s x ta s y displaystyle s y neskorigovani vibirkovi standartni vidhilennya X displaystyle X ta Y displaystyle Y Yaksho x displaystyle x ta y displaystyle y rezultati vimiryuvan sho mistyat pohibku vimiryuvannya to realistichni mezhi koeficiyenta korelyaciyi stanovlyat ne vid 1 do 1 a menshij promizhok Dlya vipadku linijnoyi modeli z yedinoyu nezalezhnoyu zminnoyu koeficiyentom determinaciyi R kvadrat ye kvadrat r x y displaystyle r xy koeficiyentu korelyaciyi Pirsona PrikladRozglyanmo spilnij rozpodil imovirnosti X ta Y navedenij u tablici nizhche P X x Y y displaystyle mathrm P X x Y y yx 1 0 1 0 0 1 3 0 1 1 3 0 1 3 Vidosobleni rozpodili dlya cogo spilnogo rozpodilu P X x 1 3 dlya x 0 2 3 dlya x 1 displaystyle mathrm P X x begin cases frac 1 3 amp quad text dlya x 0 frac 2 3 amp quad text dlya x 1 end cases P Y y 1 3 dlya y 1 1 3 dlya y 0 1 3 dlya y 1 displaystyle mathrm P Y y begin cases frac 1 3 amp quad text dlya y 1 frac 1 3 amp quad text dlya y 0 frac 1 3 amp quad text dlya y 1 end cases Ce daye nastupni matematichni spodivannya ta dispersiyi m X 2 3 displaystyle mu X frac 2 3 m Y 0 displaystyle mu Y 0 s X 2 2 9 displaystyle sigma X 2 frac 2 9 s Y 2 2 3 displaystyle sigma Y 2 frac 2 3 Otzhe r X Y 1 s X s Y E X m X Y m Y 1 s X s Y x y x m X y m Y P X x Y y 1 2 3 1 0 1 3 0 2 3 0 0 1 3 1 2 3 1 0 1 3 0 displaystyle begin aligned rho X Y amp frac 1 sigma X sigma Y mathrm E X mu X Y mu Y 5pt amp frac 1 sigma X sigma Y sum x y x mu X y mu Y mathrm P X x Y y 5pt amp left 1 frac 2 3 right 1 0 frac 1 3 left 0 frac 2 3 right 0 0 frac 1 3 left 1 frac 2 3 right 1 0 frac 1 3 0 end aligned Koeficiyenti rangovoyi korelyaciyiDokladnishe Koeficiyent rangovoyi korelyaciyi Spirmena ta Koeficiyent rangovoyi korelyaciyi tau Kendalla Koeficiyenti rangovoyi korelyaciyi yak ot koeficiyent rangovoyi korelyaciyi Spirmena ta koeficiyent rangovoyi korelyaciyi Kendalla t vimiryuyut do yakoyi miri v razi zbilshennya odniyeyi zminnoyi insha zminna shilna zbilshuvatisya ne vimagayuchi shobi ce zbilshennya bulo podano linijnoyu zalezhnistyu Yaksho za zbilshennya odniyeyi zminnoyi insha zmenshuyetsya to koeficiyenti rangovoyi korelyaciyi budut vid yemnimi Ci koeficiyenti rangovoyi korelyaciyi chasto rozglyadayut yak alternativi koeficiyentu Pirsona yaku vikoristovuyut abo dlya zmenshennya kilkosti obchislen abo dlya togo shobi zrobiti koeficiyent mensh chutlivim do ne normalnosti v rozpodilah Prote cya tochka zoru maye malo matematichnih pidstav oskilki koeficiyenti rangovoyi korelyaciyi vimiryuyut inshij tip zv yazku nizh koeficiyent korelyaciyi Pirsona i yih najkrashe rozglyadati yak pokazniki inshogo tipu zv yazku a ne yak alternativnu miru generalnogo koeficiyentu korelyaciyi Shobi unaochniti prirodu rangovoyi korelyaciyi ta yiyi vidminnist vid linijnoyi korelyaciyi rozglyanmo nastupni chotiri pari chisel x y displaystyle x y 0 1 10 100 101 500 102 2000 V miru prosuvannya vid kozhnoyi pari do nastupnoyi x displaystyle x zbilshuyetsya j te same robit y displaystyle y Cej vzayemozv yazok idealnij u tomu sensi sho zbilshennya v x displaystyle x zavzhdi suprovodzhuyetsya zbilshennyam v y displaystyle y Ce oznachaye sho mi mayemo idealnu rangovu korelyaciyu j obidva koeficiyenti korelyaciyi Spirmena ta Kendalla dorivnyuyut 1 todi yak u comu prikladi koeficiyent korelyaciyi Pirsona dorivnyuye 0 7544 vkazuyuchi na te sho tochki daleko ne lezhat na odnij pryamij Tak samo yaksho y displaystyle y zavzhdi zmenshuyetsya koli x displaystyle x zbilshuyetsya koeficiyenti rangovoyi korelyaciyi stanovitimut 1 todi yak koeficiyent korelyaciyi Pirsona mozhe buti abo ne buti blizkim do 1 zalezhno vid togo naskilki blizko do pryamoyi liniyi roztashovani ci tochki Hocha v granichnih vipadkah idealnoyi rangovoyi korelyaciyi ci dva koeficiyenti rivni chi to obidva 1 chi obidva 1 zazvichaj ce ne tak i tomu znachennya cih dvoh koeficiyentiv nemozhlivo porivnyuvati zmistovno Napriklad dlya troh par 1 1 2 3 3 2 koeficiyent Spirmena dorivnyuye 1 2 a koeficiyent Kendalla dorivnyuye 1 3 Inshi miri zalezhnosti mizh vipadkovimi zminnimiDiv takozh Koeficiyent korelyaciyi Pirsona Varianti Informaciyi yaku nadaye koeficiyent korelyaciyi nedostatno dlya viznachennya strukturi zalezhnosti mizh vipadkovimi zminnimi Koeficiyent korelyaciyi povnistyu viznachaye strukturu zalezhnosti lishe v duzhe okremih vipadkah napriklad koli rozpodil ye bagatovimirnim normalnim rozpodilom div risunok vishe U vipadku eliptichnih rozpodiliv vin harakterizuye giper elipsi rivnoyi gustini prote vin ne povnistyu harakterizuye strukturu zalezhnosti napriklad stupeni vilnosti en viznachayut riven hvostovoyi zalezhnosti Dlya podolannya togo nedoliku korelyaciyi Pirsona sho vona mozhe buti nulovoyu dlya zalezhnih zminnih bulo zaproponovano en angl distance correlation nulova korelyaciya po viddali oznachaye nezalezhnist Randomizovanij koeficiyent zalezhnosti RKZ angl Randomized Dependence Coefficient RDC ce obchislyuvalno efektivna mira zalezhnosti mizh bagatovimirnimi vipadkovimi zminnimi na osnovi kopul RKZ invariantnij shodo nelinijnogo masshtabuvannya vipadkovih zminnih zdatnij viyavlyati shirokij spektr modelej funkcionalnih asociacij i nabuvaye nulovogo znachennya pri nezalezhnosti Dlya dvoh en en vimiryuye yihnyu zalezhnist i nabuvaye diapazonu nevid yemnih chisel potencijno neskinchennih 0 displaystyle 0 infty Shozhi statistiki yak ot en ta en unormovuyut jogo do podibnogo na korelyaciyu promizhku 1 1 displaystyle 1 1 Vidnoshennya shansiv uzagalneno logistichnoyu modellyu dlya modelyuvannya vipadkiv koli zalezhni zminni ye diskretnimi j mozhe buti odna abo dekilka nezalezhnih zminnih en vzayemna informaciya na osnovi entropiyi en en ta en takozh zdatni viyavlyati zagalnishi zalezhnosti yak i rozglyad kopuli mizh nimi todi yak koeficiyent determinaciyi uzagalnyuye koeficiyent korelyaciyi do en Chutlivist do rozpodilu danihDokladnishe Koeficiyent korelyaciyi Pirsona Chutlivist do rozpodilu danih Stupin zalezhnosti mizh zminnimi X ta Y ne zalezhit vid masshtabu v yakomu virazheno ci zminni Tobto yaksho mi analizuyemo vzayemozv yazok mizh X ta Y peretvorennya X na a bX j Y na c dY de a b c ta d ye stalimi b ta d dodatni na bilshist mir korelyaciyi ne vplivaye Ce stosuyetsya deyakih korelyacijnih statistik a takozh yihnih generalnih analogiv Deyaki korelyacijni statistiki yak ot koeficiyent rangovoyi korelyaciyi takozh invariantni shodo monotonnih peretvoren vidosoblenih rozpodiliv X ta abo Y Koeficiyenti korelyaciyi Pirsona Spirmena mizh X ta Y vidobrazheni koli diapazoni dvoh zminnih ne obmezheno ta koli diapazon X obmezheno intervalom 0 1 Bilshist mir korelyaciyi chutlivi do sposobu vibirannya X ta Y Zalezhnosti yak pravilo silnishi yaksho rozglyadati yih na shirshomu diapazoni znachen Takim chinom yaksho mi rozglyanemo koeficiyent korelyaciyi mizh zrostom batkiv ta yihnih siniv nad usima doroslimi cholovikami ta porivnyayemo jogo z tim zhe koeficiyentom korelyaciyi rozrahovanim koli vibrano batkiv zrostom vid 165 sm do 170 sm to v ostannomu vipadku korelyaciya bude slabshoyu Bulo rozrobleno kilka metodik yaki namagayutsya vipravlyati obmezhennya diapazonu v odnij abo oboh zminnih i yaki zazvichaj vikoristovuyut v metaanalizi najposhirenishimi ye rivnyannya Torndajka drugogo ta tretogo vipadkiv Deyaki vikoristovuvani miri korelyaciyi mozhut buti neviznachenimi dlya pevnih spilnih rozpodiliv X ta Y Napriklad koeficiyent korelyaciyi Pirsona viznacheno v terminah momentiv i otzhe bude ne viznacheno yaksho ne viznacheno momenti Zavzhdi viznacheno miri zalezhnosti yaki gruntuyutsya na kvantilyah Statistiki na osnovi vibirki priznacheni ocinyuvati generalni miri zalezhnosti mozhut mati abo ne mati bazhanih statistichnih vlastivostej napriklad buti nezmishenimi ta asimptotichno slushnimi zalezhno vid prostorovoyi strukturi sukupnosti z yakoyi bulo vibrano dani Chutlivist do rozpodilu danih mozhlivo vikoristovuvati yak perevagu Napriklad en rozrobleno tak shobi vikoristovuvati chutlivist do diapazonu zadlya vihoplyuvannya korelyaciyi mizh shvidkimi skladovimi chasovih ryadiv Shlyahom kontrolovanogo zmenshennya diapazonu znachennya korelyaciyi na dovgomu chasovomu masshtabi vidfiltrovuyutsya j viyavlyayutsya lishe korelyaciyi na korotkih chasovih masshtabah Korelyacijni matriciKorelyacijna matricya n displaystyle n vipadkovih zminnih X 1 X n displaystyle X 1 ldots X n ce matricya n n displaystyle n times n chiyim elementom i j displaystyle i j ye c i j corr X i X j cov X i X j s X i s X j if s X i s X j gt 0 displaystyle c ij operatorname corr X i X j frac operatorname cov X i X j sigma X i sigma X j quad text if sigma X i sigma X j gt 0 Takim chinom vsi yiyi diagonalni elementi odnakovo odinichni Yaksho vsi vikoristovuvani miri korelyaciyi ye koeficiyentami korelyaciyi Pirsona to korelyacijna matricya taka zhe yak i kovariacijna matricya standartizovanih vipadkovih zminnih X i s X i displaystyle X i sigma X i dlya i 1 n displaystyle i 1 dots n Ce stosuyetsya yak generalnoyi korelyacijnoyi matrici u comu vipadku s displaystyle sigma generalne standartne vidhilennya tak i vi birkovoyi korelyacijnoyi matrici u comu vipadku s displaystyle sigma poznachuye vibirkove standartne vidhilennya Otzhe kozhna z nih obov yazkovo ye dodatno napivviznachenoyu matriceyu Bilshe togo korelyacijna matricya strogo dodatno viznachena yaksho zhodna zminna ne mozhe mati vsi svoyi znachennya tochno porodzhenimi yak linijna funkciya znachen inshih Korelyacijna matricya simetrichna oskilki korelyaciya mizh X i displaystyle X i ta X j displaystyle X j ce te same sho j korelyaciya mizh X j displaystyle X j ta X i displaystyle X i Korelyacijna matricya z yavlyayetsya napriklad v odnij formuli dlya en miri dopasovanosti u en U statistichnomu modelyuvanni korelyacijni matrici sho podayut zv yazki mizh zminnimi kategorizuyut do riznih korelyacijnih struktur yaki rozriznyuyut za takimi chinnikami yak kilkist parametriv neobhidnih dlya yihnogo ocinyuvannya Napriklad u en korelyacijnij matrici vsi pari zminnih zmodelovano yak taki sho mayut odnakovu korelyaciyu tak sho vse nediagonalni elementi matrici dorivnyuyut odin odnomu Z inshogo boku avtoregresijnu matricyu chasto vikoristovuyut koli zminni podayut chasovij ryad oskilki korelyaciyi jmovirno budut bilshimi koli vimiryuvannya blizhchi v chasi Do inshih prikladiv nalezhat nezalezhni nestrukturovani M zalezhni matrici ta matrici Teplica V rozviduvalnomu analizi danih en polyagaye v zamini korelyacijnoyi matrici diagramoyu de viznachni korelyaciyi podayut sucilnoyu liniyeyu dodatna korelyaciya abo punktirnoyu liniyeyu vid yemna korelyaciya Najblizhcha chinna korelyacijna matricya U deyakih zastosuvannyah napriklad pobudovi modelej danih z lishe chastkovo sposterezhuvanih danih potribno znahoditi najblizhchu korelyacijnu matricyu do pribliznoyi korelyacijnoyi matrici napriklad matrici yakij zazvichaj brakuye napivviznachenoyi dodatnosti cherez te yakim chinom yiyi bulo obchisleno 2002 roku Hayem formalizuvav ponyattya blizkosti za dopomogoyu normi Frobeniusa ta zaproponuvav metod obchislennya najblizhchoyi korelyacijnoyi matrici za dopomogoyu en vtilennya yakogo dostupne yak interaktivnij en Ce viklikalo interes do danogo predmeta z otrimanimi v nastupni roki novimi teoretichnimi napriklad obchislennya najblizhchoyi korelyacijnoyi matrici z faktornoyu strukturoyu ta chiselnimi napriklad vikoristannya metodu Nyutona dlya obchislennya najblizhchoyi korelyacijnoyi matrici rezultatami Nekorelovanist i nezalezhnist stohastichnih procesivAnalogichno dlya dvoh stohastichnih procesiv X t t T displaystyle left X t right t in mathcal T ta Y t t T displaystyle left Y t right t in mathcal T Yaksho voni nezalezhni to voni nekorelovani s 151 Protilezhne comu tverdzhennyu mozhe buti nepravilnim Navit yaksho dvi zminni ne korelovani voni mozhut ne buti nezalezhnimi odna vid odnoyi Poshireni neporozuminnyaKorelovanist ta prichinnist Dokladnishe Korelyuvannya ne oznachaye sprichinyuvannya Div takozh en Poshirenij visliv korelyuvannya ne oznachaye sprichinyuvannya oznachaye sho korelyaciyu nemozhlivo vikoristovuvati samu po sobi dlya visnovuvannya prichinno naslidkovogo zv yazku mizh zminnimi Cej visliv ne slid sprijmati tak sho korelyaciyi ne mozhut vkazuvati na potencijne isnuvannya prichinno naslidkovih zv yazkiv Prote prichini sho lezhat v osnovi korelyaciyi yaksho voni j isnuyut mozhut buti nepryamimi abo nevidomimi a visoki korelyaciyi takozh perekrivayutsya z vidnoshennyami totozhnosti tavtologiyi de procesu sprichinyuvannya ne isnuye Otzhe korelyaciya mizh dvoma zminnimi ne ye dostatnoyu umovoyu dlya vstanovlennya prichinno naslidkovogo zv yazku v bud yakomu z napryamkiv Korelyaciya mizh vikom ta zrostom u ditej ye dosit prichinnisno prozoroyu ale korelyaciya mizh nastroyem i zdorov yam u lyudej ne nastilki Chi polipshennya nastroyu prizvodit do pokrashennya zdorov ya chi garne zdorov ya prizvodit do garnogo nastroyu chi obidva Chi yakijs inshij chinnik lezhit v osnovi oboh Inshimi slovami korelyaciyu mozhna vvazhati svidchennyam mozhlivogo prichinno naslidkovogo zv yazku ale vona ne mozhe vkazuvati yakim mozhe buti prichinnij zv yazok yaksho vin vzagali isnuye Prosti linijni korelyaciyi Kvartet Anskombe chotiri nabori danih z odnakovoyu korelyaciyeyu 0 816 Koeficiyent korelyaciyi Pirsona pokazuye silu linijnogo vzayemozv yazku mizh dvoma zminnimi ale jogo znachennya yak pravilo harakterizuye yihnij vzayemozv yazok ne povnistyu Zokrema yaksho umovne serednye Y displaystyle Y za zadanogo X displaystyle X poznachuvane cherez E Y X displaystyle operatorname E Y mid X ne linijne za X displaystyle X to koeficiyent korelyaciyi ne povnistyu viznachatime viglyad E Y X displaystyle operatorname E Y mid X Na susidnomu zobrazhenni pokazano diagrami rozsiyuvannya kvartetu Anskombe naboru z chotiroh riznih par zminnih stvorenogo en Chotiri zminni y displaystyle y mayut odnakove serednye znachennya 7 5 dispersiyu 4 12 korelyaciyu 0 816 ta liniyu regresiyi y 3 0 5 x textstyle y 3 0 5x Prote yak vidno na cih grafikah rozpodil zminnih duzhe riznij Pershi vgori livoruch vidayutsya rozpodilenimi normalno j vidpovidayut tomu sho mozhna bulo bi ochikuvati rozglyadayuchi dvi zminni yaki korelyuyut j dotrimuyutsya pripushennya normalnosti Drugi vgori pravoruch rozpodileno ne normalno i hocha j mozhlivo sposterigati ochevidnij vzayemozv yazok mizh cimi dvoma zminnimi vin ne ye linijnim U comu vipadku koeficiyent korelyaciyi Pirsona ne vkazuye sho isnuye tochna funkcijna zalezhnist lishe stupin do yakogo cej vzayemozv yazok mozhlivo nabliziti linijnim spivvidnoshennyam U tretomu vipadku vnizu livoruch linijna zalezhnist ye idealnoyu za vinyatkom odnogo vikidu yakij chinit dostatnij vpliv shobi zniziti koeficiyent korelyaciyi z 1 do 0 816 Nareshti chetvertij priklad unizu pravoruch pokazuye inshij priklad koli odnogo vikidu dostatno dlya otrimannya visokogo koeficiyenta korelyaciyi navit yaksho vzayemozv yazok mizh dvoma zminnimi ne ye linijnim Ci prikladi pokazuyut sho koeficiyent korelyaciyi yak zvedena statistika ne zdaten zaminiti vizualne doslidzhennya danih Inodi kazhut sho ci prikladi demonstruyut sho korelyaciya Pirsona peredbachaye sho dani mayut normalnij rozpodil ale ce pravilno lishe chastkovo Korelyaciyu Pirsona mozhlivo tochno rozrahuvati dlya bud yakogo rozpodilu yakij maye skinchennu kovariacijnu matricyu sho vklyuchaye bilshist rozpodiliv yaki zustrichayutsya na praktici Prote dostatnoyu statistikoyu koeficiyent korelyaciyi Pirsona vzyatij razom iz vibirkovim serednim znachennyam ta dispersiyeyu ye lishe v tomu vipadku yaksho dani vzyato z bagatovimirnogo normalnogo rozpodilu V rezultati koeficiyent korelyaciyi Pirsona povnistyu harakterizuye zv yazok mizh zminnimi todi j lishe todi koli dani vibirayut iz bagatovimirnogo normalnogo rozpodilu Dvovimirnij normalnij rozpodilYaksho para X Y displaystyle X Y vipadkovih zminnih sliduye dvovimirnomu normalnomu rozpodilu to umovne serednye E X Y displaystyle operatorname boldsymbol mathcal E X mid Y ye linijnoyu funkciyeyu vid Y displaystyle Y a umovne serednye E Y X displaystyle operatorname boldsymbol mathcal E Y mid X ye linijnoyu funkciyeyu vid X displaystyle X Koeficiyent korelyaciyi r X Y displaystyle rho X Y mizh X displaystyle X ta Y displaystyle Y j vidosobleni seredni znachennya ta dispersiyi X displaystyle X ta Y displaystyle Y viznachayut cyu linijnu zalezhnist E Y X E Y r X Y s Y X E X s X displaystyle operatorname boldsymbol mathcal E Y mid X operatorname boldsymbol mathcal E Y rho X Y cdot sigma Y cdot frac X operatorname boldsymbol mathcal E X sigma X de E X displaystyle operatorname boldsymbol mathcal E X ta E Y displaystyle operatorname boldsymbol mathcal E Y matematichni spodivannya X displaystyle X ta Y displaystyle Y vidpovidno a s X displaystyle sigma X ta s Y displaystyle sigma Y standartni vidhilennya X displaystyle X ta Y displaystyle Y vidpovidno Empirichna korelyaciya r displaystyle r ce ocinka koeficiyenta korelyaciyi r displaystyle rho Ocinku rozpodilu dlya r displaystyle rho zadayut cherez p r r G N 2 p G N 1 2 1 r 2 N 2 2 1 r 2 N 3 2 1 r r N 3 2 F H y p 3 2 1 2 N 1 2 1 r r 2 displaystyle pi rho mid r frac Gamma N sqrt 2 pi cdot Gamma N tfrac 1 2 cdot bigl 1 r 2 bigr frac N 2 2 cdot bigl 1 rho 2 bigr frac N 3 2 cdot bigl 1 r rho bigr N frac 3 2 cdot F mathsf Hyp left tfrac 3 2 tfrac 1 2 N tfrac 1 2 frac 1 r rho 2 right de F H y p displaystyle F mathsf Hyp gaussova gipergeometrichna funkciya Cya gustina ye odnochasno bayesovoyu aposteriornoyu gustinoyu j tochnoyu optimalnoyu gustinoyu en Div takozhPortal Matematika Dokladnishe Korelyaciya znachennya Avtokorelyaciya Vzayemna korelyaciya en en en en en en Ilyuzorna korelyaciya Kanonichna korelyaciya Kovariaciya Kovariaciya ta korelyaciya Koeficiyent determinaciyi en en Korelyacijna funkciya en en en en en en en en Pomilkova korelyaciya en en en PrimitkiCroxton Frederick Emory Cowden Dudley Johnstone Klein Sidney 1968 Applied General Statistics angl Pitman ISBN 9780273403159 page 625 Dietrich Cornelius Frank 1991 Uncertainty Calibration and Probability The Statistics of Scientific and Industrial Measurement 2nd Edition angl A Higler ISBN 9780750300605 Page 331 Aitken Alexander Craig 1957 Statistical Mathematics 8th Edition angl Oliver amp Boyd ISBN 9780050013007 Page 95 Rodgers J L Nicewander W A 1988 Thirteen ways to look at the correlation coefficient The American Statistician angl 42 1 59 66 doi 10 1080 00031305 1988 10475524 JSTOR 2685263 Dowdy S and Wearden S 1983 Statistics for Research angl Wiley ISBN 0 471 08602 9 pp 230 Francis DP Coats AJ Gibson D 1999 How high can a correlation coefficient be Int J Cardiol angl 69 2 185 199 doi 10 1016 S0167 5273 99 00028 5 PMID 10549842 Yule G U and Kendall M G 1950 An Introduction to the Theory of Statistics 14th Edition 5th Impression 1968 angl Charles Griffin amp Co pp 258 270 Kendall M G 1955 Rank Correlation Methods angl Charles Griffin amp Co Mahdavi Damghani B 2013 The Non Misleading Value of Inferred Correlation An Introduction to the Cointelation Model Wilmott Magazine angl 2013 67 50 61 doi 10 1002 wilm 10252 Szekely G J Rizzo Bakirov N K 2007 Measuring and testing independence by correlation of distances en angl 35 6 2769 2794 arXiv 0803 4101 doi 10 1214 009053607000000505 Szekely G J Rizzo M L 2009 Brownian distance covariance Annals of Applied Statistics angl 3 4 1233 1303 arXiv 1010 0297 doi 10 1214 09 AOAS312 PMC 2889501 PMID 20574547 Lopez Paz D and Hennig P and Scholkopf B 2013 The Randomized Dependence Coefficient en Reprint 3 serpnya 2020 u Wayback Machine angl Thorndike Robert Ladd 1947 Research problems and techniques Report No 3 angl Washington DC US Govt print off Nikolic D Muresan RC Feng W Singer W 2012 Scaled correlation analysis a better way to compute a cross correlogram European Journal of Neuroscience angl 35 5 1 21 doi 10 1111 j 1460 9568 2011 07987 x PMID 22324876 Higham Nicholas J 2002 Computing the nearest correlation matrix a problem from finance IMA Journal of Numerical Analysis angl 22 3 329 343 CiteSeerX 10 1 1 661 2180 doi 10 1093 imanum 22 3 329 portfoliooptimizer io angl Arhiv originalu za 3 sichnya 2022 Procitovano 30 sichnya 2021 Borsdorf Rudiger Higham Nicholas J Raydan Marcos 2010 PDF SIAM J Matrix Anal Appl angl 31 5 2603 2622 doi 10 1137 090776718 Arhiv originalu PDF za 30 grudnya 2021 Procitovano 3 sichnya 2022 Qi HOUDUO Sun DEFENG 2006 A quadratically convergent Newton method for computing the nearest correlation matrix SIAM J Matrix Anal Appl angl 28 2 360 385 doi 10 1137 050624509 Park Kun Il 2018 Fundamentals of Probability and Stochastic Processes with Applications to Communications angl Springer ISBN 978 3 319 68074 3 Aldrich John 1995 Correlations Genuine and Spurious in Pearson and Yule Statistical Science angl 10 4 364 376 doi 10 1214 ss 1177009870 JSTOR 2246135 Mahdavi Damghani Babak 2012 The Misleading Value of Measured Correlation en angl 2012 1 64 73 doi 10 1002 wilm 10167 Anscombe Francis J 1973 Graphs in statistical analysis The American Statistician angl 27 1 17 21 doi 10 2307 2682899 JSTOR 2682899 Taraldsen Gunnar 2021 The confidence density for correlation Sankhya A angl 85 600 616 doi 10 1007 s13171 021 00267 y ISSN 0976 8378 S2CID 244594067 Taraldsen Gunnar 2020 Confidence in correlation researchgate net preprint angl doi 10 13140 RG 2 2 23673 49769 LiteraturaKartashov M V Imovirnist procesi statistika Kiyiv VPC Kiyivskij universitet 2007 504 s Gnedenko B V Kurs teorii veroyatnostej 6 e izd Moskva Nauka 1988 446 s ros Gihman I I Skorohod A V Yadrenko M V Teoriya veroyatnostej i matematicheskaya statistika Kiyiv Visha shkola 1988 436 s ros Cohen J Cohen P West S G amp 2002 Applied multiple regression correlation analysis for the behavioral sciences angl vid 3rd Psychology Press ISBN 978 0 8058 2223 6 Hazewinkel Michiel red 2001 in statistics Correlation in statistics Matematichna enciklopediya Springer ISBN 978 1 55608 010 4 angl Oestreicher J amp D R 26 lyutogo 2015 Plague of Equals A science thriller of international disease politics and drug discovery angl California Omega Cat Press s 408 ISBN 978 0963175540 PosilannyaU Vikislovniku ye storinka korelyaciya Vikishovishe maye multimedijni dani za temoyu Korelyaciya Storinka MathWorld pro koeficiyent i vzayemnoyi korelyaciyi vibirki 31 serpnya 2019 u Wayback Machine angl Obchislennya znachushosti mizh dvoma korelyaciyami 3 sichnya 2022 u Wayback Machine dlya porivnyannya dvoh znachen korelyaciyi Arhiv originalu za 24 kvitnya 2021 Dovedennya togo sho vibirkova dvovimirna korelyaciya maye mezhi plyus ta minus 1 17 zhovtnya 2016 u Wayback Machine angl Interaktivna Flash simulyaciya korelyaciyi dvoh normalno rozpodilenih zminnih 17 travnya 2021 u Wayback Machine vid Yugi Puranena angl R Psychologist Correlation 17 serpnya 2020 u Wayback Machine unaochnennya korelyaciyi mizh dvoma chislovimi zminnimi