Ме́тод головни́х компоне́нтів (МГК, англ. principal component analysis, PCA) — метод факторного аналізу в статистиці, який використовує ортогональне перетворення множини спостережень з можливо пов'язаними змінними (сутностями, кожна з яких набуває різних числових значень) у множину змінних без лінійної кореляції, які називаються головними компонентами.
Метод головних компонент — один з основних способів зменшити розмірність даних, втративши найменшу кількість інформації. Винайдений Карлом Пірсоном у та доповнений і розширений Гарольдом Готелінґом в 1933 р. Застосовується в багатьох галузях, зокрема, в економетриці, біоінформатиці, обробці зображень, для стиснення даних, у суспільних науках.
Обчислення головних компонент може бути зведене до обчислення сингулярного розкладу матриці даних або до обчислення власних векторів і власних чисел коваріаційної матриці початкових даних. Іноді метод головних компонент називають перетворенням Кархунена — Лоева або перетворенням Хотеллінга (англ. Hotelling transform).
Загальна характеристика
Метод головних компонент — один із найпоширеніших методів факторного аналізу.
Серед інших подібних методів, що дозволяють узагальнювати значення елементарних ознак, МГК виділяється простою логічною конструкцією, і, разом з тим, на його прикладі стають зрозумілими загальна ідея й цілі чисельних методів факторного аналізу.
Метод головних компонент дає можливість за m — числом початкових ознак виділити r головних компонент, або узагальнених ознак. Простір головних компонент ортогональний. Математична модель методу головних компонент базується на логічному припущенні, що значення множини взаємозалежних ознак породжують деякий загальний результат.
Розв'язування задачі методом головних компонент зводиться до поетапного перетворення матриці початкових даних X.
Формальна постановка задачі
Задача аналізу головних компонент має щонайменше чотири базових версії:
- апроксимувати дані лінійними многовидами меншої розмірності;
- знайти підпростори меншої розмірності, в ортогональній проєкції на які розкид даних (тобто середньоквадратичне відхилення від середнього значення) максимальний;
- знайти підпростори меншої розмірності, в ортогональній проєкції на які середньоквадратична відстань між точками максимальна;
- для даної багатовимірної випадкової величини побудувати таке ортогональне перетворення координат, внаслідок якого кореляції між окремими координатами перетворяться в нуль.
Перші три версії оперують скінченними множинами даних. Вони еквівалентні і не використовують жодної гіпотези про статистичне породження даних. Четверта версія оперує випадковими величинами. Скінченні множини з'являються тут як вибірки з даного розподілу, а розв'язання трьох перших завдань — як наближення до розкладу за теоремою Кархунена — Лоева («істинного перетворення Кархунена — Лоева»). При цьому виникає додаткове і не цілком тривіальне питання про точність цього наближення.
Апроксимація даних лінійними многовидами
Метод головних компонент починався з задачі найкращої апроксимації скінченної множини точок прямими і площинами (Пірсон, 1901). Дано скінченну множину векторів для кожного серед всіх -вимірних лінійних многовидів у знайти таке , що сума квадратів відхилень від мінімальна:
- ,
де — евклідова відстань від точки до лінійного многовиду. Кожен -вимірний лінійний многовид в може бути заданий як множина лінійних комбінацій , де параметри пробігають дійсну пряму , а — ортонормований набір векторів
- ,
де евклідова норма, — евклідів скалярний добуток, або в координатній формі:
- .
Розв'язок задачі апроксимації для дається набором вкладених лінійних многовидів , . Ці лінійні многовиди визначаються ортонормованим набором векторів (векторами головних компонент) та вектором . Вектор шукається як розв'язок задачі мінімізації для :
- ,
тобто
- .
Це — вибіркове середнє: .
Фреше в 1948 році звернув увагу, що варіаційне визначення середнього (як точки, що мінімізує суму квадратів відстаней до точок даних) дуже зручно для побудови статистики в довільному метричному просторі, і побудував узагальнення класичної статистики для загальних просторів (узагальнений метод найменших квадратів).
Вектори головних компонент можуть бути знайдені як розв'язки однотипних задач оптимізації:
- Централізуються дані (відніманням середнього): . Тепер ;
- Відшукується перша головна компонента як розв'язок задачі:
- .
- якщо розв'язок не єдиний, то вибирається один з них.
- З даних віднімається проєкція на першу головну компоненту:
- ;
- Відшукується друга головна компонента як розв'язок задачі:
- .
- Якщо розв'язок не єдиний, то вибирається один з них.
Далі процес триває, тобто на кроці віднімається проєкція на -у головну компоненту (до цього моменту проєкції на попередні головні компоненти вже відняті):
- ;
і на кроці визначається -а головна компонента як розв'язок задачі:
- (якщо розв'язок не єдиний, то вибирається один з них).
На кожному підготовчому кроці віднімається проєкція на попередню головну компоненту. Знайдені вектори ортонормовані просто внаслідок розв'язування описаної задачі оптимізації, однак, щоб не дати похибкам обчислення порушити взаємну ортогональність векторів головних компонент, можна включати в умови задачі оптимізації.
Неєдиність у визначенні крім тривіальної довільності у виборі знака ( і розв'язують ту саму задачу) може бути більш істотною і походити, наприклад, з умов симетрії даних. Остання головна компонента — одиничний вектор, ортогональний всім попереднім .
Пошук ортогональних проєкцій з найбільшим розсіянням
Нехай нам дано центрований набір векторів даних (середнє арифметичне значення дорівнює нулю). Завдання — знайти таке ортогональне перетворення в нову систему координат, для якого б виконувались такі умови:
- Вибіркова дисперсія даних уздовж першої координати максимальна (цю координату називають першою головною компонентою);
- Вибіркова дисперсія даних уздовж другої координати максимальна за умови ортогональності першій координаті (друга головна компонента);
- …
- Вибіркова дисперсія даних уздовж значень -ї координати максимальна за умови ортогональності першим координатами;
- …
Вибіркова дисперсія даних уздовж напрямку, заданого нормованим вектором , це
(оскільки дані центровані, вибіркова дисперсія тут збігається із середнім квадратом ухилення від нуля).
Розв'язок задачі про найкращу апроксимацію дає ту ж множину головних компонент , що й пошук ортогональних проєкцій з найбільшим розсіянням, з дуже простої причини: і перший доданок не залежить від .
Пошук ортогональних проєкцій з найбільшою середньоквадратичною відстанню між точками
Ще одне еквівалентне формулювання випливає з очевидної тотожності, правильної для будь-яких векторів :
У лівій частині цієї тотожності стоїть середньоквадратична відстань між точками, а в квадратних дужках праворуч — вибіркова дисперсія. Таким чином, у методі головних компонент шукаються підпростори, в проєкції на які середньоквадратична відстань між точками максимальна (або, що те ж саме, її спотворення внаслідок проєкції мінімальне). Таке переформулювання дозволяє будувати узагальнення зі зважуванням різних парних відстаней (а не тільки точок).
Анулювання кореляцій між координатами
Для заданої -вимірної випадкової величини знайти такий ортонормований базис, , в якому коефіцієнт коваріації між різними координатами дорівнює нулю. Після перетворення до цього базису
- для .
Тут — коефіцієнт коваріації, де — математичне сподівання.
Діагоналізація коваріаційної матриці
Всі задачі про головні компоненти приводять до задачі діагоналізації коваріаційної матриці або вибіркової коваріаційної матриці. Емпірична або вибіркова коваріаційна матриця, це
Коваріаційна матриця багатовимірної випадкової величини , це
Вектори головних компонент для задач про найкращу апроксимацію і про пошук ортогональних проєкцій з найбільшим розсіянням — це ортонормований набір власних векторів емпіричної коваріаційної матриці , розташованих у порядку спадання власних значень Ці вектори слугують оцінкою для власних векторів коваріаційної матриці . У базисі власних векторів коваріаційної матриці вона, природно, діагональна, і в цьому базисі коефіцієнт коваріації між різними координатами дорівнює нулю.
Якщо спектр коваріаційної матриці вироджений, то вибирають довільний ортонормований базис власних векторів. Він існує завжди, а власні числа коваріаційної матриці завжди дійсні і невід'ємні.
Сингулярний розклад матриці даних
Ідея сингулярного розкладу
Математичний зміст методу головних компонент — це спектральне розкладання коваріаційної матриці , тобто подання простору даних у вигляді суми взаємно ортогональних власних підпросторів , а самої матриці — у вигляді лінійної комбінації ортогональних проєкторів на ці підпростори з коефіцієнтами . Якщо — матриця, складена з векторів-рядків (розмірності ) центрованих даних, то і задача про спектральний розклад коваріаційної матриці перетворюється на задачу про сингулярний розклад матриці даних .
Число називається сингулярним числом матриці тоді і тільки тоді, коли існують правий і лівий сингулярні вектори: такі -вимірний вектор-рядок і -вимірний вектор-стовпець (обидва одиничної довжини), що виконуються дві рівності:
Нехай — ранг матриці даних. Сингулярний розклад матриці даних — це її подання у вигляді
де — сингулярне число, — відповідний правий сингулярний вектор-стовпець, а — відповідний лівий сингулярний вектор-рядок (). Праві сингулярні вектори-стовпці , що беруть участь у цьому розкладі, є векторами головних компонент і власними векторами емпіричної коваріаційної матриці , що відповідають додатним власним числам .
Хоча формально завдання сингулярного розкладу матриці даних і спектрального розкладу коваріаційної матриці збігаються, алгоритми обчислення сингулярного розкладу безпосередньо, без обчислення коваріаційної матриці і її спектра, більш ефективні і стійкі.
Теорія сингулярного розкладання була створена Джеймсом Джозефом Сильвестром у і викладена в усіх докладних посібниках з теорії матриць.
Простий ітераційний алгоритм сингулярного розкладання
Основна процедура — пошук найкращого наближення довільної матриці матрицею виду (де — -вимірний вектор, а — -вимірний вектор) методом найменших квадратів:
Розв'язок цієї задачі дається послідовними ітераціями за явними формулами. При фіксованому векторі значення , що надають мінімум формі однозначно і явно визначаються з рівностей :
Аналогічно, при фіксованому векторі визначаються значення :
Як початкове наближення вектора береться випадковий вектор одиничної довжини, обчислюємо вектор , далі для цього вектора обчислюємо вектор і т. д. Кожен крок зменшує значення . Як критерій зупинки використовується малість відносного зменшення значення функціоналу , що мінімізується, за крок ітерації () або малість самого значення .
Внаслідок цього для матриці отримується найкраще наближення матрицею виду (тут верхнім індексом позначено номер наближення). Далі, з матриці віднімається отримана матриця , і для отриманої матриці ухилень знову шукається найкраще наближення цього ж виду і т. д., поки, наприклад, норма не стане достатньо малою. В результаті отримали ітераційну процедуру розкладання матриці у вигляді суми матриць рангу 1, тобто . Приймаємо і нормуємо вектори : В результаті отримано апроксимацію сингулярних чисел і сингулярних векторів (правих — і лівих — ).
До переваг цього алгоритму відноситься його виняткова простота і можливість майже без змін перенести його на дані з прогалинами, а також зважені дані.
Існують різні модифікації базового алгоритму, що поліпшують точність і стійкість. Наприклад, вектори головних компонент при різних повинні бути ортогональні «за побудовою», однак за великого числа ітерацій (велика розмірність, багато компонент) малі відхилення від ортогональності накопичуються і може знадобитися спеціальна корекція на кожному кроці, що забезпечує його ортогональність раніше знайденим головним компонентам.
Для квадратних симетричних додатно визначених матриць описаний алгоритм перетворюється на метод прямих ітерацій для пошуку власних векторів (див. статтю Власні вектори та власні числа).
Сингулярне розкладання тензорів і тензорний метод головних компонент
Часто вектор даних має додаткову структуру прямокутної таблиці (наприклад, плоске зображення) або навіть багатовимірної таблиці — тобто тензора: , . У цьому випадку також ефективно застосовувати сингулярне розкладання. Визначення, основні формули та алгоритми переносяться практично без змін: замість матриці даних маємо -індексну величину , де перший індекс -номер точки (тензора) даних.
Основна процедура — пошук найкращого наближення тензора тензором виду (де — -вимірний вектор ( — кількість точок даних), — вектор розмірності при ) методом найменших квадратів:
Розв'язок цієї задачі отримується послідовними ітераціями за явними формулами. Якщо задано всі вектори-співмножники крім одного , то він визначається явно з достатніх умов мінімуму.
Як початкове наближення векторів () беруться випадкові вектори одиничної довжини, обчислимо вектор далі для цього вектора і даних векторів обчислюється вектор і так далі (циклічно перебираючи індекси). Кожен крок зменшує значення . Алгоритм, очевидно, збігається. Як критерій зупинки використовується малість відносного зменшення значення функціоналу , що мінімізується, за цикл або малість самого значення . Далі, від тензора віднімається отримане наближення і для залишку знову шукається найкраще наближення цього ж вигляду і т. д., поки, наприклад, норма чергового залишку не стане достатньо малою.
Це багатокомпонентне сингулярне розкладання (тензорний метод головних компонент) успішно застосовується при обробці зображень, відеосигналів, і, ширше, будь-яких даних, що мають табличну або тензорну структуру.
Матриця перетворення до головних компонентів
Матриця перетворення даних до головних компонент складається з векторів головних компонент, розташованих у порядку спадання власних значень:
- ( означає транспонування), причому
Тобто, матриця є ортогональною.
Велика частина варіації даних буде зосереджена в перших координатах, що дозволяє перейти до простору меншої розмірності.
Залишкова дисперсія
Нехай дані центровані, . При заміні векторів даних їх проєкцією на перші головних компонент вноситься середній квадрат помилки в розрахунку на один вектор даних:
де — власні значення емпіричної коваріаційної матриці , розташовані в порядку спадання, з урахуванням кратності.
Ця величина називається залишковою дисперсією. Величина
називається поясненою дисперсією. Їх сума дорівнює вибірковій дисперсії. Відповідний квадрат відносної помилки — це відношення залишкової дисперсії до вибіркової дисперсії (тобто частка непоясненої дисперсії):
За відносною помилкою оцінюється придатність методу головних компонент з проєціюванням на перші компонент.
Зауваження: в більшості обчислювальних алгоритмів власні числа з відповідними власними векторами головними компонентами обчислюються в порядку «від великих — до менших». Для обчислення достатньо обчислити перші власних чисел і слід емпіричної коваріаційної матриці , (суму діагональних елементів , тобто дисперсій за осями). Тоді
Відбір головних компонент за правилом Кайзера
Цільовий підхід до оцінки числа головних компонент з необхідною часткою поясненої дисперсії формально застосовується завжди, однак неявно він припускає, що немає поділу на «сигнал» і «шум», і будь-яка наперед задана точність має сенс. Тому часто більш продуктивна інша евристика, яка ґрунтується на гіпотезі про наявність «сигналу» (порівняно мала розмірність, відносно велика амплітуда) і «шуму» (велика розмірність, відносно мала амплітуда). З цієї точки зору метод головних компонент працює як фільтр: сигнал міститься, в основному, в проєкції на перші головні компоненти, а в інших компонентах пропорція шуму значно вища.
Питання: як оцінити число необхідних головних компонент, якщо відношення «сигнал/шум» заздалегідь не відоме?
Найпростіший і найстаріший метод відбору головних компонент дає правило Кайзера (англ. Kaiser's rule): значущі ті головні компоненти, для яких
тобто перевищує середнє значення (середню вибіркову дисперсію координат вектора даних). Правило Кайзера добре працює в простих випадках, коли є декілька головних компонент з , які значно перевищують середнє значення, а інші власні числа, менші за нього. У більш складних випадках воно може давати занадто багато значущих головних компонент. Якщо дані нормовані на одиничну вибіркову дисперсію за осями, то правило Кайзера набуває особливо простого вигляду: значущі тільки ті головні компоненти, для яких .
Оцінка числа головних компонент за правилом зламаної тростини
Одним з найбільш популярних евристичних підходів до оцінки числа необхідних головних компонент є правило зламаної тростини (англ. Broken stick model). Набір нормованих на одиничну суму власних чисел (, ) порівнюється з розподілом довжин уламків тростини одиничної довжини, зламаної в -й випадково вибраній точці (точки зламу вибираються незалежно і рівномірно розподілені вздовж тростини). Нехай () — довжини отриманих шматків тростини, занумеровані в порядку зменшення довжини. Нескладно знайти математичне сподівання :
За правилом зламаної тростини -й власний вектор (у порядку зменшення власних чисел ) зберігається в списку головних компонент, якщо
На рисунку наведено приклад для 5-вимірного випадку:
- =(1+1/2+1/3+1/4+1/5)/5; =(1/2+1/3+1/4+1/5)/5; =(1/3+1/4+1/5)/5; =(1/4+1/5)/5; =(1/5)/5.
Для прикладу вибрано
- =0.5; =0.3; =0.1; =0.06; =0.04.
За правилом зламаної тростини в цьому прикладі слід залишати 2 головні компоненти:
За оцінками користувачів, правило зламаної тростини має тенденцію занижувати кількість значущих головних компонент.
Нормування
Нормування після зведення до головних компонент
Після проєціювання на перші головних компонент з зручно провести нормування на одиничну (вибіркову) дисперсію за осями. Дисперсія вздовж -ї головної компоненти дорівнює ), тому для нормування треба поділити відповідну координату на . Це перетворення не є ортогональним і не зберігає скалярного добутку. Коваріаційна матриця проєкції даних після нормування стає одиничною, проєкції на будь-які два ортогональні напрямки стають незалежними величинами, а будь-який ортонормований базис стає базисом головних компонент (нагадаємо, що нормування змінює відношення ортогональності векторів). Відображення простору початкових даних на перші головних компонент разом з нормуванням задається матрицею
- .
Саме це перетворення найчастіше називається перетворенням Кархунена — Лоева. Тут — вектори-стовпці, а верхній індекс означає транспонування.
Нормування до обчислення головних компонент
Попередження: не слід плутати нормування, що проводиться після перетворення до головних компонент, з нормуванням і «знерозмірюванням» при передобробці даних, що проводиться до обчислення головних компонент. Попереднє нормування потрібне для обґрунтованого вибору метрики, в якій буде обчислюватися найкраща апроксимація даних, або будуть шукатися напрямки найбільшого розкиду (що еквівалентно). Наприклад, якщо дані являють собою просторові вектори з «метрів, літрів і кілограмів», то при використанні стандартної евклідової відстані різниця на 1 метр за першою координатою робитиме такий самий внесок, що й різниця на 1 літр за другою, або на 1 кг за третьою. Зазвичай системи одиниць, в яких подані початкові дані, недостатньо точно відображають наші уявлення про природні масштаби за осями, і проводиться «знерозмірювання»: кожна координата ділиться на певний масштаб, який визначається даними, цілями їх обробки і процесами вимірювання і збору даних.
Є три істотно різних стандартних підходи до такого нормування: на одиничну дисперсію за осями (масштаби за осями дорівнюють середнім квадратичним ухиленням — після цього перетворення коваріаційна матриця збігається з матрицею коефіцієнтів кореляції), на рівну точність вимірювання (масштаб за віссю пропорційний точності вимірювання даної величини) і на рівні вимоги в задачі (масштаб за віссю визначається необхідною точністю прогнозу даної величини або допустимим її спотворенням — рівнем толерантності). На вибір передобробки впливають змістовна постановка задачі, а також умови збору даних (наприклад, якщо колекція даних принципово не завершена і дані будуть ще надходити, то нераціонально вибирати нормування строго на одиничну дисперсію, навіть якщо це відповідає змісту завдання, оскільки це передбачає ренормалізацію всіх даних після отримання нової порції; розумніше вибрати певний масштаб, що грубо оцінює стандартне відхилення, і далі його не змінювати).
Попереднє нормування на одиничну дисперсію за осями руйнується поворотом системи координат, якщо осі не є головними компонентами, і нормування при передобробці даних не замінює нормування після зведення до головних компонент.
Механічна аналогія і метод головних компонент для зважених даних
Якщо зіставити кожному вектору даних одиничну масу, то емпірична коваріаційна матриця збіжиться з тензором інерції цієї системи точкових мас (поділеним на повну масу ), а задача про головні компоненти — із задачею зведення тензора інерції до головних осей. Можна використовувати додаткову свободу у виборі значень мас для врахування важливості точок даних або надійності їхніх значень (важливим даними або даними з більш надійних джерел приписуються великі маси). Якщо вектору даних надається маса , то замість емпіричної коваріаційної матриці отримаємо
Всі подальші операції зі зведення до головних компонент виконуються так само, як і в основній версії методу: шукається ортонормований власний базис , впорядковується за спаданням власних значень, оцінюється середньозважена помилка апроксимації даних першими компонентами (за сумами власних чисел ), проводиться нормування і так далі.
Більш загальний спосіб зважування дає максимізація зваженої суми попарних відстаней між проєкціями. Для кожних двох точок даних, вводиться вага ; і . Замість емпіричної коваріаційної матриці використовується
При симетрична матриця додатно визначена, оскільки додатна квадратична форма:
Далі шукаємо ортонормований власний базис , впорядковуємо його за спаданням власних значень, оцінюємо середню помилку апроксимації даних першими компонентами і т. д. — так само, як і в основному алгоритмі.
Цей спосіб застосовується за наявності класів: для з різних класів вага вага вибирається більшою, ніж для точок одного класу. Як наслідок, у проєкції на зважені головні компоненти різні класи «розсуваються» на більшу відстань.
Інше застосування — зниження впливу великих ухилень, так званих викидів (en.:outlier), які можуть спотворювати картину через використання середньоквадратичної відстані: якщо вибрати , то вплив великих ухилень буде зменшено. Таким чином, описана модифікація методу головних компонент є більш робастною, ніж класична.
Спеціальна термінологія
В статистиці при використанні методу головних компонент використовують кілька спеціальних термінів.
- Матриця даних — ; кожен рядок — вектор передоброблених даних (центрованих і правильно нормованих), число рядків — (кількість векторів даних), число стовпців — (розмірність простору даних);
- Матриця навантажень (англ. loadings) — ; кожен стовпець — вектор головних компонент, число рядків — (розмірність простору даних), число стовпців — (кількість векторів головних компонент, вибраних для проєціювання);
- Матриця рахунків (англ. scores) — ; кожен рядок — проєкція вектора даних на головних компонент; число рядків — (кількість векторів даних), число стовпців — (кількість векторів головних компонент, вибраних для проєціювання);
- Матриця -рахунків (англ. -scores) — ; кожен рядок — проєкція вектора даних на головних компонент, нормована на одиничну вибіркову дисперсію; число рядків — (кількість векторів даних), число стовпців — (кількість векторів головних компонент, вибраних для проєктування);
- Матриця помилок (або залишків) (англ. errors або residuals) — .
- Основна формула: .
Межі застосування та обмеження ефективності методу
Метод головних компонент застосовний завжди. Розповсюджене твердження про те, що він застосовний тільки до нормально розподілених даних (або для розподілів близьких до нормальних) хибне: у початковому формулюванні Пірсона ставиться задача про наближення скінченної множини даних та відсутня навіть гіпотеза про їх статистичне породження, не кажучи вже про розподіл.
Однак метод не завжди ефективно знижує розмірність за заданих обмежень на точність . Прямі і площини не завжди забезпечують гарну апроксимацію. Наприклад, дані можуть з хорошою точністю дотримуватися якоїсь кривої, а ця крива може бути складно розташована у просторі даних.
Вікіпедія, Українська, Україна, книга, книги, бібліотека, стаття, читати, завантажити, безкоштовно, безкоштовно завантажити, mp3, відео, mp4, 3gp, jpg, jpeg, gif, png, малюнок, музика, пісня, фільм, книга, гра, ігри, мобільний, телефон, android, ios, apple, мобільний телефон, samsung, iphone, xiomi, xiaomi, redmi, honor, oppo, nokia, sonya, mi, ПК, web, Інтернет
Me tod golovni h kompone ntiv MGK angl principal component analysis PCA metod faktornogo analizu v statistici yakij vikoristovuye ortogonalne peretvorennya mnozhini sposterezhen z mozhlivo pov yazanimi zminnimi sutnostyami kozhna z yakih nabuvaye riznih chislovih znachen u mnozhinu zminnih bez linijnoyi korelyaciyi yaki nazivayutsya golovnimi komponentami Metod golovnih komponent odin z osnovnih sposobiv zmenshiti rozmirnist danih vtrativshi najmenshu kilkist informaciyi Vinajdenij Karlom Pirsonom u ta dopovnenij i rozshirenij Garoldom Gotelingom v 1933 r Zastosovuyetsya v bagatoh galuzyah zokrema v ekonometrici bioinformatici obrobci zobrazhen dlya stisnennya danih u suspilnih naukah Obchislennya golovnih komponent mozhe buti zvedene do obchislennya singulyarnogo rozkladu matrici danih abo do obchislennya vlasnih vektoriv i vlasnih chisel kovariacijnoyi matrici pochatkovih danih Inodi metod golovnih komponent nazivayut peretvorennyam Karhunena Loeva abo peretvorennyam Hotellinga angl Hotelling transform Zagalna harakteristikaShema matematichnih peretvoren Na malyunku poznachennya X matricya vihidnih danih rozmirnistyu n m n chislo ob yektiv sposterezhennya m chislo elementarnih analitichnih oznak Z matricya centrovanih i normovanih znachen oznak R matricya parnih korelyacij L diagonalna matricya vlasnih harakteristichnih chisel A matricya faktornogo vidobrazhennya yiyi elementi arj vagovi koeficiyenti Spochatku A maye rozmirnist m m za kilkistyu elementarnih oznak Xj potim v analizi zalishayetsya r najvagomishih komponent r m Obchislyuyut matricyu A za vidomimi danimi matrici vlasnih chisel L i normovanimi vlasnimi vektorami V za formuloyu A VL1 2 F matricya znachen golovnih komponent rozmirnistyu r n Metod golovnih komponent odin iz najposhirenishih metodiv faktornogo analizu Sered inshih podibnih metodiv sho dozvolyayut uzagalnyuvati znachennya elementarnih oznak MGK vidilyayetsya prostoyu logichnoyu konstrukciyeyu i razom z tim na jogo prikladi stayut zrozumilimi zagalna ideya j cili chiselnih metodiv faktornogo analizu Metod golovnih komponent daye mozhlivist za m chislom pochatkovih oznak vidiliti r golovnih komponent abo uzagalnenih oznak Prostir golovnih komponent ortogonalnij Matematichna model metodu golovnih komponent bazuyetsya na logichnomu pripushenni sho znachennya mnozhini vzayemozalezhnih oznak porodzhuyut deyakij zagalnij rezultat Rozv yazuvannya zadachi metodom golovnih komponent zvoditsya do poetapnogo peretvorennya matrici pochatkovih danih X Formalna postanovka zadachiZadacha analizu golovnih komponent maye shonajmenshe chotiri bazovih versiyi aproksimuvati dani linijnimi mnogovidami menshoyi rozmirnosti znajti pidprostori menshoyi rozmirnosti v ortogonalnij proyekciyi na yaki rozkid danih tobto serednokvadratichne vidhilennya vid serednogo znachennya maksimalnij znajti pidprostori menshoyi rozmirnosti v ortogonalnij proyekciyi na yaki serednokvadratichna vidstan mizh tochkami maksimalna dlya danoyi bagatovimirnoyi vipadkovoyi velichini pobuduvati take ortogonalne peretvorennya koordinat vnaslidok yakogo korelyaciyi mizh okremimi koordinatami peretvoryatsya v nul Pershi tri versiyi operuyut skinchennimi mnozhinami danih Voni ekvivalentni i ne vikoristovuyut zhodnoyi gipotezi pro statistichne porodzhennya danih Chetverta versiya operuye vipadkovimi velichinami Skinchenni mnozhini z yavlyayutsya tut yak vibirki z danogo rozpodilu a rozv yazannya troh pershih zavdan yak nablizhennya do rozkladu za teoremoyu Karhunena Loeva istinnogo peretvorennya Karhunena Loeva Pri comu vinikaye dodatkove i ne cilkom trivialne pitannya pro tochnist cogo nablizhennya Aproksimaciya danih linijnimi mnogovidami Ilyustraciya do znamenitoyi roboti Pirsona 1901 dani tochki P i displaystyle P i na ploshini p i displaystyle p i vidstan vid P i displaystyle P i do pryamoyi A B displaystyle AB Shukayetsya pryama A B displaystyle AB sho minimizuye sumu i p i 2 displaystyle sum i p i 2 Metod golovnih komponent pochinavsya z zadachi najkrashoyi aproksimaciyi skinchennoyi mnozhini tochok pryamimi i ploshinami Pirson 1901 Dano skinchennu mnozhinu vektoriv x 1 x 2 x m R n displaystyle x 1 x 2 dots x m in mathbb R n dlya kozhnogo k 0 1 n 1 displaystyle k 0 1 dots n 1 sered vsih k displaystyle k vimirnih linijnih mnogovidiv u R n displaystyle mathbb R n znajti take L k R n displaystyle L k subset mathbb R n sho suma kvadrativ vidhilen x i displaystyle x i vid L k displaystyle L k minimalna i 1 m dist 2 x i L k min displaystyle sum i 1 m operatorname dist 2 x i L k to min de dist x i L k displaystyle operatorname dist x i L k evklidova vidstan vid tochki do linijnogo mnogovidu Kozhen k displaystyle k vimirnij linijnij mnogovid v R n displaystyle mathbb R n mozhe buti zadanij yak mnozhina linijnih kombinacij L k a 0 b 1 a 1 b k a k b i R displaystyle L k a 0 beta 1 a 1 dots beta k a k beta i in mathbb R de parametri b i displaystyle beta i probigayut dijsnu pryamu R displaystyle mathbb R a 0 R n displaystyle a 0 in mathbb R n a a 1 a k R n displaystyle left a 1 dots a k right subset mathbb R n ortonormovanij nabir vektoriv dist 2 x i L k x i a 0 j 1 k a j a j x i a 0 2 displaystyle operatorname dist 2 x i L k Vert x i a 0 sum j 1 k a j a j x i a 0 Vert 2 de displaystyle Vert cdot Vert evklidova norma a j x i displaystyle left a j x i right evklidiv skalyarnij dobutok abo v koordinatnij formi dist 2 x i L k l 1 n x i l a 0 l j 1 k a j l q 1 n a j q x i q a 0 q 2 displaystyle operatorname dist 2 x i L k sum l 1 n left x il a 0l sum j 1 k a jl sum q 1 n a jq x iq a 0q right 2 Rozv yazok zadachi aproksimaciyi dlya k 0 1 n 1 displaystyle k 0 1 dots n 1 dayetsya naborom vkladenih linijnih mnogovidiv L 0 L 1 L n 1 displaystyle L 0 subset L 1 subset dots L n 1 L k a 0 b 1 a 1 b k a k b i R displaystyle L k a 0 beta 1 a 1 beta k a k beta i in mathbb R Ci linijni mnogovidi viznachayutsya ortonormovanim naborom vektoriv a 1 a n 1 displaystyle left a 1 a n 1 right vektorami golovnih komponent ta vektorom a 0 displaystyle a 0 Vektor a 0 displaystyle a 0 shukayetsya yak rozv yazok zadachi minimizaciyi dlya L 0 displaystyle L 0 a 0 argmin a 0 R n i 1 m dist 2 x i L 0 displaystyle a 0 underset a 0 in mathbb R n operatorname argmin left sum i 1 m operatorname dist 2 x i L 0 right tobto a 0 argmin a 0 R n i 1 m x i a 0 2 displaystyle a 0 underset a 0 in mathbb R n operatorname argmin left sum i 1 m Vert x i a 0 Vert 2 right Ce vibirkove serednye a 0 1 m i 1 m x i X displaystyle a 0 frac 1 m sum i 1 m x i overline X Freshe v 1948 roci zvernuv uvagu sho variacijne viznachennya serednogo yak tochki sho minimizuye sumu kvadrativ vidstanej do tochok danih duzhe zruchno dlya pobudovi statistiki v dovilnomu metrichnomu prostori i pobuduvav uzagalnennya klasichnoyi statistiki dlya zagalnih prostoriv uzagalnenij metod najmenshih kvadrativ Vektori golovnih komponent mozhut buti znajdeni yak rozv yazki odnotipnih zadach optimizaciyi Centralizuyutsya dani vidnimannyam serednogo x i x i X displaystyle x i x i overline X Teper i 1 m x i 0 displaystyle sum i 1 m x i 0 Vidshukuyetsya persha golovna komponenta yak rozv yazok zadachi a 1 argmin a 1 1 i 1 m x i a 1 a 1 x i 2 displaystyle a 1 underset Vert a 1 Vert 1 operatorname argmin left sum i 1 m Vert x i a 1 a 1 x i Vert 2 right yaksho rozv yazok ne yedinij to vibirayetsya odin z nih Z danih vidnimayetsya proyekciya na pershu golovnu komponentu x i x i a 1 a 1 x i displaystyle x i x i a 1 left a 1 x i right Vidshukuyetsya druga golovna komponenta yak rozv yazok zadachi a 2 argmin a 2 1 i 1 m x i a 2 a 2 x i 2 displaystyle a 2 underset Vert a 2 Vert 1 operatorname argmin left sum i 1 m Vert x i a 2 a 2 x i Vert 2 right Yaksho rozv yazok ne yedinij to vibirayetsya odin z nih Dali proces trivaye tobto na kroci 2 k 1 displaystyle 2k 1 vidnimayetsya proyekciya na k 1 displaystyle k 1 u golovnu komponentu do cogo momentu proyekciyi na poperedni k 2 displaystyle k 2 golovni komponenti vzhe vidnyati x i x i a k 1 a k 1 x i displaystyle x i x i a k 1 left a k 1 x i right dd i na kroci 2 k displaystyle 2k viznachayetsya k displaystyle k a golovna komponenta yak rozv yazok zadachi a k argmin a k 1 i 1 m x i a k a k x i 2 displaystyle a k underset Vert a k Vert 1 operatorname argmin left sum i 1 m Vert x i a k a k x i Vert 2 right yaksho rozv yazok ne yedinij to vibirayetsya odin z nih dd Na kozhnomu pidgotovchomu kroci 2 k 1 displaystyle 2k 1 vidnimayetsya proyekciya na poperednyu golovnu komponentu Znajdeni vektori a 1 a n 1 displaystyle left a 1 a n 1 right ortonormovani prosto vnaslidok rozv yazuvannya opisanoyi zadachi optimizaciyi odnak shob ne dati pohibkam obchislennya porushiti vzayemnu ortogonalnist vektoriv golovnih komponent mozhna vklyuchati a k a 1 a k 1 displaystyle a k bot a 1 a k 1 v umovi zadachi optimizaciyi Neyedinist u viznachenni a k displaystyle a k krim trivialnoyi dovilnosti u vibori znaka a k displaystyle a k i a k displaystyle a k rozv yazuyut tu samu zadachu mozhe buti bilsh istotnoyu i pohoditi napriklad z umov simetriyi danih Ostannya golovna komponenta a n displaystyle a n odinichnij vektor ortogonalnij vsim poperednim a k displaystyle a k Poshuk ortogonalnih proyekcij z najbilshim rozsiyannyam Nehaj nam dano centrovanij nabir vektoriv danih x i R n i 1 m displaystyle x i in mathbb R n i 1 m serednye arifmetichne znachennya x i displaystyle x i dorivnyuye nulyu Zavdannya znajti take ortogonalne peretvorennya v novu sistemu koordinat dlya yakogo b vikonuvalis taki umovi Vibirkova dispersiya danih uzdovzh pershoyi koordinati maksimalna cyu koordinatu nazivayut pershoyu golovnoyu komponentoyu Vibirkova dispersiya danih uzdovzh drugoyi koordinati maksimalna za umovi ortogonalnosti pershij koordinati druga golovna komponenta Vibirkova dispersiya danih uzdovzh znachen k displaystyle k yi koordinati maksimalna za umovi ortogonalnosti pershim k 1 displaystyle k 1 koordinatami Vibirkova dispersiya danih uzdovzh napryamku zadanogo normovanim vektorom a k displaystyle a k ce S m 2 X a k 1 m i 1 m a k x i 2 1 m i 1 m j 1 n x i j a k j 2 displaystyle S m 2 left X a k right frac 1 m sum limits i 1 m a k x i 2 frac 1 m sum limits i 1 m left sum limits j 1 n x ij a kj right 2 oskilki dani centrovani vibirkova dispersiya tut zbigayetsya iz serednim kvadratom uhilennya vid nulya Rozv yazok zadachi pro najkrashu aproksimaciyu daye tu zh mnozhinu golovnih komponent a i displaystyle left a i right sho j poshuk ortogonalnih proyekcij z najbilshim rozsiyannyam z duzhe prostoyi prichini x i a k a k x i 2 x i 2 a k x i 2 displaystyle Vert x i a k a k x i Vert 2 Vert x i Vert 2 a k x i 2 i pershij dodanok ne zalezhit vid a k displaystyle a k Poshuk ortogonalnih proyekcij z najbilshoyu serednokvadratichnoyu vidstannyu mizh tochkami She odne ekvivalentne formulyuvannya viplivaye z ochevidnoyi totozhnosti pravilnoyi dlya bud yakih m displaystyle m vektoriv x i displaystyle x i 1 m m 1 i j 1 m x i x j 2 2 m 2 m m 1 1 m i 1 m x i 2 1 m i m x i 2 displaystyle frac 1 m m 1 sum i j 1 m x i x j 2 frac 2m 2 m m 1 left frac 1 m sum i 1 m x i 2 left frac 1 m sum i m x i right 2 right U livij chastini ciyeyi totozhnosti stoyit serednokvadratichna vidstan mizh tochkami a v kvadratnih duzhkah pravoruch vibirkova dispersiya Takim chinom u metodi golovnih komponent shukayutsya pidprostori v proyekciyi na yaki serednokvadratichna vidstan mizh tochkami maksimalna abo sho te zh same yiyi spotvorennya vnaslidok proyekciyi minimalne Take pereformulyuvannya dozvolyaye buduvati uzagalnennya zi zvazhuvannyam riznih parnih vidstanej a ne tilki tochok Anulyuvannya korelyacij mizh koordinatami Dlya zadanoyi n displaystyle n vimirnoyi vipadkovoyi velichini X displaystyle X znajti takij ortonormovanij bazis a 1 a n displaystyle left a 1 a n right v yakomu koeficiyent kovariaciyi mizh riznimi koordinatami dorivnyuye nulyu Pislya peretvorennya do cogo bazisu cov X i X j 0 displaystyle operatorname cov X i X j 0 dlya i j displaystyle i neq j Tut cov X i X j E X i E X i X j E X j displaystyle operatorname cov X i X j operatorname E X i operatorname E X i X j operatorname E X j koeficiyent kovariaciyi de E displaystyle operatorname E matematichne spodivannya Diagonalizaciya kovariacijnoyi matriciVsi zadachi pro golovni komponenti privodyat do zadachi diagonalizaciyi kovariacijnoyi matrici abo vibirkovoyi kovariacijnoyi matrici Empirichna abo vibirkova kovariacijna matricya ce C c i j c i j 1 m 1 l 1 m x l i X i x l j X j displaystyle C c ij c ij frac 1 m 1 sum l 1 m x li overline X i x lj overline X j Kovariacijna matricya bagatovimirnoyi vipadkovoyi velichini X displaystyle X ce S s i j s i j cov X i X j E X i E X i X j E X j displaystyle Sigma sigma ij sigma ij operatorname cov X i X j operatorname E X i operatorname E X i X j operatorname E X j Vektori golovnih komponent dlya zadach pro najkrashu aproksimaciyu i pro poshuk ortogonalnih proyekcij z najbilshim rozsiyannyam ce ortonormovanij nabir a 1 a n displaystyle left a 1 a n right vlasnih vektoriv empirichnoyi kovariacijnoyi matrici C displaystyle C roztashovanih u poryadku spadannya vlasnih znachen l l 1 l 2 l n 0 displaystyle lambda lambda 1 geq lambda 2 geq geq lambda n geq 0 Ci vektori sluguyut ocinkoyu dlya vlasnih vektoriv kovariacijnoyi matrici cov X i X j displaystyle operatorname cov X i X j U bazisi vlasnih vektoriv kovariacijnoyi matrici vona prirodno diagonalna i v comu bazisi koeficiyent kovariaciyi mizh riznimi koordinatami dorivnyuye nulyu Yaksho spektr kovariacijnoyi matrici virodzhenij to vibirayut dovilnij ortonormovanij bazis vlasnih vektoriv Vin isnuye zavzhdi a vlasni chisla kovariacijnoyi matrici zavzhdi dijsni i nevid yemni Singulyarnij rozklad matrici danihIdeya singulyarnogo rozkladu Matematichnij zmist metodu golovnih komponent ce spektralne rozkladannya kovariacijnoyi matrici C displaystyle C tobto podannya prostoru danih u viglyadi sumi vzayemno ortogonalnih vlasnih pidprostoriv C displaystyle C a samoyi matrici C displaystyle C u viglyadi linijnoyi kombinaciyi ortogonalnih proyektoriv na ci pidprostori z koeficiyentami l i displaystyle lambda i Yaksho X x 1 x m T displaystyle operatorname X left x 1 x m right T matricya skladena z vektoriv ryadkiv rozmirnosti n displaystyle n centrovanih danih to C 1 m 1 X T X displaystyle C frac 1 m 1 operatorname X T operatorname X i zadacha pro spektralnij rozklad kovariacijnoyi matrici C displaystyle C peretvoryuyetsya na zadachu pro singulyarnij rozklad matrici danih X displaystyle operatorname X Chislo s 0 displaystyle sigma geq 0 nazivayetsya singulyarnim chislom matrici X displaystyle operatorname X todi i tilki todi koli isnuyut pravij i livij singulyarni vektori taki m displaystyle m vimirnij vektor ryadok b s displaystyle b sigma i n displaystyle n vimirnij vektor stovpec a s displaystyle a sigma obidva odinichnoyi dovzhini sho vikonuyutsya dvi rivnosti X a s s b s T b s X s a s T displaystyle operatorname X a sigma sigma b sigma T b sigma operatorname X sigma a sigma T Nehaj p rang X min n m displaystyle p operatorname rang operatorname X leq min n m rang matrici danih Singulyarnij rozklad matrici danih X displaystyle operatorname X ce yiyi podannya u viglyadi X l 1 p s l b l T a l T X T l 1 p s l a l b l x i j l 1 p s l b l i a l j displaystyle operatorname X sum l 1 p sigma l b l T a l T operatorname X T sum l 1 p sigma l a l b l left x ij sum l 1 p sigma l b li a lj right de s l gt 0 displaystyle sigma l gt 0 singulyarne chislo a l a l j j 1 n displaystyle a l a lj j 1 n vidpovidnij pravij singulyarnij vektor stovpec a b l b l i i 1 m displaystyle b l b li i 1 m vidpovidnij livij singulyarnij vektor ryadok l 1 p displaystyle l 1 p Pravi singulyarni vektori stovpci a l displaystyle a l sho berut uchast u comu rozkladi ye vektorami golovnih komponent i vlasnimi vektorami empirichnoyi kovariacijnoyi matrici C 1 m 1 X T X displaystyle C frac 1 m 1 operatorname X T operatorname X sho vidpovidayut dodatnim vlasnim chislam l l 1 m 1 s l 2 gt 0 displaystyle lambda l frac 1 m 1 sigma l 2 gt 0 Hocha formalno zavdannya singulyarnogo rozkladu matrici danih i spektralnogo rozkladu kovariacijnoyi matrici zbigayutsya algoritmi obchislennya singulyarnogo rozkladu bezposeredno bez obchislennya kovariacijnoyi matrici i yiyi spektra bilsh efektivni i stijki Teoriya singulyarnogo rozkladannya bula stvorena Dzhejmsom Dzhozefom Silvestrom u i vikladena v usih dokladnih posibnikah z teoriyi matric Prostij iteracijnij algoritm singulyarnogo rozkladannya Osnovna procedura poshuk najkrashogo nablizhennya dovilnoyi m n displaystyle m times n matrici X x i j displaystyle X x ij matriceyu vidu b a b i a j displaystyle b otimes a b i a j de b displaystyle b m displaystyle m vimirnij vektor a a displaystyle a n displaystyle n vimirnij vektor metodom najmenshih kvadrativ F b a 1 2 i 1 m j 1 n x i j b i a j 2 min displaystyle F b a frac 1 2 sum i 1 m sum j 1 n x ij b i a j 2 to min Rozv yazok ciyeyi zadachi dayetsya poslidovnimi iteraciyami za yavnimi formulami Pri fiksovanomu vektori a a j displaystyle a a j znachennya b b i displaystyle b b i sho nadayut minimum formi F b a displaystyle F b a odnoznachno i yavno viznachayutsya z rivnostej F b i 0 displaystyle partial F partial b i 0 F b i j 1 n x i j b i a j a j 0 b i j 1 n x i j a j j 1 n a j 2 displaystyle frac partial F partial b i sum j 1 n x ij b i a j a j 0 b i frac sum j 1 n x ij a j sum j 1 n a j 2 Analogichno pri fiksovanomu vektori b b i displaystyle b b i viznachayutsya znachennya a a j displaystyle a a j a j i 1 m b i x i j i 1 m b i 2 displaystyle a j frac sum i 1 m b i x ij sum i 1 m b i 2 Yak pochatkove nablizhennya vektora a displaystyle a beretsya vipadkovij vektor odinichnoyi dovzhini obchislyuyemo vektor b displaystyle b dali dlya cogo vektora b displaystyle b obchislyuyemo vektor a displaystyle a i t d Kozhen krok zmenshuye znachennya F b a displaystyle F b a Yak kriterij zupinki vikoristovuyetsya malist vidnosnogo zmenshennya znachennya funkcionalu F b a displaystyle F b a sho minimizuyetsya za krok iteraciyi D F F displaystyle Delta F F abo malist samogo znachennya F displaystyle F Vnaslidok cogo dlya matrici X x i j displaystyle X x ij otrimuyetsya najkrashe nablizhennya matriceyu P 1 displaystyle P 1 vidu b 1 a 1 b i 1 a j 1 displaystyle b 1 otimes a 1 b i 1 a j 1 tut verhnim indeksom poznacheno nomer nablizhennya Dali z matrici X displaystyle X vidnimayetsya otrimana matricya P 1 displaystyle P 1 i dlya otrimanoyi matrici uhilen X 1 X P 1 displaystyle X 1 X P 1 znovu shukayetsya najkrashe nablizhennya P 2 displaystyle P 2 cogo zh vidu i t d poki napriklad norma X k displaystyle X k ne stane dostatno maloyu V rezultati otrimali iteracijnu proceduru rozkladannya matrici X displaystyle X u viglyadi sumi matric rangu 1 tobto X P 1 P 2 P q P l b l a l displaystyle X P 1 P 2 P q P l b l otimes a l Prijmayemo s l a l b l displaystyle sigma l a l b l i normuyemo vektori a l b l displaystyle a l b l a l a l a l b l b l b l displaystyle a l a l a l b l b l b l V rezultati otrimano aproksimaciyu singulyarnih chisel s l displaystyle sigma l i singulyarnih vektoriv pravih a l displaystyle a l i livih b l displaystyle b l Do perevag cogo algoritmu vidnositsya jogo vinyatkova prostota i mozhlivist majzhe bez zmin perenesti jogo na dani z progalinami a takozh zvazheni dani Isnuyut rizni modifikaciyi bazovogo algoritmu sho polipshuyut tochnist i stijkist Napriklad vektori golovnih komponent a l displaystyle a l pri riznih l displaystyle l povinni buti ortogonalni za pobudovoyu odnak za velikogo chisla iteracij velika rozmirnist bagato komponent mali vidhilennya vid ortogonalnosti nakopichuyutsya i mozhe znadobitisya specialna korekciya a l displaystyle a l na kozhnomu kroci sho zabezpechuye jogo ortogonalnist ranishe znajdenim golovnim komponentam Dlya kvadratnih simetrichnih dodatno viznachenih matric opisanij algoritm peretvoryuyetsya na metod pryamih iteracij dlya poshuku vlasnih vektoriv div stattyu Vlasni vektori ta vlasni chisla Singulyarne rozkladannya tenzoriv i tenzornij metod golovnih komponent Chasto vektor danih maye dodatkovu strukturu pryamokutnoyi tablici napriklad ploske zobrazhennya abo navit bagatovimirnoyi tablici tobto tenzora x i 1 i 2 i q displaystyle x i 1 i 2 i q 1 i j n j displaystyle 1 leq i j leq n j U comu vipadku takozh efektivno zastosovuvati singulyarne rozkladannya Viznachennya osnovni formuli ta algoritmi perenosyatsya praktichno bez zmin zamist matrici danih mayemo q 1 displaystyle q 1 indeksnu velichinu X x i 0 i 1 i 2 i q displaystyle operatorname X x i 0 i 1 i 2 i q de pershij indeks i 0 displaystyle i 0 nomer tochki tenzora danih Osnovna procedura poshuk najkrashogo nablizhennya tenzora x i 0 i 1 i 2 i q displaystyle x i 0 i 1 i 2 i q tenzorom vidu a i 0 0 a i 1 1 a i 2 2 a i q q displaystyle a i 0 0 a i 1 1 a i 2 2 a i q q de a 0 a i 0 0 displaystyle a 0 a i 0 0 m displaystyle m vimirnij vektor m displaystyle m kilkist tochok danih a l a i l l displaystyle a l a i l l vektor rozmirnosti n l displaystyle n l pri l gt 0 displaystyle l gt 0 metodom najmenshih kvadrativ F 1 2 i 0 1 m i 1 1 n 1 i q 1 n q x i 0 i 1 i q a i 0 0 a i 1 1 a i q q 2 min displaystyle F frac 1 2 sum i 0 1 m sum i 1 1 n 1 sum i q 1 n q x i 0 i 1 i q a i 0 0 a i 1 1 a i q q 2 to min Rozv yazok ciyeyi zadachi otrimuyetsya poslidovnimi iteraciyami za yavnimi formulami Yaksho zadano vsi vektori spivmnozhniki krim odnogo a i k k displaystyle a i k k to vin viznachayetsya yavno z dostatnih umov minimumu a i k k i 0 1 m i 1 1 n 1 i k 1 1 n k 1 i k 1 1 n k 1 i q 1 n q x i 0 i 1 i k 1 i k i k 1 i q a i 0 0 a i k 1 k 1 a i k 1 k 1 a i q q j k a j 2 displaystyle a i k k frac sum i 0 1 m sum i 1 1 n 1 sum i k 1 1 n k 1 sum i k 1 1 n k 1 sum i q 1 n q x i 0 i 1 i k 1 i k i k 1 i q a i 0 0 a i k 1 k 1 a i k 1 k 1 a i q q prod j neq k a j 2 Yak pochatkove nablizhennya vektoriv a l a i l l displaystyle a l a i l l l gt 0 displaystyle l gt 0 berutsya vipadkovi vektori odinichnoyi dovzhini obchislimo vektor a 0 displaystyle a 0 dali dlya cogo vektora a 0 displaystyle a 0 i danih vektoriv a 2 a 3 displaystyle a 2 a 3 obchislyuyetsya vektor a 1 displaystyle a 1 i tak dali ciklichno perebirayuchi indeksi Kozhen krok zmenshuye znachennya F b a displaystyle F b a Algoritm ochevidno zbigayetsya Yak kriterij zupinki vikoristovuyetsya malist vidnosnogo zmenshennya znachennya funkcionalu F displaystyle F sho minimizuyetsya za cikl abo malist samogo znachennya F displaystyle F Dali vid tenzora X displaystyle operatorname X vidnimayetsya otrimane nablizhennya a i 0 0 a i 1 1 a i 2 2 a i q q displaystyle a i 0 0 a i 1 1 a i 2 2 a i q q i dlya zalishku znovu shukayetsya najkrashe nablizhennya cogo zh viglyadu i t d poki napriklad norma chergovogo zalishku ne stane dostatno maloyu Ce bagatokomponentne singulyarne rozkladannya tenzornij metod golovnih komponent uspishno zastosovuyetsya pri obrobci zobrazhen videosignaliv i shirshe bud yakih danih sho mayut tablichnu abo tenzornu strukturu Matricya peretvorennya do golovnih komponentivMatricya A displaystyle A peretvorennya danih do golovnih komponent skladayetsya z vektoriv golovnih komponent roztashovanih u poryadku spadannya vlasnih znachen A a 1 a n T displaystyle A left a 1 a n right T T displaystyle T oznachaye transponuvannya prichomu A A T 1 displaystyle AA T 1 Tobto matricya A displaystyle A ye ortogonalnoyu Velika chastina variaciyi danih bude zoseredzhena v pershih koordinatah sho dozvolyaye perejti do prostoru menshoyi rozmirnosti Zalishkova dispersiyaNehaj dani centrovani X 0 displaystyle overline X 0 Pri zamini vektoriv danih x i displaystyle x i yih proyekciyeyu na pershi k displaystyle k golovnih komponent x i j 1 k a j a j x i displaystyle x i mapsto sum j 1 k a j a j x i vnositsya serednij kvadrat pomilki v rozrahunku na odin vektor danih 1 m i 1 m x i j 1 k a j a j x i 2 l k 1 n l l displaystyle frac 1 m sum i 1 m left Vert x i sum j 1 k a j a j x i right Vert 2 sum l k 1 n lambda l de l 1 l 2 l n 0 displaystyle lambda 1 geq lambda 2 geq geq lambda n geq 0 vlasni znachennya empirichnoyi kovariacijnoyi matrici C displaystyle C roztashovani v poryadku spadannya z urahuvannyam kratnosti Cya velichina nazivayetsya zalishkovoyu dispersiyeyu Velichina 1 m i 1 m j 1 k a j a j x i 2 1 m i 1 m j 1 k a j x i 2 l 1 k l l displaystyle frac 1 m sum i 1 m left Vert sum j 1 k a j a j x i right Vert 2 frac 1 m sum i 1 m sum j 1 k a j x i 2 sum l 1 k lambda l nazivayetsya poyasnenoyu dispersiyeyu Yih suma dorivnyuye vibirkovij dispersiyi Vidpovidnij kvadrat vidnosnoyi pomilki ce vidnoshennya zalishkovoyi dispersiyi do vibirkovoyi dispersiyi tobto chastka nepoyasnenoyi dispersiyi d k 2 l k 1 l k 2 l n l 1 l 2 l n displaystyle delta k 2 frac lambda k 1 lambda k 2 lambda n lambda 1 lambda 2 lambda n Za vidnosnoyu pomilkoyu d k displaystyle delta k ocinyuyetsya pridatnist metodu golovnih komponent z proyeciyuvannyam na pershi k displaystyle k komponent Zauvazhennya v bilshosti obchislyuvalnih algoritmiv vlasni chisla l i displaystyle lambda i z vidpovidnimi vlasnimi vektorami golovnimi komponentami a i displaystyle a i obchislyuyutsya v poryadku vid velikih l i displaystyle lambda i do menshih Dlya obchislennya d k displaystyle delta k dostatno obchisliti pershi k displaystyle k vlasnih chisel i slid empirichnoyi kovariacijnoyi matrici C displaystyle C tr C displaystyle operatorname tr C sumu diagonalnih elementiv C displaystyle C tobto dispersij za osyami Todi d k 2 1 tr C tr C i 1 k l i displaystyle delta k 2 frac 1 operatorname tr C left operatorname tr C sum i 1 k lambda i right Vidbir golovnih komponent za pravilom KajzeraCilovij pidhid do ocinki chisla golovnih komponent z neobhidnoyu chastkoyu poyasnenoyi dispersiyi formalno zastosovuyetsya zavzhdi odnak neyavno vin pripuskaye sho nemaye podilu na signal i shum i bud yaka napered zadana tochnist maye sens Tomu chasto bilsh produktivna insha evristika yaka gruntuyetsya na gipotezi pro nayavnist signalu porivnyano mala rozmirnist vidnosno velika amplituda i shumu velika rozmirnist vidnosno mala amplituda Z ciyeyi tochki zoru metod golovnih komponent pracyuye yak filtr signal mistitsya v osnovnomu v proyekciyi na pershi golovni komponenti a v inshih komponentah proporciya shumu znachno visha Pitannya yak ociniti chislo neobhidnih golovnih komponent yaksho vidnoshennya signal shum zazdalegid ne vidome Najprostishij i najstarishij metod vidboru golovnih komponent daye pravilo Kajzera angl Kaiser s rule znachushi ti golovni komponenti dlya yakih l i gt 1 n tr C displaystyle lambda i gt frac 1 n operatorname tr C tobto l i displaystyle lambda i perevishuye serednye znachennya l displaystyle lambda serednyu vibirkovu dispersiyu koordinat vektora danih Pravilo Kajzera dobre pracyuye v prostih vipadkah koli ye dekilka golovnih komponent z l i displaystyle lambda i yaki znachno perevishuyut serednye znachennya a inshi vlasni chisla menshi za nogo U bilsh skladnih vipadkah vono mozhe davati zanadto bagato znachushih golovnih komponent Yaksho dani normovani na odinichnu vibirkovu dispersiyu za osyami to pravilo Kajzera nabuvaye osoblivo prostogo viglyadu znachushi tilki ti golovni komponenti dlya yakih l i gt 1 displaystyle lambda i gt 1 Ocinka chisla golovnih komponent za pravilom zlamanoyi trostiniPriklad ocinka chisla golovnih komponent za pravilom zlamanoyi trostini v rozmirnosti 5 Odnim z najbilsh populyarnih evristichnih pidhodiv do ocinki chisla neobhidnih golovnih komponent ye pravilo zlamanoyi trostini angl Broken stick model Nabir normovanih na odinichnu sumu vlasnih chisel l i tr C displaystyle lambda i operatorname tr C i 1 n displaystyle i 1 n porivnyuyetsya z rozpodilom dovzhin ulamkiv trostini odinichnoyi dovzhini zlamanoyi v n 1 displaystyle n 1 j vipadkovo vibranij tochci tochki zlamu vibirayutsya nezalezhno i rivnomirno rozpodileni vzdovzh trostini Nehaj L i displaystyle L i i 1 n displaystyle i 1 n dovzhini otrimanih shmatkiv trostini zanumerovani v poryadku zmenshennya dovzhiniL 1 L 2 L n displaystyle L 1 geq L 2 geq L n Neskladno znajti matematichne spodivannya L i displaystyle L i l i E L i 1 n j i n 1 j displaystyle l i operatorname E L i frac 1 n sum j i n frac 1 j Za pravilom zlamanoyi trostini k displaystyle k j vlasnij vektor u poryadku zmenshennya vlasnih chisel l i displaystyle lambda i zberigayetsya v spisku golovnih komponent yaksho l 1 tr C gt l 1 a n d l 2 tr C gt l 2 a n d l k tr C gt l k displaystyle frac lambda 1 operatorname tr C gt l 1 and frac lambda 2 operatorname tr C gt l 2 and frac lambda k operatorname tr C gt l k Na risunku navedeno priklad dlya 5 vimirnogo vipadku l 1 displaystyle l 1 1 1 2 1 3 1 4 1 5 5 l 2 displaystyle l 2 1 2 1 3 1 4 1 5 5 l 3 displaystyle l 3 1 3 1 4 1 5 5 l 4 displaystyle l 4 1 4 1 5 5 l 5 displaystyle l 5 1 5 5 Dlya prikladu vibrano l 1 tr C displaystyle frac lambda 1 operatorname tr C 0 5 l 2 tr C displaystyle frac lambda 2 operatorname tr C 0 3 l 3 tr C displaystyle frac lambda 3 operatorname tr C 0 1 l 4 tr C displaystyle frac lambda 4 operatorname tr C 0 06 l 5 tr C displaystyle frac lambda 5 operatorname tr C 0 04 Za pravilom zlamanoyi trostini v comu prikladi slid zalishati 2 golovni komponenti l 1 tr C gt l 1 l 2 tr C gt l 2 l 3 tr C lt l 3 displaystyle frac lambda 1 operatorname tr C gt l 1 frac lambda 2 operatorname tr C gt l 2 frac lambda 3 operatorname tr C lt l 3 Za ocinkami koristuvachiv pravilo zlamanoyi trostini maye tendenciyu zanizhuvati kilkist znachushih golovnih komponent NormuvannyaNormuvannya pislya zvedennya do golovnih komponent Pislya proyeciyuvannya na pershi k displaystyle k golovnih komponent z l 1 l 2 l k gt 0 displaystyle lambda 1 geq lambda 2 geq geq lambda k gt 0 zruchno provesti normuvannya na odinichnu vibirkovu dispersiyu za osyami Dispersiya vzdovzh i displaystyle i yi golovnoyi komponenti dorivnyuye l i gt 0 1 i k displaystyle lambda i gt 0 1 leq i leq k tomu dlya normuvannya treba podiliti vidpovidnu koordinatu na l i displaystyle sqrt lambda i Ce peretvorennya ne ye ortogonalnim i ne zberigaye skalyarnogo dobutku Kovariacijna matricya proyekciyi danih pislya normuvannya staye odinichnoyu proyekciyi na bud yaki dva ortogonalni napryamki stayut nezalezhnimi velichinami a bud yakij ortonormovanij bazis staye bazisom golovnih komponent nagadayemo sho normuvannya zminyuye vidnoshennya ortogonalnosti vektoriv Vidobrazhennya prostoru pochatkovih danih na pershi k displaystyle k golovnih komponent razom z normuvannyam zadayetsya matriceyu K a 1 l 1 a 2 l 2 a k l k T displaystyle K left frac a 1 sqrt lambda 1 frac a 2 sqrt lambda 2 frac a k sqrt lambda k right T Same ce peretvorennya najchastishe nazivayetsya peretvorennyam Karhunena Loeva Tut a i displaystyle a i vektori stovpci a verhnij indeks T displaystyle T oznachaye transponuvannya Normuvannya do obchislennya golovnih komponent Poperedzhennya ne slid plutati normuvannya sho provoditsya pislya peretvorennya do golovnih komponent z normuvannyam i znerozmiryuvannyam pri peredobrobci danih sho provoditsya do obchislennya golovnih komponent Poperednye normuvannya potribne dlya obgruntovanogo viboru metriki v yakij bude obchislyuvatisya najkrasha aproksimaciya danih abo budut shukatisya napryamki najbilshogo rozkidu sho ekvivalentno Napriklad yaksho dani yavlyayut soboyu prostorovi vektori z metriv litriv i kilogramiv to pri vikoristanni standartnoyi evklidovoyi vidstani riznicya na 1 metr za pershoyu koordinatoyu robitime takij samij vnesok sho j riznicya na 1 litr za drugoyu abo na 1 kg za tretoyu Zazvichaj sistemi odinic v yakih podani pochatkovi dani nedostatno tochno vidobrazhayut nashi uyavlennya pro prirodni masshtabi za osyami i provoditsya znerozmiryuvannya kozhna koordinata dilitsya na pevnij masshtab yakij viznachayetsya danimi cilyami yih obrobki i procesami vimiryuvannya i zboru danih Ye tri istotno riznih standartnih pidhodi do takogo normuvannya na odinichnu dispersiyu za osyami masshtabi za osyami dorivnyuyut serednim kvadratichnim uhilennyam pislya cogo peretvorennya kovariacijna matricya zbigayetsya z matriceyu koeficiyentiv korelyaciyi na rivnu tochnist vimiryuvannya masshtab za vissyu proporcijnij tochnosti vimiryuvannya danoyi velichini i na rivni vimogi v zadachi masshtab za vissyu viznachayetsya neobhidnoyu tochnistyu prognozu danoyi velichini abo dopustimim yiyi spotvorennyam rivnem tolerantnosti Na vibir peredobrobki vplivayut zmistovna postanovka zadachi a takozh umovi zboru danih napriklad yaksho kolekciya danih principovo ne zavershena i dani budut she nadhoditi to neracionalno vibirati normuvannya strogo na odinichnu dispersiyu navit yaksho ce vidpovidaye zmistu zavdannya oskilki ce peredbachaye renormalizaciyu vsih danih pislya otrimannya novoyi porciyi rozumnishe vibrati pevnij masshtab sho grubo ocinyuye standartne vidhilennya i dali jogo ne zminyuvati Poperednye normuvannya na odinichnu dispersiyu za osyami rujnuyetsya povorotom sistemi koordinat yaksho osi ne ye golovnimi komponentami i normuvannya pri peredobrobci danih ne zaminyuye normuvannya pislya zvedennya do golovnih komponent Mehanichna analogiya i metod golovnih komponent dlya zvazhenih danihYaksho zistaviti kozhnomu vektoru danih odinichnu masu to empirichna kovariacijna matricya C displaystyle C zbizhitsya z tenzorom inerciyi ciyeyi sistemi tochkovih mas podilenim na povnu masu m displaystyle m a zadacha pro golovni komponenti iz zadacheyu zvedennya tenzora inerciyi do golovnih osej Mozhna vikoristovuvati dodatkovu svobodu u vibori znachen mas dlya vrahuvannya vazhlivosti tochok danih abo nadijnosti yihnih znachen vazhlivim danimi abo danimi z bilsh nadijnih dzherel pripisuyutsya veliki masi Yaksho vektoru danih x l displaystyle x l nadayetsya masa w l displaystyle w l to zamist empirichnoyi kovariacijnoyi matrici C displaystyle C otrimayemo C w c i j w c i j w 1 l w l l 1 m w l x l i X i x l j X j displaystyle C w c ij w c ij w frac 1 sum l w l sum l 1 m w l x li overline X i x lj overline X j Vsi podalshi operaciyi zi zvedennya do golovnih komponent vikonuyutsya tak samo yak i v osnovnij versiyi metodu shukayetsya ortonormovanij vlasnij bazis C w displaystyle C w vporyadkovuyetsya za spadannyam vlasnih znachen ocinyuyetsya serednozvazhena pomilka aproksimaciyi danih pershimi k displaystyle k komponentami za sumami vlasnih chisel C w displaystyle C w provoditsya normuvannya i tak dali Bilsh zagalnij sposib zvazhuvannya daye maksimizaciya zvazhenoyi sumi poparnih vidstanej mizh proyekciyami Dlya kozhnih dvoh tochok danih x l x q displaystyle x l x q vvoditsya vaga d l q displaystyle d lq d l q d q l displaystyle d lq d ql i d l q 1 m d l q displaystyle d l sum q 1 m d lq Zamist empirichnoyi kovariacijnoyi matrici C displaystyle C vikoristovuyetsya C d c i j d c i j d l 1 m d l x l i X i x l j X j l q l q 1 m d l q x l i X i x q j X j displaystyle C d c ij d c ij d sum l 1 m d l x li overline X i x lj overline X j sum l neq q l q 1 m d lq x li overline X i x qj overline X j Pri d l q gt 0 displaystyle d lq gt 0 simetrichna matricya C d displaystyle C d dodatno viznachena oskilki dodatna kvadratichna forma i j c i j d a i a j 1 2 l q d l q i a i x l i x q i 2 displaystyle sum ij c ij d a i a j frac 1 2 sum lq d lq left sum i a i x li x qi right 2 Dali shukayemo ortonormovanij vlasnij bazis C d displaystyle C d vporyadkovuyemo jogo za spadannyam vlasnih znachen ocinyuyemo serednyu pomilku aproksimaciyi danih pershimi k displaystyle k komponentami i t d tak samo yak i v osnovnomu algoritmi Cej sposib zastosovuyetsya za nayavnosti klasiv dlya x l x q displaystyle x l x q z riznih klasiv vaga d l q displaystyle d lq vaga vibirayetsya bilshoyu nizh dlya tochok odnogo klasu Yak naslidok u proyekciyi na zvazheni golovni komponenti rizni klasi rozsuvayutsya na bilshu vidstan Inshe zastosuvannya znizhennya vplivu velikih uhilen tak zvanih vikidiv en outlier yaki mozhut spotvoryuvati kartinu cherez vikoristannya serednokvadratichnoyi vidstani yaksho vibrati d l q 1 x l x q displaystyle d lq 1 x l x q to vpliv velikih uhilen bude zmensheno Takim chinom opisana modifikaciya metodu golovnih komponent ye bilsh robastnoyu nizh klasichna Specialna terminologiyaV statistici pri vikoristanni metodu golovnih komponent vikoristovuyut kilka specialnih terminiv Matricya danih X x 1 x m T displaystyle mathbf X x 1 x m T kozhen ryadok vektor peredobroblenih danih centrovanih i pravilno normovanih chislo ryadkiv m displaystyle m kilkist vektoriv danih chislo stovpciv n displaystyle n rozmirnist prostoru danih Matricya navantazhen angl loadings P a 1 a k displaystyle mathbf P a 1 a k kozhen stovpec vektor golovnih komponent chislo ryadkiv n displaystyle n rozmirnist prostoru danih chislo stovpciv k displaystyle k kilkist vektoriv golovnih komponent vibranih dlya proyeciyuvannya Matricya rahunkiv angl scores T t i j t i j x i a j displaystyle mathbf T t ij t ij x i a j kozhen ryadok proyekciya vektora danih na k displaystyle k golovnih komponent chislo ryadkiv m displaystyle m kilkist vektoriv danih chislo stovpciv k displaystyle k kilkist vektoriv golovnih komponent vibranih dlya proyeciyuvannya Matricya Z displaystyle Z rahunkiv angl Z displaystyle Z scores Z z i j z i j x i a j l j displaystyle mathbf Z z ij z ij frac x i a j sqrt lambda j kozhen ryadok proyekciya vektora danih na k displaystyle k golovnih komponent normovana na odinichnu vibirkovu dispersiyu chislo ryadkiv m displaystyle m kilkist vektoriv danih chislo stovpciv k displaystyle k kilkist vektoriv golovnih komponent vibranih dlya proyektuvannya Matricya pomilok abo zalishkiv angl errors abo residuals E X T P T displaystyle mathbf E mathbf X mathbf T mathbf P T Osnovna formula X T P T E displaystyle mathbf X mathbf T mathbf P T mathbf E Mezhi zastosuvannya ta obmezhennya efektivnosti metoduMetod golovnih komponent zastosovnij zavzhdi Rozpovsyudzhene tverdzhennya pro te sho vin zastosovnij tilki do normalno rozpodilenih danih abo dlya rozpodiliv blizkih do normalnih hibne u pochatkovomu formulyuvanni Pirsona stavitsya zadacha pro nablizhennya skinchennoyi mnozhini danih ta vidsutnya navit gipoteza pro yih statistichne porodzhennya ne kazhuchi vzhe pro rozpodil Odnak metod ne zavzhdi efektivno znizhuye rozmirnist za zadanih obmezhen na tochnist d k displaystyle delta k Pryami i ploshini ne zavzhdi zabezpechuyut garnu aproksimaciyu Napriklad dani mozhut z horoshoyu tochnistyu dotrimuvatisya yakoyis krivoyi a cya kriva mozhe buti skladno roztashovana u prostori danih