Аналіз сингулярного спектру (англ. Singular spectrum analysis, SSA), також «Гусениця» — метод аналізу часових рядів, що базується на перетворенні одновимірного часового ряду на багатовимірний і подальший його сингулярний розклад. При правильному використанні метод дозволяє розділити часовий ряд на тренд, періодичні компоненти і випадковий шум.
Опис базового методу
У найбільш розповсюдженому варіанті алгоритму, вхідними даними є одномірний часовий ряд , де — довжина ряду. SSA складається з чотирьох етапів: 1. Перетворення одновимірних даних на багатовимірні, або вкладання (англ. embedding). Оберемо число , ширину вікна. Нехай . Побудуємо матрицю розміру , наступним чином: перший стовпчик складають елементи ряду з по . Другий — по , і так до К-того стовпця, у який входять елементи від по .
Матриця називається траєкторною матрицею. Усі елементи, що лежать на діагоналях, паралельних побічній є рівними, тобто така матриця є ганкелевою.
2. Сингулярний розклад траєкторної матриці. Нехай , матриця розмірності . Тоді, позначимо власні числа матриці як , а власні вектори як . Якщо — це кількість ненульових власних чисел, то можна визначити факторних векторів
Тоді траєкторну матрицю можна представити у вигляді
Сукупність деякого власного числа а також власного і факторного векторів що йому відповідають, називається власною трійкою (англ. eigentriple)
3. Групування. Усі власні трійки розбиваються на груп що не перетинаються, які позначаються як . Матриці що входять до кожної групи складаються: нехай це деяка група, в яку входять різних власних трійок, тоді
Групування є найбільш нетривіальною частиною метода. Критерієм правильності його виконання є те, що результуючи матриці, що отримуються сумацією всіх матриць всередині групи, є близькими до ганкелевих, тобто, значення на їх діагоналях, паралельних побіжним є рівними або хоча б близькими. Складові часового ряда, які можливо виділити таким чином, називаються розділимими.
4. Усереднення, або ганкелізація. Оскільки рідко можливо створити справді ганкелеві матриці у попередньому етапі, у кожній з матриць , всі значення, що лежать на діагоналях, паралельних побічній, усереднюються:
- ;
- ;
Отримана в результаті усереднення матриця буде ганкелевою, як і оригінальна траєкторна матриця . Кожній з цих матриць можна поставити у відповідність деякий часовий ряд (за тим самим принципом, як з часового ряду була отримана траєкторна матриця). Отримані часових рядів у сумі будуть давати оригінальний часовий ряд:
Компоненти, які є результатом роботи алгоритму можуть бути розподілені на три типи: тренд (нестаціонарна частина серії, монотонно зростаюча або спадаюча компонента, іноді з окремими піками — загалом, межа між трендом і періодичними компонентами з дуже довгим періодом є розмитою), періодичні компоненти (такі компоненти не обов'язково є гармонійними коливаннями, і можуть мати довільну форму, а іноді — амплітудну або частотну модуляцію, тобто, їх розмах або період може повільно збільшуватися або зменшуватися з часом, в останньому випадку такі компоненти називають квазіперіодичними), і шум (аперіодичні, хаотичні, швидкозмінні компоненти, що мають близьку до нуля коваріацію).
Перед використанням методу, для коректного порівняння різних компонент, дані зазвичай [en] — віднімають середнє значення і ділять на середньоквадратичне відхилення.
Принцип роботи
Метод є ідейно близьким до методу головних компонент: у просторі траєкторних матриць він шукає ортогональний базис, за яким можна розкласти матрицю на незалежні компоненти. Сингулярний розклад дозволяє знайти такий базис, і крім того, має важливу особливість: серед всіх матриць рангу r (де r є меншим ніж ранг траєкторної матриці), матриця, що дорівнює сумі перших r матриць з сингулярного розкладу буде найближчою до оригінальної матриці (в сенсі, норма Фробеніуса різниць цих матриць буде найменшою).
Розділюваність компонент
Розділюваність (англ. separability) є дуже важливою концепцією для розуміння ефективності методу. Тільки якщо компоненти ряду є розділюваними, SSA зможе їх коректно виділити. Існує два різних типи розділюваності, слабка і сильна. Нехай є ряд що складається з двох компонент, і . Тоді ці компонентами називаються слабко розділюваними, якщо усі підряди довжини L першого ряду є ортогональними усім підрядам довжини L другого ряду, і те саме щодо підрядів довжини (тобто ). Або, що те саме, кожен з стовпців траєкторної матриці першого ряду є ортогональним кожному стовпцю другого ряду (і те саме щодо рядків траєкторних матриць).
Додатковою умовою сильної розділюваності є те, що множини власних значень матриць і не перетинаються.
Якщо усі власні значення траєкторної матриці є унікальними (тобто, не повторюються), то визначення сильної і слабкої розділюваності є однаковими.
Існує необхідна, але не достатня умова розділюваності, яка називається w-ортогональність. Нехай . Визначимо ваговий вектор
Якщо представити як ряд, він буде мати трапецієвидну форму. Також, визначимо зважений добуток часових рядів як:
Ряди і називаються w-ортогональними, якщо .
Хоча w-ортогональність не є достатньою умовою для роздільності, вона є необхідною — якщо два ряди не w-ортогональні, тоді вони і не розділювані. При цьому, ця умова є обчислювано простою, тому вона досить широко застосовується.
Два гармонічні періодичні ряди є розділюваними, якщо їх періоди у ціле число разів менші за розмірності траєкторної матриці: .
Зазвичай повна розділюваність є недосяжною, тому на практиці від даних очікується наближена розділюваність. Існує кілька метрик, якими можливо її виміряти:
- Максимальна кореляція. Ортогональність двох векторів можна розуміти як нульову кореляцію між їх компонентами. Тому максимальне абсолютне значення кореляції серед усіх пар підрядів довжини L i K (де один член пари взятий з першого ряду, а другий — з другого) є мірою неортогональності (чим ближча вона до нуля, тим краще).
- Зважена кореляція (англ. w-correlation), яка є оцінкою близькості до w-ортогональності, і визначається як:
Чим ближчий він до нуля, тим більш близькими до ортогональності є два ряди.
Вибір параметрів моделі
Загалом, базовий SSA має лише два параметри. Перший — числовий, довжина вікна. Другий — методологічний, спосіб групування.
Довжину вікна зазвичай обирають достатньо великою, оскільки вона має бути більшою, ніж можливі періоди коливання компонентів ряду, проте не більшою ніж . Нормальною практикою є . Якщо ми очікуємо, що ряд містить компоненту деякого періоду, то є сенс взяти L кратним цьому періоду.
Пошук методу групування є більш широкою задачею. Існує кілька емпіричних вказівок на те, як групувати компоненти:
- На діаграмі власних значень, компоненти що відносяться до шуму виглядають як довгий і плавно спадаючий хвіст. Такі компоненти зазвичай достатньо сильно w-корельовані між собою.
- Періодичним компонентам часто відповідають два близьких власних значення, або одне значення, якщо це пилкоподібна компонента (кожне наступне значення змінює знак відносно попереднього)
- Найбільшим власним значенням відповідають найбільш значущі компоненти — зазвичай це тренд.
Примітки
- Golyandina,Nekrutkin,Zhigljavsky, 2001, с. 30.
- Golyandina,Nekrutkin,Zhigljavsky, 2001, с. 28.
- Golyandina,Nekrutkin,Zhigljavsky, 2001, с. 32.
- Golyandina,Nekrutkin,Zhigljavsky, 2001, с. 34.
- Golyandina,Nekrutkin,Zhigljavsky, 2001, с. 36.
- Golyandina,Nekrutkin,Zhigljavsky, 2001, с. 46.
- Elsner,Tsonis, 1996, с. 67.
- Golyandina,Nekrutkin,Zhigljavsky, 2001, с. 57.
- Golyandina,Nekrutkin,Zhigljavsky, 2001, с. 58.
- Elsner,Tsonis, 1996, с. 57.
- A Brief Introduction to Singular Spectrum Analysis
- Golyandina,Nekrutkin,Zhigljavsky, 2001, с. 79.
Література
- N. Golyandina, V. Nekrutkin, and A. Zhigljavsky. Analysis of Time Series Structure: SSA and Related Techniques. — Boca Raton : CRC Press, 2001. — 260 с. — .
- James B. Elsner, Anastasios A. Tsonis. Singular Spectrum Analysis. A New Tool in Time Series Analysis. — New-York : Plenum Press, 1996. — 164 с. — .
Вікіпедія, Українська, Україна, книга, книги, бібліотека, стаття, читати, завантажити, безкоштовно, безкоштовно завантажити, mp3, відео, mp4, 3gp, jpg, jpeg, gif, png, малюнок, музика, пісня, фільм, книга, гра, ігри, мобільний, телефон, android, ios, apple, мобільний телефон, samsung, iphone, xiomi, xiaomi, redmi, honor, oppo, nokia, sonya, mi, ПК, web, Інтернет
Analiz singulyarnogo spektru angl Singular spectrum analysis SSA takozh Gusenicya metod analizu chasovih ryadiv sho bazuyetsya na peretvorenni odnovimirnogo chasovogo ryadu na bagatovimirnij i podalshij jogo singulyarnij rozklad Pri pravilnomu vikoristanni metod dozvolyaye rozdiliti chasovij ryad na trend periodichni komponenti i vipadkovij shum Rozdilennya chasovogo ryadu na trend oscilyuyuchi komponenti i shumOpis bazovogo metoduU najbilsh rozpovsyudzhenomu varianti algoritmu vhidnimi danimi ye odnomirnij chasovij ryad F N displaystyle F N de N displaystyle N dovzhina ryadu SSA skladayetsya z chotiroh etapiv 1 Peretvorennya odnovimirnih danih na bagatovimirni abo vkladannya angl embedding Oberemo chislo 2 L lt N displaystyle 2 leq L lt N shirinu vikna Nehaj K N L 1 displaystyle K N L 1 Pobuduyemo matricyu rozmiru L K displaystyle L times K nastupnim chinom pershij stovpchik skladayut elementi ryadu z f 1 displaystyle f 1 po f L displaystyle f L Drugij f 2 displaystyle f 2 po f L 1 displaystyle f L 1 i tak do K togo stovpcya u yakij vhodyat elementi vid f K displaystyle f K po f N displaystyle f N X f 1 f 2 f 3 f K f 2 f 3 f 4 f K 1 f 3 f 4 f 5 f K 2 f L f L 1 f L 2 f N displaystyle mathbf X begin bmatrix f 1 amp f 2 amp f 3 amp ldots amp f K f 2 amp f 3 amp f 4 amp ldots amp f K 1 f 3 amp f 4 amp f 5 amp ldots amp f K 2 vdots amp vdots amp vdots amp ddots amp vdots f L amp f L 1 amp f L 2 amp ldots amp f N end bmatrix Matricya X displaystyle mathbf X nazivayetsya trayektornoyu matriceyu Usi elementi sho lezhat na diagonalyah paralelnih pobichnij ye rivnimi tobto taka matricya ye gankelevoyu 2 Singulyarnij rozklad trayektornoyi matrici Nehaj S X X T displaystyle mathbf S mathbf X mathbf X T matricya rozmirnosti L L displaystyle L times L Todi poznachimo vlasni chisla matrici S displaystyle mathbf S yak l 1 l 2 l L displaystyle lambda 1 lambda 2 lambda L a vlasni vektori yak U 1 U 2 U L displaystyle U 1 U 2 U L Yaksho d displaystyle d ce kilkist nenulovih vlasnih chisel to mozhna viznachiti d displaystyle d faktornih vektoriv V i X T U i l i displaystyle V i frac mathbf X T U i sqrt lambda i Todi trayektornu matricyu mozhna predstaviti u viglyadi X X 1 X 2 X d i 1 d l i U i V i T displaystyle mathbf X mathbf X 1 mathbf X 2 ldots mathbf X d sum i 1 d sqrt lambda i U i V i T Sukupnist deyakogo vlasnogo chisla l i displaystyle lambda i a takozh vlasnogo i faktornogo vektoriv sho jomu vidpovidayut nazivayetsya vlasnoyu trijkoyu angl eigentriple 3 Grupuvannya Usi vlasni trijki rozbivayutsya na m displaystyle m grup sho ne peretinayutsya yaki poznachayutsya yak I 1 I 2 I m displaystyle I 1 I 2 I m Matrici sho vhodyat do kozhnoyi grupi skladayutsya nehaj I displaystyle I ce deyaka grupa v yaku vhodyat p displaystyle p riznih vlasnih trijok todi X I X i 1 X i 2 X i p displaystyle mathbf X I mathbf X i 1 mathbf X i 2 mathbf X i p Grupuvannya ye najbilsh netrivialnoyu chastinoyu metoda Kriteriyem pravilnosti jogo vikonannya ye te sho rezultuyuchi matrici sho otrimuyutsya sumaciyeyu vsih matric vseredini grupi ye blizkimi do gankelevih tobto znachennya na yih diagonalyah paralelnih pobizhnim ye rivnimi abo hocha b blizkimi Skladovi chasovogo ryada yaki mozhlivo vidiliti takim chinom nazivayutsya rozdilimimi 4 Userednennya abo gankelizaciya Oskilki ridko mozhlivo stvoriti spravdi gankelevi matrici u poperednomu etapi u kozhnij z matric X I displaystyle mathbf X I vsi znachennya sho lezhat na diagonalyah paralelnih pobichnij userednyuyutsya x 1 1 x 1 1 displaystyle widetilde x 1 1 x 1 1 x 1 2 x 2 1 x 1 2 x 2 1 2 displaystyle widetilde x 1 2 widetilde x 2 1 frac x 1 2 x 2 1 2 x 1 3 x 2 2 x 3 1 x 1 3 x 2 2 x 3 1 3 displaystyle widetilde x 1 3 widetilde x 2 2 widetilde x 3 1 frac x 1 3 x 2 2 x 3 1 3 Otrimana v rezultati userednennya matricya bude gankelevoyu yak i originalna trayektorna matricya X displaystyle mathbf X Kozhnij z cih matric mozhna postaviti u vidpovidnist deyakij chasovij ryad F N i displaystyle widetilde F N i za tim samim principom yak z chasovogo ryadu bula otrimana trayektorna matricya Otrimani m displaystyle m chasovih ryadiv u sumi budut davati originalnij chasovij ryad F N F N 1 F N 2 F N m displaystyle F N widetilde F N 1 widetilde F N 2 widetilde F N m Komponenti yaki ye rezultatom roboti algoritmu mozhut buti rozpodileni na tri tipi trend nestacionarna chastina seriyi monotonno zrostayucha abo spadayucha komponenta inodi z okremimi pikami zagalom mezha mizh trendom i periodichnimi komponentami z duzhe dovgim periodom ye rozmitoyu periodichni komponenti taki komponenti ne obov yazkovo ye garmonijnimi kolivannyami i mozhut mati dovilnu formu a inodi amplitudnu abo chastotnu modulyaciyu tobto yih rozmah abo period mozhe povilno zbilshuvatisya abo zmenshuvatisya z chasom v ostannomu vipadku taki komponenti nazivayut kvaziperiodichnimi i shum aperiodichni haotichni shvidkozminni komponenti sho mayut blizku do nulya kovariaciyu Pered vikoristannyam metodu dlya korektnogo porivnyannya riznih komponent dani zazvichaj en vidnimayut serednye znachennya i dilyat na serednokvadratichne vidhilennya Princip robotiMetod ye idejno blizkim do metodu golovnih komponent u prostori trayektornih matric vin shukaye ortogonalnij bazis za yakim mozhna rozklasti matricyu na nezalezhni komponenti Singulyarnij rozklad dozvolyaye znajti takij bazis i krim togo maye vazhlivu osoblivist sered vsih matric rangu r de r ye menshim nizh rang trayektornoyi matrici matricya sho dorivnyuye sumi pershih r matric z singulyarnogo rozkladu bude najblizhchoyu do originalnoyi matrici v sensi norma Frobeniusa riznic cih matric bude najmenshoyu Rozdilyuvanist komponentRozdilyuvanist angl separability ye duzhe vazhlivoyu koncepciyeyu dlya rozuminnya efektivnosti metodu Tilki yaksho komponenti ryadu ye rozdilyuvanimi SSA zmozhe yih korektno vidiliti Isnuye dva riznih tipi rozdilyuvanosti slabka i silna Nehaj ye ryad F N displaystyle F N sho skladayetsya z dvoh komponent F N 1 displaystyle F N 1 i F N 2 displaystyle F N 2 Todi ci komponentami nazivayutsya slabko rozdilyuvanimi yaksho usi pidryadi dovzhini L pershogo ryadu ye ortogonalnimi usim pidryadam dovzhini L drugogo ryadu i te same shodo pidryadiv dovzhini K displaystyle K tobto N L 1 displaystyle N L 1 Abo sho te same kozhen z stovpciv trayektornoyi matrici pershogo ryadu ye ortogonalnim kozhnomu stovpcyu drugogo ryadu i te same shodo ryadkiv trayektornih matric Dodatkovoyu umovoyu silnoyi rozdilyuvanosti ye te sho mnozhini vlasnih znachen matric S 1 displaystyle mathbf S 1 i S 2 displaystyle mathbf S 2 ne peretinayutsya Yaksho usi vlasni znachennya trayektornoyi matrici ye unikalnimi tobto ne povtoryuyutsya to viznachennya silnoyi i slabkoyi rozdilyuvanosti ye odnakovimi Isnuye neobhidna ale ne dostatnya umova rozdilyuvanosti yaka nazivayetsya w ortogonalnist Nehaj L m i n L K K m a x L K displaystyle L min L K K max L K Viznachimo vagovij vektor w i i if 1 i lt L L if L lt i K N i if K lt i displaystyle w i begin cases i amp mbox if 1 leq i lt L L amp mbox if L lt i leq K N i amp mbox if K lt i end cases Yaksho predstaviti w displaystyle w yak ryad vin bude mati trapeciyevidnu formu Takozh viznachimo zvazhenij dobutok chasovih ryadiv yak F 1 F 2 w i 1 N w i f i 1 f i 2 displaystyle F 1 F 2 w sum i 1 N w i f i 1 f i 2 Ryadi F 1 displaystyle F 1 i F 2 displaystyle F 2 nazivayutsya w ortogonalnimi yaksho F 1 F 2 w 0 displaystyle F 1 F 2 w 0 Hocha w ortogonalnist ne ye dostatnoyu umovoyu dlya rozdilnosti vona ye neobhidnoyu yaksho dva ryadi ne w ortogonalni todi voni i ne rozdilyuvani Pri comu cya umova ye obchislyuvano prostoyu tomu vona dosit shiroko zastosovuyetsya Dva garmonichni periodichni ryadi ye rozdilyuvanimi yaksho yih periodi u cile chislo raziv menshi za rozmirnosti trayektornoyi matrici T 1 L m 1 K p 1 T 2 L m 2 K p 2 displaystyle T 1 L m 1 K p 1 T 2 L m 2 K p 2 Zazvichaj povna rozdilyuvanist ye nedosyazhnoyu tomu na praktici vid danih ochikuyetsya nablizhena rozdilyuvanist Isnuye kilka metrik yakimi mozhlivo yiyi vimiryati Maksimalna korelyaciya Ortogonalnist dvoh vektoriv mozhna rozumiti yak nulovu korelyaciyu mizh yih komponentami Tomu maksimalne absolyutne znachennya korelyaciyi sered usih par pidryadiv dovzhini L i K de odin chlen pari vzyatij z pershogo ryadu a drugij z drugogo ye miroyu neortogonalnosti chim blizhcha vona do nulya tim krashe Zvazhena korelyaciya angl w correlation yaka ye ocinkoyu blizkosti do w ortogonalnosti i viznachayetsya yak r 12 w F 1 F 2 w F 1 F 1 w F 2 F 2 w displaystyle rho 12 w frac F 1 F 2 w F 1 F 1 w F 2 F 2 w Chim blizhchij vin do nulya tim bilsh blizkimi do ortogonalnosti ye dva ryadi Vibir parametriv modeliZagalom bazovij SSA maye lishe dva parametri Pershij chislovij dovzhina vikna Drugij metodologichnij sposib grupuvannya Dovzhinu vikna zazvichaj obirayut dostatno velikoyu oskilki vona maye buti bilshoyu nizh mozhlivi periodi kolivannya komponentiv ryadu prote ne bilshoyu nizh N 2 displaystyle N 2 Normalnoyu praktikoyu ye L gt N 4 displaystyle L gt N 4 Yaksho mi ochikuyemo sho ryad mistit komponentu deyakogo periodu to ye sens vzyati L kratnim comu periodu Poshuk metodu grupuvannya ye bilsh shirokoyu zadacheyu Isnuye kilka empirichnih vkazivok na te yak grupuvati komponenti Na diagrami vlasnih znachen l o g l i i displaystyle log lambda i i komponenti sho vidnosyatsya do shumu viglyadayut yak dovgij i plavno spadayuchij hvist Taki komponenti zazvichaj dostatno silno w korelovani mizh soboyu Periodichnim komponentam chasto vidpovidayut dva blizkih vlasnih znachennya abo odne znachennya yaksho ce pilkopodibna komponenta kozhne nastupne znachennya zminyuye znak vidnosno poperednogo Najbilshim vlasnim znachennyam vidpovidayut najbilsh znachushi komponenti zazvichaj ce trend PrimitkiGolyandina Nekrutkin Zhigljavsky 2001 s 30 Golyandina Nekrutkin Zhigljavsky 2001 s 28 Golyandina Nekrutkin Zhigljavsky 2001 s 32 Golyandina Nekrutkin Zhigljavsky 2001 s 34 Golyandina Nekrutkin Zhigljavsky 2001 s 36 Golyandina Nekrutkin Zhigljavsky 2001 s 46 Elsner Tsonis 1996 s 67 Golyandina Nekrutkin Zhigljavsky 2001 s 57 Golyandina Nekrutkin Zhigljavsky 2001 s 58 Elsner Tsonis 1996 s 57 A Brief Introduction to Singular Spectrum Analysis Golyandina Nekrutkin Zhigljavsky 2001 s 79 LiteraturaN Golyandina V Nekrutkin and A Zhigljavsky Analysis of Time Series Structure SSA and Related Techniques Boca Raton CRC Press 2001 260 s ISBN 1 58488 194 1 James B Elsner Anastasios A Tsonis Singular Spectrum Analysis A New Tool in Time Series Analysis New York Plenum Press 1996 164 s ISBN 978 1 4419 3266 2