У комп'ютингу схема зірки є найпростішим стилем схеми вітрин даних і є найпоширенішим підходом для розробки сховищ даних і вітрин просторових даних. Схема зірки містить одну або більше таблиць фактів, що посилаються на будь-яку кількість таблиць розмірностей. Схема зірки є важливим випадком схеми сніжинки і є більш ефективною для обробки простіших запитів.
Схема зірки отримала свою назву через подібність фізичної моделі даних до форми зірки з таблицею фактів у центрі та таблицями розмірностей, які утворюють вершини зірки навколо неї.
Модель
Схема зірки відокремлює дані бізнес-процесів від фактів, які містять вимірювані, кількісні дані про бізнес, і розмірності, які є описовими атрибутами, пов'язаними з даними про факти. Приклади фактичних даних включають ціну продажу, кількість продажів, час, відстань, швидкість і вагу. Відповідні атрибути розмірностей включають моделі продуктів, кольори продуктів, фізичні розміри продуктів, географічні місця розташування та імена продавців.
Схема зірки, яка має багато розмірностей, іноді називається схемою сороконіжки. Коли є розмірності лише декількох атрибутів, хоча їх і простіше підтримувати, проте це призводить до запитів з багатьма приєднаннями таблиць і робить схему зірки менш зручною у використанні.
Таблиці фактів
Таблиці фактів записують вимірювання або показники для конкретної події. Вони, як правило, складаються з числових значень і зовнішніх ключів до розмірних даних, де зберігається описова інформація. Такі таблиці розраховані на низький рівень уніфікованих деталей (називають «зернистістю» або «зерном»), тобто факти можуть записувати події на дуже атомному рівні. Це може призвести до накопичення великої кількості записів у таблиці фактів з плином часу. Таблиці фактів поділяють на три типи:
- Таблиці фактів транзакцій фіксують факти про певну подію (наприклад, події продажів)
- Таблиці фактів знімків записують факти в певний момент часу (наприклад, дані облікового запису наприкінці місяця)
- Таблиці накопичення знімків записують сукупні факти в певний момент часу (наприклад, загальний обсяг продажів за місяць до даного продукту)
Таблицям фактів, як правило, призначаються сурогатні ключі для забезпечення однозначної ідентифікації кожного рядка. Цей ключ є простим первинним ключем.
Таблиці розмірностей
Таблиці розмірностей зазвичай мають відносно невелику кількість записів у порівнянні з таблицями фактів, але кожен запис може мати дуже велику кількість атрибутів для опису даних про факти. Розмірності можуть визначати найрізноманітніші характеристики, але деякі з найбільш поширених атрибутів, визначених таблицями розмірностей, включають:
- Таблиці розмірностей часу описують час на найнижчому рівні розбиття часу, для якого події записуються у схему зірки.
- Таблиці розмірностей географічних даних описують місце знаходження, такі як країна, штат або місто.
- Таблиці розмірностей виробу описують вироби.
- Таблиці розмірностей співробітників описують працівників, таких як люди, що займаються продажами.
- Таблиці розмірностей діапазонів описують діапазони часу, грошові одиниці або інші вимірювані величини для спрощення звітування.
Таблицям розмірностей, як правило, призначаються сурогатні первинні ключі, зазвичай цілого типу, що займають один стовпчик. Вони утворюються, як поєднання атрибутів розмірностей, які утворюють природний ключ.
Переваги
Схеми зірки денормалізовані, тобто звичайні правила нормалізації, притаманні транзакційним реляційним базам даних, розмиті під час розробки і реалізації схем. Переваги денормалізації схеми зірки:
- Більш прості запити — логіка приєднання схеми зірки, як правило, простіша, ніж логіка об'єднання, необхідна для отримання даних з високо нормалізованої транзакційної схеми.
- Спрощена логіка бізнес-звітності — у порівнянні з високо нормалізованими схемами, схема зірки спрощує загальну логіку бізнес-звітності, як за фіксовані періоди, так і поточну.
- Збільшення продуктивності запитів — схеми зірки можуть забезпечувати підвищення продуктивності для звітних додатків лише для читання порівняно з високо нормалізованими схемами.
- Швидкі агрегації — більш прості запити щодо схеми зірки можуть призвести до покращення продуктивності операцій агрегації.
- Подаючі куби — схеми зірки використовуються всіма системами OLAP для ефективного побудови власних OLAP-кубів; насправді, більшість основних систем OLAP забезпечують режим роботи ROLAP, який може використовувати схему зірки безпосередньо як джерело без створення власної структури куба.
Недоліки
Основний недолік схеми зірки полягає в тому, що цілісність даних не забезпечується належним чином, оскільки вона знаходиться в дуже денормалізованому стані. Одноразові вставки і оновлення можуть призвести до аномалій даних, яких уникають нормалізовано розроблені схеми. Взагалі кажучи, схеми зірки завантажуються у високо контрольованому режимі за допомогою пакетної обробки або майже у реальному часі, щоб компенсувати відсутність захисту, що надається нормалізацією.
Схема зірки також не є такою гнучкою з точки зору аналітичних потреб, як нормалізована модель даних. Нормалізовані моделі дозволяють виконувати будь-які аналітичні запити, якщо вони дотримуються бізнес-логіки, визначеної в моделі. Схема зірки, як правило, більш цілеспрямовані для конкретного перегляду даних, отже, не дозволяють більш складну аналітику. Вони не підтримують відносини типу many-to-many між суб'єктами господарювання — принаймні, не дуже природно. Зазвичай ці співвідношення спрощуються в схемі зірки, щоб відповідати простої розмірної моделі.
Приклад
Розглянемо базу даних продажів, можливо, з мережі магазинів, класифікованої за датою, магазином і виробом. Зображення схеми праворуч є версією схеми зірки зразкової схеми, наведеної в статті про схему сніжинки.
Fact_Sales
є таблицею фактів і також є три таблиці розмірностей Dim_Date
, Dim_Store
та Dim_Product
.
Кожна таблиця розмірностей має первинний ключ у своєму Id
стовпчику, що відносяться до одного зі стовпців (переглядаються як рядки у прикладі) Fact_Sales
таблиці — триколонного первинного (з'єднуючого) ключа (Date_Id
, Store_Id
, Product_Id
). Стовпчик непервинного ключа Units_Sold
таблиці фактів у цьому прикладі є мірою або метрикою, яка може бути використана при розрахунках і аналізі. Стовпці непервинних ключів таблиць розмірностей являють собою додаткові атрибути розмірностей (таких як Year
у Dim_Date
таблиці).
Наприклад, наступний запит відповідає, скільки телевізорів було продано, для кожної марки та країни, у 2019 році:
SELECT P.Brand, S.Country AS Countries, SUM(F.Units_Sold) FROM Fact_Sales F INNER JOIN Dim_Date D ON (F.Date_Id = D.Id) INNER JOIN Dim_Store S ON (F.Store_Id = S.Id) INNER JOIN Dim_Product P ON (F.Product_Id = P.Id) WHERE D.Year = 2019 AND P.Product_Category = 'tv' GROUP BY P.Brand, S.Country
Див. також
Примітки
- Dedić, N. and Stanier C., 2016., «An Evaluation of the Challenges of Multilingualism in Data Warehouse Development» in 18th International Conference on Enterprise Information Systems — ICEIS 2016, p. 196.
- . 2009. Архів оригіналу за 27 лютого 2019. Процитовано 26 лютого 2019.
- C J Date, «An Introduction to Database Systems (Eighth Edition)», p. 708
- Ralph Kimball and Margy Ross, The Data Warehouse Toolkit: The Complete Guide to Dimensional Modeling (Second Edition), p. 393
Посилання
- Stars: A Pattern Language for Query Optimized Schema [ 8 вересня 2011 у Wayback Machine.]
- Fact constellation schema [ 28 травня 2019 у Wayback Machine.]
- Data Warehouses, Schemas and Decision Support Basics by Dan Power [ 27 лютого 2019 у Wayback Machine.]
Вікіпедія, Українська, Україна, книга, книги, бібліотека, стаття, читати, завантажити, безкоштовно, безкоштовно завантажити, mp3, відео, mp4, 3gp, jpg, jpeg, gif, png, малюнок, музика, пісня, фільм, книга, гра, ігри, мобільний, телефон, android, ios, apple, мобільний телефон, samsung, iphone, xiomi, xiaomi, redmi, honor, oppo, nokia, sonya, mi, ПК, web, Інтернет
U komp yutingu shema zirki ye najprostishim stilem shemi vitrin danih i ye najposhirenishim pidhodom dlya rozrobki shovish danih i vitrin prostorovih danih Shema zirki mistit odnu abo bilshe tablic faktiv sho posilayutsya na bud yaku kilkist tablic rozmirnostej Shema zirki ye vazhlivim vipadkom shemi snizhinki i ye bilsh efektivnoyu dlya obrobki prostishih zapitiv Shema zirki otrimala svoyu nazvu cherez podibnist fizichnoyi modeli danih do formi zirki z tabliceyu faktiv u centri ta tablicyami rozmirnostej yaki utvoryuyut vershini zirki navkolo neyi ModelShema zirki vidokremlyuye dani biznes procesiv vid faktiv yaki mistyat vimiryuvani kilkisni dani pro biznes i rozmirnosti yaki ye opisovimi atributami pov yazanimi z danimi pro fakti Prikladi faktichnih danih vklyuchayut cinu prodazhu kilkist prodazhiv chas vidstan shvidkist i vagu Vidpovidni atributi rozmirnostej vklyuchayut modeli produktiv kolori produktiv fizichni rozmiri produktiv geografichni miscya roztashuvannya ta imena prodavciv Shema zirki yaka maye bagato rozmirnostej inodi nazivayetsya shemoyu sorokonizhki Koli ye rozmirnosti lishe dekilkoh atributiv hocha yih i prostishe pidtrimuvati prote ce prizvodit do zapitiv z bagatma priyednannyami tablic i robit shemu zirki mensh zruchnoyu u vikoristanni Tablici faktiv Tablici faktiv zapisuyut vimiryuvannya abo pokazniki dlya konkretnoyi podiyi Voni yak pravilo skladayutsya z chislovih znachen i zovnishnih klyuchiv do rozmirnih danih de zberigayetsya opisova informaciya Taki tablici rozrahovani na nizkij riven unifikovanih detalej nazivayut zernististyu abo zernom tobto fakti mozhut zapisuvati podiyi na duzhe atomnomu rivni Ce mozhe prizvesti do nakopichennya velikoyi kilkosti zapisiv u tablici faktiv z plinom chasu Tablici faktiv podilyayut na tri tipi Tablici faktiv tranzakcij fiksuyut fakti pro pevnu podiyu napriklad podiyi prodazhiv Tablici faktiv znimkiv zapisuyut fakti v pevnij moment chasu napriklad dani oblikovogo zapisu naprikinci misyacya Tablici nakopichennya znimkiv zapisuyut sukupni fakti v pevnij moment chasu napriklad zagalnij obsyag prodazhiv za misyac do danogo produktu Tablicyam faktiv yak pravilo priznachayutsya surogatni klyuchi dlya zabezpechennya odnoznachnoyi identifikaciyi kozhnogo ryadka Cej klyuch ye prostim pervinnim klyuchem Tablici rozmirnostej Tablici rozmirnostej zazvichaj mayut vidnosno neveliku kilkist zapisiv u porivnyanni z tablicyami faktiv ale kozhen zapis mozhe mati duzhe veliku kilkist atributiv dlya opisu danih pro fakti Rozmirnosti mozhut viznachati najriznomanitnishi harakteristiki ale deyaki z najbilsh poshirenih atributiv viznachenih tablicyami rozmirnostej vklyuchayut Tablici rozmirnostej chasu opisuyut chas na najnizhchomu rivni rozbittya chasu dlya yakogo podiyi zapisuyutsya u shemu zirki Tablici rozmirnostej geografichnih danih opisuyut misce znahodzhennya taki yak krayina shtat abo misto Tablici rozmirnostej virobu opisuyut virobi Tablici rozmirnostej spivrobitnikiv opisuyut pracivnikiv takih yak lyudi sho zajmayutsya prodazhami Tablici rozmirnostej diapazoniv opisuyut diapazoni chasu groshovi odinici abo inshi vimiryuvani velichini dlya sproshennya zvituvannya Tablicyam rozmirnostej yak pravilo priznachayutsya surogatni pervinni klyuchi zazvichaj cilogo tipu sho zajmayut odin stovpchik Voni utvoryuyutsya yak poyednannya atributiv rozmirnostej yaki utvoryuyut prirodnij klyuch PerevagiShemi zirki denormalizovani tobto zvichajni pravila normalizaciyi pritamanni tranzakcijnim relyacijnim bazam danih rozmiti pid chas rozrobki i realizaciyi shem Perevagi denormalizaciyi shemi zirki Bilsh prosti zapiti logika priyednannya shemi zirki yak pravilo prostisha nizh logika ob yednannya neobhidna dlya otrimannya danih z visoko normalizovanoyi tranzakcijnoyi shemi Sproshena logika biznes zvitnosti u porivnyanni z visoko normalizovanimi shemami shema zirki sproshuye zagalnu logiku biznes zvitnosti yak za fiksovani periodi tak i potochnu Zbilshennya produktivnosti zapitiv shemi zirki mozhut zabezpechuvati pidvishennya produktivnosti dlya zvitnih dodatkiv lishe dlya chitannya porivnyano z visoko normalizovanimi shemami Shvidki agregaciyi bilsh prosti zapiti shodo shemi zirki mozhut prizvesti do pokrashennya produktivnosti operacij agregaciyi Podayuchi kubi shemi zirki vikoristovuyutsya vsima sistemami OLAP dlya efektivnogo pobudovi vlasnih OLAP kubiv naspravdi bilshist osnovnih sistem OLAP zabezpechuyut rezhim roboti ROLAP yakij mozhe vikoristovuvati shemu zirki bezposeredno yak dzherelo bez stvorennya vlasnoyi strukturi kuba NedolikiOsnovnij nedolik shemi zirki polyagaye v tomu sho cilisnist danih ne zabezpechuyetsya nalezhnim chinom oskilki vona znahoditsya v duzhe denormalizovanomu stani Odnorazovi vstavki i onovlennya mozhut prizvesti do anomalij danih yakih unikayut normalizovano rozrobleni shemi Vzagali kazhuchi shemi zirki zavantazhuyutsya u visoko kontrolovanomu rezhimi za dopomogoyu paketnoyi obrobki abo majzhe u realnomu chasi shob kompensuvati vidsutnist zahistu sho nadayetsya normalizaciyeyu Shema zirki takozh ne ye takoyu gnuchkoyu z tochki zoru analitichnih potreb yak normalizovana model danih Normalizovani modeli dozvolyayut vikonuvati bud yaki analitichni zapiti yaksho voni dotrimuyutsya biznes logiki viznachenoyi v modeli Shema zirki yak pravilo bilsh cilespryamovani dlya konkretnogo pereglyadu danih otzhe ne dozvolyayut bilsh skladnu analitiku Voni ne pidtrimuyut vidnosini tipu many to many mizh sub yektami gospodaryuvannya prinajmni ne duzhe prirodno Zazvichaj ci spivvidnoshennya sproshuyutsya v shemi zirki shob vidpovidati prostoyi rozmirnoyi modeli PrikladShema zirki sho vikoristovuyetsya u prikladi zapitu Rozglyanemo bazu danih prodazhiv mozhlivo z merezhi magaziniv klasifikovanoyi za datoyu magazinom i virobom Zobrazhennya shemi pravoruch ye versiyeyu shemi zirki zrazkovoyi shemi navedenoyi v statti pro shemu snizhinki Fact Sales ye tabliceyu faktiv i takozh ye tri tablici rozmirnostej Dim Date Dim Store ta Dim Product Kozhna tablicya rozmirnostej maye pervinnij klyuch u svoyemu Id stovpchiku sho vidnosyatsya do odnogo zi stovpciv pereglyadayutsya yak ryadki u prikladi Fact Sales tablici trikolonnogo pervinnogo z yednuyuchogo klyucha Date Id Store Id Product Id Stovpchik nepervinnogo klyucha Units Sold tablici faktiv u comu prikladi ye miroyu abo metrikoyu yaka mozhe buti vikoristana pri rozrahunkah i analizi Stovpci nepervinnih klyuchiv tablic rozmirnostej yavlyayut soboyu dodatkovi atributi rozmirnostej takih yak Year u Dim Date tablici Napriklad nastupnij zapit vidpovidaye skilki televizoriv bulo prodano dlya kozhnoyi marki ta krayini u 2019 roci SELECT P Brand S Country AS Countries SUM F Units Sold FROM Fact Sales F INNER JOIN Dim Date D ON F Date Id D Id INNER JOIN Dim Store S ON F Store Id S Id INNER JOIN Dim Product P ON F Product Id P Id WHERE D Year 2019 AND P Product Category tv GROUP BY P Brand S CountryDiv takozhShovishe danih OLAP Shema snizhinkiPrimitkiDedic N and Stanier C 2016 An Evaluation of the Challenges of Multilingualism in Data Warehouse Development in 18th International Conference on Enterprise Information Systems ICEIS 2016 p 196 2009 Arhiv originalu za 27 lyutogo 2019 Procitovano 26 lyutogo 2019 C J Date An Introduction to Database Systems Eighth Edition p 708 Ralph Kimball and Margy Ross The Data Warehouse Toolkit The Complete Guide to Dimensional Modeling Second Edition p 393PosilannyaStars A Pattern Language for Query Optimized Schema 8 veresnya 2011 u Wayback Machine Fact constellation schema 28 travnya 2019 u Wayback Machine Data Warehouses Schemas and Decision Support Basics by Dan Power 27 lyutogo 2019 u Wayback Machine