Ця стаття потребує додаткових для поліпшення її . (вересень 2015) |
Оці́нка густини́ (англ. density estimation) в теорії ймовірностей та статистиці — це побудова оцінки неспостережуваної підлеглої функції густини ймовірності на основі спостережуваних даних. Ця неспостережувана функція густини розглядається як густина, відповідно до якої розподілено велику сукупність, а дані зазвичай розглядаються як випадкова вибірка з тієї сукупності.
Для оцінки густини застосовують ряд підходів, включно з вікном Парцена — Розенблатта та рядом методик кластеризації даних, включно з [en]. Найпростішою формою оцінки густини є загрублена гістограма.
Приклад оцінки густини
Ми розглядатимемо записи про випадки діабету. Наступне є дослівною цитатою з опису набору даних:
Сукупність жінок віком щонайменше 21 рік з індіанського роду піма, що живуть поблизу Фініксу в Аризоні, перевірялася на цукровий діабет відповідно до критеріїв Всесвітньої організації охорони здоров'я. Дані було зібрано [en]. Ми використали 532 повні записи. |
В цьому прикладі ми будуємо три оцінки густини для glu (концентрації глюкози в плазмі): одну умовну при наявності діабету, другу умовну при відсутності діабету, та третю безумовну відносно діабету. Умовні оцінки густини потім використовуються для побудови ймовірності діабету в залежності від glu.
Дані glu було отримано з програмного пакету MASS мовою програмування R. В R ?Pima.tr
та ?Pima.te
дають повний звіт про дані.
Середнім значенням glu у випадках діабету є 143.1, а стандартним відхиленням — 31.26. Середнім значенням glu у випадках не-діабету є 110.0, а стандартним відхиленням — 24.29. З цього ми бачимо, що в даному наборі даних випадки діабету пов'язано з вищими рівнями glu. Це можна зробити яснішим за допомогою графіків оцінюваних функцій густини.
Перший малюнок показує оцінки густини p(glu | diabetes=1), p(glu | diabetes=0), та p(glu). Ці оцінки густини є ядровими оцінками густини із застосуванням ґаусового ядра. Тобто, в кожній точці даних розташовано ґаусову функцію густини, а потім обчислено суму функцій густини над усім діапазоном даних.
З густини glu в залежності від діабету за допомогою правила Баєса ми можемо отримати ймовірність діабету в залежності від glu. Для стислості «diabetes» у цій формулі скорочено до «db.».
Другий малюнок показує оцінювану апостеріорну ймовірність p(diabetes=1 | glu). З цих даних виявляється, що підвищений рівень glu пов'язаний із діабетом.
Сценарій для прикладу
Наступні команди R створять наведені вище малюнки. Ці команди можна ввести до командного запрошення застосуванням копіювання та вставлення.
library(MASS) data(Pima.tr) data(Pima.te) Pima <- rbind (Pima.tr, Pima.te) glu <- Pima[, 'glu'] d0 <- Pima[, 'type'] == 'No' d1 <- Pima[, 'type'] == 'Yes' base.rate.d1 <- sum(d1) / (sum(d1) + sum(d0)) glu.density <- density (glu) glu.d0.density <- density (glu[d0]) glu.d1.density <- density (glu[d1]) glu.d0.f <- approxfun(glu.d0.density$x, glu.d0.density$y) glu.d1.f <- approxfun(glu.d1.density$x, glu.d1.density$y) p.d.given.glu <- function(glu, base.rate.d1) { p1 <- glu.d1.f(glu) * base.rate.d1 p0 <- glu.d0.f(glu) * (1 - base.rate.d1) p1 / (p0 + p1) } x <- 1:250 y <- p.d.given.glu (x, base.rate.d1) plot(x, y, type='l', col='red', xlab='glu', ylab='estimated p(diabetes|glu)') plot(density(glu[d0]), col='blue', xlab='glu', ylab='estimate p(glu), p(glu|diabetes), p(glu|not diabetes)', main=NA) lines(density(glu[d1]), col='red')
Зауважте, що наведена вище оцінка умовної густини використовує ширини смуг пропускання (англ. bandwidth), що є оптимальними для безумовних густин. Як альтернативу можна застосовувати метод Хола, Расіна та Лі (англ. Hall, Racine and Li, 2004) та пакет R np для автоматичного (керованого даними) вибору ширини смуги пропускання, що є оптимальним для оцінки умовних густин; див. введення до пакету np у начерку про нього. Наступні команди R використовують функцію npcdens()
для отримання оптимального згладжування. Зауважте, що реакція "Yes"/"No" є фактором.
library(np) fy.x <- npcdens(type~glu, nmulti=1, data=Pima) Pima.eval <- data.frame(type=factor("Yes"), glu=seq(min(Pima$glu), max(Pima$glu), length=250)) plot(x, y, type='l', lty=2, col='red', xlab='glu', ylab='estimated p(diabetes|glu)') lines(Pima.eval$glu, predict(fy.x, newdata=Pima.eval), col="blue") legend(0, 1, c("Unconditional bandwidth", "Conditional bandwidth"), col=c("red", "blue"), lty=c(2, 1))
Третій малюнок використовує оптимальне згладжування методом Хола, Расіна та Лі, вказуючи, що ширина смуги пропускання безумовної густини, використана у другому малюнку вище, видає оцінку умовної густини, що може бути дещо недозгладженою.
Див. також
- Ядрова оцінка густини розподілу
- [en]
- Гістограма
- [en]
- [en]
- [en]
Примітки
- Diabetes in Pima Indian Women - R documentation. (англ.)
- Smith, J. W., Everhart, J. E., Dickson, W. C., Knowler, W. C. and Johannes, R. S. (1988). R. A. Greenes (ред.). Using the ADAP learning algorithm to forecast the onset of diabetes mellitus. Proceedings of the Symposium on Computer Applications in Medical Care (Washington, 1988). Los Alamitos, CA: IEEE Computer Society Press: 261—265. PMC 2245318. (англ.)
- Support Functions and Datasets for Venables and Ripley's MASS. (англ.)
- Peter Hall; Jeffrey S. Racine; Qi Li (2004). Cross-Validation and the Estimation of Conditional Probability Densities. Journal of The American Statistical Association. 99 (468): 1015—1026. (англ.)
- Пакет np — Пакет R, що пропонує низку непараметричних та напівпараметричних ядрових методів, що легко обробляють суміш неперервних, невпорядкованих та впорядкованих типів даних факторів.
- Tristen Hayfield; Jeffrey S. Racine. The np Package (PDF). (англ.)
Джерела
- Brian D. Ripley (1996). Pattern Recognition and Neural Networks. Cambridge: Cambridge University Press. ISBN . (англ.)
- [en], [en], and Jerome Friedman. The Elements of Statistical Learning. New York: Springer, 2001. . (See Chapter 6.) (англ.)
- Qi Li and Jeffrey S. Racine. Nonparametric Econometrics: Theory and Practice. Princeton University Press, 2007, . (See Chapter 1.) (англ.)
- D.W. Scott. Multivariate Density Estimation. Theory, Practice and Visualization. New York: Wiley, 1992. (англ.)
- [en]. Density Estimation. London: Chapman and Hall, 1986. (англ.)
Посилання
- CREEM: Centre for Research Into Ecological and Environmental Modelling Завантаження вільних програмних пакетів для оцінки густини (від Research Unit for Wildlife Population Assessment "RUWPA") та .
- UCI Machine Learning Repository Content Summary (Див. оригінальний набір даних з 732 записів у "Pima Indians Diabetes Database" та додаткові примітки.)
- Код MATLAB для одновимірної та двовимірної оцінки густини
- libAGF програма на C++ для [en].
Вікіпедія, Українська, Україна, книга, книги, бібліотека, стаття, читати, завантажити, безкоштовно, безкоштовно завантажити, mp3, відео, mp4, 3gp, jpg, jpeg, gif, png, малюнок, музика, пісня, фільм, книга, гра, ігри, мобільний, телефон, android, ios, apple, мобільний телефон, samsung, iphone, xiomi, xiaomi, redmi, honor, oppo, nokia, sonya, mi, ПК, web, Інтернет
Pro ponyattya z obrobki signaliv div Cya stattya potrebuye dodatkovih posilan na dzherela dlya polipshennya yiyi perevirnosti Bud laska dopomozhit udoskonaliti cyu stattyu dodavshi posilannya na nadijni avtoritetni dzherela Zvernitsya na storinku obgovorennya za poyasnennyami ta dopomozhit vipraviti nedoliki Material bez dzherel mozhe buti piddano sumnivu ta vilucheno veresen 2015 Oci nka gustini angl density estimation v teoriyi jmovirnostej ta statistici ce pobudova ocinki nesposterezhuvanoyi pidlegloyi funkciyi gustini jmovirnosti na osnovi sposterezhuvanih danih Cya nesposterezhuvana funkciya gustini rozglyadayetsya yak gustina vidpovidno do yakoyi rozpodileno veliku sukupnist a dani zazvichaj rozglyadayutsya yak vipadkova vibirka z tiyeyi sukupnosti Demonstraciya ocinki gustini iz zastosuvannyam yadrovogo zgladzhuvannya spravzhnyu gustinu sho ye sumishshyu dvoh gausovih rozpodiliv iz centrami v 0 ta 3 pokazano sucilnoyu sinoyu krivoyu V kozhnomu kadri porodzheno 100 zrazkiv iz cogo rozpodilu pokazani chervonim Vidcentrovane na kozhnomu zrazkovi gausove yadro nakresleno sirim Userednennya gausianiv vidaye ocinku gustini pokazanu punktirnoyu chornoyu krivoyu Dlya ocinki gustini zastosovuyut ryad pidhodiv vklyuchno z viknom Parcena Rozenblatta ta ryadom metodik klasterizaciyi danih vklyuchno z en Najprostishoyu formoyu ocinki gustini ye zagrublena gistograma Priklad ocinki gustiniMi rozglyadatimemo zapisi pro vipadki diabetu Nastupne ye doslivnoyu citatoyu z opisu naboru danih Sukupnist zhinok vikom shonajmenshe 21 rik z indianskogo rodu pima sho zhivut poblizu Finiksu v Arizoni pereviryalasya na cukrovij diabet vidpovidno do kriteriyiv Vsesvitnoyi organizaciyi ohoroni zdorov ya Dani bulo zibrano en Mi vikoristali 532 povni zapisi V comu prikladi mi buduyemo tri ocinki gustini dlya glu koncentraciyi glyukozi v plazmi odnu umovnu pri nayavnosti diabetu drugu umovnu pri vidsutnosti diabetu ta tretyu bezumovnu vidnosno diabetu Umovni ocinki gustini potim vikoristovuyutsya dlya pobudovi jmovirnosti diabetu v zalezhnosti vid glu Dani glu bulo otrimano z programnogo paketu MASS movoyu programuvannya R V R Pima tr ta Pima te dayut povnij zvit pro dani Serednim znachennyam glu u vipadkah diabetu ye 143 1 a standartnim vidhilennyam 31 26 Serednim znachennyam glu u vipadkah ne diabetu ye 110 0 a standartnim vidhilennyam 24 29 Z cogo mi bachimo sho v danomu nabori danih vipadki diabetu pov yazano z vishimi rivnyami glu Ce mozhna zrobiti yasnishim za dopomogoyu grafikiv ocinyuvanih funkcij gustini Pershij malyunok pokazuye ocinki gustini p glu diabetes 1 p glu diabetes 0 ta p glu Ci ocinki gustini ye yadrovimi ocinkami gustini iz zastosuvannyam gausovogo yadra Tobto v kozhnij tochci danih roztashovano gausovu funkciyu gustini a potim obchisleno sumu funkcij gustini nad usim diapazonom danih Ocinka gustini p glu diabetes 1 chervona p glu diabetes 0 sinya ta p glu chorna Z gustini glu v zalezhnosti vid diabetu za dopomogoyu pravila Bayesa mi mozhemo otrimati jmovirnist diabetu v zalezhnosti vid glu Dlya stislosti diabetes u cij formuli skorocheno do db p diabetes 1 glu p glu db 1 p db 1 p glu db 1 p db 1 p glu db 0 p db 0 displaystyle p mbox diabetes 1 mbox glu frac p mbox glu mbox db 1 p mbox db 1 p mbox glu mbox db 1 p mbox db 1 p mbox glu mbox db 0 p mbox db 0 Drugij malyunok pokazuye ocinyuvanu aposteriornu jmovirnist p diabetes 1 glu Z cih danih viyavlyayetsya sho pidvishenij riven glu pov yazanij iz diabetom Ocinka jmovirnosti p diabetes 1 glu Scenarij dlya prikladu Nastupni komandi R stvoryat navedeni vishe malyunki Ci komandi mozhna vvesti do komandnogo zaproshennya zastosuvannyam kopiyuvannya ta vstavlennya library MASS data Pima tr data Pima te Pima lt rbind Pima tr Pima te glu lt Pima glu d0 lt Pima type No d1 lt Pima type Yes base rate d1 lt sum d1 sum d1 sum d0 glu density lt density glu glu d0 density lt density glu d0 glu d1 density lt density glu d1 glu d0 f lt approxfun glu d0 density x glu d0 density y glu d1 f lt approxfun glu d1 density x glu d1 density y p d given glu lt function glu base rate d1 p1 lt glu d1 f glu base rate d1 p0 lt glu d0 f glu 1 base rate d1 p1 p0 p1 x lt 1 250 y lt p d given glu x base rate d1 plot x y type l col red xlab glu ylab estimated p diabetes glu plot density glu d0 col blue xlab glu ylab estimate p glu p glu diabetes p glu not diabetes main NA lines density glu d1 col red Zauvazhte sho navedena vishe ocinka umovnoyi gustini vikoristovuye shirini smug propuskannya angl bandwidth sho ye optimalnimi dlya bezumovnih gustin Yak alternativu mozhna zastosovuvati metod Hola Rasina ta Li angl Hall Racine and Li 2004 ta paket R np dlya avtomatichnogo kerovanogo danimi viboru shirini smugi propuskannya sho ye optimalnim dlya ocinki umovnih gustin div vvedennya do paketu np u nacherku pro nogo Nastupni komandi R vikoristovuyut funkciyu npcdens dlya otrimannya optimalnogo zgladzhuvannya Zauvazhte sho reakciya Yes No ye faktorom library np fy x lt npcdens type glu nmulti 1 data Pima Pima eval lt data frame type factor Yes glu seq min Pima glu max Pima glu length 250 plot x y type l lty 2 col red xlab glu ylab estimated p diabetes glu lines Pima eval glu predict fy x newdata Pima eval col blue legend 0 1 c Unconditional bandwidth Conditional bandwidth col c red blue lty c 2 1 Tretij malyunok vikoristovuye optimalne zgladzhuvannya metodom Hola Rasina ta Li vkazuyuchi sho shirina smugi propuskannya bezumovnoyi gustini vikoristana u drugomu malyunku vishe vidaye ocinku umovnoyi gustini sho mozhe buti desho nedozgladzhenoyu Ocinena jmovirnist p diabetes 1 glu iz bezumovnoyu shirinoyu smugi propuskannya chervona ta z obumovlenoyu sinya Div takozhYadrova ocinka gustini rozpodilu en Gistograma en en en PrimitkiDiabetes in Pima Indian Women R documentation angl Smith J W Everhart J E Dickson W C Knowler W C and Johannes R S 1988 R A Greenes red Using the ADAP learning algorithm to forecast the onset of diabetes mellitus Proceedings of the Symposium on Computer Applications in Medical Care Washington 1988 Los Alamitos CA IEEE Computer Society Press 261 265 PMC 2245318 angl Support Functions and Datasets for Venables and Ripley s MASS angl Peter Hall Jeffrey S Racine Qi Li 2004 Cross Validation and the Estimation of Conditional Probability Densities Journal of The American Statistical Association 99 468 1015 1026 angl Paket np Paket R sho proponuye nizku neparametrichnih ta napivparametrichnih yadrovih metodiv sho legko obroblyayut sumish neperervnih nevporyadkovanih ta vporyadkovanih tipiv danih faktoriv Tristen Hayfield Jeffrey S Racine The np Package PDF angl Dzherela Brian D Ripley 1996 Pattern Recognition and Neural Networks Cambridge Cambridge University Press ISBN 978 0521460866 angl en en and Jerome Friedman The Elements of Statistical Learning New York Springer 2001 ISBN 0 387 95284 5 See Chapter 6 angl Qi Li and Jeffrey S Racine Nonparametric Econometrics Theory and Practice Princeton University Press 2007 ISBN 0 691 12161 3 See Chapter 1 angl D W Scott Multivariate Density Estimation Theory Practice and Visualization New York Wiley 1992 angl en Density Estimation London Chapman and Hall 1986 ISBN 978 0 412 24620 3 angl PosilannyaCREEM Centre for Research Into Ecological and Environmental Modelling Zavantazhennya vilnih programnih paketiv dlya ocinki gustini vid Research Unit for Wildlife Population Assessment RUWPA ta UCI Machine Learning Repository Content Summary Div originalnij nabir danih z 732 zapisiv u Pima Indians Diabetes Database ta dodatkovi primitki Kod MATLAB dlya odnovimirnoyi ta dvovimirnoyi ocinki gustini libAGF programa na C dlya en