Наука про дані — це міждисциплінарна галузь про наукові методи, процеси і системи, які стосуються добування знань із даних у різних формах, як структурованих так і неструктурованих. Наука про дані є продовженням деяких галузей аналізу даних, таких як статистика, класифікація, кластеризація, машинне навчання, добування даних і передбачувальна аналітика.
Лауреат Премії Тюрінга Джим Ґрей розглядав науку про дані як «четверту парадигму» науки (поруч з емпіричною, теоретичною та обчислювальною).
Огляд
Наука про дані використовує методики та теоретичні напрацювання із багатьох галузей математики, статистики, дослідження операцій, наукової інформатики і комп'ютерних наук, зокрема з таких як обробка сигналів, ймовірнісні моделі, машинне навчання, статистичне навчання, класифікація, кластеризація, добування даних, бази даних, теорія розпізнавання образів, візуалізація, передбачувальна аналітика, нечітке моделювання, сховища даних, стиснення даних, програмування, штучний інтелект та ін. Методи, призначені для великих даних, є окремим об'єктом розгляду у науці про дані, але сама наука ними не обмежується; крім того, технології великих даних часто спрямовані на організацію та попереднє опрацювання даних, а не на їх аналіз. Розвиток машинного навчання призвів до зростання важливості науки про дані та її швидшого розвитку.
Наука про дані впливає на наукові та прикладні дослідження у багатьох галузях, зокрема таких, як машинний переклад, розпізнавання мови, робототехніка, пошукові системи, цифрова економіка, а також біологічні науки, комп'ютерні технології в медицині, охорона здоров'я та гуманітарні дисципліни. Вона сильно впливає на економіку, бізнес та фінанси. З точки зору бізнесу, наука про дані є невід'ємною частиною аналізу діяльності конкурентів — нової галузі, яка охоплює такі напрями, як добування даних та аналіз даних.
Дослідник даних
Дослідники даних використовують свої дані та аналітичні здібності для пошуку та інтерпретації великих джерел даних; керують великими обсягами даних безвідносно до апаратного та програмного забезпечення і обмежень пропускної здатності; об'єднують джерела даних; забезпечують цілісність наборів даних; створюють візуалізації для кращого розуміння даних; з використанням даних будують математичні моделі; надають тлумачення даних та висновки. Часто їм необхідно надати відповіді протягом кількох днів (а не місяців), проводити роботи з дослідницького аналізу, створювати та представляти результати у вигляді «панелі приладів» (показники поточних значень), а не у вигляді статей чи звітів, як це зазвичай роблять статистики.
Фах дослідника даних став популярним після того, як у виданні «Harvard Business Review» його назвали «найсексуальнішою роботою 21-го століття» («The Sexiest Job of the 21st Century»), а консалтингова компанія оцінила глобальний попит на нових вчених у сфері даних у 1,5 мільйона кадрів. Університети пропонують магістерські курси у сфері даних. Існують також інші програми для отримання сертифікату у сфері даних, такі як програми від та .
Історія
Термін «наука про дані» (який спочатку використовувався поруч із терміном «даталогія») існує вже понад 30 років. Його вперше використав Пітер Наур у 1960 році як замінник терміна «комп'ютерні науки». У 1974 році Наур опублікував працю «Короткий огляд комп'ютерних методів», у якій вільно використовував цей термін в огляді сучасних методів опрацювання даних, які широко використовуються у низці прикладних застосувань. У 1996 році у місті Кобе відбулася конференція Міжнародної федерації класифікаційних товариств. Тоді вперше термін «наука про дані» з'явився в назві конференції («Наука про дані, класифікація та пов'язані методи»).
У листопаді 1997 року Ч.-Ф. Джефф Ву провів вступну лекцію під назвою «Статистика = Наука про дані?» («Statistics = Data Science?») у Мічиганському університеті. У цій лекції він охарактеризував статистичну роботу як тріаду, до якої входять збирання даних, моделювання даних та аналіз, а також прийняття рішення. Своїм висновком вчений започаткував сучасне використання терміна «наука про дані», який не є тотожним до терміна «комп'ютерні науки», а також виступив за перейменування статистики на науку про дані, а фах статистика — на дослідник даних. Пізніше він представив свою лекцію під назвою «Статистика = Наука про дані?» («Statistics = Data Science?») як першу із серії лекцій пам'яті [en], індійського науковця і статистика, засновника Індійського інституту статистики.
У 2001 році Вільям Клівленд у своїй статті «Наука про дані: план дій із розширення технічної сфери галузі статистики» («Data Science: An Action Plan for Expanding the Technical Areas of the Field of Statistics»), представив науку про дані як незалежну дисципліну, розширивши сферу статистики «досягненнями у галузі обчислень із даними». У своїй праці Клівленд виокремив 6 технічних сфер, які, на його думку, охоплювали науку про дані: багатопрофільні дослідження, моделі та методи для даних, обчислення з даними, педагогіка, аналіз інструментів та теорія.
У квітні 2002 року Комітет з питань даних для науки і технології Міжнародної ради науки започаткував «Data Science Journal» — видання, присвячене таким питанням, як опис систем даних, їхня публікація в Інтернеті, прикладні застосування та правові питання. Невдовзі після цього, у січні 2003, Колумбійський університет започаткував видання «The Journal of Data Science», який став платформою для фахівців у сфері даних для висловлення своїх думок та обміну ідеями. Цей журнал робив великий акцент на застосуванні статистичних методів та кількісних дослідженнях. У 2005 році Національна наукова рада опублікувала «Long-lived Digital Data Collections: Enabling Research and Education in the 21st Century», де до фахівців у сфері даних віднесено «вчених у галузі інформації та комп'ютерів, розробників баз даних та програмного забезпечення, галузевих експертів, кураторів та анотаторів, бібліотекарів, архівістів та інших людей, які мають вирішальне значення для успішного керування колекціями цифрових даних», основною діяльністю яких є «супровід творчих запитів та аналіз». У 2015 році започатковано видання «International Journal on Data Science and Analytics» () для публікації у сфері науки про дані та великих даних. У 2013 році у Люксембурзі відбулася перша Європейська конференція із аналізу даних (European Conference on Data Analysis (ECDA)), а у серпні 2015 засновано Європейську асоціацію з питань науки про дані (European Association for Data Science (EuADS)).
Програмне забезпечення
За період 2010-2011 років програмне забезпечення науки про дані досягло тієї точки перегину, коли відкрите ПЗ почало витісняти пропрієтарне ПЗ. Використання відкритого ПЗ дозволяє змінювати та розширювати ПЗ, а також обмінюватися алгоритмами.
Примітки
- Dhar, V. (2013). Data science and prediction. Communications of the ACM. 56 (12): 64. doi:10.1145/2500499.
- Jeff Leek (12 грудня 2013). . Simply Statistics. Архів оригіналу за 21 серпня 2018. Процитовано 29 липня 2023.
- Predictive Analytics Degree: Northwestern SPS. northwestern.edu. Northwestern University. Процитовано 28 травня 2016.
The Master of Science in Predictive Analytics (MSPA) program, established in 2011, is a fully online part-time graduate program, one of the first to offer dedicated training in data science
- Stewart Tansley; Kristin Michele Tolle (2009). The Fourth Paradigm: Data-intensive Scientific Discovery. Microsoft Research. ISBN .
- Bell, G.; Hey, T.; Szalay, A. (2009). COMPUTER SCIENCE: Beyond the Data Deluge. Science. 323 (5919): 1297—1298. doi:10.1126/science.1170411. ISSN 0036-8075.
- Foreman, John (2013). Data Smart: Using Data Science to Transform Information into Insight. John Wiley & Sons. с. xiv. ISBN .
- LaPonsie, Maryalene. Data scientists: The Hottest Job You Haven't Heard Of. Процитовано 7 жовтня 2012.
- Nguyen, Thomson. . Архів оригіналу за 4 жовтня 2015. Процитовано 2 жовтня 2015.
- Data Scientist: The Sexiest Job of the 21st Century.
- . Архів оригіналу за 9 травня 2015. Процитовано 29 липня 2023.
- Big Data Analytics Masters. Information Week. Процитовано 22 лютого 2016.
- NY gets new bootcamp for data scientists: It’s free, but harder to get into than Harvard. Venture Beat. Процитовано 22 лютого 2016.
- Press, Gil. A Very Short History Of Data Science.
- Wu, C. F. J. (1997). Statistics = Data Science? (PDF). Процитовано 9 October 2014.
- . The University Records, 9 November 1997, The University of Michigan. Архів оригіналу за 29 жовтня 2013. Процитовано 12 серпня 2013.
- P.C. Mahalanobis Memorial Lectures, 7th series. P.C. Mahalanobis Memorial Lectures, Indian Statistical Institute. Процитовано 18 серпня 2013.
- Cleveland, W. S. (2001). Data science: an action plan for expanding the technical areas of the field of statistics. International Statistical Review / Revue Internationale de Statistique, 21–26
- International Council for Science: Committee on Data for Science and Technology. (2012, April). CODATA, The Committee on Data for Science and Technology. Retrieved from International Council for Science: Committee on Data for Science and Technology: http://www.codata.org/
- Data Science Journal. (2012, April). Available Volumes. Retrieved from Japan Science and Technology Information Aggregator, Electronic: http://www.jstage.jst.go.jp/browse/dsj/_vols [ 2012-04-03 у Wayback Machine.]
- Data Science Journal. (2002, April). Contents of Volume 1, Issue 1, April 2002. Retrieved from Japan Science and Technology Information Aggregator, Electronic: http://www.jstage.jst.go.jp/browse/dsj/1/0/_contents
- The Journal of Data Science. (2003, January). Contents of Volume 1, Issue 1, January 2003. Retrieved from http://www.jds-online.com/v1-1 [ 2012-08-22 у Wayback Machine.]
- National Science Board. Long-Lived Digital Data Collections Enabling Research and Education in the 21st Century. National Science Foundation. Процитовано 30 червня 2013.
- Journal on Data Science and Analytics.
- Chalef, Daniel (20 березня 2016). Data Science Tools – Are Proprietary Vendors Still Relevant?. kdnuggets.com. Процитовано 7 листопада 2016.
- Asay, Matt. For data scientists, the big money is in open source. . Процитовано 6 листопада 2016.
- Jones, M. Tim. Data science and open source. . IBM. Процитовано 6 листопада 2016.
- Talbert, Neera. Open Source Software Fuels a Revolution in Data Science. insideBIGDATA. Процитовано 6 листопада 2016.
Подальше читання
- Conway, Drew; White, John Myles (February 2012). Machine Learning for Hackers. O'Reilly Media. ISBN .
- Russel, Matthew A. (October 2013). Mining the Social Web, 2nd Edition. O'Reilly Media. ISBN .
Це незавершена стаття з інформатики. Ви можете проєкту, виправивши або дописавши її. |
Вікіпедія, Українська, Україна, книга, книги, бібліотека, стаття, читати, завантажити, безкоштовно, безкоштовно завантажити, mp3, відео, mp4, 3gp, jpg, jpeg, gif, png, малюнок, музика, пісня, фільм, книга, гра, ігри, мобільний, телефон, android, ios, apple, мобільний телефон, samsung, iphone, xiomi, xiaomi, redmi, honor, oppo, nokia, sonya, mi, ПК, web, Інтернет
Nauka pro dani ce mizhdisciplinarna galuz pro naukovi metodi procesi i sistemi yaki stosuyutsya dobuvannya znan iz danih u riznih formah yak strukturovanih tak i nestrukturovanih Nauka pro dani ye prodovzhennyam deyakih galuzej analizu danih takih yak statistika klasifikaciya klasterizaciya mashinne navchannya dobuvannya danih i peredbachuvalna analitika Laureat Premiyi Tyuringa Dzhim Grej rozglyadav nauku pro dani yak chetvertu paradigmu nauki poruch z empirichnoyu teoretichnoyu ta obchislyuvalnoyu OglyadNauka pro dani vikoristovuye metodiki ta teoretichni napracyuvannya iz bagatoh galuzej matematiki statistiki doslidzhennya operacij naukovoyi informatiki i komp yuternih nauk zokrema z takih yak obrobka signaliv jmovirnisni modeli mashinne navchannya statistichne navchannya klasifikaciya klasterizaciya dobuvannya danih bazi danih teoriya rozpiznavannya obraziv vizualizaciya peredbachuvalna analitika nechitke modelyuvannya shovisha danih stisnennya danih programuvannya shtuchnij intelekt ta in Metodi priznacheni dlya velikih danih ye okremim ob yektom rozglyadu u nauci pro dani ale sama nauka nimi ne obmezhuyetsya krim togo tehnologiyi velikih danih chasto spryamovani na organizaciyu ta poperednye opracyuvannya danih a ne na yih analiz Rozvitok mashinnogo navchannya prizviv do zrostannya vazhlivosti nauki pro dani ta yiyi shvidshogo rozvitku Nauka pro dani vplivaye na naukovi ta prikladni doslidzhennya u bagatoh galuzyah zokrema takih yak mashinnij pereklad rozpiznavannya movi robototehnika poshukovi sistemi cifrova ekonomika a takozh biologichni nauki komp yuterni tehnologiyi v medicini ohorona zdorov ya ta gumanitarni disciplini Vona silno vplivaye na ekonomiku biznes ta finansi Z tochki zoru biznesu nauka pro dani ye nevid yemnoyu chastinoyu analizu diyalnosti konkurentiv novoyi galuzi yaka ohoplyuye taki napryami yak dobuvannya danih ta analiz danih Doslidnik danihDoslidniki danih vikoristovuyut svoyi dani ta analitichni zdibnosti dlya poshuku ta interpretaciyi velikih dzherel danih keruyut velikimi obsyagami danih bezvidnosno do aparatnogo ta programnogo zabezpechennya i obmezhen propusknoyi zdatnosti ob yednuyut dzherela danih zabezpechuyut cilisnist naboriv danih stvoryuyut vizualizaciyi dlya krashogo rozuminnya danih z vikoristannyam danih buduyut matematichni modeli nadayut tlumachennya danih ta visnovki Chasto yim neobhidno nadati vidpovidi protyagom kilkoh dniv a ne misyaciv provoditi roboti z doslidnickogo analizu stvoryuvati ta predstavlyati rezultati u viglyadi paneli priladiv pokazniki potochnih znachen a ne u viglyadi statej chi zvitiv yak ce zazvichaj roblyat statistiki Fah doslidnika danih stav populyarnim pislya togo yak u vidanni Harvard Business Review jogo nazvali najseksualnishoyu robotoyu 21 go stolittya The Sexiest Job of the 21st Century a konsaltingova kompaniya McKinsey amp Company ocinila globalnij popit na novih vchenih u sferi danih u 1 5 miljona kadriv Universiteti proponuyut magisterski kursi u sferi danih Isnuyut takozh inshi programi dlya otrimannya sertifikatu u sferi danih taki yak programi vid ta IstoriyaBlok shema procesu Termin nauka pro dani yakij spochatku vikoristovuvavsya poruch iz terminom datalogiya isnuye vzhe ponad 30 rokiv Jogo vpershe vikoristav Piter Naur u 1960 roci yak zaminnik termina komp yuterni nauki U 1974 roci Naur opublikuvav pracyu Korotkij oglyad komp yuternih metodiv u yakij vilno vikoristovuvav cej termin v oglyadi suchasnih metodiv opracyuvannya danih yaki shiroko vikoristovuyutsya u nizci prikladnih zastosuvan U 1996 roci u misti Kobe vidbulasya konferenciya Mizhnarodnoyi federaciyi klasifikacijnih tovaristv Todi vpershe termin nauka pro dani z yavivsya v nazvi konferenciyi Nauka pro dani klasifikaciya ta pov yazani metodi U listopadi 1997 roku Ch F Dzheff Vu proviv vstupnu lekciyu pid nazvoyu Statistika Nauka pro dani Statistics Data Science u Michiganskomu universiteti U cij lekciyi vin oharakterizuvav statistichnu robotu yak triadu do yakoyi vhodyat zbirannya danih modelyuvannya danih ta analiz a takozh prijnyattya rishennya Svoyim visnovkom vchenij zapochatkuvav suchasne vikoristannya termina nauka pro dani yakij ne ye totozhnim do termina komp yuterni nauki a takozh vistupiv za perejmenuvannya statistiki na nauku pro dani a fah statistika na doslidnik danih Piznishe vin predstaviv svoyu lekciyu pid nazvoyu Statistika Nauka pro dani Statistics Data Science yak pershu iz seriyi lekcij pam yati en indijskogo naukovcya i statistika zasnovnika Indijskogo institutu statistiki U 2001 roci Vilyam Klivlend u svoyij statti Nauka pro dani plan dij iz rozshirennya tehnichnoyi sferi galuzi statistiki Data Science An Action Plan for Expanding the Technical Areas of the Field of Statistics predstaviv nauku pro dani yak nezalezhnu disciplinu rozshirivshi sferu statistiki dosyagnennyami u galuzi obchislen iz danimi U svoyij praci Klivlend viokremiv 6 tehnichnih sfer yaki na jogo dumku ohoplyuvali nauku pro dani bagatoprofilni doslidzhennya modeli ta metodi dlya danih obchislennya z danimi pedagogika analiz instrumentiv ta teoriya U kvitni 2002 roku Komitet z pitan danih dlya nauki i tehnologiyi Mizhnarodnoyi radi nauki zapochatkuvav Data Science Journal vidannya prisvyachene takim pitannyam yak opis sistem danih yihnya publikaciya v Interneti prikladni zastosuvannya ta pravovi pitannya Nevdovzi pislya cogo u sichni 2003 Kolumbijskij universitet zapochatkuvav vidannya The Journal of Data Science yakij stav platformoyu dlya fahivciv u sferi danih dlya vislovlennya svoyih dumok ta obminu ideyami Cej zhurnal robiv velikij akcent na zastosuvanni statistichnih metodiv ta kilkisnih doslidzhennyah U 2005 roci Nacionalna naukova rada opublikuvala Long lived Digital Data Collections Enabling Research and Education in the 21st Century de do fahivciv u sferi danih vidneseno vchenih u galuzi informaciyi ta komp yuteriv rozrobnikiv baz danih ta programnogo zabezpechennya galuzevih ekspertiv kuratoriv ta anotatoriv bibliotekariv arhivistiv ta inshih lyudej yaki mayut virishalne znachennya dlya uspishnogo keruvannya kolekciyami cifrovih danih osnovnoyu diyalnistyu yakih ye suprovid tvorchih zapitiv ta analiz U 2015 roci zapochatkovano vidannya International Journal on Data Science and Analytics Springer dlya publikaciyi u sferi nauki pro dani ta velikih danih U 2013 roci u Lyuksemburzi vidbulasya persha Yevropejska konferenciya iz analizu danih European Conference on Data Analysis ECDA a u serpni 2015 zasnovano Yevropejsku asociaciyu z pitan nauki pro dani European Association for Data Science EuADS Programne zabezpechennyaZa period 2010 2011 rokiv programne zabezpechennya nauki pro dani dosyaglo tiyeyi tochki pereginu koli vidkrite PZ pochalo vitisnyati propriyetarne PZ Vikoristannya vidkritogo PZ dozvolyaye zminyuvati ta rozshiryuvati PZ a takozh obminyuvatisya algoritmami PrimitkiDhar V 2013 Data science and prediction Communications of the ACM 56 12 64 doi 10 1145 2500499 Jeff Leek 12 grudnya 2013 Simply Statistics Arhiv originalu za 21 serpnya 2018 Procitovano 29 lipnya 2023 Predictive Analytics Degree Northwestern SPS northwestern edu Northwestern University Procitovano 28 travnya 2016 The Master of Science in Predictive Analytics MSPA program established in 2011 is a fully online part time graduate program one of the first to offer dedicated training in data science Stewart Tansley Kristin Michele Tolle 2009 The Fourth Paradigm Data intensive Scientific Discovery Microsoft Research ISBN 978 0 9825442 0 4 Bell G Hey T Szalay A 2009 COMPUTER SCIENCE Beyond the Data Deluge Science 323 5919 1297 1298 doi 10 1126 science 1170411 ISSN 0036 8075 Foreman John 2013 Data Smart Using Data Science to Transform Information into Insight John Wiley amp Sons s xiv ISBN 9781118839867 LaPonsie Maryalene Data scientists The Hottest Job You Haven t Heard Of Procitovano 7 zhovtnya 2012 Nguyen Thomson Arhiv originalu za 4 zhovtnya 2015 Procitovano 2 zhovtnya 2015 Data Scientist The Sexiest Job of the 21st Century Arhiv originalu za 9 travnya 2015 Procitovano 29 lipnya 2023 Big Data Analytics Masters Information Week Procitovano 22 lyutogo 2016 NY gets new bootcamp for data scientists It s free but harder to get into than Harvard Venture Beat Procitovano 22 lyutogo 2016 Press Gil A Very Short History Of Data Science Wu C F J 1997 Statistics Data Science PDF Procitovano 9 October 2014 The University Records 9 November 1997 The University of Michigan Arhiv originalu za 29 zhovtnya 2013 Procitovano 12 serpnya 2013 P C Mahalanobis Memorial Lectures 7th series P C Mahalanobis Memorial Lectures Indian Statistical Institute Procitovano 18 serpnya 2013 Cleveland W S 2001 Data science an action plan for expanding the technical areas of the field of statistics International Statistical Review Revue Internationale de Statistique 21 26 International Council for Science Committee on Data for Science and Technology 2012 April CODATA The Committee on Data for Science and Technology Retrieved from International Council for Science Committee on Data for Science and Technology http www codata org Data Science Journal 2012 April Available Volumes Retrieved from Japan Science and Technology Information Aggregator Electronic http www jstage jst go jp browse dsj vols 2012 04 03 u Wayback Machine Data Science Journal 2002 April Contents of Volume 1 Issue 1 April 2002 Retrieved from Japan Science and Technology Information Aggregator Electronic http www jstage jst go jp browse dsj 1 0 contents The Journal of Data Science 2003 January Contents of Volume 1 Issue 1 January 2003 Retrieved from http www jds online com v1 1 2012 08 22 u Wayback Machine National Science Board Long Lived Digital Data Collections Enabling Research and Education in the 21st Century National Science Foundation Procitovano 30 chervnya 2013 Journal on Data Science and Analytics Chalef Daniel 20 bereznya 2016 Data Science Tools Are Proprietary Vendors Still Relevant kdnuggets com Procitovano 7 listopada 2016 Asay Matt For data scientists the big money is in open source Procitovano 6 listopada 2016 Jones M Tim Data science and open source IBM Procitovano 6 listopada 2016 Talbert Neera Open Source Software Fuels a Revolution in Data Science insideBIGDATA Procitovano 6 listopada 2016 Podalshe chitannyaConway Drew White John Myles February 2012 Machine Learning for Hackers O Reilly Media ISBN 978 1449303716 Russel Matthew A October 2013 Mining the Social Web 2nd Edition O Reilly Media ISBN 978 1449367619 Ce nezavershena stattya z informatiki Vi mozhete dopomogti proyektu vipravivshi abo dopisavshi yiyi