Неструктуровані дані — дані, які не відповідають заздалегідь визначеній моделі даних, і, як правило, представлені у вигляді тексту з датами, цифрами, фактами, які розташовані в ньому в довільній формі. Такі дані важко аналізувати, особливо з допомогою традиційних програм, призначених до роботи зі структурованими даними (анотованими або тими, що зберігаються у базах).
За оцінками Merrill Lynch 1998 року близько 80—90 % від усієї потенційно корисної ділової інформації було представлено в неструктурованій формі, проте це співставлення не ґрунтувалося на статистиці або кількісних дослідженнях, а було припущенням. [en] оцінює обсяг неструктурованих даних в організаціях у 70—80 % від усіх даних.
Історія
Найраніші дослідження у сфері бізнес-аналітики зосереджувалися не на числових даних, а на неструктурованих текстових даних. Вже 1958 року такі дослідники у сфері інформаційних технологій, як [en], вивчали способи виділяння та класифікації даних у неструктурованому тексті. Проте, лише з початку 2000-х років наявні технології наздогнали дослідницький інтерес. У 2004 році [en] розробив [en] Text Miner, який використовує сингулярне розкладання, щоб зводити текстовий простір високої розмірності до меншої кількості вимірів для значного спрощення машинного аналізу[]. Досягнення в галузі математики та технологій машинної обробки текстів стимулювали проведення досліджень комерційними організаціями в таких галузях, як аналіз тональності тексту (сентимент-аналіз), збирання та аналіз [en], автоматизація центрів обробки викликів[]. Поява технологій великих даних наприкінці 2000-х років стимулювала підвищений інтерес до програм для аналізу неструктурованих даних у сучасних областях, таких як [en] та аналіз першопричин .
Проблеми термінології
Термін «неструктуровані дані» може вважатися неточним з кількох причин:
- структура, навіть якщо вона не визначена формально, може матися на увазі;
- дані, які мають структуру деякої форми, можуть характеризуватися як неструктуровані, якщо їхня структура не призначена для машинної обробки;
- неструктурована інформація може мати деяку структуру (така інформація називається [en]) або навіть бути добре структурованою, але тими способами, які є неочевидними без попереднього узгодження.
Робота з неструктурованими даними
Такі техніки, як інтелектуальний аналіз даних (англ. data mining), обробка природної мови (англ. Natural Language Processing) та інтелектуальний аналіз тексту надають методи пошуку закономірностей з метою так чи інакше інтерпретувати неструктуровану інформацію.
Методи структурування тексту зазвичай включають ручне маркування (метадані) або розмітку частинами мови для подальшого структурування тексту. [en] (англ. UIMA) забезпечує загальну основу для обробки цієї інформації для отримання значень і створення структурованих даних на основі неструктурованої інформації. Програмне забезпечення, що створює машинно-оброблювану структуру даних, використовує лінгвістичні, звукові та візуальні структури, що існують у всіх формах людського спілкування. Наприклад, спеціальні алгоритми можуть вивести структуру з тексту шляхом аналізу морфології, синтаксису речень, тощо. Потім можна провести розмітку неструктурованої інформації для уникнення неоднозначності, а для покращення пошуку використовуються методи оцінки релевантності.
Прикладом «неструктурованих даних» можуть бути книги, журнали, документи, метадані, [en], аудіо, відео, аналогові дані, зображення, а також файли, що мають за основу неструктурований текст: повідомлення електронної пошти, вебсторінки, документи, створені за допомогою текстових процесорів . Неструктурована інформація може зберігатися у вигляді структурованих об'єктів (наприклад, у вигляді файлів чи документів), які в свою чергу мають структуру. При цьому поєднання структурованих та неструктурованих даних у сукупності також називається «неструктуровані дані». Наприклад, у вебсторінках HTML вже є розмітка, проте вона придатна лише для відображення. У ній не міститься інформація про значення або функції тих чи інших розмічених елементів у вигляді, придатному для автоматичної обробки. Розмітку засобами XHTML простіше обробляти автоматично, але, зазвичай, у ній не міститься семантичних значень виразів.
Оскільки неструктуровані дані зазвичай зберігаються у вигляді електронних документів, програми для аналізу змісту або управління документами надають перевагу класифікуванню цілих документів, ніж їхніх окремих частин. Таким чином, програми для обробки такого типу даних зазвичай являють собою засоби для створення колекцій документів з неструктурованою інформацією. Проте сьогодні існують також рішення, що працюють з атомарними елементами меншими, ніж цілий документ .
Пошукові системи стали одним із популярних інструментів для індексації та пошуку в неструктурованих даних.
Див. також
Примітки
- Unstructured data // geeksforgeeks.org
- Unstructured data] // [en] Encyclopedia
- Grimes, Seth. A Brief History of Text Analytics. B Eye Network. Процитовано 24 червня 2016.
- Albright, Russ. Taming Text with the SVD (PDF). SAS. Процитовано 24 червня 2016.
- Desai, Manish. Applications of Text Analytics. My Business Analytics @ Blogspot. Процитовано 24 червня 2016.
- Chakraborty, Goutam. Analysis of Unstructured Data: Applications of Text Analytics and Sentiment Mining (PDF). SAS. Процитовано 24 червня 2016.
- Datagrav: A Framework for Knowledge Sharing Using Transclusion Enabled Collaboration Media | Sergey Kochuguev — Academia.edu
Джерела
- Артак Оганесян. Неструктуровані дані 2.0 // Відкриті системи. СУБД, 2012, № 04
- Леонід Черняк. Аналітика неструктурованих даних // Відкриті системи. СУБД, 2012 № 06
- Антон Іванов. Комплексний аналіз неструктурованих даних // Відкриті системи. СУБД, 2013 № 06
- Артем Гришковський. Інтегрована обробка неструктурованих даних // Відкриті системи. СУБД, 2013 № 06
- Structure, Models and Meaning: Is «unstructured» data merely unmodeled?, Intelligent Enterprise, March 1, 2005.
- Structuring Unstructured Data, Forbes, April 5, 2007.
- , Merrill Lynch, 16 November 1998.
- Holzinger, Andreas; Stocker, Christof; Ofner, Bernhard; Prohaska, Gottfried; Brabenetz, Alberto; Hofmann-Wellenhof, Rainer. Combining HCI, Natural Language Processing, and Knowledge Discovery – Potential of IBM Content Analytics as an Assistive Technology in the Biomedical Field // Human-Computer Interaction and Knowledge Discovery in Complex, Unstructured, Big Data / Holzinger, Andreas; Pasi, Gabriella. — Springer, 2013. — С. 13—24. — (Lecture Notes in Computer Science) — . — DOI:
- Unstructured Data and the 80 Percent Rule, Seth Grimes, Clarabridge Bridgepoints, 2008 Q3.
- Today's Challenge in Government: What to do with Unstructured Information and Why Doing Nothing Isn't An Option, Noel Yuhanna, Principal Analyst, Forrester Research, листопад 2010
- New Digital Universe Study Reveals Big Data Gap: Less Than 1 % World's Data is Analyzed; Less Than 20 % is Protected, прес-реліз EMC, грудень 2012.
- Semi- and unstructured data processing / preparation in IRI CoSort, травень 2014.
Вікіпедія, Українська, Україна, книга, книги, бібліотека, стаття, читати, завантажити, безкоштовно, безкоштовно завантажити, mp3, відео, mp4, 3gp, jpg, jpeg, gif, png, малюнок, музика, пісня, фільм, книга, гра, ігри, мобільний, телефон, android, ios, apple, мобільний телефон, samsung, iphone, xiomi, xiaomi, redmi, honor, oppo, nokia, sonya, mi, ПК, web, Інтернет
Nestrukturovani dani dani yaki ne vidpovidayut zazdalegid viznachenij modeli danih i yak pravilo predstavleni u viglyadi tekstu z datami ciframi faktami yaki roztashovani v nomu v dovilnij formi Taki dani vazhko analizuvati osoblivo z dopomogoyu tradicijnih program priznachenih do roboti zi strukturovanimi danimi anotovanimi abo timi sho zberigayutsya u bazah Za ocinkami Merrill Lynch 1998 roku blizko 80 90 vid usiyeyi potencijno korisnoyi dilovoyi informaciyi bulo predstavleno v nestrukturovanij formi prote ce spivstavlennya ne gruntuvalosya na statistici abo kilkisnih doslidzhennyah a bulo pripushennyam en ocinyuye obsyag nestrukturovanih danih v organizaciyah u 70 80 vid usih danih IstoriyaNajranishi doslidzhennya u sferi biznes analitiki zoseredzhuvalisya ne na chislovih danih a na nestrukturovanih tekstovih danih Vzhe 1958 roku taki doslidniki u sferi informacijnih tehnologij yak en vivchali sposobi vidilyannya ta klasifikaciyi danih u nestrukturovanomu teksti Prote lishe z pochatku 2000 h rokiv nayavni tehnologiyi nazdognali doslidnickij interes U 2004 roci en rozrobiv en Text Miner yakij vikoristovuye singulyarne rozkladannya shob zvoditi tekstovij prostir visokoyi rozmirnosti do menshoyi kilkosti vimiriv dlya znachnogo sproshennya mashinnogo analizu neavtoritetne dzherelo Dosyagnennya v galuzi matematiki ta tehnologij mashinnoyi obrobki tekstiv stimulyuvali provedennya doslidzhen komercijnimi organizaciyami v takih galuzyah yak analiz tonalnosti tekstu sentiment analiz zbirannya ta analiz en avtomatizaciya centriv obrobki viklikiv neavtoritetne dzherelo Poyava tehnologij velikih danih naprikinci 2000 h rokiv stimulyuvala pidvishenij interes do program dlya analizu nestrukturovanih danih u suchasnih oblastyah takih yak en ta analiz pershoprichin Problemi terminologiyiTermin nestrukturovani dani mozhe vvazhatisya netochnim z kilkoh prichin struktura navit yaksho vona ne viznachena formalno mozhe matisya na uvazi dani yaki mayut strukturu deyakoyi formi mozhut harakterizuvatisya yak nestrukturovani yaksho yihnya struktura ne priznachena dlya mashinnoyi obrobki nestrukturovana informaciya mozhe mati deyaku strukturu taka informaciya nazivayetsya en abo navit buti dobre strukturovanoyu ale timi sposobami yaki ye neochevidnimi bez poperednogo uzgodzhennya Robota z nestrukturovanimi danimiTaki tehniki yak intelektualnij analiz danih angl data mining obrobka prirodnoyi movi angl Natural Language Processing ta intelektualnij analiz tekstu nadayut metodi poshuku zakonomirnostej z metoyu tak chi inakshe interpretuvati nestrukturovanu informaciyu Metodi strukturuvannya tekstu zazvichaj vklyuchayut ruchne markuvannya metadani abo rozmitku chastinami movi dlya podalshogo strukturuvannya tekstu en angl UIMA zabezpechuye zagalnu osnovu dlya obrobki ciyeyi informaciyi dlya otrimannya znachen i stvorennya strukturovanih danih na osnovi nestrukturovanoyi informaciyi Programne zabezpechennya sho stvoryuye mashinno obroblyuvanu strukturu danih vikoristovuye lingvistichni zvukovi ta vizualni strukturi sho isnuyut u vsih formah lyudskogo spilkuvannya Napriklad specialni algoritmi mozhut vivesti strukturu z tekstu shlyahom analizu morfologiyi sintaksisu rechen tosho Potim mozhna provesti rozmitku nestrukturovanoyi informaciyi dlya uniknennya neodnoznachnosti a dlya pokrashennya poshuku vikoristovuyutsya metodi ocinki relevantnosti Prikladom nestrukturovanih danih mozhut buti knigi zhurnali dokumenti metadani en audio video analogovi dani zobrazhennya a takozh fajli sho mayut za osnovu nestrukturovanij tekst povidomlennya elektronnoyi poshti vebstorinki dokumenti stvoreni za dopomogoyu tekstovih procesoriv Nestrukturovana informaciya mozhe zberigatisya u viglyadi strukturovanih ob yektiv napriklad u viglyadi fajliv chi dokumentiv yaki v svoyu chergu mayut strukturu Pri comu poyednannya strukturovanih ta nestrukturovanih danih u sukupnosti takozh nazivayetsya nestrukturovani dani Napriklad u vebstorinkah HTML vzhe ye rozmitka prote vona pridatna lishe dlya vidobrazhennya U nij ne mistitsya informaciya pro znachennya abo funkciyi tih chi inshih rozmichenih elementiv u viglyadi pridatnomu dlya avtomatichnoyi obrobki Rozmitku zasobami XHTML prostishe obroblyati avtomatichno ale zazvichaj u nij ne mistitsya semantichnih znachen viraziv Oskilki nestrukturovani dani zazvichaj zberigayutsya u viglyadi elektronnih dokumentiv programi dlya analizu zmistu abo upravlinnya dokumentami nadayut perevagu klasifikuvannyu cilih dokumentiv nizh yihnih okremih chastin Takim chinom programi dlya obrobki takogo tipu danih zazvichaj yavlyayut soboyu zasobi dlya stvorennya kolekcij dokumentiv z nestrukturovanoyu informaciyeyu Prote sogodni isnuyut takozh rishennya sho pracyuyut z atomarnimi elementami menshimi nizh cilij dokument Poshukovi sistemi stali odnim iz populyarnih instrumentiv dlya indeksaciyi ta poshuku v nestrukturovanih danih Div takozhKlasteruvannya Rozpiznavannya obraziv en PrimitkiUnstructured data geeksforgeeks org Unstructured data en Encyclopedia Grimes Seth A Brief History of Text Analytics B Eye Network Procitovano 24 chervnya 2016 Albright Russ Taming Text with the SVD PDF SAS Procitovano 24 chervnya 2016 Desai Manish Applications of Text Analytics My Business Analytics Blogspot Procitovano 24 chervnya 2016 Chakraborty Goutam Analysis of Unstructured Data Applications of Text Analytics and Sentiment Mining PDF SAS Procitovano 24 chervnya 2016 Datagrav A Framework for Knowledge Sharing Using Transclusion Enabled Collaboration Media Sergey Kochuguev Academia eduDzherelaArtak Oganesyan Nestrukturovani dani 2 0 Vidkriti sistemi SUBD 2012 04 Leonid Chernyak Analitika nestrukturovanih danih Vidkriti sistemi SUBD 2012 06 Anton Ivanov Kompleksnij analiz nestrukturovanih danih Vidkriti sistemi SUBD 2013 06 Artem Grishkovskij Integrovana obrobka nestrukturovanih danih Vidkriti sistemi SUBD 2013 06 Structure Models and Meaning Is unstructured data merely unmodeled Intelligent Enterprise March 1 2005 Structuring Unstructured Data Forbes April 5 2007 Merrill Lynch 16 November 1998 Holzinger Andreas Stocker Christof Ofner Bernhard Prohaska Gottfried Brabenetz Alberto Hofmann Wellenhof Rainer Combining HCI Natural Language Processing and Knowledge Discovery Potential of IBM Content Analytics as an Assistive Technology in the Biomedical Field Human Computer Interaction and Knowledge Discovery in Complex Unstructured Big Data Holzinger Andreas Pasi Gabriella Springer 2013 S 13 24 Lecture Notes in Computer Science ISBN 978 3 642 39146 0 DOI 10 1007 978 3 642 39146 0 2 Unstructured Data and the 80 Percent Rule Seth Grimes Clarabridge Bridgepoints 2008 Q3 Today s Challenge in Government What to do with Unstructured Information and Why Doing Nothing Isn t An Option Noel Yuhanna Principal Analyst Forrester Research listopad 2010 New Digital Universe Study Reveals Big Data Gap Less Than 1 World s Data is Analyzed Less Than 20 is Protected pres reliz EMC gruden 2012 Semi and unstructured data processing preparation in IRI CoSort traven 2014