Ця стаття має кілька недоліків. Будь ласка, допоможіть удосконалити її або обговоріть ці проблеми на .
|
На відміну від ручного контент-аналізу, комп'ютеризований контент-аналіз виробив свою власну методику та технології та розвинувся своїм шляхом.
Варто зазначити, що в іноземній та вітчизняній літературі поки що немає консенсусу з приводу того, що вважати комп'ютерним контент-аналізом. Так, наприклад, Іванов зазначає: "В англомовній літературі вирізняють комп’ютерний контент-аналіз, що застосовується у якісних (computer- aided) та кількісних (computer-assisted) контент-аналітичних дослідженнях. Ми пропонуємо перекладати дані терміни як "комп’ютеризований" та "автоматизований", відповідно".
У даній статі будуть використовуватись визначення Юськіва та розуміти під комп'ютеризованим контент-аналізом "аналіз текстових матеріалів, у якому всі кроки виявлення змістовних властивостей (характеристик) і визначення сукупностей концептуальних показників тексту здійснюються за допомогою алгоритмів, тобто явних логічних або статистичних операцій".
Перші спроби механізувати і автоматизувати контент-аналіз
Як зазначає Юськів: "Перші контент-дослідження з використанням технічних засобів у гуманітарній сфері пов'язані з роботами італійського священика Роберто Бузи. Отець Р.Буза ставив перед собою завдання з допомогою технічних засобів створити конкорданси повного зібрання листів італійського теолога XIII ст. Фоми Аквінського. Докторська дисертація Р.Бузи, захищена в 1946 р., присвячена вивченню поняття "присутність" у розумінні домініканського мислителя. Створивши і проаналізувавши друковані індекси латинських слів praesens і praesentia, Р.Буза дійшов висновку, що їхнє використання у Ф.Аквінського було тісно пов'язане прийменником in. Більше того, Р.Буза готовий був повірити, що подібні функціональні слова дають чимало інформації про зв’язок між концептуальним світом автора і словами, які він використовує для його опису. Однак достатніх дослідницьких ресурсів для створення ручним способом конкордансу таких загальних латинських слів, як in, sum або et (у перекладі відповідно "в", дієслово-зв’язка "бути", "і"), Р.Буза не мав.
Попри труднощі, наприкінці 1940-х років. він поставив перед собою набагато грандіозніше завдання – створити "Index Thomisticus", який би містив повний конкорданс 10,6 млн. слів Фоми Аквінського. Вирішення цього завдання без використання певного виду технічних пристроїв було неможливим. Робота, розпочата з використанням перфораторів і сортувальних машин, була практично завершена через 33 роки на базі великих універсальних ЕОМ серії IBM. Разом з іншою інформацією, Індекс складався з майже 70000 сторінок. Було створено два конкорданси. Один, який формувався безпосередньо машиною, містив повний список відповідностей для всіх словоформ і отримав назву "нелематизованого". Другий конкорданс утворювали так звані "лематизовані" відповідності, у списку яких кожне слово зустрічалося лише один раз у стандартній формі, наприклад, іменники – лише в однині, дієслово – у невизначеній формі і т.д. Створити "лематизовану" відповідність без допомоги людини ЕОМ була не в змозі. За оцінками Бузи, на всю роботу використано понад 1 млн. людиногодин, головним чином для введення і перевірки даних, а також здійснення лематизації. Спроби механізувати окремі операції в процесі здійснення контент-аналізу не призвели і не могли призвести до істотних змін у його використанні і методиці. Водночас, слідом за збільшенням кількості самих текстів зростала потреба в контент-аналізі, який би швидко й ефективно аналізував тексти різної природи і великих обсягів. Поява комп’ютерної техніки створила реальні, хоча спочатку неявні і неусвідомлені за своїми майбутніми наслідками, можливості побороти "прокляту проблему розмірності".
Покоління розвитку комп’ютеризованого контент-аналізу
Юськів виділяє чотири покоління програмного забезпечення контент-аналізу, причому критеріями для такого поділу автор визначає "не стільки часові рамки, скільки та роль, яку відіграють програмні засоби в процесі аналізу".
Програми І покоління (1950-ті – 1960-ті роки)
("вузькоспеціалізовані програми для проведення окремих розрахунків або програми загального користування (текстові і табличні процесори, системи керування базами даних)
– призначені для проведення числових розрахунків, статистичного аналізу, побудови примітивних графіків
– можливість виконання окремих менеджерських функцій щодо тексту (зберігання, копіювання, формування індексів)
Програми ІІ покоління (1966 – середина 1980-х років)
(спеціалізовані програми кількісного аналізу, обмежені обробкою текстів і які не виходять за межі ручної технології)
– основна увага на кодування, пошуку ключових слів і фраз, виведення інформації у формі різноманітних індексів, конкордансів
– дозволяють здійснювати ручне, автоматизоване і автоматичне кодування з використанням словників
– реалізуються різноманітні стратегії пошуку, формування таблиць конкордансу, здійснення аналізу колокацій
– можливість роботи з електронними текстами
– використовують винятково кількісні аналітики
Програми ІІІ покоління (середина 1980-х років – 1990-ті роки)
(спеціалізовані програми, обмежені обробкою текстів у рамках якісної та кількісної технології аналізу)
– характеризується надзвичайним розмаїттям програм
– виходить за межі ручної технології і значно посилює аналітичні можливості дослідника, програма виступає своєрідним досвідченим експертом
– реалізуються функції всіх етапів досліджень, збільшилося число виконуваних функцій (структуризація даних, візуалізація результатів, формування та перевірка гіпотез, формування висновків і звітів), принципові зміни в реалізації тих функцій, які були реалізовані раніше (кодування, конкорданс)
– активно застосовуються кількісними дослідниками, привернули увагу "якісників"
Програми IV покоління (від середини 1990-х років)
(вийшли за межі винятково обробки текстів)
– технологічні програми, які в основі мають контент-аналіз і реалізуються для роботи в режимі реального часу
– реалізуються у вигляді масштабних систем зі складними математичними і лінгвістичними алгоритмами аналізу, для яких характерний розвинений графічний інтерфейс, доступ до різних джерел даних, функціонування в архітектурі клієнт-сервер"
Перше покоління розвитку контент-аналізу
Перше покоління, на думку Юськіва, важко назвати програмами контент-аналізу, "оскільки це лише використання різноманітних програм для цілей контент-аналізу. За влучним висловом Г.Бернарда і Г.Раяна, "подібно до ранніх текстових редакторів і систем управління базами даних, перше покоління текстових процесорів проектувалося як допомога нам робити те, що ми і так уже робили". Виходячи з можливостей перших універсальних ЕОМ, дослідники "доручали" їм виконувати числові розрахунки, здійснювати статистичний аналіз, будувати примітивні графіки вже після того, як прочитані і закодовані людьми тексти були введені з кодувальних карток на машинні носії. Як правило, спочатку це були спеціально написані під конкретні завдання програми, а дещо пізніше з'явилися більш універсальні програми: спеціалізовані пакети прикладних програм, системи управління базами даних, табличні процесори тощо. Що стосується безпосередньої обробки текстів, програми першого покоління дозволяли зберігати і архівувати самі тексти, будувати і видруковувати прості індекси і конкорданси, підшуковувати цитати і виводити їх на друк у форматі на зразок KWIC-таблиць".
The General Inquirer і особливості другого покоління програм контент-аналізу
"Появу другого покоління програм комп’ютеризованого контент-аналізу пов’язують з Гарвардським університетом (США), група науковців якого під керівництвом Ф.Стоуна в 1961 р. почала розробку принципів систематичного комп’ютеризованого контент-аналізу. Уже в 1966 р. була завершена перша версія спеціалізованої програми кількісного контент-аналізу текстів the General Inquirer, яка розвіяла міф про те, що універсальні ЕОМ можуть використовуватися лише для статистичного аналізу". Як зазначає Іванов, це— "перша широко застосовувана програма для автоматичного контент-аналізу — досі працює, переписана з оригінальної мови IBM PL/1 у середовищі Java".
"Перевіряючи можливості програми, автори проекту повторили чимало своїх і чужих досліджень, використовуючи категорійний апарат попередніх ручних методик. Була проведена серія аналізів текстів газет, наукових робіт і публіцистичних творів, промов кандидатів на президентську посаду від демократичної і республіканської партій США, особистих документів (листів, щоденників, автобіографій). Одне з оригінальних завдань, яке не було дублюванням ручного дослідження і на якому тестувалася система, є дослідження 66 посмертних записок самогубців, з яких 33 – написані тими, хто справді здійснив самогубство, а решта – особами, що лише його симулювали. The General Inquirer проаналізувала тексти і в 91% випадків виявила записки справжніх самогубців. Процес аналізу в the General Inquirer відбувався таким чином. На початковому етапі компілюється словник категорій аналізу. Другим етапом і новим завданням комп’ютера виступає кодування тексту, яке полягає в тому, що система переглядає кожне слово і порівнює його з словоформами (категоріями) словника. Якщо словоформа віднайдена, то лічильник для відповідної словоформи збільшується на одиницю. У кінцевому підсумку отримують частотний розподіл категорій. Залежно від системи, у даний базовий алгоритм можуть уводитися нові правила, наприклад, для врахування контексту використання слів, усунення їхнього двозначного розуміння, виявлення в тексті не лише слів, а й цілих фраз. На третьому етапі програма виводить результати аналізу. Оскільки the General Inquirer є інструментарієм недіалоговим, то результатом стає, окрім звичайних таблиць з даними розрахунків, видруковування індексів і конкордансів. Як правило, інформація виводиться у форматі KWIC (ключові слова в контексті). Крім того, the General Inquirer дає можливість проводити нескладний статистичний аналіз. Якщо виникає потреба, то він дозволяє експортувати дані у формати інших програм (статистичних пакетів, електронних таблиць або програм ділової графіки).
Підхід Ф.Стоуна добре спрацьовує для задач на зразок аналізу тем, пов'язаних із визначенням категорій аналізу, але він є недостатнім при вирішенні проблем, у яких потрібно відшукувати співвідношення між поняттями. Тим не менше, система стала прототипом програм комп’ютеризованого контент-аналізу і була величезним досягненням соціальних наук. Вона та її наступники продемонстрували широкі можливості маніпулювання текстами, їхнього кодування, виділення категорій аналізу, пошуку відповідностей тощо".
Узагальнюючи, на думку Юськіва: "Програми другого покоління за своїми функціями так і не вийшли за межі логіки ручної технології контент-аналізу і практично не змінили її. Вони були допоміжним інструментарієм, який просто полегшував виконувати рутинну роботу, яку аналітик робив і до їхньої появи. Як правило, це були програми кількісного контент-аналізу, однак деякі елементи якісного аналізу вже можна було виконати. Свою увагу програми насамперед зосереджували на кодуванні, а також пошуку ключових слів або фраз і виведенні результатів пошуку на друк. Досвід реалізації цих елементів методики комп’ютеризованого контент-аналізу дістав теоретичне продовження і призвів до появи нових різновидів контент-аналізу".
Особливості комп’ютеризованого контент-аналізу
Іванов виділяє такі переваги комп'ютеризованого контент-аналізу:
1. "Витрати на кодувальників дуже малі. Замість цілої групи можна використовувати одного.
2. Програма не має ні переконань, ні упереджень. Кодування відбувається за попередньо прописаною кодувальною схемою, без будь-якої реінтерпретації.
3. Комп’ютер може аналізувати величезні масиви даних, на кодування і аналіз яких людині потрібні були б місяці, а то й роки".
З недоліків дослідник виділяє наступне:
1. "Комп’ютер кодує послідовність символів, заданих у аналітичному словнику, а не значення, яке вкладає в цю послідовність дослідник. З цього постає проблема семантичної валідності: чи може комп’ютер у відриві від контексту на основі послівної бази адекватно проаналізувати зміст тексту відповідно до поставлених дослідником задач?
2. Перед застосуванням аналітичного словника його слід перевірити на валідність, що все одно вимагає певних затрат на кодувальників".
Загалом, на думку, Юськіва: "Комп’ютеризований контент-аналіз запропонував два принципово відмінних підходи до автоматичного кодування, які умовно називають "a-priori" (або дедуктивний) та "a posteriori" (або індуктивний). Підхід "a-priori", запропонований Ф.Стоуном при розробці the General Inquirer, більш відомий і поширений. Модель контент-аналізу, яка реалізується подібного роду системами, належить до категорії інструментального контент-аналізу. У чистому вигляді первинним тут виступає теорія, покладена в основу дослідження. Саме теорія визначає всі структурні компоненти дослідження: схему класифікації категорій аналізу, послідовність правил наступного кодування текстів, а також висновки, що будуть отримані в результаті дослідження. Фактично релевантність категорій базується на розумінні контексту аналітиком, його інтересів, інтуїції, досвіду і вмінь, цілей дослідження. Зауважимо, що аналітик у процесі дослідження може вносити зміни в класифікаційну схему, залежно від нового, глибшого розуміння тексту після отримання перших результатів, знаходження і виправлення недоречностей, помилок тощо.
Формалізоване представлення правил і умов кодування значною мірою реалізувалося через словники. Уже з перших спроб використання електронно-обчислювальних пристроїв для роботи з текстом ставали очевидними переваги і недоліки обробки текстового матеріалу за допомогою машин – вони забезпечували адекватність аналізу величезних текстових матеріалів, однак вимагали значних зусиль для підготовки програм до роботи – складання "словника з урахуванням усіх синонімічних варіантів понять, які треба буде відшукувати в тому морі слів, які пропускаються через машину. Словник являє собою сукупність кількох тисяч словоформ, що належать до різних категорій. Категорії утворюють систему, яка виражає сутність певної проблеми, описує деяку тему або комплекс тем. Зазвичай, у словнику задаються слова для 60-150 категорій. Категорії підбираються або індуктивним способом, на основі тексту, або дедуктивно, на основі більш загальних теоретичних міркувань, які диктують вибір категорій. Кожній категорії як розшифрування задаються своєрідні "носії" змісту в реальній мові – слова в усіх своїх формах вираження або словоформи. Побудова такого словника аналогічна побудові "тезауруса" – мови певної галузі людського знання, коли ключовим словам цієї сфери знань відповідає синонімічний ряд загальновживаних слів. Комп’ютерний словник, по суті, являє собою різновид комп’ютеризованої кодувальної книги (codebook)".
“Тотальний контент-аналіз”
"Різновид контент-аналізу, який отримав назву "тотальний", був запропонований Ю.Лаффалем. Ю.Лаффаль намагався кодувати майже кожне слово тексту, за винятком функціональних слів, які мають найбільшу частоту в мові, тобто аналіз охоплював широкий діапазон змістовно пов’язаних іменників, прикметників, дієслів тощо. Його словник спочатку включав 114 категорій. За інформацією Г.Бернард і Г.Раян, станом на початку 1990-х років словник Лаффаля включав 43 тис. слів, кожне з яких асоціювалося з 1-5 категоріями із 168 можливих. Для порівняння: аналіз, пропонований Ф.Стоуном, використовував для кодування близько 10% тексту, тоді як за Ю.Лаффалем покриття тексту категоріями складало майже 90%. Зауважимо, що "тотальний" контент-аналіз знайшов найбільше застосування в психотерапії, коли акцент робиться на вивченні мови пацієнтів.
Альтернативним до систем, побудованих за зразком Ф.Стоуна, проте більш "просунутим", виявився різновид систем автоматичного контент-аналізу "a posteriori", який не потребував попередньої побудови словника, тим самим виключаючи присутність людини навіть на рівні формування категорій. Цей різновид комп’ютеризованого аналізу Г.П.Айкер і Н.І.Гарвей ще наприкінці 1960-х років назвали аналізом, якого "не торкається рука людини". На відміну від підходу "a priori", він насамперед "керується" даними, а не якоюсь теорією. Тут схема категорій аналізу формується в результаті перегляду досліджуваного тексту. При цьому від аналітика на вході не вимагається жодної додаткової інформації, окрім досліджуваного тексту. Фактично такі системи реалізують репрезентативну модель контент- аналізу.
Сьогодні, за твердженням П.Мохлера і Ц.Зуеля, автоматичні системи цього різновиду контент-аналізу переживають період ренесансу. Прикладом їх можуть бути програми the Words, TextSmart, DICTION. Логіка the Words, розроблена Г.П.Айкером і Н.І.Гарвеєм наприкінці 1960-х років, полягає в наступному. Спочатку текст поділяється на окремі сегменти, для яких формується таблиця частот усіх слів, за винятком функціональних і з урахуванням синонімів. По кожному сегменту відбирається n слів з найбільшою частотою, які утворюють n міні-категорій. Далі обчислюється на основі всіх сегментів матриця взаємних кореляцій між цими категоріями, яка піддається факторному аналізу. У результаті визначаються актуальні або неактуальні міні-категорії (або теми) тексту."
Таблиці конкордансу
Визначальною компонентою програм другого покоління, на думку Юськіва, є реалізація стратегій пошуку даних, серед яких виділяється побудова таблиць конкордансу. "Важливість їх яскраво свідчить хоча б те, що в назвах багатьох програм присутнє слово конкорданс. Так, програма COCOA (Count and Concordance generation for the Atlas) є складовою програми the Atlas. У 1978 р. комп’ютерний центр Оксфордського університету на зміну COCOA випустив OCP (the Oxford Concordance Program), а пізніше Micro-OCP для мікрокомп’ютерів. Добре відома система TACT (Text-Analysis and Concordance Tools) у своїй назві також має слово конкорданс.
Основна ціль конкордансів – спрямувати увагу на безпосереднє лінгвістичне середовище вибраного слова. Логіка пошуку полягає в тому, що спочатку дослідник виявляє потенційно цікаве слово, далі знаходить відповідний йому конкорданс, що дає змогу визначити шаблони (патерни), характерні для даного слова і в яких даному слову відводиться цілком визначена роль.
Існує декілька форматів конкордансу. Один із способів демонстрації контексту зустрічання слів є формат KWOC (keyword-out-of-context – ключове слово поза контекстом) – перелік слів із вказанням місцезнаходження. У ньому ключове слово показується справа або зліва від контексту, а контекст подається у вигляді цілого речення, яке може займати декілька рядків. Більш поширеним є альтернативний формат KWIC (keyword-in-context – ключове слово в контексті), який займає лише один рядок із ключовим словом у центрі цього рядка (однакова кількість слів справа і зліва від ключового слова).
Загалом, "можливості програм контент-аналізу другого покоління насамперед привернули увагу дослідників, що працювали у сфері формалізованих методів досліджень текстів. Якісні ж дослідники навіть не робили спроб застосовувати їх у своїй аналітичній роботі. Тим не менше, численні контент-дослідження, як правило, мас-медійних джерел і в основному англомовних текстів, дозволили виробити методологічні засади нового підходу до емпіричних досліджень у рамках суспільних наук. Однак зусилля й оптимізм, інвестовані в 1960-х роках. у комп’ютеризований контент-аналіз, на 1970-ті роки не поширилися. Головним чином це пов'язують, на думку М.Алекси, із повільним розвитком обчислювальної техніки, обмеженістю доступу до ЕОМ (доступ в межах обчислювальних центрів), а також відсутністю достатньої бази електронних текстів, не кажучи вже про труднощі з переведення в машинний формат розмовних текстів. Відтак зменшилася кількість наукових публікацій, теоретичні дослідження поступилися маломасштабним прикладним, поступово наростав методологічний застій. Щоправда, саме в це десятиріччя комп'ютеризований контент-аналіз почав застосовуватися в психології та психотерапії, а також отримав ширше розповсюдження в Європі. Така ситуація зберігалася аж до середини 1980-х років.
Третє покоління програм контент-аналізу
Від середини 1980-х років намітився значний прогрес у розвитку комп’ютеризованого контент-аналізу. Його стимулювали декілька переходів:
- від великих ЕОМ до персональних комп'ютерів (1980 р.)
- від операційної системи MS DOS до MS Windows із його графічним інтерфейсом і дружнім ставленням до користувача.
Ці зміни дали можливість більшого залучення людини до дослідження. Також свій вплив мали розвиток Інтернет, розповсюдження електронних архівів-бібліотек, доступність електронних текстів і можливість доступу до текстових архівів через Інтернет у режимі on-line.
Завдяки третьому поколінню програм контент-аналізу з’явились можливості неформалізованої обробки текстів . «Стало зрозуміло, що … комп’ютери … можуть надавати значну допомогу в процесі інтерпретації" . Це особливо виявилося очевидним, коли виникла потреба обробки значної кількості неструктурованих текстових даних.
Приклади програм третього покоління: Atlas.ti, HyperResearch, Aquad, NUD'IST .
Вони мають засоби для:
- формування текстів і створення на їхній основі цілих проектів;
- вивчення частоти і контексту використання слів (як часто категорії присвоюються словам або текстовим сегментам? які категорії і як часто вони з'являються разом? які зв’язки існують між категоріями або текстовими сегментами);
- створення і підтримка категорій і схем класифікації;
- присвоєння однієї або більше категорій рядкам символів, словам, фразам, реченням, параграфам або цілим текстам;
- зберігання приміток ("мемо") до текстів, кодування текстових сегментів;
- отримання різних форматів перегляду текстів, частин текстів або груп текстів;
- експортування кодів для подальшої обробки їх іншими програмами, а також формування звітів з проведеного аналізу;
- підтримка командної або спільної роботи в рамках проекту і злиття в один кількох проектів .
Найпершим завданням, яке постало перед програми якісного контент-аналізу, стало управління неструктурованими текстовими базами даних. Ідея програм полягала в тому, що окрім бази даних з основним текстом, створювалися спеціальні файли або бази даних, які містили адреси сегментів тексту (наприклад, номер запису початку і номер кінця) та імена кодів, які асоціювалися з даним сегментом. За допомогою такого файлу можна виводити окремо ті сегменти тексту, в яких присутні потрібні коди. Він використовувався для пошуку і виділення потрібних фрагментів тексту. Доповнюючи ці файли новими записами, можна постійно розширювати пошукову базу, не зачіпаючи самого тексту. Такий принцип був закладений у перших пакетах програм Qualpro, the Ethnograph, Textbase Alpha .
Вирішення цього завдання дозволило виконувати й інші функції аналізу:
- пошук фрагментів тексту;
- побудова конкордансів; здійснення колокацій;
- перевірка інтерпретуючих гіпотез шляхом пошуку сегментів з однаковими кодами;
- введення, редагування та зберігання теоретичних коментарів до фрагментів текстів і т.д
Істотним доповненням до них стали різноманітні представлення взаємопов’язаних категорій шляхом різних способів візуалізації. Із допомогою допоміжних файлів показників можна легко встановлювати зв’язки між сегментами текстів, мемо, кодами. Так, програма NUD'IST дозволяє будувати ієрархічні та мережні структури категорій, програма Atlas.ti формує різноманітні неієрархічні мережі .
Внесок
Зміни відбулися на всіх етапах технології досліджень. Насамперед вони стосувались кодування. Інтеграція ручного і автоматичного кодування стало новою технологією багатьох програм, наприклад, PLCA (Program for Linguistic Content Analysis), MECA (Map Extraction, Comparison and Analysis).
Змінилася така функція, як використання конкорденсу. Відтепер, маючи на екрані слова (категорії) і їхню частоту, дослідник оперативно з допомогою KWIC-таблиці переглядав, у якому контексті з'являлося відібране ним слово. Це підсилило переконливість висновків. Такий режим реалізується через систему взаємозв'язаних вікон у багатьох програмах, зокрема навіть під MS DOS у програмі TACT .
Збільшилося число нових функцій, які реалізують програми. З'явилася можливість перевіряти гіпотези, розширились інтерпретаційні можливості за рахунок методів пошуку спільного входження кодів (слів), побудови концептуальних моделей, які зв'язують поняття в семантичні мережі, матричного, логічного та картографічного аналізу. Чимало програм приділяють увагу підрахункам показників надійності, наприклад, програми AGREE, Krippendorf’s alpha 3.12a, PRAM (Program for Reliability Assessment of Multiple Coders), або окремі модулі статистичних пакетів програм, зокрема SPSS і Simstat .
Такі можливості послужили основою створення цілого ряду програмних систем, які дозволяли вирішувати найрізноманітніші специфічні проблеми в процесі аналізу. Так, побудована на концепції "concept mapping", програма the VBPro дозволяє шляхом картографічного представлення ідентифікувати домінуючі теми і взаємозв’язки між темами для великих масивів даних. Цей різновид текстового аналізу використовується для аналізу медійних повідомлень.
Інший різновид аналізу представляє програма Minnesota Contextual Content analysis (MCCA), яка дозволяє вимірювати соціальну різницю (відстань) між статусом людей в організації, наприклад, лікарями і пацієнтами в лікарні, менеджерами та іншими працівниками фірми, враховуючи стилістичні особливості мови в процесі бесіди, а також контекстуальну інформацію. Дана методологія враховує чотири контекстуальних виміри: традиційний, практичний, емоційний і аналітичний. Здійснюючи кластерний аналіз, система дозволяє кількісно оцінити ступінь близькості між представниками різних соціальних груп .
З’явилися системи контент-аналізу для ефективної роботи в окремих сферах. До більш сучасних систем можна віднести програми для дослідження медіа, наприклад, CARMA® (Computer Aided Research & Media Analysis), PrecisTM, Echo®Research, IMPACTTM, Metrica, the Delahaye Medialink system. Окрім здійснення самого контент-аналізу, ці програми включають такі модулі, як убудовані медіабази даних, що забезпечують уведення, доступ і підрахунок відповідних статистичних даних, які стосуються різних параметрів медіа-засобів .
Критика
Основне спрямування критики:
- програма дистанціює людину від самих даних, людина практично не відчуває самого алгоритму;
- використання програм призведе до того, що якісні дані будуть аналізуватися кількісно;
- використання програм призведе до зростання однорідності (одноманітності) в методах аналізу, що особливо негативно позначиться на якісних дослідженнях .
До цього додається: комп’ютер лише ідентифікує слова, а від ідентифікації слів до ідентифікації ідей, які ці слова представляють, дуже далеко.
Особливої ваги набули проблеми забезпечення валідності і надійності результатів:
- труднощі врахування контексту;
- нездатність програми розпізнати комунікативні інтенції слів;
- нездатність дослідника забезпечити вичерпне внесення в список ключових слів для певних категорій;
- нездатність розв’язати проблеми посилань перед або після слів, які з'являються в довільному місці тексту, зокрема проблема займенників;
- нездатність програм визначати межі одиниць аналізу, насамперед при якісному аналізі;
- за чисельними характеристиками, які вираховуються програмами, може втрачатися сутність категорій .
Привертається увага і до обмежень, одним з яких є так звана "ціна" комп’ютеризації, під якою Р.Морріс розуміє час і зусилля, витрачені на роботу .
Результат
Прихильники же зазначають, що завдяки комп’ютеру контент-аналіз став для дослідників набагато доступнішим, ніж будь-коли, а можливості аналітика значно зросли. Також стверджується, що тепер програми контент-аналізу виступають не лише в ролі одного з інструментів аналізу, а стають повноцінним експертом, завдяки новим інтерпретаційним, графічним та статичним можливостям, здатності формувати гіпотези і готувати варіанти висновків тощо. Особливо ці можливості важливі при роботі з дуже великими масивами текстів.
Наслідком цього періоду розвитку контент-аналізу було створення в різних країнах цілого ряду науково-дослідних центрів, які спеціалізуються на комп’ютерному аналізі текстів, наприклад Centre for Computer Assisted Qualitative Data Analysis Software (м.Суррей, Велика Британія), Centre for Social Anthropology and Computers (м.Кент, Велика Британія), добре відомі центри ZUMA – Zentrum für Umfragen Methoden und Analysen (м.Мангейм, Німеччина), Qualitative Solutions and Research (м.Ла Троуб, Австралія) .
Сучасні технології контент-аналізу і особливості Text Mining
Перші програми кількісного контент-аналізу зосереджували увагу в основному на підрахунку частот певних характеристик тексту. Більшість сучасних програм контент-аналізу також обмежені обробкою тексту, проте їхні можливості набагато ширші:
- зберігання даних та управління ними
Дозволяє зберігати у формі текстових першоджерел або в спеціальному форматі, а також зберігати різноманітний аудіовізуальний матеріал: фотографії, діаграми, відео- та аудіозаписи, зв’язки з Web- сторінками; додатково аналітик має змогу анотувати, редагувати тексти, автоматично індексувати й записувати власну супроводжувальну інформацію.
- пошук даних
Програми дозволяють шукати текстові дані за вказаними словами чи фразами, підраховувати частоту відповідних слів, шукати інформацію за заданим контекстом, а також різноманітними додатковими даними на зразок дати, хто брав інтерв’ю, звідки з'явилися дані тощо.
- кодування
Процес кодування робиться відносно простим; є можливість робити окремі дані більш істотними та відносити їх до певної категорії, називати, об'єднувати і розділяти категорії, формувати концептуальну схему для розвитку теорії.
- розвиток і перевірка теорії
Дозволяє застосовувати різноманітні теоретичні моделі для побудови теорій і представлення результатів.
- написання звітів
Дозволяє готувати звіти для різноманітних категорій або відтворювати відповідні фрагменти документів у формі цитат, таблиць, графічних зображень тощо; є змога формувати в програмі "журнал", у який можна записувати пояснення, ідеї, що виникають, та виводити його на друк або у файл .
Логіка технології
Комп’ютерний контент-аналіз має власну логіку розвитку – технологічну. Саме ця логіка розвинулася в програмах четвертого покоління. До програм четвертого покоління будемо відносити програми, які, будучи втіленням контент-аналізу, "убудовують" його в інші технології.
Прикладом технології цього покоління є технологія "видобування" даних або Text Mining (більш повна назва – Text Analysis and Knowledge Mining System). Text Mining – це алгоритмічне виявлення на основі статистичного і лінгвістичного аналізу, а також штучного інтелекту раніше невідомих зв'язків і кореляцій у вже існуючих неструктурованих текстових даних для проведення значеннєвого аналізу, забезпечення навігації і пошуку в неструктурованих текстах з кінцевою метою одержання нової цінної інформації – знань. Text Mining являє собою логічне продовження і поєднання цілого ряду методик і методів, зокрема технології Data Mining, контент-аналізу, статистичного аналізу тощо .
Чимало науковців вважають, що такі програми беруть свій початок від програм видобування інформації і близьких до них (FRUMP).
До важливих піонерських досліджень з Text Mining М.Діксон відносить два:
- роботи дослідницької групи з Гельсінського університету , яка намагалася використати технологію Data Mining до неструктурованих попередньо необроблених текстових масивів.
- роботи Р.Фельдмана , в основу яких покладено встановлення значущих для тексту понять (концептів) і визначення взаємозв’язку між документами і цими поняттями, тобто фактично здійснення класифікації тексту .
Система Document Explorer, запропонована Р.Фельдманом, спочатку будує базу даних на основі сукупності досліджуваних документів різних видів, у тому числі з Інтернет, а потім аналізує їх, використовуючи техніку видобування знань і графічний підхід.
Технологія Text Mining працює зі структурованими базами даних фактів, видобуває зразки (шаблони) зі звичайних текстів, призначених для читання людьми, а не комп’ютерами. Водночас, як і більшість когнітивних технологій, Text Mining – це не просто пошук серед великих масивів готової, кимсь іншим уже створеної інформації, а насамперед виявлення раніше невідомої і ніде не записаної інформації, а точніше, алгоритмічне виявлення раніше непомічених зв’язків як в самих текстах, так і внаслідок їх спільного читання. Крім того, часто на початку досліджень аналітик сам достеменно не знає, яка конкретно інформація йому потрібна та де її шукати.
Починаючи із середини 1990-х років, як напрям аналізу неструктурованих даних технологія Text Mining взяла за основу не лише методи класичного видобування знань, але й останні досягнення контент-аналізу: класифікацію, кластеризацію, виділення понять, фактів, шаблонів тощо .
Технологічними компонентами Text Mining є:
- інформаційний пошук (відбір релевантних записів або текстових баз даних для наступного опрацювання);
- інформаційна переробка (виділення зразків на основі відібраних даних);
- інформаційна інтеграція (поєднання комп’ютерного виведення інформації з пізнавальним можливостями людини).
Саме при реалізації другої компоненти Text Mining здійснює такі види аналізу, як:
- виявлення або видобування інформації;
- відслідковування категорій або тем;
- резюмування або реферування документів;
- класифікація або категоризація тексту;
- кластеризація або групування;
- прогнозування;
- знаходження винятків;
- пошук пов'язаних ознак, полів, понять окремих документів;
- візуалізація даних;
- відповіді на запитання або Q&A .
Приклад моделі "видобування" даних представлено на рисунку:
Наведені в таблицях дані показують, які методи Text Mining використовуються різними комерційними програмами та в різних сферах людської діяльності (за версією Б. М. Юськіва) .
Сфери людської діяльності | Методи Text Mining | |||||||
Видобування інформації | Відслідковування тем | Підсумовування (узагальнення) | Виділення понять | Зв'язування ознак | Кластеризація | Візуалізація інформації | Відповіді на запитання | |
Медицина | ||||||||
Питання, які найчастіше ставляться (FAQ's) | + | + | + | + | ||||
Наркотичні проекти | + | + | + | |||||
Нові способи лікування | + | + | ||||||
Бізнес | ||||||||
Конкурентний аналіз | + | + | ||||||
Аналіз медіа впливів | + | |||||||
Поточне інформування | + | |||||||
Порушення прав приватної власності | + | + | + | |||||
Підтримка питань клієнтів, які найчастіше ставляться (FAQ's) | + | + | + | + | ||||
Дослідження соціальних мереж | + |
На сьогодні системи Text Mining, як правило, реалізуються у вигляді масштабних систем зі складними математичними і лінгвістичними алгоритмами аналізу, для яких характерним є розвинений графічний інтерфейс, багаті можливості візуалізації та маніпулювання даними, доступ до різних джерел даних, функціонування в архітектурі клієнт-сервер . За даними Центру технологічної політики і оцінювання (Technology Policy and Assessment Center – TPAC) Джорджіанського інституту технологій, станом на кінець 2000р. в Інтернеті було представлено понад 70 інструментальних систем Text Mining .
Сфери застосування
Одним із найперспективніших напрямів узагальнення інформаційних потоків є контент-моніторинг. Його ідею можна сформулювати як постійно здійснюваний в часі контент-аналіз неперервних інформаційних потоків. Серед принципів побудови системи моніторингу виділяють системність, адресність і предметну спрямованість. У ній текстовий потік досліджується на підставі заданих конфігураційних характеристик (наборів кількісних параметрів або слів, що супроводжують визначені теми і поняття). Він опрацьовується багаторазово, з додаванням характеристик, отриманих із самого потоку. Методологічну основу дослідження складає контент-аналіз. У результаті генерується, а потім наочно відображається узагальнена інформація. З появою систем Text Mining контент-моніторинг отримав реальну і потужну програмну основу .
До сучасних і перспективних напрямів використання Text Mining також відносяться:
- пошук всеохопної і релевантної інформації на основі текстових баз даних;
- визначення інфраструктури заданих технологічних і наукових дисциплін і напрямів;
- здійснення тематичної структуризації певних сфер діяльності та взаємозв’язку між темами;
- виявлення нових напрямів досліджень, появи нових ідей у рамках певних дисциплін і на стику дисциплін;
- прогнозування технологічного розвитку .
Особливої уваги заслуговує інноваційне прогнозування . Один із різновидів прогнозів базується на бібліометриці: підраховуючи число публікацій,патентів, відповідних згадувань у виступах науковців, можна виміряти та інтерпретувати напрями технологічного розвитку. Ці вимірювання узагальнюються у формі інноваційних індикаторів технологій, які можуть свідчити про стадію життєвого циклу технологій, інноваційний контекстуальний вплив даної технології на інші, розвиток ринкового потенціалу тощо. Ще один метод прогнозування базується на картографії новинних повідомлень, що дозволяє ідентифікувати споріднені групи технологій і ресурсів, взаємовпливи різних груп технологій, локалізувати дослідницькі домени та встановлювати коло їхніх інтересів .
Надзвичайно перспективним напрямом Text Mining є технологічна конкурентна розвідка (Competitive Technological Intelligence). Її значення і використання особливо зросло в 1990-х роках, коли посилилася технологічна конкуренція, і компанії, університети та урядові організації відчули особливу потребу в знаннях про нові і перспективні технології. Значна частина результатів технологічною розвідкою отримується на основі пошуків з використанням технологій Text Mining. Актуальність розробок Text Mining добре засвідчує застосування їх Федеральними службами і агентствами США . Так, дослідження GAO від травня 2004 р. засвідчило, що з 128 служб, які вивчалися, 52 використовували або планували використовувати технології Data Mining і Text Mining. Цілі їх використання надзвичайно різноманітні: починаючи від поліпшення обслуговування населення і завершуючи аналізом і виявленням терористичної і злочинної діяльності. Аналітиками GAO виявлено 199 випадків застосувань технології видобування знань, з яких 68 пов'язані з плануванням роботи і 131 – з оперативною діяльністю .
У березні 2001 р. в ряді російських і українських інтернет-видань з'явилися повідомлення про використання Управлінням розвитку інформаційних технологій, яке є частиною директорату науки і технології ЦРУ США, Text Mining для роботи з відкритими джерелами інформації. Окремі вітчизняні публікації відсилають до першоджерела – матеріалу на сайті "Вашингтон пост". Мова йшла про застосування розвідувальним відомством трьох комп’ютерних систем – Oasis, FLUENT, Text Data Mining.
Oasis пов'язаний із медіа-моніторингом як систематичних, так і випадкових джерел, які охоплюють друковані видання, цифрові матеріали, графічні зображення, аудіоінформацію 35 мовами світу.
Комп'ютерна технологія FLUENT призначена для пошуку інформації в текстових документах. Маючи на вході ключові слова англійською мовою, система тут же перекладає їх на ряд інших мов, шукає інформацію в текстових базах даних з документами на різних мовах і повертає аналітику результати пошуку після автоматичного перекладу. FLUENT дозволяє перекладати англійською мовою з китайської, корейської, португальської, російської, сербсько-хорватської, української та інших мов. Ще одна програма, Text Data Mining, дозволяє автоматично створювати візуальні образи текстових документів, а також отримувати дані про частоту використання тих або інших слів.
Перелічені технології ЦРУ використовує для відслідковування незаконних фінансових операцій і наркотрафіку.
Також Text Mining можна використовувати як інтегратори новин, які інтегрують інформаційні потоки, здійснюючи контент- моніторинг новин у Web-просторі як базу для своєї роботи. Наприклад, Northern Light Technology є клієнтом однієї з величезних служб збору новин COMTEX, що інтегрує ресурси солідних джерел, серед яких такі світові інформаційні агентства, як Associated Press, ИТАР-ТАСС, Синьхуа. Клієнтами COMTEX, у свою чергу, є десятки новинних служб: OneSource, Screaming Media, Vertical Net, CompuServe та інші. Технологія моніторингу і подальшої синдикації Інтернет-новин передбачає етапи: "навчання" програм збору інформації структурі відібраних джерел, сканування інформації, приведення її до внутрішньосистемного формату, класифікація, кластеризація, передача користувачам через різноманітні канали, у тому числі e-mail, WWW, Wap, SMS.
Відзначається, що технологія Text Mining знаходиться лише на початку своєї "кар’єри". Однак навіть зараз вона видаються дуже перспективною .
Підсумок
Контент-аналіз у своєму розвитку пройшов шлях від наукового методу формалізованого аналізу змісту мас-медіа до широко застосовуваної високотехнологічної методики.
Як було показано, у процесі становлення контент-аналізу можна виділити такі етапи:
- його зародження
До 1920-х років – характеризується описовою та інтуїтивною методологією, розвиваються різноманітні підходи до аналізу та порівняння текстів у інтерпретаційних контекстах, насамперед засобів масових комунікацій, ранній газетний аналіз, графологічний аналіз, аналіз мрій.
- формування основ "класичного" контент-аналізу
1920-ті – 1940-ві роки – розвиваються систематичні основи кількісного контент-аналізу, знову ж таки в рамках масових комунікацій, розвиток відбувається практично разом з теорією і практикою пропаганди.
- міждисциплінарне розширення і диференціація
1950-ті – 1960-ті роки – методологія не лише розвиває свої теоретичні основи, але й знаходить шлях до різноманітних дисциплін, насамперед лінгвістики, психології, соціології, історичних наук, мистецтва тощо.
- розвиток теоретичних основ та розширення практичного застосування
1970-ті – 1980-ті роки – удосконалення і застосування різноманітних моделей зв'язку, аналіз невербальних комунікацій, а також розвиток нових різновидностей, зокрема якісного контент-аналізу, удосконалення методики, насамперед за рахунок використання нових можливостей комп’ютерної техніки.
- період "глобального" розвитку
Від 1990-х років – період, пов’язаний із використанням контент-аналізу в практиці діяльності найрізноманітніших суб’єктів, починаючи від науковців, які ознайомлені з його методикою та свідомо її застосовують, і завершуючи пересічними користувачамиІнтернет, практична більшість з яких, мабуть, і не підозрюють, що пошук інформації для них здійснюють програми із убудованими елементами контент-аналізу.
Тепер не наука чи засоби масової інформації є найбільшими користувачами контент-аналізу, а державні та недержавні установи, політичні партії, аналітичні центри, комерційні структури, зацікавлені в здобутті нових знань. Нинішні контент-дослідження пов’язані з переробкою величезних текстових масивів на основі Інтернет-технологій та комп’ютерних технологій видобування знань на зразок Text mining і Web-mining, побудованих значною мірою на ідеях контент-аналізу. Із ними ж пов’язана перспектива розвитку контент-аналізу найближчих років .
Джерела
- Юськів Б. М. Контент-аналіз. Історія розвитку і світовий досвід. — Рівне.: Перспектива, 2006. — 203 с. [ 13 Квітня 2014 у Wayback Machine.]
- Іванов О.В. Комп’ютерний контент-аналіз: проблеми та перспективи вирішення / О. В. Іванов // Вісник Харківського національного університету імені В.Н.Каразіна. Серія: Методологія, теорія та практика соціологічного аналізу сучасного суспільства. — Харків: Харківський національний університет ім. В.Н.Каразіна, 2009. — Випуск 15. [ 13 Квітня 2014 у Wayback Machine.]
- Іванов О.В. Класичний контент-аналіз та аналіз тексту: термінологічні та методологічні відмінності / Іванов Олег Валерійович // Вісник Харківського національного університету імені В.Н. Каразіна, Харків: Видавничий центр ХНУ імені В. Н. Каразіна, 2013. – №1045. – С. 69-74.
Примітки
- Іванов О.В. Класичний контент-аналіз та аналіз тексту: термінологічні та методологічні відмінності / Іванов Олег Валерійович // Вісник Харківського національного університету імені В.Н. Каразіна, Харків: Видавничий центр ХНУ імені В. Н. Каразіна, 2013. – No1045. – С. 71
- Юськів Б. М. Контент-аналіз. Історія розвитку і світовий досвід: Монографія. / Б. М. Юськів — Рівне.: «Перспектива», 2006. — С.116
- Юськів Б. М. Контент-аналіз. Історія розвитку і світовий досвід: Монографія. / Б. М. Юськів — Рівне.: «Перспектива», 2006. — С. 114-115
- Юськів Б. М. Контент-аналіз. Історія розвитку і світовий досвід: Монографія. / Б. М. Юськів — Рівне.: «Перспектива», 2006. — С. 117
- Юськів Б. М. Контент-аналіз. Історія розвитку і світовий досвід: Монографія. / Б. М. Юськів — Рівне.: «Перспектива», 2006. — С. 118
- Bernard H.R., Ryan G. Text Analysis: Qualitative and Quantitative Methods…– P.625.
- Юськів Б. М. Контент-аналіз. Історія розвитку і світовий досвід: Монографія. / Б. М. Юськів — Рівне.: «Перспектива», 2006. — С. 117-118
- Юськів Б. М. Контент-аналіз. Історія розвитку і світовий досвід: Монографія. / Б. М. Юськів — Рівне.: «Перспектива», 2006. — С. 119-120
- Іванов О.В. Комп’ютерний контент-аналіз: проблеми та перспективи вирішення / О. В. Іванов // Вісник Харківського національного університету імені В.Н.Каразіна. Серія: Методологія, теорія та практика соціологічного аналізу сучасного суспільства. — Харків: Харківський національний університет ім. В.Н.Каразіна, 2009. — Випуск 15. — С. 336
- Юськів Б. М. Контент-аналіз. Історія розвитку і світовий досвід: Монографія. / Б. М. Юськів — Рівне.: «Перспектива», 2006. — С. 120
- Юськів Б. М. Контент-аналіз. Історія розвитку і світовий досвід: Монографія. / Б. М. Юськів — Рівне.: «Перспектива», 2006. — С. 121
- Юськів Б. М. Контент-аналіз. Історія розвитку і світовий досвід: Монографія. / Б. М. Юськів — Рівне.: «Перспектива», 2006. — С. 122-123
- Iker H.P., Harway N.I. A Computer Systems Approach Toward the Recognition and Analysis of Content // The Analysis of Communication Content / Gerbner G.A. et al. (eds.).– Wiley & Sons, 1969.
- Юськів Б. М. Контент-аналіз. Історія розвитку і світовий досвід: Монографія. / Б. М. Юськів — Рівне.: «Перспектива», 2006. — С. 126
- Юськів Б. М. Контент-аналіз. Історія розвитку і світовий досвід: Монографія. / Б. М. Юськів — Рівне.: «Перспектива», 2006. — С. 127
- Юськів Б. М. Контент-аналіз. Історія розвитку і світовий досвід: Монографія. / Б. М. Юськів — Рівне.: «Перспектива», 2006. — С. 127-129
- Юськів Б. М. Контент-аналіз. Історія розвитку і світовий досвід: Монографія. / Б. М. Юськів — Рівне.: «Перспектива», 2006. — С. 130-131
- Юськів Б. М. Контент-аналіз. Історія розвитку і світовий досвід: Монографія. / Б. М. Юськів — Рівне.: «Перспектива», 2006. — С.131
- Kelle U. Computer-Aided Qualitative Data Analysis: An Overview // Text Analysis and Computers / Cornelia Zuell, Janet Harkness, Juergen H.P. Hoffmeyer-Zlotnik (Eds.). Zentrum für UmfragenMethoden und Analysen (ZUMA).– Mannheim (Germany): ZUMA, 1996.–– P.36.
- Юськів Б. М. Контент-аналіз. Історія розвитку і світовий досвід: Монографія. / Б. М. Юськів — Рівне.: «Перспектива», 2006. — С.131-132
- Alexa M., Zuell C. Commonalities, differences and limitations of text analysis Software: The results of a review / Zentrum für Umfragen Methoden und Analysen (ZUMA). ZUMA-Arbeitsbericht 99/06.– Mannheim (Germany): ZUMA, 1999.– Р.2.– http://www.gesis.org/Publikationen/Berichte/ZUMA_Arbeitsberichte/99/99_06.pdf [ 10 червня 2007 у Wayback Machine.]
- Юськів Б. М. Контент-аналіз. Історія розвитку і світовий досвід: Монографія. / Б. М. Юськів — Рівне.: «Перспектива», 2006. — С.133
- Юськів Б. М. Контент-аналіз. Історія розвитку і світовий досвід: Монографія. / Б. М. Юськів — Рівне.: «Перспектива», 2006. — С.134
- Юськів Б. М. Контент-аналіз. Історія розвитку і світовий досвід: Монографія. / Б. М. Юськів — Рівне.: «Перспектива», 2006. — С.134-135
- Lombard M., Snyder-Duch J., Bracken C.C. Practical Resources for Assessing and Reporting Intercoder Reliability in Content Analysis Research Projects. – 2004.– http://www.temple.edu/mmc/reliability/ [ 7 жовтня 2008 у Wayback Machine.]
- Юськів Б. М. Контент-аналіз. Історія розвитку і світовий досвід: Монографія. / Б. М. Юськів — Рівне.: «Перспектива», 2006. — С.136
- Macnamara J.R. Media Content Analysis: Its Uses, Benefits & Best Practice Methodology / CARMA International (Asia Pacific).– Chippendale (Australia): CARMA, 2003.– Р.8.– www.masscom.com.au/book/papers/media_content.html– Р.8.
- Barry C.A. Choosing Qualitative Data Analysis Software: Atlas/ti and Nudist Compared // Sociological Research Online.– 1998.– Vol. 3.– No.3.– http://www.socresonline.org.uk/socresonline/3/3/4.html[недоступне посилання з липня 2019] (2004.05.14)
- Юськів Б. М. Контент-аналіз. Історія розвитку і світовий досвід: Монографія. / Б. М. Юськів — Рівне.: «Перспектива», 2006. — С.137
- Morris R.Computerized content analysis in management research: a demonstration of advantages & limitations // Journal of Management.– Winter.– 1994.–http://www.findarticles.com/p/articles/mi_m4256/is_n4_v20/ai_16549030 [ 24 Вересня 2015 у Wayback Machine.].
- Юськів Б. М. Контент-аналіз. Історія розвитку і світовий досвід: Монографія. / Б. М. Юськів — Рівне.: «Перспектива», 2006. — С.138-139
- Юськів Б. М. Контент-аналіз. Історія розвитку і світовий досвід: Монографія. / Б. М. Юськів — Рівне.: «Перспектива», 2006. — С.139-140; Lacey A., Luff D. Trent Focus for Research and Development in Primary Health Care: An Introduction to Qualitative Analysis.– Trent Focus, 2001.– http://www.trentfocus.org.uk/Resources/Qualitative%20Data%20Analysis.pdf [ 15 травня 2005 у Wayback Machine.]
- Юськів Б. М. Контент-аналіз. Історія розвитку і світовий досвід: Монографія. / Б. М. Юськів — Рівне.: «Перспектива», 2006. — С.141
- Dixon M. An Overview of Document Mining Technology.– October 4, 1997.– ; Wilks Y. Information extraction as a core language technology // Information Extraction: A Multidisciplinary Approach to an Emergine Information Technology.– Vol. 1299.– June 1997.– PP.1-9.
- Ahonen H., Heinonen O., Klemettinen M., Verkamo A.I. Mining in the phrasal frontier // Proceedings of PKDD'97 / 1st European Symposium on Principles of Data Mining and Knowledge Discovery.– Norway.– Trondheim.– June 1997.
- Feldman R., Klosgen W., Ben-Yehuda Y., Kedar G., Reznikov V. Pattern based browsing in document collections // Principles of data mining and knowledge discovery. – June 1997.– Vol. 1263.– PP.112-122.
- Dixon M. An Overview of Document Mining Technology.– October 4, 1997.–
- Юськів Б. М. Контент-аналіз. Історія розвитку і світовий досвід: Монографія. / Б. М. Юськів — Рівне.: «Перспектива», 2006. — С.142-143
- Kostoff R. Text Mining for Global Technology Watch / Office of Naval Research (ONR) Science & Technology.– 2001.– http://www.onr.navy.mil/sci_tech/special/technowatch/default.htm [ 5 квітня 2009 у Wayback Machine.] ; Kostoff R. Information Extraction From Scientific Literature with Text Mining / Office of Naval Research (ONR) Science & Technology.– 2001.– http://www.onr.navy.mil/sci_tech/special/technowatch/default.htm [ 5 квітня 2009 у Wayback Machine.]
- Юськів Б. М. Контент-аналіз. Історія розвитку і світовий досвід: Монографія. / Б. М. Юськів — Рівне.: «Перспектива», 2006. — С.143-146
- Fan W., Wallace L., Rich S., Zhang Z. Tapping into the Power of Text Mining // Communications of ACM.– February 16, 2005.– http://filebox.vt.edu/users/wfan/paper/text_mining_final_preprint.pdf [ 24 серпня 2014 у Wayback Machine.]
- Юськів Б. М. Контент-аналіз. Історія розвитку і світовий досвід: Монографія. / Б. М. Юськів — Рівне.: «Перспектива», 2006. — С.147
- Юськів Б. М. Контент-аналіз. Історія розвитку і світовий досвід: Монографія. / Б. М. Юськів — Рівне.: «Перспектива», 2006. — С.148-149
- Юськів Б. М. Контент-аналіз. Історія розвитку і світовий досвід: Монографія. / Б. М. Юськів — Рівне.: «Перспектива», 2006. — С.150
- Text Mining: Review of TPAC Technologies for ONR // ASDL.– Aug. 2002.– http://www.asdl.gatech.edu/research_teams/pdf/2002/Text%20Mining%20Sum.doc [ 11 вересня 2006 у Wayback Machine.]
- Юськів Б. М. Контент-аналіз. Історія розвитку і світовий досвід: Монографія. / Б. М. Юськів — Рівне.: «Перспектива», 2006. — С.151
- Юськів Б. М. Контент-аналіз. Історія розвитку і світовий досвід: Монографія. / Б. М. Юськів — Рівне.: «Перспектива», 2006. — С.151; Text Mining: Review of TPAC Technologies for ONR // ASDL.– Aug. 2002.– http://www.asdl.gatech.edu/research_teams/pdf/2002/Text%20Mining%20Sum.doc [ 11 вересня 2006 у Wayback Machine.]
- Watts R.J., Porter A.L. Innovation Forecasting // Technology Policy and Assessment Center (TPAC) at Georgia Institute of Technology.– 2002.– http://www.tpac.gatech.edu/toa/inov.shtml[недоступне посилання з липня 2019]
- Юськів Б. М. Контент-аналіз. Історія розвитку і світовий досвід: Монографія. / Б. М. Юськів — Рівне.: «Перспектива», 2006. — С.151-152
- Юськів Б. М. Контент-аналіз. Історія розвитку і світовий досвід: Монографія. / Б. М. Юськів — Рівне.: «Перспектива», 2006. — С.152
- Data Mining. Federal Efforts Cover a Wide Range of Uses: Report to the Ranking Minority Member, Subcommittee on Financial Management, the Budget, and International Security, Committee on Governmental Affairs, U.S. Senate / GAO (United States General Accounting Office).– GAO-04-548.– Washington, D.C. – May 2004.– 71 p.– http://www.epic.org/privacy/profiling/gao_dm_rpt.pdf [ 13 Квітня 2014 у Wayback Machine.]
- Ландэ Д. Добыча знаний…; ЦРУ начинает просеивать информацию // Сетевой журнал. Лента новостей.– Вып. от 14.03.2001.– http://www.setevoi.ru/cgi-bin/srch.pl?id=579 [ 9 жовтня 2016 у Wayback Machine.] ; ЦРУ извлекает данные // Компьютер-информ.– 2001.– №6.– http://www.ci.ru/inform06_01/p245moz.htm [ 19 Жовтня 2007 у Wayback Machine.] ; Гордиенко И. Понять и заставить // Компьютерра. – 10.04.2001.– http://www.ibusiness.ru/offline/2001/158/8585/print.html[недоступне посилання з липня 2019]
- Юськів Б. М. Контент-аналіз. Історія розвитку і світовий досвід: Монографія. / Б. М. Юськів — Рівне.: «Перспектива», 2006. — С.153-154
- Юськів Б. М. Контент-аналіз. Історія розвитку і світовий досвід: Монографія. / Б. М. Юськів — Рівне.: «Перспектива», 2006. — С.155-156
Вікіпедія, Українська, Україна, книга, книги, бібліотека, стаття, читати, завантажити, безкоштовно, безкоштовно завантажити, mp3, відео, mp4, 3gp, jpg, jpeg, gif, png, малюнок, музика, пісня, фільм, книга, гра, ігри, мобільний, телефон, android, ios, apple, мобільний телефон, samsung, iphone, xiomi, xiaomi, redmi, honor, oppo, nokia, sonya, mi, ПК, web, Інтернет
Cya stattya maye kilka nedolikiv Bud laska dopomozhit udoskonaliti yiyi abo obgovorit ci problemi na Cyu stattyu potribno povnistyu perepisati vidpovidno do standartiv yakosti Vikipediyi Vi mozhete dopomogti pererobivshi yiyi Mozhlivo mistit zauvazhennya shodo potribnih zmin kviten 2014 Cya stattya mistit tekst sho ne vidpovidaye enciklopedichnomu stilyu Bud laska dopomozhit udoskonaliti cyu stattyu pogodivshi stil vikladu zi stilistichnimi pravilami Vikipediyi Mozhlivo mistit zauvazhennya shodo potribnih zmin kviten 2014 Cyu stattyu treba vikifikuvati dlya vidpovidnosti standartam yakosti Vikipediyi Bud laska dopomozhit dodavannyam dorechnih vnutrishnih posilan abo vdoskonalennyam rozmitki statti kviten 2014 Na vidminu vid ruchnogo kontent analizu komp yuterizovanij kontent analiz virobiv svoyu vlasnu metodiku ta tehnologiyi ta rozvinuvsya svoyim shlyahom Varto zaznachiti sho v inozemnij ta vitchiznyanij literaturi poki sho nemaye konsensusu z privodu togo sho vvazhati komp yuternim kontent analizom Tak napriklad Ivanov zaznachaye V anglomovnij literaturi viriznyayut komp yuternij kontent analiz sho zastosovuyetsya u yakisnih computer aided ta kilkisnih computer assisted kontent analitichnih doslidzhennyah Mi proponuyemo perekladati dani termini yak komp yuterizovanij ta avtomatizovanij vidpovidno U danij stati budut vikoristovuvatis viznachennya Yuskiva ta rozumiti pid komp yuterizovanim kontent analizom analiz tekstovih materialiv u yakomu vsi kroki viyavlennya zmistovnih vlastivostej harakteristik i viznachennya sukupnostej konceptualnih pokaznikiv tekstu zdijsnyuyutsya za dopomogoyu algoritmiv tobto yavnih logichnih abo statistichnih operacij Pershi sprobi mehanizuvati i avtomatizuvati kontent analizYak zaznachaye Yuskiv Pershi kontent doslidzhennya z vikoristannyam tehnichnih zasobiv u gumanitarnij sferi pov yazani z robotami italijskogo svyashenika Roberto Buzi Otec R Buza staviv pered soboyu zavdannya z dopomogoyu tehnichnih zasobiv stvoriti konkordansi povnogo zibrannya listiv italijskogo teologa XIII st Fomi Akvinskogo Doktorska disertaciya R Buzi zahishena v 1946 r prisvyachena vivchennyu ponyattya prisutnist u rozuminni dominikanskogo mislitelya Stvorivshi i proanalizuvavshi drukovani indeksi latinskih sliv praesens i praesentia R Buza dijshov visnovku sho yihnye vikoristannya u F Akvinskogo bulo tisno pov yazane prijmennikom in Bilshe togo R Buza gotovij buv poviriti sho podibni funkcionalni slova dayut chimalo informaciyi pro zv yazok mizh konceptualnim svitom avtora i slovami yaki vin vikoristovuye dlya jogo opisu Odnak dostatnih doslidnickih resursiv dlya stvorennya ruchnim sposobom konkordansu takih zagalnih latinskih sliv yak in sum abo et u perekladi vidpovidno v diyeslovo zv yazka buti i R Buza ne mav Popri trudnoshi naprikinci 1940 h rokiv vin postaviv pered soboyu nabagato grandioznishe zavdannya stvoriti Index Thomisticus yakij bi mistiv povnij konkordans 10 6 mln sliv Fomi Akvinskogo Virishennya cogo zavdannya bez vikoristannya pevnogo vidu tehnichnih pristroyiv bulo nemozhlivim Robota rozpochata z vikoristannyam perforatoriv i sortuvalnih mashin bula praktichno zavershena cherez 33 roki na bazi velikih universalnih EOM seriyi IBM Razom z inshoyu informaciyeyu Indeks skladavsya z majzhe 70000 storinok Bulo stvoreno dva konkordansi Odin yakij formuvavsya bezposeredno mashinoyu mistiv povnij spisok vidpovidnostej dlya vsih slovoform i otrimav nazvu nelematizovanogo Drugij konkordans utvoryuvali tak zvani lematizovani vidpovidnosti u spisku yakih kozhne slovo zustrichalosya lishe odin raz u standartnij formi napriklad imenniki lishe v odnini diyeslovo u neviznachenij formi i t d Stvoriti lematizovanu vidpovidnist bez dopomogi lyudini EOM bula ne v zmozi Za ocinkami Buzi na vsyu robotu vikoristano ponad 1 mln lyudinogodin golovnim chinom dlya vvedennya i perevirki danih a takozh zdijsnennya lematizaciyi Sprobi mehanizuvati okremi operaciyi v procesi zdijsnennya kontent analizu ne prizveli i ne mogli prizvesti do istotnih zmin u jogo vikoristanni i metodici Vodnochas slidom za zbilshennyam kilkosti samih tekstiv zrostala potreba v kontent analizi yakij bi shvidko j efektivno analizuvav teksti riznoyi prirodi i velikih obsyagiv Poyava komp yuternoyi tehniki stvorila realni hocha spochatku neyavni i neusvidomleni za svoyimi majbutnimi naslidkami mozhlivosti poboroti proklyatu problemu rozmirnosti Pokolinnya rozvitku komp yuterizovanogo kontent analizuYuskiv vidilyaye chotiri pokolinnya programnogo zabezpechennya kontent analizu prichomu kriteriyami dlya takogo podilu avtor viznachaye ne stilki chasovi ramki skilki ta rol yaku vidigrayut programni zasobi v procesi analizu Programi I pokolinnya 1950 ti 1960 ti roki vuzkospecializovani programi dlya provedennya okremih rozrahunkiv abo programi zagalnogo koristuvannya tekstovi i tablichni procesori sistemi keruvannya bazami danih priznacheni dlya provedennya chislovih rozrahunkiv statistichnogo analizu pobudovi primitivnih grafikiv mozhlivist vikonannya okremih menedzherskih funkcij shodo tekstu zberigannya kopiyuvannya formuvannya indeksiv Programi II pokolinnya 1966 seredina 1980 h rokiv specializovani programi kilkisnogo analizu obmezheni obrobkoyu tekstiv i yaki ne vihodyat za mezhi ruchnoyi tehnologiyi osnovna uvaga na koduvannya poshuku klyuchovih sliv i fraz vivedennya informaciyi u formi riznomanitnih indeksiv konkordansiv dozvolyayut zdijsnyuvati ruchne avtomatizovane i avtomatichne koduvannya z vikoristannyam slovnikiv realizuyutsya riznomanitni strategiyi poshuku formuvannya tablic konkordansu zdijsnennya analizu kolokacij mozhlivist roboti z elektronnimi tekstami vikoristovuyut vinyatkovo kilkisni analitiki Programi III pokolinnya seredina 1980 h rokiv 1990 ti roki specializovani programi obmezheni obrobkoyu tekstiv u ramkah yakisnoyi ta kilkisnoyi tehnologiyi analizu harakterizuyetsya nadzvichajnim rozmayittyam program vihodit za mezhi ruchnoyi tehnologiyi i znachno posilyuye analitichni mozhlivosti doslidnika programa vistupaye svoyeridnim dosvidchenim ekspertom realizuyutsya funkciyi vsih etapiv doslidzhen zbilshilosya chislo vikonuvanih funkcij strukturizaciya danih vizualizaciya rezultativ formuvannya ta perevirka gipotez formuvannya visnovkiv i zvitiv principovi zmini v realizaciyi tih funkcij yaki buli realizovani ranishe koduvannya konkordans aktivno zastosovuyutsya kilkisnimi doslidnikami privernuli uvagu yakisnikiv Programi IV pokolinnya vid seredini 1990 h rokiv vijshli za mezhi vinyatkovo obrobki tekstiv tehnologichni programi yaki v osnovi mayut kontent analiz i realizuyutsya dlya roboti v rezhimi realnogo chasu realizuyutsya u viglyadi masshtabnih sistem zi skladnimi matematichnimi i lingvistichnimi algoritmami analizu dlya yakih harakternij rozvinenij grafichnij interfejs dostup do riznih dzherel danih funkcionuvannya v arhitekturi kliyent server Pershe pokolinnya rozvitku kontent analizuPershe pokolinnya na dumku Yuskiva vazhko nazvati programami kontent analizu oskilki ce lishe vikoristannya riznomanitnih program dlya cilej kontent analizu Za vluchnim vislovom G Bernarda i G Rayana podibno do rannih tekstovih redaktoriv i sistem upravlinnya bazami danih pershe pokolinnya tekstovih procesoriv proektuvalosya yak dopomoga nam robiti te sho mi i tak uzhe robili Vihodyachi z mozhlivostej pershih universalnih EOM doslidniki doruchali yim vikonuvati chislovi rozrahunki zdijsnyuvati statistichnij analiz buduvati primitivni grafiki vzhe pislya togo yak prochitani i zakodovani lyudmi teksti buli vvedeni z koduvalnih kartok na mashinni nosiyi Yak pravilo spochatku ce buli specialno napisani pid konkretni zavdannya programi a desho piznishe z yavilisya bilsh universalni programi specializovani paketi prikladnih program sistemi upravlinnya bazami danih tablichni procesori tosho Sho stosuyetsya bezposerednoyi obrobki tekstiv programi pershogo pokolinnya dozvolyali zberigati i arhivuvati sami teksti buduvati i vidrukovuvati prosti indeksi i konkordansi pidshukovuvati citati i vivoditi yih na druk u formati na zrazok KWIC tablic The General Inquirer i osoblivosti drugogo pokolinnya program kontent analizu Poyavu drugogo pokolinnya program komp yuterizovanogo kontent analizu pov yazuyut z Garvardskim universitetom SShA grupa naukovciv yakogo pid kerivnictvom F Stouna v 1961 r pochala rozrobku principiv sistematichnogo komp yuterizovanogo kontent analizu Uzhe v 1966 r bula zavershena persha versiya specializovanoyi programi kilkisnogo kontent analizu tekstiv the General Inquirer yaka rozviyala mif pro te sho universalni EOM mozhut vikoristovuvatisya lishe dlya statistichnogo analizu Yak zaznachaye Ivanov ce persha shiroko zastosovuvana programa dlya avtomatichnogo kontent analizu dosi pracyuye perepisana z originalnoyi movi IBM PL 1 u seredovishi Java Pereviryayuchi mozhlivosti programi avtori proektu povtorili chimalo svoyih i chuzhih doslidzhen vikoristovuyuchi kategorijnij aparat poperednih ruchnih metodik Bula provedena seriya analiziv tekstiv gazet naukovih robit i publicistichnih tvoriv promov kandidativ na prezidentsku posadu vid demokratichnoyi i respublikanskoyi partij SShA osobistih dokumentiv listiv shodennikiv avtobiografij Odne z originalnih zavdan yake ne bulo dublyuvannyam ruchnogo doslidzhennya i na yakomu testuvalasya sistema ye doslidzhennya 66 posmertnih zapisok samogubciv z yakih 33 napisani timi hto spravdi zdijsniv samogubstvo a reshta osobami sho lishe jogo simulyuvali The General Inquirer proanalizuvala teksti i v 91 vipadkiv viyavila zapiski spravzhnih samogubciv Proces analizu v the General Inquirer vidbuvavsya takim chinom Na pochatkovomu etapi kompilyuyetsya slovnik kategorij analizu Drugim etapom i novim zavdannyam komp yutera vistupaye koduvannya tekstu yake polyagaye v tomu sho sistema pereglyadaye kozhne slovo i porivnyuye jogo z slovoformami kategoriyami slovnika Yaksho slovoforma vidnajdena to lichilnik dlya vidpovidnoyi slovoformi zbilshuyetsya na odinicyu U kincevomu pidsumku otrimuyut chastotnij rozpodil kategorij Zalezhno vid sistemi u danij bazovij algoritm mozhut uvoditisya novi pravila napriklad dlya vrahuvannya kontekstu vikoristannya sliv usunennya yihnogo dvoznachnogo rozuminnya viyavlennya v teksti ne lishe sliv a j cilih fraz Na tretomu etapi programa vivodit rezultati analizu Oskilki the General Inquirer ye instrumentariyem nedialogovim to rezultatom staye okrim zvichajnih tablic z danimi rozrahunkiv vidrukovuvannya indeksiv i konkordansiv Yak pravilo informaciya vivoditsya u formati KWIC klyuchovi slova v konteksti Krim togo the General Inquirer daye mozhlivist provoditi neskladnij statistichnij analiz Yaksho vinikaye potreba to vin dozvolyaye eksportuvati dani u formati inshih program statistichnih paketiv elektronnih tablic abo program dilovoyi grafiki Pidhid F Stouna dobre spracovuye dlya zadach na zrazok analizu tem pov yazanih iz viznachennyam kategorij analizu ale vin ye nedostatnim pri virishenni problem u yakih potribno vidshukuvati spivvidnoshennya mizh ponyattyami Tim ne menshe sistema stala prototipom program komp yuterizovanogo kontent analizu i bula velicheznim dosyagnennyam socialnih nauk Vona ta yiyi nastupniki prodemonstruvali shiroki mozhlivosti manipulyuvannya tekstami yihnogo koduvannya vidilennya kategorij analizu poshuku vidpovidnostej tosho Uzagalnyuyuchi na dumku Yuskiva Programi drugogo pokolinnya za svoyimi funkciyami tak i ne vijshli za mezhi logiki ruchnoyi tehnologiyi kontent analizu i praktichno ne zminili yiyi Voni buli dopomizhnim instrumentariyem yakij prosto polegshuvav vikonuvati rutinnu robotu yaku analitik robiv i do yihnoyi poyavi Yak pravilo ce buli programi kilkisnogo kontent analizu odnak deyaki elementi yakisnogo analizu vzhe mozhna bulo vikonati Svoyu uvagu programi nasampered zoseredzhuvali na koduvanni a takozh poshuku klyuchovih sliv abo fraz i vivedenni rezultativ poshuku na druk Dosvid realizaciyi cih elementiv metodiki komp yuterizovanogo kontent analizu distav teoretichne prodovzhennya i prizviv do poyavi novih riznovidiv kontent analizu Osoblivosti komp yuterizovanogo kontent analizu Ivanov vidilyaye taki perevagi komp yuterizovanogo kontent analizu 1 Vitrati na koduvalnikiv duzhe mali Zamist ciloyi grupi mozhna vikoristovuvati odnogo 2 Programa ne maye ni perekonan ni uperedzhen Koduvannya vidbuvayetsya za poperedno propisanoyu koduvalnoyu shemoyu bez bud yakoyi reinterpretaciyi 3 Komp yuter mozhe analizuvati velichezni masivi danih na koduvannya i analiz yakih lyudini potribni buli b misyaci a to j roki Z nedolikiv doslidnik vidilyaye nastupne 1 Komp yuter koduye poslidovnist simvoliv zadanih u analitichnomu slovniku a ne znachennya yake vkladaye v cyu poslidovnist doslidnik Z cogo postaye problema semantichnoyi validnosti chi mozhe komp yuter u vidrivi vid kontekstu na osnovi poslivnoyi bazi adekvatno proanalizuvati zmist tekstu vidpovidno do postavlenih doslidnikom zadach 2 Pered zastosuvannyam analitichnogo slovnika jogo slid pereviriti na validnist sho vse odno vimagaye pevnih zatrat na koduvalnikiv Zagalom na dumku Yuskiva Komp yuterizovanij kontent analiz zaproponuvav dva principovo vidminnih pidhodi do avtomatichnogo koduvannya yaki umovno nazivayut a priori abo deduktivnij ta a posteriori abo induktivnij Pidhid a priori zaproponovanij F Stounom pri rozrobci the General Inquirer bilsh vidomij i poshirenij Model kontent analizu yaka realizuyetsya podibnogo rodu sistemami nalezhit do kategoriyi instrumentalnogo kontent analizu U chistomu viglyadi pervinnim tut vistupaye teoriya pokladena v osnovu doslidzhennya Same teoriya viznachaye vsi strukturni komponenti doslidzhennya shemu klasifikaciyi kategorij analizu poslidovnist pravil nastupnogo koduvannya tekstiv a takozh visnovki sho budut otrimani v rezultati doslidzhennya Faktichno relevantnist kategorij bazuyetsya na rozuminni kontekstu analitikom jogo interesiv intuyiciyi dosvidu i vmin cilej doslidzhennya Zauvazhimo sho analitik u procesi doslidzhennya mozhe vnositi zmini v klasifikacijnu shemu zalezhno vid novogo glibshogo rozuminnya tekstu pislya otrimannya pershih rezultativ znahodzhennya i vipravlennya nedorechnostej pomilok tosho Formalizovane predstavlennya pravil i umov koduvannya znachnoyu miroyu realizuvalosya cherez slovniki Uzhe z pershih sprob vikoristannya elektronno obchislyuvalnih pristroyiv dlya roboti z tekstom stavali ochevidnimi perevagi i nedoliki obrobki tekstovogo materialu za dopomogoyu mashin voni zabezpechuvali adekvatnist analizu velicheznih tekstovih materialiv odnak vimagali znachnih zusil dlya pidgotovki program do roboti skladannya slovnika z urahuvannyam usih sinonimichnih variantiv ponyat yaki treba bude vidshukuvati v tomu mori sliv yaki propuskayutsya cherez mashinu Slovnik yavlyaye soboyu sukupnist kilkoh tisyach slovoform sho nalezhat do riznih kategorij Kategoriyi utvoryuyut sistemu yaka virazhaye sutnist pevnoyi problemi opisuye deyaku temu abo kompleks tem Zazvichaj u slovniku zadayutsya slova dlya 60 150 kategorij Kategoriyi pidbirayutsya abo induktivnim sposobom na osnovi tekstu abo deduktivno na osnovi bilsh zagalnih teoretichnih mirkuvan yaki diktuyut vibir kategorij Kozhnij kategoriyi yak rozshifruvannya zadayutsya svoyeridni nosiyi zmistu v realnij movi slova v usih svoyih formah virazhennya abo slovoformi Pobudova takogo slovnika analogichna pobudovi tezaurusa movi pevnoyi galuzi lyudskogo znannya koli klyuchovim slovam ciyeyi sferi znan vidpovidaye sinonimichnij ryad zagalnovzhivanih sliv Komp yuternij slovnik po suti yavlyaye soboyu riznovid komp yuterizovanoyi koduvalnoyi knigi codebook Totalnij kontent analiz Riznovid kontent analizu yakij otrimav nazvu totalnij buv zaproponovanij Yu Laffalem Yu Laffal namagavsya koduvati majzhe kozhne slovo tekstu za vinyatkom funkcionalnih sliv yaki mayut najbilshu chastotu v movi tobto analiz ohoplyuvav shirokij diapazon zmistovno pov yazanih imennikiv prikmetnikiv diyesliv tosho Jogo slovnik spochatku vklyuchav 114 kategorij Za informaciyeyu G Bernard i G Rayan stanom na pochatku 1990 h rokiv slovnik Laffalya vklyuchav 43 tis sliv kozhne z yakih asociyuvalosya z 1 5 kategoriyami iz 168 mozhlivih Dlya porivnyannya analiz proponovanij F Stounom vikoristovuvav dlya koduvannya blizko 10 tekstu todi yak za Yu Laffalem pokrittya tekstu kategoriyami skladalo majzhe 90 Zauvazhimo sho totalnij kontent analiz znajshov najbilshe zastosuvannya v psihoterapiyi koli akcent robitsya na vivchenni movi paciyentiv Alternativnim do sistem pobudovanih za zrazkom F Stouna prote bilsh prosunutim viyavivsya riznovid sistem avtomatichnogo kontent analizu a posteriori yakij ne potrebuvav poperednoyi pobudovi slovnika tim samim viklyuchayuchi prisutnist lyudini navit na rivni formuvannya kategorij Cej riznovid komp yuterizovanogo analizu G P Ajker i N I Garvej she naprikinci 1960 h rokiv nazvali analizom yakogo ne torkayetsya ruka lyudini Na vidminu vid pidhodu a priori vin nasampered keruyetsya danimi a ne yakoyus teoriyeyu Tut shema kategorij analizu formuyetsya v rezultati pereglyadu doslidzhuvanogo tekstu Pri comu vid analitika na vhodi ne vimagayetsya zhodnoyi dodatkovoyi informaciyi okrim doslidzhuvanogo tekstu Faktichno taki sistemi realizuyut reprezentativnu model kontent analizu Sogodni za tverdzhennyam P Mohlera i C Zuelya avtomatichni sistemi cogo riznovidu kontent analizu perezhivayut period renesansu Prikladom yih mozhut buti programi the Words TextSmart DICTION Logika the Words rozroblena G P Ajkerom i N I Garveyem naprikinci 1960 h rokiv polyagaye v nastupnomu Spochatku tekst podilyayetsya na okremi segmenti dlya yakih formuyetsya tablicya chastot usih sliv za vinyatkom funkcionalnih i z urahuvannyam sinonimiv Po kozhnomu segmentu vidbirayetsya n sliv z najbilshoyu chastotoyu yaki utvoryuyut n mini kategorij Dali obchislyuyetsya na osnovi vsih segmentiv matricya vzayemnih korelyacij mizh cimi kategoriyami yaka piddayetsya faktornomu analizu U rezultati viznachayutsya aktualni abo neaktualni mini kategoriyi abo temi tekstu Tablici konkordansu Viznachalnoyu komponentoyu program drugogo pokolinnya na dumku Yuskiva ye realizaciya strategij poshuku danih sered yakih vidilyayetsya pobudova tablic konkordansu Vazhlivist yih yaskravo svidchit hocha b te sho v nazvah bagatoh program prisutnye slovo konkordans Tak programa COCOA Count and Concordance generation for the Atlas ye skladovoyu programi the Atlas U 1978 r komp yuternij centr Oksfordskogo universitetu na zminu COCOA vipustiv OCP the Oxford Concordance Program a piznishe Micro OCP dlya mikrokomp yuteriv Dobre vidoma sistema TACT Text Analysis and Concordance Tools u svoyij nazvi takozh maye slovo konkordans Osnovna cil konkordansiv spryamuvati uvagu na bezposerednye lingvistichne seredovishe vibranogo slova Logika poshuku polyagaye v tomu sho spochatku doslidnik viyavlyaye potencijno cikave slovo dali znahodit vidpovidnij jomu konkordans sho daye zmogu viznachiti shabloni paterni harakterni dlya danogo slova i v yakih danomu slovu vidvoditsya cilkom viznachena rol Isnuye dekilka formativ konkordansu Odin iz sposobiv demonstraciyi kontekstu zustrichannya sliv ye format KWOC keyword out of context klyuchove slovo poza kontekstom perelik sliv iz vkazannyam misceznahodzhennya U nomu klyuchove slovo pokazuyetsya sprava abo zliva vid kontekstu a kontekst podayetsya u viglyadi cilogo rechennya yake mozhe zajmati dekilka ryadkiv Bilsh poshirenim ye alternativnij format KWIC keyword in context klyuchove slovo v konteksti yakij zajmaye lishe odin ryadok iz klyuchovim slovom u centri cogo ryadka odnakova kilkist sliv sprava i zliva vid klyuchovogo slova Zagalom mozhlivosti program kontent analizu drugogo pokolinnya nasampered privernuli uvagu doslidnikiv sho pracyuvali u sferi formalizovanih metodiv doslidzhen tekstiv Yakisni zh doslidniki navit ne robili sprob zastosovuvati yih u svoyij analitichnij roboti Tim ne menshe chislenni kontent doslidzhennya yak pravilo mas medijnih dzherel i v osnovnomu anglomovnih tekstiv dozvolili virobiti metodologichni zasadi novogo pidhodu do empirichnih doslidzhen u ramkah suspilnih nauk Odnak zusillya j optimizm investovani v 1960 h rokah u komp yuterizovanij kontent analiz na 1970 ti roki ne poshirilisya Golovnim chinom ce pov yazuyut na dumku M Aleksi iz povilnim rozvitkom obchislyuvalnoyi tehniki obmezhenistyu dostupu do EOM dostup v mezhah obchislyuvalnih centriv a takozh vidsutnistyu dostatnoyi bazi elektronnih tekstiv ne kazhuchi vzhe pro trudnoshi z perevedennya v mashinnij format rozmovnih tekstiv Vidtak zmenshilasya kilkist naukovih publikacij teoretichni doslidzhennya postupilisya malomasshtabnim prikladnim postupovo narostav metodologichnij zastij Shopravda same v ce desyatirichchya komp yuterizovanij kontent analiz pochav zastosovuvatisya v psihologiyi ta psihoterapiyi a takozh otrimav shirshe rozpovsyudzhennya v Yevropi Taka situaciya zberigalasya azh do seredini 1980 h rokiv Tretye pokolinnya program kontent analizuVid seredini 1980 h rokiv namitivsya znachnij progres u rozvitku komp yuterizovanogo kontent analizu Jogo stimulyuvali dekilka perehodiv vid velikih EOM do personalnih komp yuteriv 1980 r vid operacijnoyi sistemi MS DOS do MS Windows iz jogo grafichnim interfejsom i druzhnim stavlennyam do koristuvacha Ci zmini dali mozhlivist bilshogo zaluchennya lyudini do doslidzhennya Takozh svij vpliv mali rozvitok Internet rozpovsyudzhennya elektronnih arhiviv bibliotek dostupnist elektronnih tekstiv i mozhlivist dostupu do tekstovih arhiviv cherez Internet u rezhimi on line Zavdyaki tretomu pokolinnyu program kontent analizu z yavilis mozhlivosti neformalizovanoyi obrobki tekstiv Stalo zrozumilo sho komp yuteri mozhut nadavati znachnu dopomogu v procesi interpretaciyi Ce osoblivo viyavilosya ochevidnim koli vinikla potreba obrobki znachnoyi kilkosti nestrukturovanih tekstovih danih Prikladi program tretogo pokolinnya Atlas ti HyperResearch Aquad NUD IST Voni mayut zasobi dlya formuvannya tekstiv i stvorennya na yihnij osnovi cilih proektiv vivchennya chastoti i kontekstu vikoristannya sliv yak chasto kategoriyi prisvoyuyutsya slovam abo tekstovim segmentam yaki kategoriyi i yak chasto voni z yavlyayutsya razom yaki zv yazki isnuyut mizh kategoriyami abo tekstovimi segmentami stvorennya i pidtrimka kategorij i shem klasifikaciyi prisvoyennya odniyeyi abo bilshe kategorij ryadkam simvoliv slovam frazam rechennyam paragrafam abo cilim tekstam zberigannya primitok memo do tekstiv koduvannya tekstovih segmentiv otrimannya riznih formativ pereglyadu tekstiv chastin tekstiv abo grup tekstiv eksportuvannya kodiv dlya podalshoyi obrobki yih inshimi programami a takozh formuvannya zvitiv z provedenogo analizu pidtrimka komandnoyi abo spilnoyi roboti v ramkah proektu i zlittya v odin kilkoh proektiv Najpershim zavdannyam yake postalo pered programi yakisnogo kontent analizu stalo upravlinnya nestrukturovanimi tekstovimi bazami danih Ideya program polyagala v tomu sho okrim bazi danih z osnovnim tekstom stvoryuvalisya specialni fajli abo bazi danih yaki mistili adresi segmentiv tekstu napriklad nomer zapisu pochatku i nomer kincya ta imena kodiv yaki asociyuvalisya z danim segmentom Za dopomogoyu takogo fajlu mozhna vivoditi okremo ti segmenti tekstu v yakih prisutni potribni kodi Vin vikoristovuvavsya dlya poshuku i vidilennya potribnih fragmentiv tekstu Dopovnyuyuchi ci fajli novimi zapisami mozhna postijno rozshiryuvati poshukovu bazu ne zachipayuchi samogo tekstu Takij princip buv zakladenij u pershih paketah program Qualpro the Ethnograph Textbase Alpha Virishennya cogo zavdannya dozvolilo vikonuvati j inshi funkciyi analizu poshuk fragmentiv tekstu pobudova konkordansiv zdijsnennya kolokacij perevirka interpretuyuchih gipotez shlyahom poshuku segmentiv z odnakovimi kodami vvedennya redaguvannya ta zberigannya teoretichnih komentariv do fragmentiv tekstiv i t d Istotnim dopovnennyam do nih stali riznomanitni predstavlennya vzayemopov yazanih kategorij shlyahom riznih sposobiv vizualizaciyi Iz dopomogoyu dopomizhnih fajliv pokaznikiv mozhna legko vstanovlyuvati zv yazki mizh segmentami tekstiv memo kodami Tak programa NUD IST dozvolyaye buduvati iyerarhichni ta merezhni strukturi kategorij programa Atlas ti formuye riznomanitni neiyerarhichni merezhi Vnesok Zmini vidbulisya na vsih etapah tehnologiyi doslidzhen Nasampered voni stosuvalis koduvannya Integraciya ruchnogo i avtomatichnogo koduvannya stalo novoyu tehnologiyeyu bagatoh program napriklad PLCA Program for Linguistic Content Analysis MECA Map Extraction Comparison and Analysis Zminilasya taka funkciya yak vikoristannya konkordensu Vidteper mayuchi na ekrani slova kategoriyi i yihnyu chastotu doslidnik operativno z dopomogoyu KWIC tablici pereglyadav u yakomu konteksti z yavlyalosya vidibrane nim slovo Ce pidsililo perekonlivist visnovkiv Takij rezhim realizuyetsya cherez sistemu vzayemozv yazanih vikon u bagatoh programah zokrema navit pid MS DOS u programi TACT Zbilshilosya chislo novih funkcij yaki realizuyut programi Z yavilasya mozhlivist pereviryati gipotezi rozshirilis interpretacijni mozhlivosti za rahunok metodiv poshuku spilnogo vhodzhennya kodiv sliv pobudovi konceptualnih modelej yaki zv yazuyut ponyattya v semantichni merezhi matrichnogo logichnogo ta kartografichnogo analizu Chimalo program pridilyayut uvagu pidrahunkam pokaznikiv nadijnosti napriklad programi AGREE Krippendorf s alpha 3 12a PRAM Program for Reliability Assessment of Multiple Coders abo okremi moduli statistichnih paketiv program zokrema SPSS i Simstat Taki mozhlivosti posluzhili osnovoyu stvorennya cilogo ryadu programnih sistem yaki dozvolyali virishuvati najriznomanitnishi specifichni problemi v procesi analizu Tak pobudovana na koncepciyi concept mapping programa the VBPro dozvolyaye shlyahom kartografichnogo predstavlennya identifikuvati dominuyuchi temi i vzayemozv yazki mizh temami dlya velikih masiviv danih Cej riznovid tekstovogo analizu vikoristovuyetsya dlya analizu medijnih povidomlen Inshij riznovid analizu predstavlyaye programa Minnesota Contextual Content analysis MCCA yaka dozvolyaye vimiryuvati socialnu riznicyu vidstan mizh statusom lyudej v organizaciyi napriklad likaryami i paciyentami v likarni menedzherami ta inshimi pracivnikami firmi vrahovuyuchi stilistichni osoblivosti movi v procesi besidi a takozh kontekstualnu informaciyu Dana metodologiya vrahovuye chotiri kontekstualnih vimiri tradicijnij praktichnij emocijnij i analitichnij Zdijsnyuyuchi klasternij analiz sistema dozvolyaye kilkisno ociniti stupin blizkosti mizh predstavnikami riznih socialnih grup Z yavilisya sistemi kontent analizu dlya efektivnoyi roboti v okremih sferah Do bilsh suchasnih sistem mozhna vidnesti programi dlya doslidzhennya media napriklad CARMA Computer Aided Research amp Media Analysis PrecisTM Echo Research IMPACTTM Metrica the Delahaye Medialink system Okrim zdijsnennya samogo kontent analizu ci programi vklyuchayut taki moduli yak ubudovani mediabazi danih sho zabezpechuyut uvedennya dostup i pidrahunok vidpovidnih statistichnih danih yaki stosuyutsya riznih parametriv media zasobiv Kritika Osnovne spryamuvannya kritiki programa distanciyuye lyudinu vid samih danih lyudina praktichno ne vidchuvaye samogo algoritmu vikoristannya program prizvede do togo sho yakisni dani budut analizuvatisya kilkisno vikoristannya program prizvede do zrostannya odnoridnosti odnomanitnosti v metodah analizu sho osoblivo negativno poznachitsya na yakisnih doslidzhennyah Do cogo dodayetsya komp yuter lishe identifikuye slova a vid identifikaciyi sliv do identifikaciyi idej yaki ci slova predstavlyayut duzhe daleko Osoblivoyi vagi nabuli problemi zabezpechennya validnosti i nadijnosti rezultativ trudnoshi vrahuvannya kontekstu nezdatnist programi rozpiznati komunikativni intenciyi sliv nezdatnist doslidnika zabezpechiti vicherpne vnesennya v spisok klyuchovih sliv dlya pevnih kategorij nezdatnist rozv yazati problemi posilan pered abo pislya sliv yaki z yavlyayutsya v dovilnomu misci tekstu zokrema problema zajmennikiv nezdatnist program viznachati mezhi odinic analizu nasampered pri yakisnomu analizi za chiselnimi harakteristikami yaki virahovuyutsya programami mozhe vtrachatisya sutnist kategorij Privertayetsya uvaga i do obmezhen odnim z yakih ye tak zvana cina komp yuterizaciyi pid yakoyu R Morris rozumiye chas i zusillya vitracheni na robotu Rezultat Prihilniki zhe zaznachayut sho zavdyaki komp yuteru kontent analiz stav dlya doslidnikiv nabagato dostupnishim nizh bud koli a mozhlivosti analitika znachno zrosli Takozh stverdzhuyetsya sho teper programi kontent analizu vistupayut ne lishe v roli odnogo z instrumentiv analizu a stayut povnocinnim ekspertom zavdyaki novim interpretacijnim grafichnim ta statichnim mozhlivostyam zdatnosti formuvati gipotezi i gotuvati varianti visnovkiv tosho Osoblivo ci mozhlivosti vazhlivi pri roboti z duzhe velikimi masivami tekstiv Naslidkom cogo periodu rozvitku kontent analizu bulo stvorennya v riznih krayinah cilogo ryadu naukovo doslidnih centriv yaki specializuyutsya na komp yuternomu analizi tekstiv napriklad Centre for Computer Assisted Qualitative Data Analysis Software m Surrej Velika Britaniya Centre for Social Anthropology and Computers m Kent Velika Britaniya dobre vidomi centri ZUMA Zentrum fur Umfragen Methoden und Analysen m Mangejm Nimechchina Qualitative Solutions and Research m La Troub Avstraliya Suchasni tehnologiyi kontent analizu i osoblivosti Text MiningPershi programi kilkisnogo kontent analizu zoseredzhuvali uvagu v osnovnomu na pidrahunku chastot pevnih harakteristik tekstu Bilshist suchasnih program kontent analizu takozh obmezheni obrobkoyu tekstu prote yihni mozhlivosti nabagato shirshi zberigannya danih ta upravlinnya nimi Dozvolyaye zberigati u formi tekstovih pershodzherel abo v specialnomu formati a takozh zberigati riznomanitnij audiovizualnij material fotografiyi diagrami video ta audiozapisi zv yazki z Web storinkami dodatkovo analitik maye zmogu anotuvati redaguvati teksti avtomatichno indeksuvati j zapisuvati vlasnu suprovodzhuvalnu informaciyu poshuk danih Programi dozvolyayut shukati tekstovi dani za vkazanimi slovami chi frazami pidrahovuvati chastotu vidpovidnih sliv shukati informaciyu za zadanim kontekstom a takozh riznomanitnimi dodatkovimi danimi na zrazok dati hto brav interv yu zvidki z yavilisya dani tosho koduvannya Proces koduvannya robitsya vidnosno prostim ye mozhlivist robiti okremi dani bilsh istotnimi ta vidnositi yih do pevnoyi kategoriyi nazivati ob yednuvati i rozdilyati kategoriyi formuvati konceptualnu shemu dlya rozvitku teoriyi rozvitok i perevirka teoriyi Dozvolyaye zastosovuvati riznomanitni teoretichni modeli dlya pobudovi teorij i predstavlennya rezultativ napisannya zvitiv Dozvolyaye gotuvati zviti dlya riznomanitnih kategorij abo vidtvoryuvati vidpovidni fragmenti dokumentiv u formi citat tablic grafichnih zobrazhen tosho ye zmoga formuvati v programi zhurnal u yakij mozhna zapisuvati poyasnennya ideyi sho vinikayut ta vivoditi jogo na druk abo u fajl Logika tehnologiyi Komp yuternij kontent analiz maye vlasnu logiku rozvitku tehnologichnu Same cya logika rozvinulasya v programah chetvertogo pokolinnya Do program chetvertogo pokolinnya budemo vidnositi programi yaki buduchi vtilennyam kontent analizu ubudovuyut jogo v inshi tehnologiyi Prikladom tehnologiyi cogo pokolinnya ye tehnologiya vidobuvannya danih abo Text Mining bilsh povna nazva Text Analysis and Knowledge Mining System Text Mining ce algoritmichne viyavlennya na osnovi statistichnogo i lingvistichnogo analizu a takozh shtuchnogo intelektu ranishe nevidomih zv yazkiv i korelyacij u vzhe isnuyuchih nestrukturovanih tekstovih danih dlya provedennya znachennyevogo analizu zabezpechennya navigaciyi i poshuku v nestrukturovanih tekstah z kincevoyu metoyu oderzhannya novoyi cinnoyi informaciyi znan Text Mining yavlyaye soboyu logichne prodovzhennya i poyednannya cilogo ryadu metodik i metodiv zokrema tehnologiyi Data Mining kontent analizu statistichnogo analizu tosho Chimalo naukovciv vvazhayut sho taki programi berut svij pochatok vid program vidobuvannya informaciyi i blizkih do nih FRUMP Do vazhlivih pionerskih doslidzhen z Text Mining M Dikson vidnosit dva roboti doslidnickoyi grupi z Gelsinskogo universitetu yaka namagalasya vikoristati tehnologiyu Data Mining do nestrukturovanih poperedno neobroblenih tekstovih masiviv roboti R Feldmana v osnovu yakih pokladeno vstanovlennya znachushih dlya tekstu ponyat konceptiv i viznachennya vzayemozv yazku mizh dokumentami i cimi ponyattyami tobto faktichno zdijsnennya klasifikaciyi tekstu Sistema Document Explorer zaproponovana R Feldmanom spochatku buduye bazu danih na osnovi sukupnosti doslidzhuvanih dokumentiv riznih vidiv u tomu chisli z Internet a potim analizuye yih vikoristovuyuchi tehniku vidobuvannya znan i grafichnij pidhid Tehnologiya Text Mining pracyuye zi strukturovanimi bazami danih faktiv vidobuvaye zrazki shabloni zi zvichajnih tekstiv priznachenih dlya chitannya lyudmi a ne komp yuterami Vodnochas yak i bilshist kognitivnih tehnologij Text Mining ce ne prosto poshuk sered velikih masiviv gotovoyi kims inshim uzhe stvorenoyi informaciyi a nasampered viyavlennya ranishe nevidomoyi i nide ne zapisanoyi informaciyi a tochnishe algoritmichne viyavlennya ranishe nepomichenih zv yazkiv yak v samih tekstah tak i vnaslidok yih spilnogo chitannya Krim togo chasto na pochatku doslidzhen analitik sam dostemenno ne znaye yaka konkretno informaciya jomu potribna ta de yiyi shukati Pochinayuchi iz seredini 1990 h rokiv yak napryam analizu nestrukturovanih danih tehnologiya Text Mining vzyala za osnovu ne lishe metodi klasichnogo vidobuvannya znan ale j ostanni dosyagnennya kontent analizu klasifikaciyu klasterizaciyu vidilennya ponyat faktiv shabloniv tosho Tehnologichnimi komponentami Text Mining ye informacijnij poshuk vidbir relevantnih zapisiv abo tekstovih baz danih dlya nastupnogo opracyuvannya informacijna pererobka vidilennya zrazkiv na osnovi vidibranih danih informacijna integraciya poyednannya komp yuternogo vivedennya informaciyi z piznavalnim mozhlivostyami lyudini Same pri realizaciyi drugoyi komponenti Text Mining zdijsnyuye taki vidi analizu yak viyavlennya abo vidobuvannya informaciyi vidslidkovuvannya kategorij abo tem rezyumuvannya abo referuvannya dokumentiv klasifikaciya abo kategorizaciya tekstu klasterizaciya abo grupuvannya prognozuvannya znahodzhennya vinyatkiv poshuk pov yazanih oznak poliv ponyat okremih dokumentiv vizualizaciya danih vidpovidi na zapitannya abo Q amp A Priklad modeli vidobuvannya danih predstavleno na risunku Tipova model procesu vidobuvannya znan Navedeni v tablicyah dani pokazuyut yaki metodi Text Mining vikoristovuyutsya riznimi komercijnimi programami ta v riznih sferah lyudskoyi diyalnosti za versiyeyu B M Yuskiva Vikoristannya programah Text Mining u sferi medicini biznesu uryadovoyi diyalnosti i osviti Sferi lyudskoyi diyalnosti Metodi Text MiningVidobuvannya informaciyi Vidslidkovuvannya tem Pidsumovuvannya uzagalnennya Vidilennya ponyat Zv yazuvannya oznak Klasterizaciya Vizualizaciya informaciyi Vidpovidi na zapitannyaMedicinaPitannya yaki najchastishe stavlyatsya FAQ s Narkotichni proekti Novi sposobi likuvannya BiznesKonkurentnij analiz Analiz media vpliviv Potochne informuvannya Porushennya prav privatnoyi vlasnosti Pidtrimka pitan kliyentiv yaki najchastishe stavlyatsya FAQ s Doslidzhennya socialnih merezh Na sogodni sistemi Text Mining yak pravilo realizuyutsya u viglyadi masshtabnih sistem zi skladnimi matematichnimi i lingvistichnimi algoritmami analizu dlya yakih harakternim ye rozvinenij grafichnij interfejs bagati mozhlivosti vizualizaciyi ta manipulyuvannya danimi dostup do riznih dzherel danih funkcionuvannya v arhitekturi kliyent server Za danimi Centru tehnologichnoyi politiki i ocinyuvannya Technology Policy and Assessment Center TPAC Dzhordzhianskogo institutu tehnologij stanom na kinec 2000r v Interneti bulo predstavleno ponad 70 instrumentalnih sistem Text Mining Sferi zastosuvannya Odnim iz najperspektivnishih napryamiv uzagalnennya informacijnih potokiv ye kontent monitoring Jogo ideyu mozhna sformulyuvati yak postijno zdijsnyuvanij v chasi kontent analiz neperervnih informacijnih potokiv Sered principiv pobudovi sistemi monitoringu vidilyayut sistemnist adresnist i predmetnu spryamovanist U nij tekstovij potik doslidzhuyetsya na pidstavi zadanih konfiguracijnih harakteristik naboriv kilkisnih parametriv abo sliv sho suprovodzhuyut viznacheni temi i ponyattya Vin opracovuyetsya bagatorazovo z dodavannyam harakteristik otrimanih iz samogo potoku Metodologichnu osnovu doslidzhennya skladaye kontent analiz U rezultati generuyetsya a potim naochno vidobrazhayetsya uzagalnena informaciya Z poyavoyu sistem Text Mining kontent monitoring otrimav realnu i potuzhnu programnu osnovu Do suchasnih i perspektivnih napryamiv vikoristannya Text Mining takozh vidnosyatsya poshuk vseohopnoyi i relevantnoyi informaciyi na osnovi tekstovih baz danih viznachennya infrastrukturi zadanih tehnologichnih i naukovih disciplin i napryamiv zdijsnennya tematichnoyi strukturizaciyi pevnih sfer diyalnosti ta vzayemozv yazku mizh temami viyavlennya novih napryamiv doslidzhen poyavi novih idej u ramkah pevnih disciplin i na stiku disciplin prognozuvannya tehnologichnogo rozvitku Osoblivoyi uvagi zaslugovuye innovacijne prognozuvannya Odin iz riznovidiv prognoziv bazuyetsya na bibliometrici pidrahovuyuchi chislo publikacij patentiv vidpovidnih zgaduvan u vistupah naukovciv mozhna vimiryati ta interpretuvati napryami tehnologichnogo rozvitku Ci vimiryuvannya uzagalnyuyutsya u formi innovacijnih indikatoriv tehnologij yaki mozhut svidchiti pro stadiyu zhittyevogo ciklu tehnologij innovacijnij kontekstualnij vpliv danoyi tehnologiyi na inshi rozvitok rinkovogo potencialu tosho She odin metod prognozuvannya bazuyetsya na kartografiyi novinnih povidomlen sho dozvolyaye identifikuvati sporidneni grupi tehnologij i resursiv vzayemovplivi riznih grup tehnologij lokalizuvati doslidnicki domeni ta vstanovlyuvati kolo yihnih interesiv Nadzvichajno perspektivnim napryamom Text Mining ye tehnologichna konkurentna rozvidka Competitive Technological Intelligence Yiyi znachennya i vikoristannya osoblivo zroslo v 1990 h rokah koli posililasya tehnologichna konkurenciya i kompaniyi universiteti ta uryadovi organizaciyi vidchuli osoblivu potrebu v znannyah pro novi i perspektivni tehnologiyi Znachna chastina rezultativ tehnologichnoyu rozvidkoyu otrimuyetsya na osnovi poshukiv z vikoristannyam tehnologij Text Mining Aktualnist rozrobok Text Mining dobre zasvidchuye zastosuvannya yih Federalnimi sluzhbami i agentstvami SShA Tak doslidzhennya GAO vid travnya 2004 r zasvidchilo sho z 128 sluzhb yaki vivchalisya 52 vikoristovuvali abo planuvali vikoristovuvati tehnologiyi Data Mining i Text Mining Cili yih vikoristannya nadzvichajno riznomanitni pochinayuchi vid polipshennya obslugovuvannya naselennya i zavershuyuchi analizom i viyavlennyam teroristichnoyi i zlochinnoyi diyalnosti Analitikami GAO viyavleno 199 vipadkiv zastosuvan tehnologiyi vidobuvannya znan z yakih 68 pov yazani z planuvannyam roboti i 131 z operativnoyu diyalnistyu U berezni 2001 r v ryadi rosijskih i ukrayinskih internet vidan z yavilisya povidomlennya pro vikoristannya Upravlinnyam rozvitku informacijnih tehnologij yake ye chastinoyu direktoratu nauki i tehnologiyi CRU SShA Text Mining dlya roboti z vidkritimi dzherelami informaciyi Okremi vitchiznyani publikaciyi vidsilayut do pershodzherela materialu na sajti Vashington post Mova jshla pro zastosuvannya rozviduvalnim vidomstvom troh komp yuternih sistem Oasis FLUENT Text Data Mining Oasis pov yazanij iz media monitoringom yak sistematichnih tak i vipadkovih dzherel yaki ohoplyuyut drukovani vidannya cifrovi materiali grafichni zobrazhennya audioinformaciyu 35 movami svitu Komp yuterna tehnologiya FLUENT priznachena dlya poshuku informaciyi v tekstovih dokumentah Mayuchi na vhodi klyuchovi slova anglijskoyu movoyu sistema tut zhe perekladaye yih na ryad inshih mov shukaye informaciyu v tekstovih bazah danih z dokumentami na riznih movah i povertaye analitiku rezultati poshuku pislya avtomatichnogo perekladu FLUENT dozvolyaye perekladati anglijskoyu movoyu z kitajskoyi korejskoyi portugalskoyi rosijskoyi serbsko horvatskoyi ukrayinskoyi ta inshih mov She odna programa Text Data Mining dozvolyaye avtomatichno stvoryuvati vizualni obrazi tekstovih dokumentiv a takozh otrimuvati dani pro chastotu vikoristannya tih abo inshih sliv Perelicheni tehnologiyi CRU vikoristovuye dlya vidslidkovuvannya nezakonnih finansovih operacij i narkotrafiku Takozh Text Mining mozhna vikoristovuvati yak integratori novin yaki integruyut informacijni potoki zdijsnyuyuchi kontent monitoring novin u Web prostori yak bazu dlya svoyeyi roboti Napriklad Northern Light Technology ye kliyentom odniyeyi z velicheznih sluzhb zboru novin COMTEX sho integruye resursi solidnih dzherel sered yakih taki svitovi informacijni agentstva yak Associated Press ITAR TASS Sinhua Kliyentami COMTEX u svoyu chergu ye desyatki novinnih sluzhb OneSource Screaming Media Vertical Net CompuServe ta inshi Tehnologiya monitoringu i podalshoyi sindikaciyi Internet novin peredbachaye etapi navchannya program zboru informaciyi strukturi vidibranih dzherel skanuvannya informaciyi privedennya yiyi do vnutrishnosistemnogo formatu klasifikaciya klasterizaciya peredacha koristuvacham cherez riznomanitni kanali u tomu chisli e mail WWW Wap SMS Vidznachayetsya sho tehnologiya Text Mining znahoditsya lishe na pochatku svoyeyi kar yeri Odnak navit zaraz vona vidayutsya duzhe perspektivnoyu PidsumokKontent analiz u svoyemu rozvitku projshov shlyah vid naukovogo metodu formalizovanogo analizu zmistu mas media do shiroko zastosovuvanoyi visokotehnologichnoyi metodiki Yak bulo pokazano u procesi stanovlennya kontent analizu mozhna vidiliti taki etapi jogo zarodzhennya Do 1920 h rokiv harakterizuyetsya opisovoyu ta intuyitivnoyu metodologiyeyu rozvivayutsya riznomanitni pidhodi do analizu ta porivnyannya tekstiv u interpretacijnih kontekstah nasampered zasobiv masovih komunikacij rannij gazetnij analiz grafologichnij analiz analiz mrij formuvannya osnov klasichnogo kontent analizu 1920 ti 1940 vi roki rozvivayutsya sistematichni osnovi kilkisnogo kontent analizu znovu zh taki v ramkah masovih komunikacij rozvitok vidbuvayetsya praktichno razom z teoriyeyu i praktikoyu propagandi mizhdisciplinarne rozshirennya i diferenciaciya 1950 ti 1960 ti roki metodologiya ne lishe rozvivaye svoyi teoretichni osnovi ale j znahodit shlyah do riznomanitnih disciplin nasampered lingvistiki psihologiyi sociologiyi istorichnih nauk mistectva tosho rozvitok teoretichnih osnov ta rozshirennya praktichnogo zastosuvannya 1970 ti 1980 ti roki udoskonalennya i zastosuvannya riznomanitnih modelej zv yazku analiz neverbalnih komunikacij a takozh rozvitok novih riznovidnostej zokrema yakisnogo kontent analizu udoskonalennya metodiki nasampered za rahunok vikoristannya novih mozhlivostej komp yuternoyi tehniki period globalnogo rozvitku Vid 1990 h rokiv period pov yazanij iz vikoristannyam kontent analizu v praktici diyalnosti najriznomanitnishih sub yektiv pochinayuchi vid naukovciv yaki oznajomleni z jogo metodikoyu ta svidomo yiyi zastosovuyut i zavershuyuchi peresichnimi koristuvachamiInternet praktichna bilshist z yakih mabut i ne pidozryuyut sho poshuk informaciyi dlya nih zdijsnyuyut programi iz ubudovanimi elementami kontent analizu Teper ne nauka chi zasobi masovoyi informaciyi ye najbilshimi koristuvachami kontent analizu a derzhavni ta nederzhavni ustanovi politichni partiyi analitichni centri komercijni strukturi zacikavleni v zdobutti novih znan Ninishni kontent doslidzhennya pov yazani z pererobkoyu velicheznih tekstovih masiviv na osnovi Internet tehnologij ta komp yuternih tehnologij vidobuvannya znan na zrazok Text mining i Web mining pobudovanih znachnoyu miroyu na ideyah kontent analizu Iz nimi zh pov yazana perspektiva rozvitku kontent analizu najblizhchih rokiv DzherelaYuskiv B M Kontent analiz Istoriya rozvitku i svitovij dosvid Rivne Perspektiva 2006 203 s 13 Kvitnya 2014 u Wayback Machine Ivanov O V Komp yuternij kontent analiz problemi ta perspektivi virishennya O V Ivanov Visnik Harkivskogo nacionalnogo universitetu imeni V N Karazina Seriya Metodologiya teoriya ta praktika sociologichnogo analizu suchasnogo suspilstva Harkiv Harkivskij nacionalnij universitet im V N Karazina 2009 Vipusk 15 13 Kvitnya 2014 u Wayback Machine Ivanov O V Klasichnij kontent analiz ta analiz tekstu terminologichni ta metodologichni vidminnosti Ivanov Oleg Valerijovich Visnik Harkivskogo nacionalnogo universitetu imeni V N Karazina Harkiv Vidavnichij centr HNU imeni V N Karazina 2013 1045 S 69 74 PrimitkiIvanov O V Klasichnij kontent analiz ta analiz tekstu terminologichni ta metodologichni vidminnosti Ivanov Oleg Valerijovich Visnik Harkivskogo nacionalnogo universitetu imeni V N Karazina Harkiv Vidavnichij centr HNU imeni V N Karazina 2013 No1045 S 71 Yuskiv B M Kontent analiz Istoriya rozvitku i svitovij dosvid Monografiya B M Yuskiv Rivne Perspektiva 2006 S 116 Yuskiv B M Kontent analiz Istoriya rozvitku i svitovij dosvid Monografiya B M Yuskiv Rivne Perspektiva 2006 S 114 115 Yuskiv B M Kontent analiz Istoriya rozvitku i svitovij dosvid Monografiya B M Yuskiv Rivne Perspektiva 2006 S 117 Yuskiv B M Kontent analiz Istoriya rozvitku i svitovij dosvid Monografiya B M Yuskiv Rivne Perspektiva 2006 S 118 Bernard H R Ryan G Text Analysis Qualitative and Quantitative Methods P 625 Yuskiv B M Kontent analiz Istoriya rozvitku i svitovij dosvid Monografiya B M Yuskiv Rivne Perspektiva 2006 S 117 118 Yuskiv B M Kontent analiz Istoriya rozvitku i svitovij dosvid Monografiya B M Yuskiv Rivne Perspektiva 2006 S 119 120 Ivanov O V Komp yuternij kontent analiz problemi ta perspektivi virishennya O V Ivanov Visnik Harkivskogo nacionalnogo universitetu imeni V N Karazina Seriya Metodologiya teoriya ta praktika sociologichnogo analizu suchasnogo suspilstva Harkiv Harkivskij nacionalnij universitet im V N Karazina 2009 Vipusk 15 S 336 Yuskiv B M Kontent analiz Istoriya rozvitku i svitovij dosvid Monografiya B M Yuskiv Rivne Perspektiva 2006 S 120 Yuskiv B M Kontent analiz Istoriya rozvitku i svitovij dosvid Monografiya B M Yuskiv Rivne Perspektiva 2006 S 121 Yuskiv B M Kontent analiz Istoriya rozvitku i svitovij dosvid Monografiya B M Yuskiv Rivne Perspektiva 2006 S 122 123 Iker H P Harway N I A Computer Systems Approach Toward the Recognition and Analysis of Content The Analysis of Communication Content Gerbner G A et al eds Wiley amp Sons 1969 Yuskiv B M Kontent analiz Istoriya rozvitku i svitovij dosvid Monografiya B M Yuskiv Rivne Perspektiva 2006 S 126 Yuskiv B M Kontent analiz Istoriya rozvitku i svitovij dosvid Monografiya B M Yuskiv Rivne Perspektiva 2006 S 127 Yuskiv B M Kontent analiz Istoriya rozvitku i svitovij dosvid Monografiya B M Yuskiv Rivne Perspektiva 2006 S 127 129 Yuskiv B M Kontent analiz Istoriya rozvitku i svitovij dosvid Monografiya B M Yuskiv Rivne Perspektiva 2006 S 130 131 Yuskiv B M Kontent analiz Istoriya rozvitku i svitovij dosvid Monografiya B M Yuskiv Rivne Perspektiva 2006 S 131 Kelle U Computer Aided Qualitative Data Analysis An Overview Text Analysis and Computers Cornelia Zuell Janet Harkness Juergen H P Hoffmeyer Zlotnik Eds Zentrum fur UmfragenMethoden und Analysen ZUMA Mannheim Germany ZUMA 1996 P 36 Yuskiv B M Kontent analiz Istoriya rozvitku i svitovij dosvid Monografiya B M Yuskiv Rivne Perspektiva 2006 S 131 132 Alexa M Zuell C Commonalities differences and limitations of text analysis Software The results of a review Zentrum fur Umfragen Methoden und Analysen ZUMA ZUMA Arbeitsbericht 99 06 Mannheim Germany ZUMA 1999 R 2 http www gesis org Publikationen Berichte ZUMA Arbeitsberichte 99 99 06 pdf 10 chervnya 2007 u Wayback Machine Yuskiv B M Kontent analiz Istoriya rozvitku i svitovij dosvid Monografiya B M Yuskiv Rivne Perspektiva 2006 S 133 Yuskiv B M Kontent analiz Istoriya rozvitku i svitovij dosvid Monografiya B M Yuskiv Rivne Perspektiva 2006 S 134 Yuskiv B M Kontent analiz Istoriya rozvitku i svitovij dosvid Monografiya B M Yuskiv Rivne Perspektiva 2006 S 134 135 Lombard M Snyder Duch J Bracken C C Practical Resources for Assessing and Reporting Intercoder Reliability in Content Analysis Research Projects 2004 http www temple edu mmc reliability 7 zhovtnya 2008 u Wayback Machine Yuskiv B M Kontent analiz Istoriya rozvitku i svitovij dosvid Monografiya B M Yuskiv Rivne Perspektiva 2006 S 136 Macnamara J R Media Content Analysis Its Uses Benefits amp Best Practice Methodology CARMA International Asia Pacific Chippendale Australia CARMA 2003 R 8 www masscom com au book papers media content html R 8 Barry C A Choosing Qualitative Data Analysis Software Atlas ti and Nudist Compared Sociological Research Online 1998 Vol 3 No 3 http www socresonline org uk socresonline 3 3 4 html nedostupne posilannya z lipnya 2019 2004 05 14 Yuskiv B M Kontent analiz Istoriya rozvitku i svitovij dosvid Monografiya B M Yuskiv Rivne Perspektiva 2006 S 137 Morris R Computerized content analysis in management research a demonstration of advantages amp limitations Journal of Management Winter 1994 http www findarticles com p articles mi m4256 is n4 v20 ai 16549030 24 Veresnya 2015 u Wayback Machine Yuskiv B M Kontent analiz Istoriya rozvitku i svitovij dosvid Monografiya B M Yuskiv Rivne Perspektiva 2006 S 138 139 Yuskiv B M Kontent analiz Istoriya rozvitku i svitovij dosvid Monografiya B M Yuskiv Rivne Perspektiva 2006 S 139 140 Lacey A Luff D Trent Focus for Research and Development in Primary Health Care An Introduction to Qualitative Analysis Trent Focus 2001 http www trentfocus org uk Resources Qualitative 20Data 20Analysis pdf 15 travnya 2005 u Wayback Machine Yuskiv B M Kontent analiz Istoriya rozvitku i svitovij dosvid Monografiya B M Yuskiv Rivne Perspektiva 2006 S 141 Dixon M An Overview of Document Mining Technology October 4 1997 Wilks Y Information extraction as a core language technology Information Extraction A Multidisciplinary Approach to an Emergine Information Technology Vol 1299 June 1997 PP 1 9 Ahonen H Heinonen O Klemettinen M Verkamo A I Mining in the phrasal frontier Proceedings of PKDD 97 1st European Symposium on Principles of Data Mining and Knowledge Discovery Norway Trondheim June 1997 Feldman R Klosgen W Ben Yehuda Y Kedar G Reznikov V Pattern based browsing in document collections Principles of data mining and knowledge discovery June 1997 Vol 1263 PP 112 122 Dixon M An Overview of Document Mining Technology October 4 1997 Yuskiv B M Kontent analiz Istoriya rozvitku i svitovij dosvid Monografiya B M Yuskiv Rivne Perspektiva 2006 S 142 143 Kostoff R Text Mining for Global Technology Watch Office of Naval Research ONR Science amp Technology 2001 http www onr navy mil sci tech special technowatch default htm 5 kvitnya 2009 u Wayback Machine Kostoff R Information Extraction From Scientific Literature with Text Mining Office of Naval Research ONR Science amp Technology 2001 http www onr navy mil sci tech special technowatch default htm 5 kvitnya 2009 u Wayback Machine Yuskiv B M Kontent analiz Istoriya rozvitku i svitovij dosvid Monografiya B M Yuskiv Rivne Perspektiva 2006 S 143 146 Fan W Wallace L Rich S Zhang Z Tapping into the Power of Text Mining Communications of ACM February 16 2005 http filebox vt edu users wfan paper text mining final preprint pdf 24 serpnya 2014 u Wayback Machine Yuskiv B M Kontent analiz Istoriya rozvitku i svitovij dosvid Monografiya B M Yuskiv Rivne Perspektiva 2006 S 147 Yuskiv B M Kontent analiz Istoriya rozvitku i svitovij dosvid Monografiya B M Yuskiv Rivne Perspektiva 2006 S 148 149 Yuskiv B M Kontent analiz Istoriya rozvitku i svitovij dosvid Monografiya B M Yuskiv Rivne Perspektiva 2006 S 150 Text Mining Review of TPAC Technologies for ONR ASDL Aug 2002 http www asdl gatech edu research teams pdf 2002 Text 20Mining 20Sum doc 11 veresnya 2006 u Wayback Machine Yuskiv B M Kontent analiz Istoriya rozvitku i svitovij dosvid Monografiya B M Yuskiv Rivne Perspektiva 2006 S 151 Yuskiv B M Kontent analiz Istoriya rozvitku i svitovij dosvid Monografiya B M Yuskiv Rivne Perspektiva 2006 S 151 Text Mining Review of TPAC Technologies for ONR ASDL Aug 2002 http www asdl gatech edu research teams pdf 2002 Text 20Mining 20Sum doc 11 veresnya 2006 u Wayback Machine Watts R J Porter A L Innovation Forecasting Technology Policy and Assessment Center TPAC at Georgia Institute of Technology 2002 http www tpac gatech edu toa inov shtml nedostupne posilannya z lipnya 2019 Yuskiv B M Kontent analiz Istoriya rozvitku i svitovij dosvid Monografiya B M Yuskiv Rivne Perspektiva 2006 S 151 152 Yuskiv B M Kontent analiz Istoriya rozvitku i svitovij dosvid Monografiya B M Yuskiv Rivne Perspektiva 2006 S 152 Data Mining Federal Efforts Cover a Wide Range of Uses Report to the Ranking Minority Member Subcommittee on Financial Management the Budget and International Security Committee on Governmental Affairs U S Senate GAO United States General Accounting Office GAO 04 548 Washington D C May 2004 71 p http www epic org privacy profiling gao dm rpt pdf 13 Kvitnya 2014 u Wayback Machine Lande D Dobycha znanij CRU nachinaet proseivat informaciyu Setevoj zhurnal Lenta novostej Vyp ot 14 03 2001 http www setevoi ru cgi bin srch pl id 579 9 zhovtnya 2016 u Wayback Machine CRU izvlekaet dannye Kompyuter inform 2001 6 http www ci ru inform06 01 p245moz htm 19 Zhovtnya 2007 u Wayback Machine Gordienko I Ponyat i zastavit Kompyuterra 10 04 2001 http www ibusiness ru offline 2001 158 8585 print html nedostupne posilannya z lipnya 2019 Yuskiv B M Kontent analiz Istoriya rozvitku i svitovij dosvid Monografiya B M Yuskiv Rivne Perspektiva 2006 S 153 154 Yuskiv B M Kontent analiz Istoriya rozvitku i svitovij dosvid Monografiya B M Yuskiv Rivne Perspektiva 2006 S 155 156