Проє́кт UWN (англ. UWN project) — науково-дослідний проєкт, присвячений створенню лексико-семантичної онтологічної бази знань української та, в перспективі, російської мови. Як основу для побудови онтології проєкт використовує характерні для сімейства WordNet структурні елементи: (набори синонімів, що описують єдине поняття) та набори (22 типи) і (12 типів) зв'язків. Не зважаючи на схожість логічних структур, архітектурно створювана в проєкті онтологія суттєво відрізняється як від онтологій типу WordNet, так і від інших проєктів, що можуть розглядатися як бази загальних знань доступних для автоматичного використання (, Cyc, Wikipedia). З точки зору архітектури UWN належить до онтологій створених на базі СУБД, що дозволило об'єднати в одному місці дані про зовнішній світ та логіку їх обробки. Базова архітектура UWN описана в статті
Історія
Перша версія онтологічної бази знань була розроблена в 2009, тоді ж на основі даних WordNet в рамках державної цільової науково-технічної програми "Образний комп'ютер" [ 10 травня 2013 у Wayback Machine.] на базі UWN було створено та апробовано семантичну систему для пошуку англійською мовою в мережі Інтернет. Офіційною датою народження UWN вважається 1 липня 2010, коли до розвитку проєкту приєднався колектив фахівців факультету кібернетики КНУ ім. Т. Шевченка. На цей час в проєкті взяло участь уже понад 100 студентів, аспірантів та викладачів факультету. Керівництво проєктом здійснює декан факультету Анісімов Анатолій Васильович.
Найбільший внесок в розбудову проєкту зробили фахівці з комп'ютерної лінгвістики кафедри МІ [ 21 лютого 2012 у Wayback Machine.]. Даною групою було розроблено методики асоціативно-семантичного контекстного аналізу з використанням онтологій, що базуються на обчисленні семантичних відстаней між ключовими елементами тексту. Дані методики було використано при розробці алгоритмів для вирішення прикладних задач з автоматичної інтелектуальної обробки природномовних текстів (таких як визначення тематик текстів, семантична фільтрація потоків даних за змістом, смислове покращення якості машинного перекладу, семантичний , аналіз настрою тексту та багато інших). Ключові ідеї групи описано в роботах , , , . Саме ці практично апробовані алгоритми та моделі було покладено в основу програмного комплексу призначеного для обробки природномовних текстів в середині UWN.
Основні завдання проєкту
Проєкт має вирішити наступні завдання :
- створення англомовної, україномовної та російськомовної лексикографічних баз знань універсального характеру
- забезпечення міжмовних зв'язків між концептами онтологій
- створення гнучкої архітектури системи, що дозволяє вносити значні зміни в структуру даних без впливу на стандартний процес роботи UWN
- реалізація принципу "логіка та дані в одному місці"
- забезпечення онлайн доступу до онтологічної бази
- забезпечення сумісної та одночасної роботи користувачів та автоматизованих систем
- вичерпність бази (обсяг даних понад 120000 концептів)
Архітектура
Базова архітектура UWN описана в статті. Проте, з моменту свого створення система зазнала ряду значних змін пов'язаних з розбудовою бази знань, розширенням наявного лінгвістичного функціонала, змінами в механізмах безпеки і логування та забезпеченням одночасної роботи великої кількості користувачів. Основні принципи що мали виконуватися при створенні архітектури:
- заснована на СУБД
- онтології кожної мови реалізовано у вигляді окремих логічних одиниць
- серверну логіку згруповано за функціональним призначенням у програмні одиниці - пакети
- відсутність прямого доступу до даних
- наявність спеціальних інтерфейсів (API) для забезпечення роботи з даними та логікою онтології
- розділення рівня доступу за системами та користувацькими профілями
- наявність централізованого контролю за доступом до даних та систем
- гнучкість системи, здатність до розширення новими функціями, системами та даними без втрати наявної функціональності
- забезпечення сумісної роботи великої кількості користувачів в т.ч. через різні системи
- можливість включення до системи нових підсистем для збору, аналізу та показу аналітичних даних
Використання СУБД як платформи дозволяє широко застосовувати дворівневу (клієнт-серверну) архітектуру, де СУБД виконує роль сервера та БД, а web- або десктоп- додаток роль клієнта. Основними елементами бази даних є наступні блоки (схеми) :
- ua_guest – схема, що використовується для підключення до БД всіма клієнтами.
- ua_security – схема, що відповідає за розрізнення профілів доступу систем-додатків, інтерфейси доступу до серверної логіки, механізми логування і т.д.
- ua_ontology – схема, що зберігає інформацію про наповнення україномовної онтології та серверну логіку, що застосовується програмами-додатками для доступу до неї.
- en_ontology – схема, що зберігає інформацію про наповнення англомовної онтології та серверну логіку, що застосовується програмами-додатками для доступу до неї.
- ru_ontology – схема, що запланована для зберігання інформації російськомовної онтології.
- ua_alg – схема, що призначена для зберігання різноманітних семантичних алгоритмів та методів вимірювання ступеня семантичної зв’язності.
- ua_morphology – схема, що призначена для зберігання морфологічної інформації для української мови, також на базі даної схеми працюють алгоритми перевірки правопису та підбору варіантів правильного написання слова.
В цілому, внутрішня структура UWN є досить складною та сильно взаємозв’язаною, але назовні система пропонує ряд простих у використанні та добре задокументованих інтерфейсів (API). Наразі існує два типи інтерфейсів доступу до БД:
1) старий – інтерфейс типу get, який пропонує лише методи отримання інформації з онтології. Серед них: пошук синсетів, у які входить певне слово; побудова ієрархічних дерев за різними типами зв’язку; пошук синонімів і т.д. Цей інтерфейс використовується в ескізному проєкті семантичної пошукової системи та альфа-версіях клієнтів для перегляду наповнення онтології.
2) новий – інтерфейс типу get/set, призначений, в першу чергу, для внесення змін в БД. Використовується в клієнтських додатках типу онтокоректорів та онторедакторів.
Джерела
Твіттер проєкту UWN [ 10 вересня 2016 у Wayback Machine.]
Література
- Глибовець М.М., Марченко О.О., Никоненко А.О. «Побудова україномовної онтології засобами СУБД», Наукові записки. Національний університет "Києво-Могилянська академія". - Том 86 : Комп’ютерні науки (2008. стр. 46-50) http://biblio.ukma.kiev.ua/e-lib/NZ/NZV86_2008_computer/08_glybovets_mm.PDF[недоступне посилання з червня 2019]
- Анісімов А.В., Марченко О.О., Никоненко А.О. «Алгоритмічна модель асоціативно-семантичного контекстного аналізу природномовних текстів», науковий журнал «Проблеми Програмування» (2008 №2-3, стр. 379-384) http://eprints.isofts.kiev.ua/401/1/%231_D50-c379.pdf [ 2 травня 2018 у Wayback Machine.]
- А.В. Анисимов, К.С. Лиман, А.А. Марченко «Методы вычисления мер семантической близости слов естественного языка» // Журнал «Искусственный Интеллект» (2009, №3 стр. 612-617) http://www.nbuv.gov.ua/portal/natural/ii/2010_3/AI_2010_3%5C3%5C00_AnisimovLiman_Marchenko.pdf[недоступне посилання з червня 2019]
- Никоненко А.А. «Обзор баз знаний онтологического типа» // Журнал «Искусственный Интеллект» (2009, №4 стр. 208-219) http://www.nbuv.gov.ua/portal/natural/ii/2009_4/4%5C00_Nikonenko_AA.pdf[недоступне посилання з червня 2019]
- Марченко А.А., Никоненко А.А. «Контекстный семантический анализ текста. Система текстового мониторинга и качественного оценивания фокусного объекта» // Журнал «Искусственный Интеллект» (2008, №3 стр. 808-813) http://www.nbuv.gov.ua/portal/natural/ii/2008_3/JournalAI_2008_3/Razdel9/02_Marchenko_Nikonenko.pdf
- Никоненко А.О. «Проект UWN: Методологія створення універсальної онтологічної бази знань української мови» // Слайди міжнародної наукової конференції MegaLing’2011 «Горизонти прикладної лінгвістики та лінгвістичних технологій» Партеніт, Крим, Україна http://lingvoworks.org.ua/index.php?option=com_jotloader&task=files.download&cid=1427[недоступне посилання з червня 2019]
- Никоненко А.О. «Проект UWN: Методологія створення універсальної онтологічної бази знань української мови» // Тези міжнародної наукової конференції MegaLing’2011 «Горизонти прикладної лінгвістики та лінгвістичних технологій» Партеніт, Крим, Україна (2011 стр. 57-58) http://megaling.crimea.edu/publications/2011_Nikonenko.rtf [ 22 вересня 2015 у Wayback Machine.]
- Никоненко А.О. «Проект UWN: Досвід створення універсальної онлайн онтології української мови» // Тези міжнародної наукової конференції ISDMCI'2011 «Интеллектуальные системы принятия решений и проблемы вычислительного интеллекта», Євпаторія, Крим, Україна (2011 стр. 92-96) Посилання на збірник доповідей конференції [ 5 березня 2016 у Wayback Machine.]
Вікіпедія, Українська, Україна, книга, книги, бібліотека, стаття, читати, завантажити, безкоштовно, безкоштовно завантажити, mp3, відео, mp4, 3gp, jpg, jpeg, gif, png, малюнок, музика, пісня, фільм, книга, гра, ігри, мобільний, телефон, android, ios, apple, мобільний телефон, samsung, iphone, xiomi, xiaomi, redmi, honor, oppo, nokia, sonya, mi, ПК, web, Інтернет
Proye kt UWN angl UWN project naukovo doslidnij proyekt prisvyachenij stvorennyu leksiko semantichnoyi ontologichnoyi bazi znan ukrayinskoyi ta v perspektivi rosijskoyi movi Yak osnovu dlya pobudovi ontologiyi proyekt vikoristovuye harakterni dlya simejstva WordNet strukturni elementi nabori sinonimiv sho opisuyut yedine ponyattya ta nabori 22 tipi i 12 tipiv zv yazkiv Ne zvazhayuchi na shozhist logichnih struktur arhitekturno stvoryuvana v proyekti ontologiya suttyevo vidriznyayetsya yak vid ontologij tipu WordNet tak i vid inshih proyektiv sho mozhut rozglyadatisya yak bazi zagalnih znan dostupnih dlya avtomatichnogo vikoristannya Cyc Wikipedia Z tochki zoru arhitekturi UWN nalezhit do ontologij stvorenih na bazi SUBD sho dozvolilo ob yednati v odnomu misci dani pro zovnishnij svit ta logiku yih obrobki Bazova arhitektura UWN opisana v stattiIstoriyaPersha versiya ontologichnoyi bazi znan bula rozroblena v 2009 todi zh na osnovi danih WordNet v ramkah derzhavnoyi cilovoyi naukovo tehnichnoyi programi Obraznij komp yuter 10 travnya 2013 u Wayback Machine na bazi UWN bulo stvoreno ta aprobovano semantichnu sistemu dlya poshuku anglijskoyu movoyu v merezhi Internet Oficijnoyu datoyu narodzhennya UWN vvazhayetsya 1 lipnya 2010 koli do rozvitku proyektu priyednavsya kolektiv fahivciv fakultetu kibernetiki KNU im T Shevchenka Na cej chas v proyekti vzyalo uchast uzhe ponad 100 studentiv aspirantiv ta vikladachiv fakultetu Kerivnictvo proyektom zdijsnyuye dekan fakultetu Anisimov Anatolij Vasilovich Najbilshij vnesok v rozbudovu proyektu zrobili fahivci z komp yuternoyi lingvistiki kafedri MI 21 lyutogo 2012 u Wayback Machine Danoyu grupoyu bulo rozrobleno metodiki asociativno semantichnogo kontekstnogo analizu z vikoristannyam ontologij sho bazuyutsya na obchislenni semantichnih vidstanej mizh klyuchovimi elementami tekstu Dani metodiki bulo vikoristano pri rozrobci algoritmiv dlya virishennya prikladnih zadach z avtomatichnoyi intelektualnoyi obrobki prirodnomovnih tekstiv takih yak viznachennya tematik tekstiv semantichna filtraciya potokiv danih za zmistom smislove pokrashennya yakosti mashinnogo perekladu semantichnij analiz nastroyu tekstu ta bagato inshih Klyuchovi ideyi grupi opisano v robotah Same ci praktichno aprobovani algoritmi ta modeli bulo pokladeno v osnovu programnogo kompleksu priznachenogo dlya obrobki prirodnomovnih tekstiv v seredini UWN Osnovni zavdannya proyektuProyekt maye virishiti nastupni zavdannya stvorennya anglomovnoyi ukrayinomovnoyi ta rosijskomovnoyi leksikografichnih baz znan universalnogo harakteru zabezpechennya mizhmovnih zv yazkiv mizh konceptami ontologij stvorennya gnuchkoyi arhitekturi sistemi sho dozvolyaye vnositi znachni zmini v strukturu danih bez vplivu na standartnij proces roboti UWN realizaciya principu logika ta dani v odnomu misci zabezpechennya onlajn dostupu do ontologichnoyi bazi zabezpechennya sumisnoyi ta odnochasnoyi roboti koristuvachiv ta avtomatizovanih sistem vicherpnist bazi obsyag danih ponad 120000 konceptiv ArhitekturaBazova arhitektura UWN opisana v statti Prote z momentu svogo stvorennya sistema zaznala ryadu znachnih zmin pov yazanih z rozbudovoyu bazi znan rozshirennyam nayavnogo lingvistichnogo funkcionala zminami v mehanizmah bezpeki i loguvannya ta zabezpechennyam odnochasnoyi roboti velikoyi kilkosti koristuvachiv Osnovni principi sho mali vikonuvatisya pri stvorenni arhitekturi zasnovana na SUBD ontologiyi kozhnoyi movi realizovano u viglyadi okremih logichnih odinic servernu logiku zgrupovano za funkcionalnim priznachennyam u programni odinici paketi vidsutnist pryamogo dostupu do danih nayavnist specialnih interfejsiv API dlya zabezpechennya roboti z danimi ta logikoyu ontologiyi rozdilennya rivnya dostupu za sistemami ta koristuvackimi profilyami nayavnist centralizovanogo kontrolyu za dostupom do danih ta sistem gnuchkist sistemi zdatnist do rozshirennya novimi funkciyami sistemami ta danimi bez vtrati nayavnoyi funkcionalnosti zabezpechennya sumisnoyi roboti velikoyi kilkosti koristuvachiv v t ch cherez rizni sistemi mozhlivist vklyuchennya do sistemi novih pidsistem dlya zboru analizu ta pokazu analitichnih danih Vikoristannya SUBD yak platformi dozvolyaye shiroko zastosovuvati dvorivnevu kliyent servernu arhitekturu de SUBD vikonuye rol servera ta BD a web abo desktop dodatok rol kliyenta Osnovnimi elementami bazi danih ye nastupni bloki shemi ua guest shema sho vikoristovuyetsya dlya pidklyuchennya do BD vsima kliyentami ua security shema sho vidpovidaye za rozriznennya profiliv dostupu sistem dodatkiv interfejsi dostupu do servernoyi logiki mehanizmi loguvannya i t d ua ontology shema sho zberigaye informaciyu pro napovnennya ukrayinomovnoyi ontologiyi ta servernu logiku sho zastosovuyetsya programami dodatkami dlya dostupu do neyi en ontology shema sho zberigaye informaciyu pro napovnennya anglomovnoyi ontologiyi ta servernu logiku sho zastosovuyetsya programami dodatkami dlya dostupu do neyi ru ontology shema sho zaplanovana dlya zberigannya informaciyi rosijskomovnoyi ontologiyi ua alg shema sho priznachena dlya zberigannya riznomanitnih semantichnih algoritmiv ta metodiv vimiryuvannya stupenya semantichnoyi zv yaznosti ua morphology shema sho priznachena dlya zberigannya morfologichnoyi informaciyi dlya ukrayinskoyi movi takozh na bazi danoyi shemi pracyuyut algoritmi perevirki pravopisu ta pidboru variantiv pravilnogo napisannya slova Diagrama osnovnih strukturnih elementiv SUBD UWN V cilomu vnutrishnya struktura UWN ye dosit skladnoyu ta silno vzayemozv yazanoyu ale nazovni sistema proponuye ryad prostih u vikoristanni ta dobre zadokumentovanih interfejsiv API Narazi isnuye dva tipi interfejsiv dostupu do BD 1 starij interfejs tipu get yakij proponuye lishe metodi otrimannya informaciyi z ontologiyi Sered nih poshuk sinsetiv u yaki vhodit pevne slovo pobudova iyerarhichnih derev za riznimi tipami zv yazku poshuk sinonimiv i t d Cej interfejs vikoristovuyetsya v eskiznomu proyekti semantichnoyi poshukovoyi sistemi ta alfa versiyah kliyentiv dlya pereglyadu napovnennya ontologiyi 2 novij interfejs tipu get set priznachenij v pershu chergu dlya vnesennya zmin v BD Vikoristovuyetsya v kliyentskih dodatkah tipu ontokorektoriv ta ontoredaktoriv DzherelaTvitter proyektu UWN 10 veresnya 2016 u Wayback Machine LiteraturaGlibovec M M Marchenko O O Nikonenko A O Pobudova ukrayinomovnoyi ontologiyi zasobami SUBD Naukovi zapiski Nacionalnij universitet Kiyevo Mogilyanska akademiya Tom 86 Komp yuterni nauki 2008 str 46 50 http biblio ukma kiev ua e lib NZ NZV86 2008 computer 08 glybovets mm PDF nedostupne posilannya z chervnya 2019 Anisimov A V Marchenko O O Nikonenko A O Algoritmichna model asociativno semantichnogo kontekstnogo analizu prirodnomovnih tekstiv naukovij zhurnal Problemi Programuvannya 2008 2 3 str 379 384 http eprints isofts kiev ua 401 1 231 D50 c379 pdf 2 travnya 2018 u Wayback Machine A V Anisimov K S Liman A A Marchenko Metody vychisleniya mer semanticheskoj blizosti slov estestvennogo yazyka Zhurnal Iskusstvennyj Intellekt 2009 3 str 612 617 http www nbuv gov ua portal natural ii 2010 3 AI 2010 3 5C3 5C00 AnisimovLiman Marchenko pdf nedostupne posilannya z chervnya 2019 Nikonenko A A Obzor baz znanij ontologicheskogo tipa Zhurnal Iskusstvennyj Intellekt 2009 4 str 208 219 http www nbuv gov ua portal natural ii 2009 4 4 5C00 Nikonenko AA pdf nedostupne posilannya z chervnya 2019 Marchenko A A Nikonenko A A Kontekstnyj semanticheskij analiz teksta Sistema tekstovogo monitoringa i kachestvennogo ocenivaniya fokusnogo obekta Zhurnal Iskusstvennyj Intellekt 2008 3 str 808 813 http www nbuv gov ua portal natural ii 2008 3 JournalAI 2008 3 Razdel9 02 Marchenko Nikonenko pdf Nikonenko A O Proekt UWN Metodologiya stvorennya universalnoyi ontologichnoyi bazi znan ukrayinskoyi movi Slajdi mizhnarodnoyi naukovoyi konferenciyi MegaLing 2011 Gorizonti prikladnoyi lingvistiki ta lingvistichnih tehnologij Partenit Krim Ukrayina http lingvoworks org ua index php option com jotloader amp task files download amp cid 1427 nedostupne posilannya z chervnya 2019 Nikonenko A O Proekt UWN Metodologiya stvorennya universalnoyi ontologichnoyi bazi znan ukrayinskoyi movi Tezi mizhnarodnoyi naukovoyi konferenciyi MegaLing 2011 Gorizonti prikladnoyi lingvistiki ta lingvistichnih tehnologij Partenit Krim Ukrayina 2011 str 57 58 http megaling crimea edu publications 2011 Nikonenko rtf 22 veresnya 2015 u Wayback Machine Nikonenko A O Proekt UWN Dosvid stvorennya universalnoyi onlajn ontologiyi ukrayinskoyi movi Tezi mizhnarodnoyi naukovoyi konferenciyi ISDMCI 2011 Intellektualnye sistemy prinyatiya reshenij i problemy vychislitelnogo intellekta Yevpatoriya Krim Ukrayina 2011 str 92 96 Posilannya na zbirnik dopovidej konferenciyi 5 bereznya 2016 u Wayback Machine