Лексична насиченість (словникова різноманітність, лексична щільність) – відношення кількості різних слів до загальної кількості слів у тексті, використовується як одна величина, що характеризує текст.
Обчислення
Алгоритм знаходження лексичної насиченості тексту складається з наступних кроків:
- Визначення вхідного набору слів - це може бути як змістовний текст чи його частина, так і довільна сукупність слів.
- Перетворення кожного слова у його словникову форму (для спрощення можна використовувати стемінг, однак варто зазначити, що в такому разі досить велика кількість різних слів будуть перетворені в однакові стеми через недосконалість самих методів стемінгу). При цьому відбувається поправка набору слів.
- = кількість слів після перетворення.
- Видалення усіх дублікатів.
- = кількість слів після видалення.
- Лексична насиченість:
Поправка набору слів
Під час обчислення лексичної насиченості виникає питання вибору належності невідомих слів (тих, які відсутні в словнику) до того чи іншого набору. Існує чотири підходи до вирішення цього питання:
- Зарахування невідомих слів до загального набору, але не до унікальних слів.
- Зарахування невідомих слів до загального набору і набору унікальних слів.
- Видалення невідомих слів на стадії перетворення у словникові форми.
- Ручний ("ідеальний") розподіл.
Розглянемо ці методи на прикладах.
Метод | Чистий текст: Хвойний ліс — ліс, складений майже винятково з дерев хвойних порід. | Текст із помилкою: Хвойний ліс — лфс, складений майже жкхч винятхово з дерев хвойних порід. | Текст з вірними невідомими словами: Хвойний ліс — екорегіон, що складений майже винятково з дерев хвойних порід. | Текст із помилок: Хшйни лс - нс, слдн майже ванаттово с дерів хшйни пірід. |
---|---|---|---|---|
Невідомі слова у загальному наборі | N=10, K=8, L=0.8 | N=11, K=7, L=0.64 | N=11, K=8, L=0.73 | N=10, K=1, L=0.1 |
Невідомі слова в унікальному наборі | N=10, K=8, L=0.8 | N=11, K=10, L=0.91 | N=11, K=10, L=0.91 | N=10, K=9, L=0.9 |
Видалення невідомих слів | N=10, K=8, L=0.8 | N=8, K=7, L=0.875 | N=9, K=8, L=0.889 | N=1, K=1, L=1 |
Ручний розподіл | N=10, K=8, L=0.8 | N=10, K=8, L=0.8 | N=11, K=10, L=0.91 | N=1, K=1, L=1 |
Найближчий до ідеального метод | 1, 2, 3 | 3 | 2 | 3 |
Отже, доцільно використовувати метод видалення невідомих слів на стадії перетворення у словникові форми. Незважаючи на те, що текст з вірними невідомими словами - найпоширеніший випадок, у ньому обраний метод хоч і не є найкращим, але все ж має досить невелике відхилення від результату ручного розподілу.
Окремою проблемою є визначення належності для іншомовних слів. Якщо їх кількість незначна, у порівнянні з об'ємом тексту, можна віднести такі слова до невідомих.
Оцінка лексичної насиченості
Щоб отримати об'єктивне враження про лексичну насиченість тексту, необхідно обчислене відношення привести до значення на певній шкалі. Наприклад, перетворити у проценти. Однак в цьому випадку постане серйозна проблема нелінійного зменшення такого значення зі збільшенням кількості слів.
Якщо взяти реальний текст довжиною десять слів, то його лексична насиченість буде в межах 80%-100%. Якщо кількість слів 1000, то лексична насиченість вже падає до 50%. З точки 200 тисяч слів (у вхідному тексті) кількість різних слів фактично перестане збільшуватись.
Одним зі способів вирішити цю проблему є визначення пікових значень лексичної насиченості на реальних текстах довжиною у 100, 500, 1000, 2000, 5000 і т.д. слів (що більше значень, то краще) та взяти відповідні пікові значення в певному околі за 100%.
Зміна лексичної насиченості
Вирішення такої задачі базується на виділенні окремих груп певної кількості слів.
Тут – слово із тексту; – обчислене значення насиченості для j-ї групи слів довжиною n, . Фактично, відбувається просування блоку, що відповідає за початок та кінець тексту для обчислення насиченості, на одне слово для кожної нової точки графіка (масиву значень). Тому число точок на результуючому графіку становитиме D = N – n + 1. Алгоритм обчислення зміни насиченості:
- Отримання блоку перших n слів із перетворених у словникові форми слів тексту
- Обчислення насиченості одержаного блоку та збереження її в результуючий масив
- Якщо останнє слово блоку – це останнє слово перетвореного тексту, то завершити процедуру
- Відкинути перше слово та перейти на пункт 1.
Для зручності інтерпретації результатів аналізу тексту фахівцями варто відображати графік залежності лексичної насиченості блоку від позиції у тексті. Проаналізувавши декілька творів при різних значеннях n, було визначено, що аналіз графічного результату варто проводити, коли n=500. При значно більших чи значно менших значеннях графік згладжується, адже різниця в насиченості стає мінімальною (при великих значеннях n вона завжди низька, а при малих значеннях n – завжди висока).
Джерела
- Яворський Є.О., Левус Є.В., Бук С.Н. /Алгоритм відображення зміни лексичної насиченості тексту. - НУ "ЛП". - 2013.
- Шевелев О.Г. Разработка и исследование алгоритмов сравнения стилей текстовых произведений: автореферат диссертации. – Томск. – 2006.
- Верес М.М., Лемківський Є.О., Омельченко О.А. Масово розподілений пошуковий робот //Проблеми інформаційних технологій. – 2011. – №1 (009).
- Кыштымова И.М. Психосемиотический анализ текста: диагностическое значение категории "время". - Режим доступу: http://www.lib.tsu.ru/mminfo/000085170/26/image/26-050.pdf[недоступне посилання з липня 2019].
- Горелов И. Н., Седов К. Ф. Основы психолингвистики. — Москва. – 1997.
- Засєкіна Л. В. Вступ до психолінгвістики / Л. В. Засєкіна, С. В. Засєкін. – Острог: Вид-во Нац. ун-ту «Острозька академія», 2002. – 168 с.
Вікіпедія, Українська, Україна, книга, книги, бібліотека, стаття, читати, завантажити, безкоштовно, безкоштовно завантажити, mp3, відео, mp4, 3gp, jpg, jpeg, gif, png, малюнок, музика, пісня, фільм, книга, гра, ігри, мобільний, телефон, android, ios, apple, мобільний телефон, samsung, iphone, xiomi, xiaomi, redmi, honor, oppo, nokia, sonya, mi, ПК, web, Інтернет
Leksichna nasichenist slovnikova riznomanitnist leksichna shilnist vidnoshennya kilkosti riznih sliv do zagalnoyi kilkosti sliv u teksti vikoristovuyetsya yak odna velichina sho harakterizuye tekst ObchislennyaAlgoritm znahodzhennya leksichnoyi nasichenosti tekstu skladayetsya z nastupnih krokiv Viznachennya vhidnogo naboru sliv ce mozhe buti yak zmistovnij tekst chi jogo chastina tak i dovilna sukupnist sliv Peretvorennya kozhnogo slova u jogo slovnikovu formu dlya sproshennya mozhna vikoristovuvati steming odnak varto zaznachiti sho v takomu razi dosit velika kilkist riznih sliv budut peretvoreni v odnakovi stemi cherez nedoskonalist samih metodiv stemingu Pri comu vidbuvayetsya popravka naboru sliv N displaystyle mathrm N kilkist sliv pislya peretvorennya Vidalennya usih dublikativ K displaystyle mathrm K kilkist sliv pislya vidalennya Leksichna nasichenist L K N displaystyle mathrm L K over N dd dd dd Popravka naboru slivPid chas obchislennya leksichnoyi nasichenosti vinikaye pitannya viboru nalezhnosti nevidomih sliv tih yaki vidsutni v slovniku do togo chi inshogo naboru Isnuye chotiri pidhodi do virishennya cogo pitannya Zarahuvannya nevidomih sliv do zagalnogo naboru ale ne do unikalnih sliv Zarahuvannya nevidomih sliv do zagalnogo naboru i naboru unikalnih sliv Vidalennya nevidomih sliv na stadiyi peretvorennya u slovnikovi formi Ruchnij idealnij rozpodil Rozglyanemo ci metodi na prikladah Metod Chistij tekst Hvojnij lis lis skladenij majzhe vinyatkovo z derev hvojnih porid Tekst iz pomilkoyu Hvojnij lis lfs skladenij majzhe zhkhch vinyathovo z derev hvojnih porid Tekst z virnimi nevidomimi slovami Hvojnij lis ekoregion sho skladenij majzhe vinyatkovo z derev hvojnih porid Tekst iz pomilok Hshjni ls ns sldn majzhe vanattovo s deriv hshjni pirid Nevidomi slova u zagalnomu nabori N 10 K 8 L 0 8 N 11 K 7 L 0 64 N 11 K 8 L 0 73 N 10 K 1 L 0 1 Nevidomi slova v unikalnomu nabori N 10 K 8 L 0 8 N 11 K 10 L 0 91 N 11 K 10 L 0 91 N 10 K 9 L 0 9 Vidalennya nevidomih sliv N 10 K 8 L 0 8 N 8 K 7 L 0 875 N 9 K 8 L 0 889 N 1 K 1 L 1 Ruchnij rozpodil N 10 K 8 L 0 8 N 10 K 8 L 0 8 N 11 K 10 L 0 91 N 1 K 1 L 1 Najblizhchij do idealnogo metod 1 2 3 3 2 3 Otzhe docilno vikoristovuvati metod vidalennya nevidomih sliv na stadiyi peretvorennya u slovnikovi formi Nezvazhayuchi na te sho tekst z virnimi nevidomimi slovami najposhirenishij vipadok u nomu obranij metod hoch i ne ye najkrashim ale vse zh maye dosit nevelike vidhilennya vid rezultatu ruchnogo rozpodilu Okremoyu problemoyu ye viznachennya nalezhnosti dlya inshomovnih sliv Yaksho yih kilkist neznachna u porivnyanni z ob yemom tekstu mozhna vidnesti taki slova do nevidomih Ocinka leksichnoyi nasichenostiShob otrimati ob yektivne vrazhennya pro leksichnu nasichenist tekstu neobhidno obchislene vidnoshennya privesti do znachennya na pevnij shkali Napriklad peretvoriti u procenti Odnak v comu vipadku postane serjozna problema nelinijnogo zmenshennya takogo znachennya zi zbilshennyam kilkosti sliv Yaksho vzyati realnij tekst dovzhinoyu desyat sliv to jogo leksichna nasichenist bude v mezhah 80 100 Yaksho kilkist sliv 1000 to leksichna nasichenist vzhe padaye do 50 Z tochki 200 tisyach sliv u vhidnomu teksti kilkist riznih sliv faktichno perestane zbilshuvatis Odnim zi sposobiv virishiti cyu problemu ye viznachennya pikovih znachen leksichnoyi nasichenosti na realnih tekstah dovzhinoyu u 100 500 1000 2000 5000 i t d sliv sho bilshe znachen to krashe ta vzyati vidpovidni pikovi znachennya v pevnomu okoli za 100 Zmina leksichnoyi nasichenostiVirishennya takoyi zadachi bazuyetsya na vidilenni okremih grup pevnoyi kilkosti sliv Obchislennya zmini leksichnoyi nasichenosti Tut a i displaystyle a i slovo iz tekstu K j displaystyle K j obchislene znachennya nasichenosti dlya j yi grupi sliv dovzhinoyu n j 1 N displaystyle j overline 1 N Faktichno vidbuvayetsya prosuvannya bloku sho vidpovidaye za pochatok ta kinec tekstu dlya obchislennya nasichenosti na odne slovo dlya kozhnoyi novoyi tochki grafika masivu znachen Tomu chislo tochok na rezultuyuchomu grafiku stanovitime D N n 1 Algoritm obchislennya zmini nasichenosti Otrimannya bloku pershih n sliv iz peretvorenih u slovnikovi formi sliv tekstu Obchislennya nasichenosti oderzhanogo bloku ta zberezhennya yiyi v rezultuyuchij masiv Yaksho ostannye slovo bloku ce ostannye slovo peretvorenogo tekstu to zavershiti proceduru Vidkinuti pershe slovo ta perejti na punkt 1 Dlya zruchnosti interpretaciyi rezultativ analizu tekstu fahivcyami varto vidobrazhati grafik zalezhnosti leksichnoyi nasichenosti bloku vid poziciyi u teksti Proanalizuvavshi dekilka tvoriv pri riznih znachennyah n bulo viznacheno sho analiz grafichnogo rezultatu varto provoditi koli n 500 Pri znachno bilshih chi znachno menshih znachennyah grafik zgladzhuyetsya adzhe riznicya v nasichenosti staye minimalnoyu pri velikih znachennyah n vona zavzhdi nizka a pri malih znachennyah n zavzhdi visoka DzherelaYavorskij Ye O Levus Ye V Buk S N Algoritm vidobrazhennya zmini leksichnoyi nasichenosti tekstu NU LP 2013 Shevelev O G Razrabotka i issledovanie algoritmov sravneniya stilej tekstovyh proizvedenij avtoreferat dissertacii Tomsk 2006 Veres M M Lemkivskij Ye O Omelchenko O A Masovo rozpodilenij poshukovij robot Problemi informacijnih tehnologij 2011 1 009 Kyshtymova I M Psihosemioticheskij analiz teksta diagnosticheskoe znachenie kategorii vremya Rezhim dostupu http www lib tsu ru mminfo 000085170 26 image 26 050 pdf nedostupne posilannya z lipnya 2019 Gorelov I N Sedov K F Osnovy psiholingvistiki Moskva 1997 Zasyekina L V Vstup do psiholingvistiki L V Zasyekina S V Zasyekin Ostrog Vid vo Nac un tu Ostrozka akademiya 2002 168 s