В обчислювальній техніці система перевірки орфографії (т. зв. спелчекер) — це допоміжна програма, яка шукає в тексті документа слова, написані неправильно. Знайдені помилки позначаються спеціальним чином — зазвичай для цього використовується червоне підкреслення. У деяких випадках користувачеві, окрім зазначення місць можливих помилок, надається можливість вибрати один із правильних варіантів написання.
Системи перевірки орфографії можуть бути автономні (як правильно, у такому разі передбачено можливість інтеграції з іншими програмами) або входити як окремий модуль до складу іншої програми, зокрема текстового процесора, поштового клієнта, електронного словника, пошукової системи тощо.
Принцип роботи
Зазвичай система перевірки орфографії виконує такі дії.
- Зчитує текст і виокремлює слова, з яких він складається.
- Порівнює кожне слово тексту зі списком правильно написаних слів (тобто словником). Такий список, окрім власне слів, може містити додаткову інформацію, як-от місця, де може бути знак переносу, лексичні й граматичні атрибути тощо.
- Додаткова дія, особливості якої залежать від мови: алгоритм підтримки морфології. Система має враховувати не тільки початкову форму слова, а й усі можливі його словоформи — множину, відмінки, стягнення тощо. У мовах із розвинутою морфологією (як-от таких, яким притаманна аглютинація, відмінювання тощо) цей процес може бути вельми складним.
Користь від морфологічного аналізу — тобто перевірка чималої кількості словоформ — у простих мовах на кшталт англійської не очевидна, але користь для синтетичних мов, як-от німецька, угорська, українська, турецька — безсумнівна.
Як додаток до цих компонентів, інтерфейс програм дає користувачам змогу ухвалювати або відкидати запропоновані заміни і змінювати спосіб роботи програми.
Існують також альтернативні типи систем перевірки орфографії, у яких для виявлення помилок замість правильно написаних слів використовується виключно статистична інформація, як-от N-грами. Зазвичай такий підхід потребує чималих зусиль для отримання достатньої кількості статистичної інформації. Його основними перевагами є менша потреба в оперативній пам'яті та спроможність виправляти помилки в словах, яких немає у словнику .
У деяких системах перевірки орфографії використовуються списки слів із неправильним написанням і пропозиції для таких слів. Такому підходу бракує гнучкості; найчастіше його використовують під час виправлень у паперових документах, як-от у розділах «Див. також» в енциклопедіях.
Для перевірки орфографії використовують також алгоритми кластерного аналізу в поєднанні з фонетичною інформацією.
Історія
До появи комп'ютерів
Перші системи із функціями перевірки орфографії з'явилися в 1957 р. — зокрема системи перевірки орфографії для точкових зображень курсивного письма та спеціальні програми, які замість помилкових записів шукали записи в базах даних.
В 1961 р. [en]] (Les Earnest), який очолював дослідження цієї перспективної технології, вважав за потрібне створити першу систему перевірки орфографії, яка оперувала списком із 10 000 допустимих слів. Ральф Горін (Ralph Gorin), у той час аспірант Ернеста, створив першу справжню програму-спелчекер, яку можна було застосувати до будь-якого англійського тексту взагалі, а не тільки в рамках дослідження, — SPELL для DEC PDP-10 у Лабораторії штучного розуму в Стенфордському університеті (лютий 1971 р.). Горін написав код SPELL на асемблері, аби пришвидшити її роботу. Він створив орфографічний коректор, який складав список слів, що відрізнялися від даного слова лише однією літерою або перестановкою літер; цей список демонструвався користувачеві.
Горін зробив програму SPELL загальнодоступною, як і більшість програм, створених у Лабораторії SAIL (Stanford Artificial Intelligence Laboratory). Невдовзі вона поширилася всім світом через мережу ARPAnet. Це сталося за 10 років до того, як на ринку з'явилися доступні персональні комп'ютери. SPELL, використані в ній алгоритми й структури даних стимулювали розвиток програми в Unix.
Перші системи перевірки орфографії широко поширилися на обчислювальних машинах наприкінці 1970-х років. Команда із шести лінгвістів із Джорджтаунського університету розробили першу систему перевірки орфографії для корпорації IBM.
Після появи комп'ютерів
Перші системи перевірки орфографії для персональних комп'ютерів з'явилися в 1980 р. на комп'ютерах (CP/M) та TRS-80. Невдовзі після цього, в 1981 р., було створено орфографічні пакети для IBM PC. Чимало розробників, зокрема Марія Маріані (Maria Mariani), Random House, Soft-Art, Microlytics, Proximity, Circle Noetics та Reference Software, поширювали комплекти OEM-програм та продукти для кінцевих користувачів на ринку програмного забезпечення, який швидко зростав, — здебільшого для персональних комп'ютерів (PC), але також і для Apple Macintosh, VAX та UNIX. На персональних комп'ютерах ці системи перевірки орфографії працювали автономно; більшість із них за наявності достатньої пам'яті могли працювати як резидентні програми (TSR) в комплектах програм для обробки текстів на PC.
Утім, ці програми недовго залишалися на ринку окремими програмами: у середині 1980-х рр. розробники популярних текстових редакторів, як-от і WordPerfect, вбудували системи перевірки орфографії, здебільшого за ліцензіями описаних вище компаній, у розроблювані ними пакети програм. Невдовзі ці системи почали підтримувати не тільки англійську, а й інші європейські, а згодом навіть і азійські мови. Проте процес морфологічної обробки підвищив вимоги до програмного забезпечення, особливо в аглютинативних мовах на кшталт угорської й фінської. Хоча розмір ринку програмного забезпечення для обробки текстів у таких країнах, як, наприклад, Ісландія, не виправдовував інвестиції в розробку систем перевірки орфографії, маркетингова політика деяких компаній, як-от WordPerfect, утім, передбачала локалізацію програм для якнайбільшої кількості ринків.
Браузери
У веббраузері Firefox 2.0 передбачено підтримку перевірки орфографії для контенту, створюваного користувачем, як-от під час редагування й набирання тексту у вікі, у вебслужбах електронної пошти на багатьох сайтах, у блогах і на сайтах соціальних мереж. У веббраузерах Google Chrome, Konqueror та Opera, у поштовому клієнті Kmail та програмі для обміну миттєвими повідомленнями Pidgin також є підтримка перевірки орфографії, здійснювана засобами модуля . В операційній системі Mac OS X перевірка орфографії здійснюється на рівні системи, практично в усіх вбудованих програмах і навіть у програмах сторонніх виробників. Існують також онлайн системи перевірки орфографії українських вебсайтів.
Функціональність
Перші спелчекери слугували радше для перевірки, ніж для виправлення: вони не пропонували варіантів замін для неправильно написаних слів. Вони вміли шукати друкарські помилки, але не вміли — логічні й фонетичні. Перед розробниками постало складне питання: як для неправильно написаного слова відібрати із множини можливих виправлень найімовірніші. Потрібно було виявляти структуру слова і застосовувати до неї алгоритми відповідності певним шаблонам.
Щодо розміру словника «дозволених», тобто граматично правильно написаних слів, у теорії здається логічним принцип «що більше, то краще»: що більше «правильних» слів, то менше правильно написаних слів система позначить як помилкові. На практиці ж виявилося, що оптимальним розміром словника (для англійської мови) є 90 000 слів. Якщо словник більше, система починала пропускати неправильно написані слова, оскільки ці «неправильні» слова часто виявлялися реально існуючими у специфічних областях. Наприклад, на основі аналізу корпусу мови виявилося, що слово BAHT — це, найімовірніше, неправильно написане слово BATH або BAT, і дуже рідко йдеться саме про валюту Таїланду — тайський бат (THAI BATH). Тобто, було б доречніше, щоб та невелика кількість людей, які пишуть про тайські бати, стикнулася з помилковими спрацьовуваннями, ніж щоб велика кількість людей, які допустили помилку в словах BATH та BAT, проґавили свої помилки.
Перші системи перевірки орфограми в MS-DOS використовувалися переважно в режимі перевірки текстових фрагментів. Підготувавши документ, користувач сканував текст, шукаючи помилки правопису. Пізніше в таких пакетах програм, як CoAuthor компанії Oracle, який недовго пробув на ринку, додали пакетну обробку. Це дало користувачеві змогу переглянути результати після того, як документ був оброблений, і виправити лише ті слова, які вважалися написаними помилково. Коли об'єм пам'яті та потужність процесорів збільшилися, перевірку правопису почали виконувати у фоновому режимі в інтерактивний спосіб, як-от у програмі Spellbound, випущеній в 1987 році, та Microsoft Word, починаючи з версії Word 95.
Останніми роками системи перевірки орфографії стають дедалі досконалішими; деякі здатні розпізнавати й прості граматичні помилки. Однак навіть у кращих випадках вони рідко вловлюють усі помилки в тексті (наприклад, помилки у словах-омофонах) і позначать неологізми та іноземні слова як написані неправильно. Утім, системи перевірки орфографії можна вважати різновидом допомоги для писання іноземною мовою, завдяки якому учні, які не є носіями мови, отримують змогу виявляти й виправляти неправильно написані слова цільовою мовою.
Перевірка орфографії для мов, відмінних від англійської
Англійська мова примітна тим, що більшість слів, які використовуються в офіційному письмі, мають єдине написання, яке можна знайти у звичайному словнику (за винятком хіба що деяких жаргонізмів і модифікованих слів). У багатьох інших мовах слова часто поєднуються, утворюючи нові слова. Приміром, у німецькій мові складні іменники часто утворюються з інших існуючих іменників.
У деяких системах писемносіт не вдається чітко відокремити одне слово від іншого. Така особливість вимагає додаткових алгоритмів розділення слів.
Кожна з цих проблем створює унікальні виклики для неангломовних систем перевірки орфографії.
Контекстно-чутливі системи перевірки орфографії
Проводилися дослідження з розробки алгоритмів, здатних розпізнавати неправильно написане слово на основі контексту — інших слів у тому ж реченні або абзаці. Такі алгоритми дають змогу не лише виловлювати слова з помилками, а й пом'якшують негативний ефект від розширення словників, дозволяючи розпізнавати більшу кількість слів. Наприклад, слово baht не розпізнаватиметься як неправильно написане bath, якщо в тому ж абзаці зустрічаєтються слова на кшталт Thai or Thailand.
Найпоширенішим прикладом помилок, виявлених такою системою, є помилки з омофонами, як-от виділені жирним шрифтом слова в такому реченні:
Their coming too sea if its reel.
Найуспішнішим алгоритмом на сьогоднішній день є «Алгоритм виправлення орфографії на основі Winnow» Ендрю Голдінга (Andrew Golding) та Дена Рота (Dan Roth), опублікований у 1999 році, який здатен розпізнавати близько 96 % контекстно-залежних орфографічних помилок, на додаток до звичайних несловесних орфографічних помилок.
Контекстно-залежна перевірка орфографії з'явилася в Microsoft Office 2007, а також застосовувалася в неіснуючому нині Google Wave.
Існують також , які намагаються знаходити проблеми з граматикою, що виходять за рамки орфографічних помилок, зокрема неправильний вибір слів.
Див. також
Примітки
- U.S. Patent 6618697, Method for rule-based correction of spelling and grammar errors
- de Amorim, R.C.; Zampieri, M. (2013) Effective Spell Checking Methods Using Clustering Algorithms. [ 17 серпня 2017 у Wayback Machine.] Proceedings of Recent Advances in Natural Language Processing (RANLP2013). Hissar, Bulgaria. p. 172—178.
- Zampieri, M.; de Amorim, R.C. (2014) Between Sound and Spelling: Combining Phonetics and Clustering Algorithms to Improve Target Word Recovery. Proceedings of the 9th International Conference on Natural Language Processing (PolTAL). Lecture Notes in Computer Science (LNCS). Springer. p. 438—449.
- Earnest, Les. (PDF). Stanford University. Архів оригіналу (PDF) за 22 жовтня 2012. Процитовано 10 жовтня 2011.
- Peterson, James (Dec 1980). Computer Programs for Detecting and Correcting Spelling Errors (PDF). Процитовано 18 лютого 2011.
- Earnest, Les. (PDF). Архів оригіналу (PDF) за 20 липня 2011. Процитовано 18 лютого 2011.
- . Архів оригіналу за 5 лютого 2009. Процитовано 18 грудня 2008., citation: «Maria Mariani… was one of a group of six linguists from Georgetown University who developed the first spell-check system for the IBM corporation.»
- Advertisement (November 1982). The Spelling Bee Is Over. PC Magazine. с. 165. Процитовано 21 October 2013.
- Golding, Andrew R.; Roth, Dan (1999). Journal Article. Machine Learning. SpringerLink. 34: 107—130. doi:10.1023/A:1007545901558.
- Walt Mossberg (4 січня 2007). Review. Wall Street Journal. Процитовано 24 вересня 2010.
- Google Operating System. googlesystem.blogspot.com. 29 травня 2009. Процитовано 25 вересня 2010. Google's Context-Sensitive Spell Checker. 29 травня 2009. Процитовано 25 вересня 2010.
Вікіпедія, Українська, Україна, книга, книги, бібліотека, стаття, читати, завантажити, безкоштовно, безкоштовно завантажити, mp3, відео, mp4, 3gp, jpg, jpeg, gif, png, малюнок, музика, пісня, фільм, книга, гра, ігри, мобільний, телефон, android, ios, apple, мобільний телефон, samsung, iphone, xiomi, xiaomi, redmi, honor, oppo, nokia, sonya, mi, ПК, web, Інтернет
V obchislyuvalnij tehnici sistema perevirki orfografiyi t zv spelcheker ce dopomizhna programa yaka shukaye v teksti dokumenta slova napisani nepravilno Znajdeni pomilki poznachayutsya specialnim chinom zazvichaj dlya cogo vikoristovuyetsya chervone pidkreslennya U deyakih vipadkah koristuvachevi okrim zaznachennya misc mozhlivih pomilok nadayetsya mozhlivist vibrati odin iz pravilnih variantiv napisannya Sistemi perevirki orfografiyi mozhut buti avtonomni yak pravilno u takomu razi peredbacheno mozhlivist integraciyi z inshimi programami abo vhoditi yak okremij modul do skladu inshoyi programi zokrema tekstovogo procesora poshtovogo kliyenta elektronnogo slovnika poshukovoyi sistemi tosho Princip robotiZazvichaj sistema perevirki orfografiyi vikonuye taki diyi Zchituye tekst i viokremlyuye slova z yakih vin skladayetsya Porivnyuye kozhne slovo tekstu zi spiskom pravilno napisanih sliv tobto slovnikom Takij spisok okrim vlasne sliv mozhe mistiti dodatkovu informaciyu yak ot miscya de mozhe buti znak perenosu leksichni j gramatichni atributi tosho Dodatkova diya osoblivosti yakoyi zalezhat vid movi algoritm pidtrimki morfologiyi Sistema maye vrahovuvati ne tilki pochatkovu formu slova a j usi mozhlivi jogo slovoformi mnozhinu vidminki styagnennya tosho U movah iz rozvinutoyu morfologiyeyu yak ot takih yakim pritamanna aglyutinaciya vidminyuvannya tosho cej proces mozhe buti velmi skladnim Korist vid morfologichnogo analizu tobto perevirka chimaloyi kilkosti slovoform u prostih movah na kshtalt anglijskoyi ne ochevidna ale korist dlya sintetichnih mov yak ot nimecka ugorska ukrayinska turecka bezsumnivna Yak dodatok do cih komponentiv interfejs program daye koristuvacham zmogu uhvalyuvati abo vidkidati zaproponovani zamini i zminyuvati sposib roboti programi Isnuyut takozh alternativni tipi sistem perevirki orfografiyi u yakih dlya viyavlennya pomilok zamist pravilno napisanih sliv vikoristovuyetsya viklyuchno statistichna informaciya yak ot N grami Zazvichaj takij pidhid potrebuye chimalih zusil dlya otrimannya dostatnoyi kilkosti statistichnoyi informaciyi Jogo osnovnimi perevagami ye mensha potreba v operativnij pam yati ta spromozhnist vipravlyati pomilki v slovah yakih nemaye u slovniku U deyakih sistemah perevirki orfografiyi vikoristovuyutsya spiski sliv iz nepravilnim napisannyam i propoziciyi dlya takih sliv Takomu pidhodu brakuye gnuchkosti najchastishe jogo vikoristovuyut pid chas vipravlen u paperovih dokumentah yak ot u rozdilah Div takozh v enciklopediyah Dlya perevirki orfografiyi vikoristovuyut takozh algoritmi klasternogo analizu v poyednanni z fonetichnoyu informaciyeyu IstoriyaDo poyavi komp yuteriv Pershi sistemi iz funkciyami perevirki orfografiyi z yavilisya v 1957 r zokrema sistemi perevirki orfografiyi dlya tochkovih zobrazhen kursivnogo pisma ta specialni programi yaki zamist pomilkovih zapisiv shukali zapisi v bazah danih V 1961 r en Les Earnest yakij ocholyuvav doslidzhennya ciyeyi perspektivnoyi tehnologiyi vvazhav za potribne stvoriti pershu sistemu perevirki orfografiyi yaka operuvala spiskom iz 10 000 dopustimih sliv Ralf Gorin Ralph Gorin u toj chas aspirant Ernesta stvoriv pershu spravzhnyu programu spelcheker yaku mozhna bulo zastosuvati do bud yakogo anglijskogo tekstu vzagali a ne tilki v ramkah doslidzhennya SPELL dlya DEC PDP 10 u Laboratoriyi shtuchnogo rozumu v Stenfordskomu universiteti lyutij 1971 r Gorin napisav kod SPELL na asembleri abi prishvidshiti yiyi robotu Vin stvoriv orfografichnij korektor yakij skladav spisok sliv sho vidriznyalisya vid danogo slova lishe odniyeyu literoyu abo perestanovkoyu liter cej spisok demonstruvavsya koristuvachevi Gorin zrobiv programu SPELL zagalnodostupnoyu yak i bilshist program stvorenih u Laboratoriyi SAIL Stanford Artificial Intelligence Laboratory Nevdovzi vona poshirilasya vsim svitom cherez merezhu ARPAnet Ce stalosya za 10 rokiv do togo yak na rinku z yavilisya dostupni personalni komp yuteri SPELL vikoristani v nij algoritmi j strukturi danih stimulyuvali rozvitok programi v Unix Pershi sistemi perevirki orfografiyi shiroko poshirilisya na obchislyuvalnih mashinah naprikinci 1970 h rokiv Komanda iz shesti lingvistiv iz Dzhordzhtaunskogo universitetu rozrobili pershu sistemu perevirki orfografiyi dlya korporaciyi IBM Pislya poyavi komp yuteriv Pershi sistemi perevirki orfografiyi dlya personalnih komp yuteriv z yavilisya v 1980 r na komp yuterah CP M ta TRS 80 Nevdovzi pislya cogo v 1981 r bulo stvoreno orfografichni paketi dlya IBM PC Chimalo rozrobnikiv zokrema Mariya Mariani Maria Mariani Random House Soft Art Microlytics Proximity Circle Noetics ta Reference Software poshiryuvali komplekti OEM program ta produkti dlya kincevih koristuvachiv na rinku programnogo zabezpechennya yakij shvidko zrostav zdebilshogo dlya personalnih komp yuteriv PC ale takozh i dlya Apple Macintosh VAX ta UNIX Na personalnih komp yuterah ci sistemi perevirki orfografiyi pracyuvali avtonomno bilshist iz nih za nayavnosti dostatnoyi pam yati mogli pracyuvati yak rezidentni programi TSR v komplektah program dlya obrobki tekstiv na PC Utim ci programi nedovgo zalishalisya na rinku okremimi programami u seredini 1980 h rr rozrobniki populyarnih tekstovih redaktoriv yak ot i WordPerfect vbuduvali sistemi perevirki orfografiyi zdebilshogo za licenziyami opisanih vishe kompanij u rozroblyuvani nimi paketi program Nevdovzi ci sistemi pochali pidtrimuvati ne tilki anglijsku a j inshi yevropejski a zgodom navit i azijski movi Prote proces morfologichnoyi obrobki pidvishiv vimogi do programnogo zabezpechennya osoblivo v aglyutinativnih movah na kshtalt ugorskoyi j finskoyi Hocha rozmir rinku programnogo zabezpechennya dlya obrobki tekstiv u takih krayinah yak napriklad Islandiya ne vipravdovuvav investiciyi v rozrobku sistem perevirki orfografiyi marketingova politika deyakih kompanij yak ot WordPerfect utim peredbachala lokalizaciyu program dlya yaknajbilshoyi kilkosti rinkiv Brauzeri U vebbrauzeri Firefox 2 0 peredbacheno pidtrimku perevirki orfografiyi dlya kontentu stvoryuvanogo koristuvachem yak ot pid chas redaguvannya j nabirannya tekstu u viki u vebsluzhbah elektronnoyi poshti na bagatoh sajtah u blogah i na sajtah socialnih merezh U vebbrauzerah Google Chrome Konqueror ta Opera u poshtovomu kliyenti Kmail ta programi dlya obminu mittyevimi povidomlennyami Pidgin takozh ye pidtrimka perevirki orfografiyi zdijsnyuvana zasobami modulya V operacijnij sistemi Mac OS X perevirka orfografiyi zdijsnyuyetsya na rivni sistemi praktichno v usih vbudovanih programah i navit u programah storonnih virobnikiv Isnuyut takozh onlajn sistemi perevirki orfografiyi ukrayinskih vebsajtiv FunkcionalnistPershi spelchekeri sluguvali radshe dlya perevirki nizh dlya vipravlennya voni ne proponuvali variantiv zamin dlya nepravilno napisanih sliv Voni vmili shukati drukarski pomilki ale ne vmili logichni j fonetichni Pered rozrobnikami postalo skladne pitannya yak dlya nepravilno napisanogo slova vidibrati iz mnozhini mozhlivih vipravlen najimovirnishi Potribno bulo viyavlyati strukturu slova i zastosovuvati do neyi algoritmi vidpovidnosti pevnim shablonam Shodo rozmiru slovnika dozvolenih tobto gramatichno pravilno napisanih sliv u teoriyi zdayetsya logichnim princip sho bilshe to krashe sho bilshe pravilnih sliv to menshe pravilno napisanih sliv sistema poznachit yak pomilkovi Na praktici zh viyavilosya sho optimalnim rozmirom slovnika dlya anglijskoyi movi ye 90 000 sliv Yaksho slovnik bilshe sistema pochinala propuskati nepravilno napisani slova oskilki ci nepravilni slova chasto viyavlyalisya realno isnuyuchimi u specifichnih oblastyah Napriklad na osnovi analizu korpusu movi viyavilosya sho slovo BAHT ce najimovirnishe nepravilno napisane slovo BATH abo BAT i duzhe ridko jdetsya same pro valyutu Tayilandu tajskij bat THAI BATH Tobto bulo b dorechnishe shob ta nevelika kilkist lyudej yaki pishut pro tajski bati stiknulasya z pomilkovimi spracovuvannyami nizh shob velika kilkist lyudej yaki dopustili pomilku v slovah BATH ta BAT progavili svoyi pomilki Pershi sistemi perevirki orfogrami v MS DOS vikoristovuvalisya perevazhno v rezhimi perevirki tekstovih fragmentiv Pidgotuvavshi dokument koristuvach skanuvav tekst shukayuchi pomilki pravopisu Piznishe v takih paketah program yak CoAuthor kompaniyi Oracle yakij nedovgo probuv na rinku dodali paketnu obrobku Ce dalo koristuvachevi zmogu pereglyanuti rezultati pislya togo yak dokument buv obroblenij i vipraviti lishe ti slova yaki vvazhalisya napisanimi pomilkovo Koli ob yem pam yati ta potuzhnist procesoriv zbilshilisya perevirku pravopisu pochali vikonuvati u fonovomu rezhimi v interaktivnij sposib yak ot u programi Spellbound vipushenij v 1987 roci ta Microsoft Word pochinayuchi z versiyi Word 95 Ostannimi rokami sistemi perevirki orfografiyi stayut dedali doskonalishimi deyaki zdatni rozpiznavati j prosti gramatichni pomilki Odnak navit u krashih vipadkah voni ridko vlovlyuyut usi pomilki v teksti napriklad pomilki u slovah omofonah i poznachat neologizmi ta inozemni slova yak napisani nepravilno Utim sistemi perevirki orfografiyi mozhna vvazhati riznovidom dopomogi dlya pisannya inozemnoyu movoyu zavdyaki yakomu uchni yaki ne ye nosiyami movi otrimuyut zmogu viyavlyati j vipravlyati nepravilno napisani slova cilovoyu movoyu Perevirka orfografiyi dlya mov vidminnih vid anglijskoyiAnglijska mova primitna tim sho bilshist sliv yaki vikoristovuyutsya v oficijnomu pismi mayut yedine napisannya yake mozhna znajti u zvichajnomu slovniku za vinyatkom hiba sho deyakih zhargonizmiv i modifikovanih sliv U bagatoh inshih movah slova chasto poyednuyutsya utvoryuyuchi novi slova Primirom u nimeckij movi skladni imenniki chasto utvoryuyutsya z inshih isnuyuchih imennikiv U deyakih sistemah pisemnosit ne vdayetsya chitko vidokremiti odne slovo vid inshogo Taka osoblivist vimagaye dodatkovih algoritmiv rozdilennya sliv Kozhna z cih problem stvoryuye unikalni vikliki dlya neanglomovnih sistem perevirki orfografiyi Kontekstno chutlivi sistemi perevirki orfografiyiProvodilisya doslidzhennya z rozrobki algoritmiv zdatnih rozpiznavati nepravilno napisane slovo na osnovi kontekstu inshih sliv u tomu zh rechenni abo abzaci Taki algoritmi dayut zmogu ne lishe vilovlyuvati slova z pomilkami a j pom yakshuyut negativnij efekt vid rozshirennya slovnikiv dozvolyayuchi rozpiznavati bilshu kilkist sliv Napriklad slovo baht ne rozpiznavatimetsya yak nepravilno napisane bath yaksho v tomu zh abzaci zustrichayetyutsya slova na kshtalt Thai or Thailand Najposhirenishim prikladom pomilok viyavlenih takoyu sistemoyu ye pomilki z omofonami yak ot vidileni zhirnim shriftom slova v takomu rechenni Their coming too sea if its reel Najuspishnishim algoritmom na sogodnishnij den ye Algoritm vipravlennya orfografiyi na osnovi Winnow Endryu Goldinga Andrew Golding ta Dena Rota Dan Roth opublikovanij u 1999 roci yakij zdaten rozpiznavati blizko 96 kontekstno zalezhnih orfografichnih pomilok na dodatok do zvichajnih neslovesnih orfografichnih pomilok Kontekstno zalezhna perevirka orfografiyi z yavilasya v Microsoft Office 2007 a takozh zastosovuvalasya v neisnuyuchomu nini Google Wave Isnuyut takozh yaki namagayutsya znahoditi problemi z gramatikoyu sho vihodyat za ramki orfografichnih pomilok zokrema nepravilnij vibir sliv Div takozhwords Unix LanguageToolPrimitkiU S Patent 6618697 Method for rule based correction of spelling and grammar errors de Amorim R C Zampieri M 2013 Effective Spell Checking Methods Using Clustering Algorithms 17 serpnya 2017 u Wayback Machine Proceedings of Recent Advances in Natural Language Processing RANLP2013 Hissar Bulgaria p 172 178 Zampieri M de Amorim R C 2014 Between Sound and Spelling Combining Phonetics and Clustering Algorithms to Improve Target Word Recovery Proceedings of the 9th International Conference on Natural Language Processing PolTAL Lecture Notes in Computer Science LNCS Springer p 438 449 Earnest Les PDF Stanford University Arhiv originalu PDF za 22 zhovtnya 2012 Procitovano 10 zhovtnya 2011 Peterson James Dec 1980 Computer Programs for Detecting and Correcting Spelling Errors PDF Procitovano 18 lyutogo 2011 Earnest Les PDF Arhiv originalu PDF za 20 lipnya 2011 Procitovano 18 lyutogo 2011 Arhiv originalu za 5 lyutogo 2009 Procitovano 18 grudnya 2008 citation Maria Mariani was one of a group of six linguists from Georgetown University who developed the first spell check system for the IBM corporation Advertisement November 1982 The Spelling Bee Is Over PC Magazine s 165 Procitovano 21 October 2013 Golding Andrew R Roth Dan 1999 Journal Article Machine Learning SpringerLink 34 107 130 doi 10 1023 A 1007545901558 Walt Mossberg 4 sichnya 2007 Review Wall Street Journal Procitovano 24 veresnya 2010 Google Operating System googlesystem blogspot com 29 travnya 2009 Procitovano 25 veresnya 2010 Google s Context Sensitive Spell Checker 29 travnya 2009 Procitovano 25 veresnya 2010