Ця стаття є сирим з іншої мови. Можливо, вона створена за допомогою машинного перекладу або перекладачем, який недостатньо володіє обома мовами. (липень 2015) |
Алгоритм саундекс (англ. Soundex) — фонетичний алгоритм для індексації назв за вимовою в англійській мові. Він встановлює однакове представлення омофонів, що спрощує їх пошук, попри неточності в написанні. Алгоритм переважно кодує приголосні звуки, голосні опускаються, крім першої букви. Саундекс — найвідоміший з усіх фонетичних алгоритмів (частково через те, що доступний у популярних СКБД, таких як DB2, PostgreSQL,MySQL,Ingres, MS SQL і Oracle), та часто використовується (неправильно) як синонім до «фонетичного алгоритму». Удосконалення саундексу є основою для багатьох сучасних фонетичних алгоритмів.
Історія
Саундекс розробили Роберт Рассел (англ. Robert C. Russell) і Маргарет Оделл (англ. Margaret King Odell) і запатентували у 1918 і 1922. Так званий американський саундекс, використовувався в 1930-х для ретроспективного аналізу переписів населення США від 1890 до 1920 року. Саундекс став відомим у 60-х роках XX століття, коли він став темою кількох статей в журналах Асоціації обчислювальних машин Communications of the ACM і [en], а особливо, коли був описаний Дональдом Кнутом в монографії «Мистецтво програмування».
Сучасні правила саундексу, які застосовує уряд США, розробляє та підтримує Національне управління архівів та документації (англ. NARA).
Опис алгоритму
Нижче продемонстрований американський саундекс.
Саудекс-код складається з букви й трьох числових розрядів: першу літеру імені й цифри кодування наступних приголосних. Подібні приголосні мають одні й ті ж цифри, так, наприклад, губні приголосні B, F, P, V кодуються номером 1. Голосні можуть вплинути на кодування, але не кодуються, окрім першої літери.
- Правильне значення може бути знайдено так чином:
- 1. Перша літера імені вводиться безпосередньо;
- 2. Кожна приголосна має свій код:
- b, F, P, V → 1;
- c, G, J, K, Q, S, X, Z → 2;
- d, T → 3;
- l → 4;
- m, N → 5;
- r → 6;
- h, W не кодуються.
- 3. Дві сусідні літери з однаковим числом кодуються як одне. Літери з тим же числом, розділених h або w також
- кодуються як одне число;
- 4. Продовжуєте поки не має одної букви і трьох цифр.
Використання цього алгоритму з «Robert» і «Rupert» поверне рядок «R163», а «Rubin» дає «R150». «Ashcraft» і «Ashcroft» дає на виході «A261».
Варіанти саундекс
Аналогічний алгоритм, званий «зворотним саундексом» має як префікс останню літеру замість першої.
NYSIIS алгоритм був введений у Ідентифікаційній та інформаційній системі штату Нью-Йорк у 1970 році, як поліпшення алгоритму саундекс. NYSIIS підтримує, на відміну від саундексу, відносну позицію голосних.
Саундекс Дейча-Мокотоффа (Д-М-Саундекс) було розроблено в 1985 році генеологістом Gary Mokotoff, а потім поліпшено Randy Daitch через проблеми з якими зіткнулися при спробі застосувати саундес Рассела для євреїв з німецькими або слов'янськими прізвищами. Д-M-Саундекс іноді називають «єврейської саундексом» або «саундексом Східної Європи», хоча автори й перешкоджали використанню цих назв. Алгоритм Д-M-Саундекс може повернути до 32 окремих фонетичних кодувань для одного імені. Результати Д-M-Саундекс повертає в числовому форматі між 100000 і 999999. Цей алгоритм є набагато складнішим, ніж саундекс Рассела.
Як відповідь на недоліки в алгоритмі саундекс, Лоуренс Філіпс розробив алгоритм метафон в 1990 році. Філіпс розробив поліпшений метафон в 2000 році, який він назвав подвійним метафоном. (Подвійний метафон) включає в себе набагато більший набір правил кодування, ніж його попередник, і повертає первинний і вторинний код для обліку різних вимов одного слова англійською мовою.
Див. також
Примітки
- Глосарій термінів національної моделі статистичного виробництва в органах державної статистики : затв. наказом Держ. служби статистки України від 30 грудня 2020 р. № 367 / Державна служба статистики України. — К. : 2020. — С. 8.
- Documentation: 9.1: fuzzystrmatch. PostgreSQL. оригіналу за 23 липня 2020. Процитовано 3 листопада 2012.
- MySQL 5.5 Reference Manual :: 12.5 String Functions. MySQL. SOUNDEX(str). оригіналу за 15 вересня 2016.
- Built-In Scaler SQL Functions. SQLite. 16 липня 2022. soundex(X). оригіналу за 20 грудня 2022. Процитовано 24 грудня 2022.
- SOUNDEX. Database SQL Reference. оригіналу за 21 жовтня 2017. Процитовано 20 жовтня 2017.
- Odell, Margaret King (1956). The profit in records management. Systems. New York. 20: 20.
- US patent 1261167, R. C. Russell, "(untitled)", issued 1918-04-02 (Archived)
- The Soundex Indexing System. National Archives. National Archives and Records Administration. 30 травня 2007. оригіналу за 12 березня 2020. Процитовано 24 грудня 2010.
Посилання
Вікідані мають властивість P3878:саундекс (використання) |
Вікіпедія, Українська, Україна, книга, книги, бібліотека, стаття, читати, завантажити, безкоштовно, безкоштовно завантажити, mp3, відео, mp4, 3gp, jpg, jpeg, gif, png, малюнок, музика, пісня, фільм, книга, гра, ігри, мобільний, телефон, android, ios, apple, мобільний телефон, samsung, iphone, xiomi, xiaomi, redmi, honor, oppo, nokia, sonya, mi, ПК, web, Інтернет
Cya stattya ye sirim perekladom z inshoyi movi Mozhlivo vona stvorena za dopomogoyu mashinnogo perekladu abo perekladachem yakij nedostatno volodiye oboma movami Bud laska dopomozhit polipshiti pereklad lipen 2015 Algoritm saundeks angl Soundex fonetichnij algoritm dlya indeksaciyi nazv za vimovoyu v anglijskij movi Vin vstanovlyuye odnakove predstavlennya omofoniv sho sproshuye yih poshuk popri netochnosti v napisanni Algoritm perevazhno koduye prigolosni zvuki golosni opuskayutsya krim pershoyi bukvi Saundeks najvidomishij z usih fonetichnih algoritmiv chastkovo cherez te sho dostupnij u populyarnih SKBD takih yak DB2 PostgreSQL MySQL Ingres MS SQL i Oracle ta chasto vikoristovuyetsya nepravilno yak sinonim do fonetichnogo algoritmu Udoskonalennya saundeksu ye osnovoyu dlya bagatoh suchasnih fonetichnih algoritmiv IstoriyaSaundeks rozrobili Robert Rassel angl Robert C Russell i Margaret Odell angl Margaret King Odell i zapatentuvali u 1918 i 1922 Tak zvanij amerikanskij saundeks vikoristovuvavsya v 1930 h dlya retrospektivnogo analizu perepisiv naselennya SShA vid 1890 do 1920 roku Saundeks stav vidomim u 60 h rokah XX stolittya koli vin stav temoyu kilkoh statej v zhurnalah Asociaciyi obchislyuvalnih mashin Communications of the ACM i en a osoblivo koli buv opisanij Donaldom Knutom v monografiyi Mistectvo programuvannya Suchasni pravila saundeksu yaki zastosovuye uryad SShA rozroblyaye ta pidtrimuye Nacionalne upravlinnya arhiviv ta dokumentaciyi angl NARA Opis algoritmuNizhche prodemonstrovanij amerikanskij saundeks Saudeks kod skladayetsya z bukvi j troh chislovih rozryadiv pershu literu imeni j cifri koduvannya nastupnih prigolosnih Podibni prigolosni mayut odni j ti zh cifri tak napriklad gubni prigolosni B F P V koduyutsya nomerom 1 Golosni mozhut vplinuti na koduvannya ale ne koduyutsya okrim pershoyi literi Pravilne znachennya mozhe buti znajdeno tak chinom 1 Persha litera imeni vvoditsya bezposeredno 2 Kozhna prigolosna maye svij kod b F P V 1 c G J K Q S X Z 2 d T 3 l 4 m N 5 r 6 h W ne koduyutsya dd 3 Dvi susidni literi z odnakovim chislom koduyutsya yak odne Literi z tim zhe chislom rozdilenih h abo w takozhkoduyutsya yak odne chislo dd 4 Prodovzhuyete poki ne maye odnoyi bukvi i troh cifr Vikoristannya cogo algoritmu z Robert i Rupert poverne ryadok R163 a Rubin daye R150 Ashcraft i Ashcroft daye na vihodi A261 Varianti saundeksAnalogichnij algoritm zvanij zvorotnim saundeksom maye yak prefiks ostannyu literu zamist pershoyi NYSIIS algoritm buv vvedenij u Identifikacijnij ta informacijnij sistemi shtatu Nyu Jork u 1970 roci yak polipshennya algoritmu saundeks NYSIIS pidtrimuye na vidminu vid saundeksu vidnosnu poziciyu golosnih Saundeks Dejcha Mokotoffa D M Saundeks bulo rozrobleno v 1985 roci geneologistom Gary Mokotoff a potim polipsheno Randy Daitch cherez problemi z yakimi zitknulisya pri sprobi zastosuvati saundes Rassela dlya yevreyiv z nimeckimi abo slov yanskimi prizvishami D M Saundeks inodi nazivayut yevrejskoyi saundeksom abo saundeksom Shidnoyi Yevropi hocha avtori j pereshkodzhali vikoristannyu cih nazv Algoritm D M Saundeks mozhe povernuti do 32 okremih fonetichnih koduvan dlya odnogo imeni Rezultati D M Saundeks povertaye v chislovomu formati mizh 100000 i 999999 Cej algoritm ye nabagato skladnishim nizh saundeks Rassela Yak vidpovid na nedoliki v algoritmi saundeks Lourens Filips rozrobiv algoritm metafon v 1990 roci Filips rozrobiv polipshenij metafon v 2000 roci yakij vin nazvav podvijnim metafonom Podvijnij metafon vklyuchaye v sebe nabagato bilshij nabir pravil koduvannya nizh jogo poperednik i povertaye pervinnij i vtorinnij kod dlya obliku riznih vimov odnogo slova anglijskoyu movoyu Div takozhMetafon NYSIISPrimitkiGlosarij terminiv nacionalnoyi modeli statistichnogo virobnictva v organah derzhavnoyi statistiki zatv nakazom Derzh sluzhbi statistki Ukrayini vid 30 grudnya 2020 r 367 Derzhavna sluzhba statistiki Ukrayini K 2020 S 8 Documentation 9 1 fuzzystrmatch PostgreSQL originalu za 23 lipnya 2020 Procitovano 3 listopada 2012 MySQL 5 5 Reference Manual 12 5 String Functions MySQL SOUNDEX str originalu za 15 veresnya 2016 Built In Scaler SQL Functions SQLite 16 lipnya 2022 soundex X originalu za 20 grudnya 2022 Procitovano 24 grudnya 2022 SOUNDEX Database SQL Reference originalu za 21 zhovtnya 2017 Procitovano 20 zhovtnya 2017 Odell Margaret King 1956 The profit in records management Systems New York 20 20 US patent 1261167 R C Russell untitled issued 1918 04 02 Archived The Soundex Indexing System National Archives National Archives and Records Administration 30 travnya 2007 originalu za 12 bereznya 2020 Procitovano 24 grudnya 2010 PosilannyaVikidani mayut vlastivist P3878 saundeks vikoristannya