Ця стаття містить правописні, лексичні, граматичні, стилістичні або інші мовні помилки, які треба виправити. |
Вживання у цій статті не відповідає щодо розділу «Посилання». |
У цьому розділі бракує інформації про нові здобутки сьогодення. (листопад 2023) |
Розпізнава́ння мо́влення (англ. speech recognition) або мо́влення-у-те́кст (англ. speech to text (STT))— процес перетворення мовленнєвого сигналу в текстовий потік. Не варто плутати із визначенням розпізнавання мови, оскільки «розпізнати мову» безпосередньо означає лише дати відповідь на питання, до якої мови належить сегмент мовленнєвого сигналу. Часто використовується у наборі технологій, що дають змогу керувати комп'ютером, використовуючи людський голос, вводити інформацію голосом, диктувати, транскрибувати (стенографувати) фонограми.
Історія
Перший пристрій для розпізнавання усної мови з'явився в 1952 році, він міг розпізнавати вимовлені людиною цифри. В 1964 році на ярмарку комп'ютерних технологій у Нью-Йорку було представлено пристрій IBM Shoebox.
з розпізнавання мовлення з'явилися на початку дев'яностих років. Зазвичай їх використовують люди, які через травми рук не в змозі набирати велику кількість тексту. Ці програми (наприклад, , ) переводять голос користувача в текст, таким чином, розвантажуючи його руки. Надійність перекладу у таких програм не дуже висока, але з роками вона поступово покращується.
Збільшення обчислювальних потужностей мобільних пристроїв дозволило і для них створити з функцією розпізнавання усної мови. Серед таких програм варто відзначити Microsoft Voice Command, яка дозволяє працювати з багатьма прикладними програмами за допомогою голосу. Наприклад, можна включити відтворення музики в плеєрі або створити новий документ.
У комп'ютерах Apple Macintosh у налаштуваннях системи є вбудована функція Speech, що здатна аналізувати команди користувача при натисканні певної клавіші, або якщо команді користувача передує ключове слово.
Ще однією цікавою програмою є Speereo Voice Translator — голосовий перекладач. SVT здатна розпізнавати , вимовлені англійською мовою, і «промовляти» у відповідь переклад однією з вибраних мов.
Для української мови відома розробка розпізнавання мовлення, яка дає змогу вводити текст голосом. Ця система працює зі словником понад 100 тисяч слів. Її можна завантажити та використовувати для диктування текстів середньої складності.
Інтелектуальні мовні прикладні програми, що дозволяють автоматично синтезувати і розпізнавати усну мову, є наступним етапом розвитку інтерактивних голосових систем IVR. Використання інтерактивного телефонного програмного забезпечення в наш час[] є не даниною моді, а життєвою необхідністю. Зниження навантаження на операторів контакт-центрів і секретарів, скорочення витрат на оплату праці і підвищення продуктивності систем обслуговування — ось тільки деякі переваги, що доводять доцільність подібних програм.
Однак, прогрес не стоїть на місці і останнім часом[] у телефонних інтерактивних програмах все частіше використовують системи автоматичного розпізнавання і синтезу мовлення. У цьому випадку спілкування з голосовим порталом стає природнішим, оскільки вибір в ньому може бути здійснений не тільки за допомогою тонового набору, але і за допомогою голосових команд. При цьому системи є незалежними від дикторів, тобто розпізнають голос будь-якої людини. Основною перевагою голосових систем є доброзичливість до користувача — він позбавляється від необхідності продиратися крізь складні і заплутані лабіринти голосових меню. Тепер достатньо вимовлення мети дзвінка, після чого автоматично перемістить абонента в потрібний пункт меню.
Наступним кроком технологій розпізнавання мови можна вважати розвиток так званих (Інтерфейсів Безмовного/Артикуляторного Доступу). Ці системи обробки мовлення базуються на одержанні й обробці мовних сигналів на ранній стадії артикуляції. Цей етап розвитку розпізнавання мови викликаний двома істотними вадами сучасних систем розпізнавання: надмірна чутливість до шумів, а також необхідність чіткої і ясної вимови при звертанні до системи розпізнавання. Підхід, заснований на SSI, полягає в тому, щоби використовувати нові сенсори, що не піддаються впливу шумів, як доповнення до оброблених акустичних сигналів.
Методи розпізнавання
Цей розділ потребує доповнення. |
Якість розпізнавання
На 2016 рік розробка з розпізнавання та синтезу мови від компанії Microsoft забезпечує якість розпізнавання, близьку до людини (5.9% помилок проти 5.1%) та здатна визначати контекст (спорт, комп'ютери тощо). В 2017 році компанія IBM досягла рівня помилок у 5.5%.
Примітки
- Davies , K.H., Biddulph, R. and Balashek, S. (1952) Automatic Speech Recognition of Spoken Digits, J. Acoust. Soc. Am. 24(6) pp.637 - 642
- . Архів оригіналу за 5 березня 2016. Процитовано 12 серпня 2012.
- . Архів оригіналу за 23 серпня 2017. Процитовано 23 серпня 2017.
Див. також
Література
- Т.К. Винцюк. Анализ, распознавание и смысловая интерпретация речевых сигналов. — Киев. Наукова думка, 1987.
- Методы автоматического распознавания речи: В 2-х книгах. Пер. с англ./Под ред. У. Ли. — М.: Мир, 1983. — Кн. 1. 328 с., ил.
- Синтез и распознавание речи. Современные решения: А.В. Фролов, Г.В. Фролов.
Посилання
- Розпізнавання мови, Гуру енциклопедія [ 10 березня 2013 у Wayback Machine.]
- Цифрова обробка сигналів [ 3 січня 2009 у Wayback Machine.]
- . ITCua. 28 грудня 2004. Архів оригіналу за 21 жовтня 2016. Процитовано 20 жовтня 2016. (рос.)
Це незавершена стаття з технології. Ви можете проєкту, виправивши або дописавши її. |
Вікіпедія, Українська, Україна, книга, книги, бібліотека, стаття, читати, завантажити, безкоштовно, безкоштовно завантажити, mp3, відео, mp4, 3gp, jpg, jpeg, gif, png, малюнок, музика, пісня, фільм, книга, гра, ігри, мобільний, телефон, android, ios, apple, мобільний телефон, samsung, iphone, xiomi, xiaomi, redmi, honor, oppo, nokia, sonya, mi, ПК, web, Інтернет
Cya stattya mistit pravopisni leksichni gramatichni stilistichni abo inshi movni pomilki yaki treba vipraviti Vi mozhete dopomogti vdoskonaliti cyu stattyu pogodivshi yiyi iz chinnimi movnimi standartami Vzhivannya zovnishnih posilan u cij statti ne vidpovidaye pravilam ta nastanovam Vikipediyi shodo rozdilu Posilannya Bud laska udoskonalte cyu stattyu shlyahom viluchennya nadmirnoyi kilkosti zovnishnih posilan abo shlyahom viluchennya zovnishnih posilan yaki ye nedorechnimi dlya rozdilu Posilannya ta konvertujte korisni posilannya u viglyadi dzherel vinosok u vidpovidnij chastini tekstu statti U comu rozdili brakuye informaciyi pro novi zdobutki sogodennya Bud laska rozshirte cej rozdil dodavshi cyu informaciyu Podrobici mozhut buti na storinci obgovorennya listopad 2023 Rozpiznava nnya mo vlennya angl speech recognition abo mo vlennya u te kst angl speech to text STT proces peretvorennya movlennyevogo signalu v tekstovij potik Ne varto plutati iz viznachennyam rozpiznavannya movi oskilki rozpiznati movu bezposeredno oznachaye lishe dati vidpovid na pitannya do yakoyi movi nalezhit segment movlennyevogo signalu Chasto vikoristovuyetsya u nabori tehnologij sho dayut zmogu keruvati komp yuterom vikoristovuyuchi lyudskij golos vvoditi informaciyu golosom diktuvati transkribuvati stenografuvati fonogrami IstoriyaPershij pristrij dlya rozpiznavannya usnoyi movi z yavivsya v 1952 roci vin mig rozpiznavati vimovleni lyudinoyu cifri V 1964 roci na yarmarku komp yuternih tehnologij u Nyu Jorku bulo predstavleno pristrij IBM Shoebox z rozpiznavannya movlennya z yavilisya na pochatku dev yanostih rokiv Zazvichaj yih vikoristovuyut lyudi yaki cherez travmi ruk ne v zmozi nabirati veliku kilkist tekstu Ci programi napriklad perevodyat golos koristuvacha v tekst takim chinom rozvantazhuyuchi jogo ruki Nadijnist perekladu u takih program ne duzhe visoka ale z rokami vona postupovo pokrashuyetsya Zbilshennya obchislyuvalnih potuzhnostej mobilnih pristroyiv dozvolilo i dlya nih stvoriti z funkciyeyu rozpiznavannya usnoyi movi Sered takih program varto vidznachiti Microsoft Voice Command yaka dozvolyaye pracyuvati z bagatma prikladnimi programami za dopomogoyu golosu Napriklad mozhna vklyuchiti vidtvorennya muziki v pleyeri abo stvoriti novij dokument U komp yuterah Apple Macintosh u nalashtuvannyah sistemi ye vbudovana funkciya Speech sho zdatna analizuvati komandi koristuvacha pri natiskanni pevnoyi klavishi abo yaksho komandi koristuvacha pereduye klyuchove slovo She odniyeyu cikavoyu programoyu ye Speereo Voice Translator golosovij perekladach SVT zdatna rozpiznavati vimovleni anglijskoyu movoyu i promovlyati u vidpovid pereklad odniyeyu z vibranih mov Dlya ukrayinskoyi movi vidoma rozrobka rozpiznavannya movlennya yaka daye zmogu vvoditi tekst golosom Cya sistema pracyuye zi slovnikom ponad 100 tisyach sliv Yiyi mozhna zavantazhiti ta vikoristovuvati dlya diktuvannya tekstiv serednoyi skladnosti Intelektualni movni prikladni programi sho dozvolyayut avtomatichno sintezuvati i rozpiznavati usnu movu ye nastupnim etapom rozvitku interaktivnih golosovih sistem IVR Vikoristannya interaktivnogo telefonnogo programnogo zabezpechennya v nash chas koli ye ne daninoyu modi a zhittyevoyu neobhidnistyu Znizhennya navantazhennya na operatoriv kontakt centriv i sekretariv skorochennya vitrat na oplatu praci i pidvishennya produktivnosti sistem obslugovuvannya os tilki deyaki perevagi sho dovodyat docilnist podibnih program Odnak progres ne stoyit na misci i ostannim chasom koli u telefonnih interaktivnih programah vse chastishe vikoristovuyut sistemi avtomatichnogo rozpiznavannya i sintezu movlennya U comu vipadku spilkuvannya z golosovim portalom staye prirodnishim oskilki vibir v nomu mozhe buti zdijsnenij ne tilki za dopomogoyu tonovogo naboru ale i za dopomogoyu golosovih komand Pri comu sistemi ye nezalezhnimi vid diktoriv tobto rozpiznayut golos bud yakoyi lyudini Osnovnoyu perevagoyu golosovih sistem ye dobrozichlivist do koristuvacha vin pozbavlyayetsya vid neobhidnosti prodiratisya kriz skladni i zaplutani labirinti golosovih menyu Teper dostatno vimovlennya meti dzvinka pislya chogo avtomatichno peremistit abonenta v potribnij punkt menyu Nastupnim krokom tehnologij rozpiznavannya movi mozhna vvazhati rozvitok tak zvanih Interfejsiv Bezmovnogo Artikulyatornogo Dostupu Ci sistemi obrobki movlennya bazuyutsya na oderzhanni j obrobci movnih signaliv na rannij stadiyi artikulyaciyi Cej etap rozvitku rozpiznavannya movi viklikanij dvoma istotnimi vadami suchasnih sistem rozpiznavannya nadmirna chutlivist do shumiv a takozh neobhidnist chitkoyi i yasnoyi vimovi pri zvertanni do sistemi rozpiznavannya Pidhid zasnovanij na SSI polyagaye v tomu shobi vikoristovuvati novi sensori sho ne piddayutsya vplivu shumiv yak dopovnennya do obroblenih akustichnih signaliv Metodi rozpiznavannyaCej rozdil potrebuye dopovnennya Yakist rozpiznavannyaNa 2016 rik rozrobka z rozpiznavannya ta sintezu movi vid kompaniyi Microsoft zabezpechuye yakist rozpiznavannya blizku do lyudini 5 9 pomilok proti 5 1 ta zdatna viznachati kontekst sport komp yuteri tosho V 2017 roci kompaniya IBM dosyagla rivnya pomilok u 5 5 PrimitkiDavies K H Biddulph R and Balashek S 1952 Automatic Speech Recognition of Spoken Digits J Acoust Soc Am 24 6 pp 637 642 Arhiv originalu za 5 bereznya 2016 Procitovano 12 serpnya 2012 Arhiv originalu za 23 serpnya 2017 Procitovano 23 serpnya 2017 Div takozhDovga korotkochasna pam yat Zadacha rozpiznavannya obraziv Shtuchnij intelekt Golosove keruvannya OCR Efekt Mak Gurka Informativnist oznakLiteraturaT K Vincyuk Analiz raspoznavanie i smyslovaya interpretaciya rechevyh signalov Kiev Naukova dumka 1987 Metody avtomaticheskogo raspoznavaniya rechi V 2 h knigah Per s angl Pod red U Li M Mir 1983 Kn 1 328 s il Sintez i raspoznavanie rechi Sovremennye resheniya A V Frolov G V Frolov PosilannyaRozpiznavannya movi Guru enciklopediya 10 bereznya 2013 u Wayback Machine Cifrova obrobka signaliv 3 sichnya 2009 u Wayback Machine ITCua 28 grudnya 2004 Arhiv originalu za 21 zhovtnya 2016 Procitovano 20 zhovtnya 2016 ros Ce nezavershena stattya z tehnologiyi Vi mozhete dopomogti proyektu vipravivshi abo dopisavshi yiyi