Whisper — це модель машинного навчання для розпізнавання мовлення та транскрипції, створена OpenAI і вперше випущена як програмне забезпечення з відкритим кодом у вересні 2022 року. Вона здатна транскрибувати мовлення англійською та кількома іншими мовами, а також може перекладати певну кількість мов англійською. OpenAI стверджує, що поєднання різних навчальних даних, використаних у його розробці, призвело до покращеного розпізнавання акцентів, фонового шуму та жаргону порівняно з попередніми підходами.
Тип | Трансформер (архітектура глибокого навчання) |
---|---|
Автори | OpenAI |
Розробник | OpenAI |
Перший випуск | September 21, 2022 |
Ліцензія | MIT[2] |
Репозиторій | https://github.com/openai/whisper |
Вебсайт | openai.com/research/whisper |
Whisper — це глибокого навчання зі слабким контролем, створена з використанням архітектури трансформера кодера-декодера.
Передісторія
Розпізнавання мовлення має довгу історію досліджень; перші підходи використовували статистичні методи, такі як , а пізніше — приховані моделі Маркова. Приблизно у 2010-х роках підходи до глибоких нейронних мереж стали більш поширеними для моделей розпізнавання мовлення, які покращувалися дедалі більше завдяки великим даним і підвищеній обчислювальній продуктивності. Ранні підходи до глибокого навчання в розпізнаванні мовлення включали згорткові нейронні мережі, які були обмежені через їх нездатність захоплювати послідовні дані. Це пізніше призвело до розвитку підходів , які включають рекурентні нейронні мережі, що використовували довгу короткочасну пам'ять.
Трансформери, представлені Google у 2017 році, витіснили багато попередніх сучасних підходів до розв'язання багатьох проблем у машинному навчанні та почали ставати основною нейронною архітектурою в таких сферах, як моделювання мови та комп'ютерний зір; підходи до навчання акустичних моделей зі слабким контролем були визнані на початку 2020-х років перспективними для підходів до розпізнавання мови з використанням глибоких нейронних мереж.
Навчання та можливості
Whisper було навчено за допомогою напівконтрольованого навчання на 680 000 годин багатомовних і багатозадачних даних, з яких близько однієї п'ятої (117 000 годин) були аудіоданими не для англійської мови. Whisper не перевершує моделі, які спеціалізуються на наборі даних LibriSpeech, хоча під час тестування на багатьох наборах даних модель надійніша і робить на 50 % менше помилок, ніж інші моделі.
Whisper має різну частоту помилок щодо транскрибування різними мовами, з вищою у мовах, які недостатньо представлені у навчальних даних.
Модель використовувалася як основа для уніфікованої моделі для розпізнавання мовлення та більш загального .
Архітектура
Архітектура Whisper заснована на трансформаторі кодер-декодер. Вхідний звук розбивається на 30-секундні фрагменти, які перетворюються на кепстр Mel-частоти, який передається кодеру. Декодер навчений передбачати текстові підписи, які йдуть після цього. Спеціальні маркери використовуються для виконання кількох завдань, наприклад позначки часу на рівні фрази.
Примітки
- Radford, Alec; Kim, Jong Wook; Xu, Tao; Brockman, Greg; McLeavey, Christine; Sutskever, Ilya (6 грудня 2022). Robust Speech Recognition via Large-Scale Weak Supervision. arXiv:2212.04356 [eess.AS].
- https://api.github.com/repos/openai/whisper
- Golla, Ramsri Goutham (6 березня 2023). Here Are Six Practical Use Cases for the New Whisper API. Slator (амер.). оригіналу за 25 березня 2023. Процитовано 12 серпня 2023.
- Dickson, Ben (3 жовтня 2022). How will OpenAI's Whisper model impact AI applications?. VentureBeat (амер.). оригіналу за 15 березня 2023. Процитовано 12 серпня 2023.
- Wiggers, Kyle (21 вересня 2022). OpenAI open-sources Whisper, a multilingual speech recognition system. TechCrunch (амер.). оригіналу за 12 лютого 2023. Процитовано 12 лютого 2023.
- Radford, Alec; Kim, Jong Wook; Xu, Tao; Brockman, Greg; McLeavey, Christine; Sutskever, Ilya (6 грудня 2022). Robust Speech Recognition via Large-Scale Weak Supervision. arXiv:2212.04356 [eess.AS].
- Yu, Dong; Deng, Li (2014). Automatic speech recognition: a deep learning approach. Signals and communication technology (англ.) (вид. 2015th). London Heidelberg: Springer. с. 9. ISBN .
- Kamath, Uday; Graham, Kenneth L.; Emara, Wael (2022). Transformers for machine learning: a deep dive. Chapman & Hall/CRC machine learning & pattern recognition (англ.) (вид. First). Boca Raton London New York: CRC Press, Taylor & Francis Group. с. xix. ISBN .
- Paaß, Gerhard; Giesselbach, Sven (16 лютого 2023). Foundation Models for Speech, Images, Videos, and Control. Foundation Models for Natural Language Processing. Artificial Intelligence: Foundations, Theory, and Algorithms (англ.). с. 313—382. arXiv:2302.08575. doi:10.1007/978-3-031-23190-2_7. ISBN .
- Introducing Whisper. openai.com (амер.). 21 вересня 2022. оригіналу за 20 серпня 2023. Процитовано 21 серпня 2023.
- Wiggers, Kyle (1 березня 2023). OpenAI debuts Whisper API for speech-to-text transcription and translation. TechCrunch (амер.). оригіналу за 18 липня 2023. Процитовано 21 серпня 2023.
- Yuan, Gong; Khurana, Sameer; Karlinsky, Leonid; Glass, James (2023). Whisper-AT: Noise-Robust Automatic Speech Recognizers are Also Strong General Audio Event Taggers. Interspeech 2023. с. 2798—2802. arXiv:2307.03183. doi:10.21437/Interspeech.2023-2193.
Вікіпедія, Українська, Україна, книга, книги, бібліотека, стаття, читати, завантажити, безкоштовно, безкоштовно завантажити, mp3, відео, mp4, 3gp, jpg, jpeg, gif, png, малюнок, музика, пісня, фільм, книга, гра, ігри, мобільний, телефон, android, ios, apple, мобільний телефон, samsung, iphone, xiomi, xiaomi, redmi, honor, oppo, nokia, sonya, mi, ПК, web, Інтернет
U Vikipediyi ye statti pro inshi znachennya cogo termina Whisper ce model mashinnogo navchannya dlya rozpiznavannya movlennya ta transkripciyi stvorena OpenAI i vpershe vipushena yak programne zabezpechennya z vidkritim kodom u veresni 2022 roku Vona zdatna transkribuvati movlennya anglijskoyu ta kilkoma inshimi movami a takozh mozhe perekladati pevnu kilkist mov anglijskoyu OpenAI stverdzhuye sho poyednannya riznih navchalnih danih vikoristanih u jogo rozrobci prizvelo do pokrashenogo rozpiznavannya akcentiv fonovogo shumu ta zhargonu porivnyano z poperednimi pidhodami Whisper sistema rozpiznavannya movlennya TipTransformer arhitektura glibokogo navchannya AvtoriOpenAIRozrobnikOpenAIPershij vipuskSeptember 21 2022LicenziyaMIT 2 Repozitorijhttps github com openai whisperVebsajtopenai com research whisper Whisper ce glibokogo navchannya zi slabkim kontrolem stvorena z vikoristannyam arhitekturi transformera kodera dekodera PeredistoriyaRozpiznavannya movlennya maye dovgu istoriyu doslidzhen pershi pidhodi vikoristovuvali statistichni metodi taki yak a piznishe prihovani modeli Markova Priblizno u 2010 h rokah pidhodi do glibokih nejronnih merezh stali bilsh poshirenimi dlya modelej rozpiznavannya movlennya yaki pokrashuvalisya dedali bilshe zavdyaki velikim danim i pidvishenij obchislyuvalnij produktivnosti Ranni pidhodi do glibokogo navchannya v rozpiznavanni movlennya vklyuchali zgortkovi nejronni merezhi yaki buli obmezheni cherez yih nezdatnist zahoplyuvati poslidovni dani Ce piznishe prizvelo do rozvitku pidhodiv yaki vklyuchayut rekurentni nejronni merezhi sho vikoristovuvali dovgu korotkochasnu pam yat Transformeri predstavleni Google u 2017 roci vitisnili bagato poperednih suchasnih pidhodiv do rozv yazannya bagatoh problem u mashinnomu navchanni ta pochali stavati osnovnoyu nejronnoyu arhitekturoyu v takih sferah yak modelyuvannya movi ta komp yuternij zir pidhodi do navchannya akustichnih modelej zi slabkim kontrolem buli viznani na pochatku 2020 h rokiv perspektivnimi dlya pidhodiv do rozpiznavannya movi z vikoristannyam glibokih nejronnih merezh Navchannya ta mozhlivostiWhisper bulo navcheno za dopomogoyu napivkontrolovanogo navchannya na 680 000 godin bagatomovnih i bagatozadachnih danih z yakih blizko odniyeyi p yatoyi 117 000 godin buli audiodanimi ne dlya anglijskoyi movi Whisper ne perevershuye modeli yaki specializuyutsya na nabori danih LibriSpeech hocha pid chas testuvannya na bagatoh naborah danih model nadijnisha i robit na 50 menshe pomilok nizh inshi modeli Whisper maye riznu chastotu pomilok shodo transkribuvannya riznimi movami z vishoyu u movah yaki nedostatno predstavleni u navchalnih danih Model vikoristovuvalasya yak osnova dlya unifikovanoyi modeli dlya rozpiznavannya movlennya ta bilsh zagalnogo ArhitekturaArhitektura Whisper zasnovana na transformatori koder dekoder Vhidnij zvuk rozbivayetsya na 30 sekundni fragmenti yaki peretvoryuyutsya na kepstr Mel chastoti yakij peredayetsya koderu Dekoder navchenij peredbachati tekstovi pidpisi yaki jdut pislya cogo Specialni markeri vikoristovuyutsya dlya vikonannya kilkoh zavdan napriklad poznachki chasu na rivni frazi PrimitkiRadford Alec Kim Jong Wook Xu Tao Brockman Greg McLeavey Christine Sutskever Ilya 6 grudnya 2022 Robust Speech Recognition via Large Scale Weak Supervision arXiv 2212 04356 eess AS https api github com repos openai whisper Golla Ramsri Goutham 6 bereznya 2023 Here Are Six Practical Use Cases for the New Whisper API Slator amer originalu za 25 bereznya 2023 Procitovano 12 serpnya 2023 Dickson Ben 3 zhovtnya 2022 How will OpenAI s Whisper model impact AI applications VentureBeat amer originalu za 15 bereznya 2023 Procitovano 12 serpnya 2023 Wiggers Kyle 21 veresnya 2022 OpenAI open sources Whisper a multilingual speech recognition system TechCrunch amer originalu za 12 lyutogo 2023 Procitovano 12 lyutogo 2023 Radford Alec Kim Jong Wook Xu Tao Brockman Greg McLeavey Christine Sutskever Ilya 6 grudnya 2022 Robust Speech Recognition via Large Scale Weak Supervision arXiv 2212 04356 eess AS Yu Dong Deng Li 2014 Automatic speech recognition a deep learning approach Signals and communication technology angl vid 2015th London Heidelberg Springer s 9 ISBN 978 1 4471 5778 6 Kamath Uday Graham Kenneth L Emara Wael 2022 Transformers for machine learning a deep dive Chapman amp Hall CRC machine learning amp pattern recognition angl vid First Boca Raton London New York CRC Press Taylor amp Francis Group s xix ISBN 978 0 367 76734 1 Paass Gerhard Giesselbach Sven 16 lyutogo 2023 Foundation Models for Speech Images Videos and Control Foundation Models for Natural Language Processing Artificial Intelligence Foundations Theory and Algorithms angl s 313 382 arXiv 2302 08575 doi 10 1007 978 3 031 23190 2 7 ISBN 978 3 031 23189 6 Introducing Whisper openai com amer 21 veresnya 2022 originalu za 20 serpnya 2023 Procitovano 21 serpnya 2023 Wiggers Kyle 1 bereznya 2023 OpenAI debuts Whisper API for speech to text transcription and translation TechCrunch amer originalu za 18 lipnya 2023 Procitovano 21 serpnya 2023 Yuan Gong Khurana Sameer Karlinsky Leonid Glass James 2023 Whisper AT Noise Robust Automatic Speech Recognizers are Also Strong General Audio Event Taggers Interspeech 2023 s 2798 2802 arXiv 2307 03183 doi 10 21437 Interspeech 2023 2193