Ця стаття може бути [en] для читачів. (жовтень 2020) |
Word2vec — це одна з методик обробки природної мови. Алгоритм word2vec використовує нейромережну модель для навчання пов'язаностей слів із великого корпусу тексту. Щойно її натреновано, така модель може виявляти слова-синоніми, або підказувати додаткові слова для часткового речення. Як випливає з її назви, word2vec представляє кожне окреме слово певним переліком чисел, званим вектором. Ці вектори ретельно підбираються таким чином, щоби проста математична функція (косинусна подібність векторів) вказувала на рівень [en] між словами, представленими цими векторами.
Підхід
Word2vec — це група пов'язаних моделей, які використовують для вкладання слів. Ці моделі є пласкими двошаровими нейронними мережами, тренованими відтворювати лінгвістичний контекст слів. Word2vec бере як вхід великий корпус тексту, й виробляє векторний простір, зазвичай з кількома сотнями вимірів, де кожному унікальному слову з цього корпусу призначено відповідний вектор у цьому просторі. Векторні представлення слів розташовуються в цьому векторному просторі таким чином, що слова, які поділяють спільний контекст у корпусі, розташовуються близько одне до одного в цьому просторі.
Історія
Word2vec було створено та опубліковано 2013 року командою дослідників від проводом [en] з Google. Їхні дві праці було процитовано в науковій літературі 17231 та 21670 разів відповідно (Google Scholar, 2 серпня 2020 р.). Цей алгоритм запатентовано. Інші дослідники зробили корисний аналіз та пояснення цього алгоритму. Вектори вкладень, створені застосуванням алгоритму word2vec, мають деякі переваги в порівнянні з ранішими алгоритмами, такими як латентно-семантичний аналіз.
НТС та пропуск-грами
Щоби виробляти розподілене представлення слів, word2vec може використовувати будь-яку з двох архітектур моделей: неперервну торбу слів (НТС, англ. continuous bag-of-words, CBOW) та неперервний пропуск-грам (англ. continuous skip-gram). В архітектурі неперервної торби слів модель передбачує поточне слово з вікна слів навколишнього контексту. Порядок слів контексту не впливає на передбачування (припущення торби слів). В архітектурі неперервного пропуск-граму модель використовує поточне слово для передбачування навколишнього вікна слів контексту. Архітектура пропуск-граму надає словам найближчого контексту більшої ваги, ніж словам контексту віддаленішого. Згідно зауваження авторів, НТС є швидшою, тоді як пропуск-грам є повільнішим, але краще впорується з рідкісними словами.
Параметризація
Результати тренування word2vec можуть бути чутливими до параметризації. Нижче наведено деякі важливі параметри тренування word2vec.
Алгоритм тренування
Модель word2vec може бути треновано ієрархічною softmax та/або (англ. negative sampling). Для наближення , яку модель прагне максимізувати, метод ієрархічної softmax використовує для зменшення обчислень дерево Гаффмана. Метод негативного вибирання, з іншого боку, підходить до задачі максимізації мінімізуванням логарифмічної правдоподібності вибраних негативних зразків. Згідно авторів, ієрархічна softmax працює краще для рідкісних слів, тоді як негативне вибирання працює краще для частих слів, і краще з векторами низької розмірності. Зі збільшенням числа тренувальних епох ієрархічна softmax бути корисною перестає.
Недовибирання
Високочастотні слова часто дають мало інформації. Щоби підвищувати швидкість тренування, слова з частотою, вищою певного порогу, можна недовибирати.
Розмірність
Якість вкладання слів зі збільшенням розмірності зростає. Але після досягнення якоїсь точки гранична вигідність згасатиме. Зазвичай розмірність векторів встановлюють у межах між 100 та 1 000.
Вікно контексту
Розмір вікна контексту визначає, скільки слів перед та після заданого слова включатимуться як слова контексту для цього заданого слова. Згідно зауваження авторів, рекомендованим значенням є 10 для пропуск-граму та 5 для НТС.
Розширення
Було запропоновано розширення word2vec для побудови вкладень цілих документів (а не окремих слів). Це розширення зветься paragraph2vec або doc2vec, його було втілено в інструментах C, Python та Java/Scala (див. нижче), серед яких версії для Java та Python також підтримують висновування вкладень документів на нових, небачених документах.
Векторні представлення слів для біоінформатики: БіоВектори
Розширення векторного представлення слів для N-грамів у біологічних послідовностях (наприклад, ДНК, РНК та протеїнах) для застосувань у біоінформатиці було запропоновано Асґарі та Мофрадом. Назване біо-векторами (БіоВек, англ. bio-vectors, BioVec) для позначування біологічних послідовностей в цілому, й протеїн-векторами (ПротВек, англ. protein-vectors, ProtVec) для протеїнів (послідовностей амінокислот) та ген-векторами (ГенВек, англ. gene-vectors, GeneVec) для послідовностей генів, це представлення можливо широко використовувати в застосуваннях машинного навчання в протеоміці та геноміці. Ці результати дозволяють припустити, що БіоВектори можуть характеризувати біологічні послідовності в термінах біохімічних та біофізичних інтерпретацій закономірностей, що лежать в їх основі. Подібний варіант, dna2vec, показав, що існує кореляція між оцінкою подібності Нідлмана — Вунша та косинусною подібністю векторного представлення слів dna2vec.
Векторні представлення слів для радіології: розумне вкладання слів (РВС)
Розширення векторного представляння слів для створювання щільного векторного представлення неструктурованих радіологічних звітів було запропоновано Банерджі та ін. Одним із найбільших викликів, пов'язаних із word2vec, є те, як оброблювати невідомі або позасловникові слова та морфологічно подібні слова. Особливо це може бути проблемою в таких областях як медицина, де симптоми та пов'язані слова можуть використовувати залежно від стилю, якому віддає перевагу рентгенолог, і слова можуть бути вживаними нечасто у великому корпусі. Якщо модель word2vec не зустрічала певного слова раніше, її буде змушено використовувати випадковий вектор, що є загалом дуже далеким від його ідеального представлення.
Для подолання головних викликів, пов'язаних із витягуванням інформації з клінічних текстів, до яких належать неоднозначність вільного переповідного стилю тексту, лексичні варіації, використання неграматичних та телеграфних фраз, довільне впорядкування слів, та часте трапляння абревіатур та акронімів, РВС (англ. Intelligent Word Embedding, IWE) поєднує word2vec з методикою семантично-словникового відображування (англ. semantic dictionary mapping). Особливо цікаво, що модель РВС (натренована на одному установчому наборі даних) було успішно перенесено на інший установчий набір даних, що показує добру узагальнюваність цього підходу над установами.
Аналіз
Причини успішного навчання вкладень слів у системі word2vec є погано вивченими. Ґолдберґ та Леві вказують, що цільова функція word2vec змушує слова, що трапляються в подібних контекстах, мати подібні вкладення (згідно вимірювань косинусної подібності), й зауважують, що це узгоджується з дистрибутивною гіпотезою Дж. Р. Ферта. Проте вони зауважують, що це пояснення є «дуже на пальцях», і стверджують, що краще було би мати формальніше пояснення.
Леві та ін. (2015) показують, що більша частина чудової продуктивності в подальших задачах word2vec та подібних вкладань є результатом не самих цих моделей, а вибору конкретних гіперпараметрів. Перенесення цих гіперпараметрів на «традиційніші» підходи видає в подальших задачах подібні продуктивності. Арора та ін. (2016) пояснюють word2vec та подібні алгоритми як такі, що виконують висновування для простої породжувальної моделі для тексту, до якого входить породжувальний процес випадкового блукання на основі логлінійної предметної моделі. Вони використовують це, щоби пояснити деякі властивості вкладань слів, включно з їхнім використанням для розв'язування аналогій.
Збереження семантичних та синтаксичних зв'язків
Підхід вкладання слів є здатним вловлювати декілька різних степенів подібності між словами. Міколов та ін. (2013) виявили, що семантичні та синтаксичні закономірності можливо відтворювати застосуванням векторної арифметики. Такі закономірності, як «Man is to Woman as Brother is to Sister» (укр. «Чоловік» для «Жінка» це як «Брат» для «Сестра») можливо породжувати через алгебричні операції на векторних представленнях цих слів, так що векторне представлення «Brother» − «Man» + «Woman» виробляє результат, що в цій моделі є найближчим до векторного представлення «Sister». Такі зв'язки можливо породжувати для ряду як семантичних взаємовідношень (таких як Країна — Столиця), так і для синтаксичних (наприклад, теперішній час — минулий час).
Оцінювання якості моделі
Міколов та ін. (2013) розробляють підхід до оцінювання якості моделей word2vec, який спирається на обговорені вище семантичні та синтаксичні закономірності. Вони розробили набір із 8 869 семантичних та 10 675 синтаксичних відношень, який вони використовують як еталон для перевірки точності моделі. Оцінюючи якість векторної моделі, користувач може спиратися на цю перевірку точності, втілену в word2vec, або розробляти свій власний перевірний набір, що є змістовним для корпусу, який складає цю модель. Цей підхід пропонує привабливішу перевірку, ніж просто стверджування, що слова, найподібніші до заданого перевірного слова, є інтуїтивно вірогідними.
Параметри та якість моделі
Використання різних параметрів моделі та різних розмірів корпусу може сильно впливати на якість моделі word2vec. Точність можливо покращувати рядом шляхів, включно з вибором архітектури моделі (НТС чи пропуск-грам), збільшенням тренувального набору даних, збільшенням числа вимірів вектору, та збільшенням розміру вікна слів, які розглядає цей алгоритм. Кожне з цих вдосконалень пов'язано з витратами на збільшену обчислювальну складність, і відтак із подовженим часом породження моделі.
В моделях, що використовують великий корпус та високе число вимірів, пропуск-грамова модель видає найвищу загальну точність, та стійко виробляє найвищу точність у семантичних зв'язках, у той же час видаючи найкращу синтаксичну точність в більшості випадків. Проте НТС є менш обчислювально витратною, й відає результати подібної точності.
Точність загалом зростає зі зростанням числа використовуваних слів, і зі зростанням числа вимірів. Міколов та ін. повідомляють, що подвоєння обсягу тренувальних даних призводить до зростання обчислювальної складності, еквівалентного подвоєнню числа вимірів вектору.
Альтзайлер зі співавторами (2017) досліджували продуктивність word2vec у двох семантичних перевірках для різних розмірів корпусу. Вони виявили, що word2vec має круту [en], перевершуючи іншу методику вкладання слів (ЛСА), коли її тренують з розмірами корпусу від середнього до великого (понад 10 мільйонів слів). Проте з малим тренувальним корпусом ЛСА показувала кращу продуктивність. Крім того, вони показують, що найкраще налаштування параметрів залежить від задачі та тренувального корпусу. Менше з тим, для пропуск-грамових моделей, тренованих на корпусі середнього розміру, з 50 вимірами, розмір вікна в 15 та 10 негативних зразків видаються добрим налаштуванням параметрів.
Див. також
Примітки
- Mikolov, Tomas та ін. (2013). Efficient Estimation of Word Representations in Vector Space. arXiv:1301.3781 [cs.CL]. (англ.)
- Mikolov, Tomas та ін. (2013). Efficient Estimation of Word Representations in Vector Space. arXiv:1301.3781 [cs.CL]. (англ.)
- Mikolov, Tomas (2013). Distributed representations of words and phrases and their compositionality. Advances in Neural Information Processing Systems. arXiv:1310.4546. (англ.)
- [1], "Computing numeric representations of words in a high-dimensional space" (англ.)
- Goldberg, Yoav; Levy, Omer (2014). word2vec Explained: Deriving Mikolov et al.'s Negative-Sampling Word-Embedding Method. arXiv:1402.3722 [cs.CL]. (англ.)
- Řehůřek, Radim. Word2vec and friends (Youtube video). Процитовано 14 серпня 2015. . Архів оригіналу за 22 травня 2020. Процитовано 16 травня 2022.
{{}}
: Обслуговування CS1: Сторінки з текстом «archived copy» як значення параметру title () (англ.) - Mikolov, Tomas; Sutskever, Ilya; Chen, Kai; Corrado, Greg S.; Dean, Jeff (2013). Distributed representations of words and phrases and their compositionality. [en]. arXiv:1310.4546. Bibcode:2013arXiv1310.4546M. (англ.)
- . code.google.com. Архів оригіналу за 3 листопада 2020. Процитовано 13 червня 2016. (англ.)
- Parameter (hs & negative). Google Groups. Архів оригіналу за 22 січня 2011. Процитовано 13 червня 2016. (англ.)
- (PDF). Journal of Machine Learning Research, 2008. Vol. 9, pg. 2595. Архів оригіналу (PDF) за 6 травня 2021. Процитовано 18 березня 2017. (англ.)
- Le, Quoc та ін. (2014). Distributed Representations of Sentences and Documents. arXiv:1405.4053 [cs.CL]. (англ.)
- . Архів оригіналу за 23 січня 2021. Процитовано 2 серпня 2015. (англ.)
- . Архів оригіналу за 7 січня 2020. Процитовано 18 лютого 2016. (англ.)
- . Архів оригіналу за 31 грудня 2015. Процитовано 13 січня 2016. (англ.)
- Asgari, Ehsaneddin; Mofrad, Mohammad R.K. (2015). Continuous Distributed Representation of Biological Sequences for Deep Proteomics and Genomics. PLOS ONE. 10 (11): e0141287. arXiv:1503.05140. Bibcode:2015PLoSO..1041287A. doi:10.1371/journal.pone.0141287. PMC 4640716. PMID 26555596.
{{}}
: Обслуговування CS1: Сторінки із непозначеним DOI з безкоштовним доступом () (англ.) - Ng, Patrick (2017). dna2vec: Consistent vector representations of variable-length k-mers. arXiv:1701.06279 [q-bio.QM]. (англ.)
- Banerjee, Imon; Chen, Matthew C.; Lungren, Matthew P.; Rubin, Daniel L. (2018). Radiology report annotation using intelligent word embeddings: Applied to multi-institutional chest CT cohort. Journal of Biomedical Informatics. 77: 11—20. doi:10.1016/j.jbi.2017.11.012. PMC 5771955. PMID 29175548. (англ.)
- Levy, Omer; Goldberg, Yoav; Dagan, Ido (2015). . Transactions of the Association for Computational Linguistics. Transactions of the Association for Computational Linguistics. 3: 211—225. doi:10.1162/tacl_a_00134. Архів оригіналу за 12 листопада 2020. Процитовано 24 жовтня 2020. (англ.)
- Arora, S та ін. (Summer 2016). . Transactions of Assoc. Of Comp. Linguistics. 4: 385—399. doi:10.1162/tacl_a_00106. Архів оригіналу за 12 листопада 2020. Процитовано 24 жовтня 2020 — через ACLWEB. (англ.)
- Mikolov, Tomas; Yih, Wen-tau; Zweig, Geoffrey (2013). Linguistic Regularities in Continuous Space Word Representations. HLT-Naacl: 746—751. (англ.)
- . Архів оригіналу за 17 червня 2016. Процитовано 10 червня 2016. (англ.)
- Altszyler, E.; Ribeiro, S.; Sigman, M.; Fernández Slezak, D. (2017). The interpretation of dream meaning: Resolving ambiguity using Latent Semantic Analysis in a small corpus of text. Consciousness and Cognition. 56: 178—187. arXiv:1610.01520. doi:10.1016/j.concog.2017.09.004. PMID 28943127. S2CID 195347873. (англ.)
Посилання
- Wikipedia2Vec [ 19 вересня 2020 у Wayback Machine.][2] [ 29 жовтня 2020 у Wayback Machine.] (введення [ 9 листопада 2020 у Wayback Machine.])
Втілення
- C [ 5 грудня 2020 у Wayback Machine.]
- C# [ 30 жовтня 2020 у Wayback Machine.]
- Python (TensorFlow) [ 24 березня 2020 у Wayback Machine.]
- Python (Gensim) [ 30 жовтня 2020 у Wayback Machine.]
- Java/Scala [ 8 листопада 2020 у Wayback Machine.]
Вікіпедія, Українська, Україна, книга, книги, бібліотека, стаття, читати, завантажити, безкоштовно, безкоштовно завантажити, mp3, відео, mp4, 3gp, jpg, jpeg, gif, png, малюнок, музика, пісня, фільм, книга, гра, ігри, мобільний, телефон, android, ios, apple, мобільний телефон, samsung, iphone, xiomi, xiaomi, redmi, honor, oppo, nokia, sonya, mi, ПК, web, Інтернет
Cya stattya mozhe buti en dlya chitachiv Bud laska dopomozhit en Mozhlivo storinka obgovorennya mistit zauvazhennya shodo potribnih zmin zhovten 2020 Word2vec ce odna z metodik obrobki prirodnoyi movi Algoritm word2vec vikoristovuye nejromerezhnu model dlya navchannya pov yazanostej sliv iz velikogo korpusu tekstu Shojno yiyi natrenovano taka model mozhe viyavlyati slova sinonimi abo pidkazuvati dodatkovi slova dlya chastkovogo rechennya Yak viplivaye z yiyi nazvi word2vec predstavlyaye kozhne okreme slovo pevnim perelikom chisel zvanim vektorom Ci vektori retelno pidbirayutsya takim chinom shobi prosta matematichna funkciya kosinusna podibnist vektoriv vkazuvala na riven en mizh slovami predstavlenimi cimi vektorami PidhidWord2vec ce grupa pov yazanih modelej yaki vikoristovuyut dlya vkladannya sliv Ci modeli ye plaskimi dvosharovimi nejronnimi merezhami trenovanimi vidtvoryuvati lingvistichnij kontekst sliv Word2vec bere yak vhid velikij korpus tekstu j viroblyaye vektornij prostir zazvichaj z kilkoma sotnyami vimiriv de kozhnomu unikalnomu slovu z cogo korpusu priznacheno vidpovidnij vektor u comu prostori Vektorni predstavlennya sliv roztashovuyutsya v comu vektornomu prostori takim chinom sho slova yaki podilyayut spilnij kontekst u korpusi roztashovuyutsya blizko odne do odnogo v comu prostori IstoriyaWord2vec bulo stvoreno ta opublikovano 2013 roku komandoyu doslidnikiv vid provodom en z Google Yihni dvi praci bulo procitovano v naukovij literaturi 17231 ta 21670 raziv vidpovidno Google Scholar 2 serpnya 2020 r Cej algoritm zapatentovano Inshi doslidniki zrobili korisnij analiz ta poyasnennya cogo algoritmu Vektori vkladen stvoreni zastosuvannyam algoritmu word2vec mayut deyaki perevagi v porivnyanni z ranishimi algoritmami takimi yak latentno semantichnij analiz NTS ta propusk gramiShobi viroblyati rozpodilene predstavlennya sliv word2vec mozhe vikoristovuvati bud yaku z dvoh arhitektur modelej neperervnu torbu sliv NTS angl continuous bag of words CBOW ta neperervnij propusk gram angl continuous skip gram V arhitekturi neperervnoyi torbi sliv model peredbachuye potochne slovo z vikna sliv navkolishnogo kontekstu Poryadok sliv kontekstu ne vplivaye na peredbachuvannya pripushennya torbi sliv V arhitekturi neperervnogo propusk gramu model vikoristovuye potochne slovo dlya peredbachuvannya navkolishnogo vikna sliv kontekstu Arhitektura propusk gramu nadaye slovam najblizhchogo kontekstu bilshoyi vagi nizh slovam kontekstu viddalenishogo Zgidno zauvazhennya avtoriv NTS ye shvidshoyu todi yak propusk gram ye povilnishim ale krashe vporuyetsya z ridkisnimi slovami ParametrizaciyaRezultati trenuvannya word2vec mozhut buti chutlivimi do parametrizaciyi Nizhche navedeno deyaki vazhlivi parametri trenuvannya word2vec Algoritm trenuvannya Model word2vec mozhe buti trenovano iyerarhichnoyu softmax ta abo angl negative sampling Dlya nablizhennya yaku model pragne maksimizuvati metod iyerarhichnoyi softmax vikoristovuye dlya zmenshennya obchislen derevo Gaffmana Metod negativnogo vibirannya z inshogo boku pidhodit do zadachi maksimizaciyi minimizuvannyam logarifmichnoyi pravdopodibnosti vibranih negativnih zrazkiv Zgidno avtoriv iyerarhichna softmax pracyuye krashe dlya ridkisnih sliv todi yak negativne vibirannya pracyuye krashe dlya chastih sliv i krashe z vektorami nizkoyi rozmirnosti Zi zbilshennyam chisla trenuvalnih epoh iyerarhichna softmax buti korisnoyu perestaye Nedovibirannya Visokochastotni slova chasto dayut malo informaciyi Shobi pidvishuvati shvidkist trenuvannya slova z chastotoyu vishoyu pevnogo porogu mozhna nedovibirati Rozmirnist Yakist vkladannya sliv zi zbilshennyam rozmirnosti zrostaye Ale pislya dosyagnennya yakoyis tochki granichna vigidnist zgasatime Zazvichaj rozmirnist vektoriv vstanovlyuyut u mezhah mizh 100 ta 1 000 Vikno kontekstu Rozmir vikna kontekstu viznachaye skilki sliv pered ta pislya zadanogo slova vklyuchatimutsya yak slova kontekstu dlya cogo zadanogo slova Zgidno zauvazhennya avtoriv rekomendovanim znachennyam ye 10 dlya propusk gramu ta 5 dlya NTS RozshirennyaBulo zaproponovano rozshirennya word2vec dlya pobudovi vkladen cilih dokumentiv a ne okremih sliv Ce rozshirennya zvetsya paragraph2vec abo doc2vec jogo bulo vtileno v instrumentah C Python ta Java Scala div nizhche sered yakih versiyi dlya Java ta Python takozh pidtrimuyut visnovuvannya vkladen dokumentiv na novih nebachenih dokumentah Vektorni predstavlennya sliv dlya bioinformatiki BioVektoriRozshirennya vektornogo predstavlennya sliv dlya N gramiv u biologichnih poslidovnostyah napriklad DNK RNK ta proteyinah dlya zastosuvan u bioinformatici bulo zaproponovano Asgari ta Mofradom Nazvane bio vektorami BioVek angl bio vectors BioVec dlya poznachuvannya biologichnih poslidovnostej v cilomu j proteyin vektorami ProtVek angl protein vectors ProtVec dlya proteyiniv poslidovnostej aminokislot ta gen vektorami GenVek angl gene vectors GeneVec dlya poslidovnostej geniv ce predstavlennya mozhlivo shiroko vikoristovuvati v zastosuvannyah mashinnogo navchannya v proteomici ta genomici Ci rezultati dozvolyayut pripustiti sho BioVektori mozhut harakterizuvati biologichni poslidovnosti v terminah biohimichnih ta biofizichnih interpretacij zakonomirnostej sho lezhat v yih osnovi Podibnij variant dna2vec pokazav sho isnuye korelyaciya mizh ocinkoyu podibnosti Nidlmana Vunsha ta kosinusnoyu podibnistyu vektornogo predstavlennya sliv dna2vec Vektorni predstavlennya sliv dlya radiologiyi rozumne vkladannya sliv RVS Rozshirennya vektornogo predstavlyannya sliv dlya stvoryuvannya shilnogo vektornogo predstavlennya nestrukturovanih radiologichnih zvitiv bulo zaproponovano Banerdzhi ta in Odnim iz najbilshih viklikiv pov yazanih iz word2vec ye te yak obroblyuvati nevidomi abo pozaslovnikovi slova ta morfologichno podibni slova Osoblivo ce mozhe buti problemoyu v takih oblastyah yak medicina de simptomi ta pov yazani slova mozhut vikoristovuvati zalezhno vid stilyu yakomu viddaye perevagu rentgenolog i slova mozhut buti vzhivanimi nechasto u velikomu korpusi Yaksho model word2vec ne zustrichala pevnogo slova ranishe yiyi bude zmusheno vikoristovuvati vipadkovij vektor sho ye zagalom duzhe dalekim vid jogo idealnogo predstavlennya Dlya podolannya golovnih viklikiv pov yazanih iz vityaguvannyam informaciyi z klinichnih tekstiv do yakih nalezhat neodnoznachnist vilnogo perepovidnogo stilyu tekstu leksichni variaciyi vikoristannya negramatichnih ta telegrafnih fraz dovilne vporyadkuvannya sliv ta chaste traplyannya abreviatur ta akronimiv RVS angl Intelligent Word Embedding IWE poyednuye word2vec z metodikoyu semantichno slovnikovogo vidobrazhuvannya angl semantic dictionary mapping Osoblivo cikavo sho model RVS natrenovana na odnomu ustanovchomu nabori danih bulo uspishno pereneseno na inshij ustanovchij nabir danih sho pokazuye dobru uzagalnyuvanist cogo pidhodu nad ustanovami AnalizPrichini uspishnogo navchannya vkladen sliv u sistemi word2vec ye pogano vivchenimi Goldberg ta Levi vkazuyut sho cilova funkciya word2vec zmushuye slova sho traplyayutsya v podibnih kontekstah mati podibni vkladennya zgidno vimiryuvan kosinusnoyi podibnosti j zauvazhuyut sho ce uzgodzhuyetsya z distributivnoyu gipotezoyu Dzh R Ferta Prote voni zauvazhuyut sho ce poyasnennya ye duzhe na palcyah i stverdzhuyut sho krashe bulo bi mati formalnishe poyasnennya Levi ta in 2015 pokazuyut sho bilsha chastina chudovoyi produktivnosti v podalshih zadachah word2vec ta podibnih vkladan ye rezultatom ne samih cih modelej a viboru konkretnih giperparametriv Perenesennya cih giperparametriv na tradicijnishi pidhodi vidaye v podalshih zadachah podibni produktivnosti Arora ta in 2016 poyasnyuyut word2vec ta podibni algoritmi yak taki sho vikonuyut visnovuvannya dlya prostoyi porodzhuvalnoyi modeli dlya tekstu do yakogo vhodit porodzhuvalnij proces vipadkovogo blukannya na osnovi loglinijnoyi predmetnoyi modeli Voni vikoristovuyut ce shobi poyasniti deyaki vlastivosti vkladan sliv vklyuchno z yihnim vikoristannyam dlya rozv yazuvannya analogij Zberezhennya semantichnih ta sintaksichnih zv yazkivPidhid vkladannya sliv ye zdatnim vlovlyuvati dekilka riznih stepeniv podibnosti mizh slovami Mikolov ta in 2013 viyavili sho semantichni ta sintaksichni zakonomirnosti mozhlivo vidtvoryuvati zastosuvannyam vektornoyi arifmetiki Taki zakonomirnosti yak Man is to Woman as Brother is to Sister ukr Cholovik dlya Zhinka ce yak Brat dlya Sestra mozhlivo porodzhuvati cherez algebrichni operaciyi na vektornih predstavlennyah cih sliv tak sho vektorne predstavlennya Brother Man Woman viroblyaye rezultat sho v cij modeli ye najblizhchim do vektornogo predstavlennya Sister Taki zv yazki mozhlivo porodzhuvati dlya ryadu yak semantichnih vzayemovidnoshen takih yak Krayina Stolicya tak i dlya sintaksichnih napriklad teperishnij chas minulij chas Ocinyuvannya yakosti modeliMikolov ta in 2013 rozroblyayut pidhid do ocinyuvannya yakosti modelej word2vec yakij spirayetsya na obgovoreni vishe semantichni ta sintaksichni zakonomirnosti Voni rozrobili nabir iz 8 869 semantichnih ta 10 675 sintaksichnih vidnoshen yakij voni vikoristovuyut yak etalon dlya perevirki tochnosti modeli Ocinyuyuchi yakist vektornoyi modeli koristuvach mozhe spiratisya na cyu perevirku tochnosti vtilenu v word2vec abo rozroblyati svij vlasnij perevirnij nabir sho ye zmistovnim dlya korpusu yakij skladaye cyu model Cej pidhid proponuye privablivishu perevirku nizh prosto stverdzhuvannya sho slova najpodibnishi do zadanogo perevirnogo slova ye intuyitivno virogidnimi Parametri ta yakist modeli Vikoristannya riznih parametriv modeli ta riznih rozmiriv korpusu mozhe silno vplivati na yakist modeli word2vec Tochnist mozhlivo pokrashuvati ryadom shlyahiv vklyuchno z viborom arhitekturi modeli NTS chi propusk gram zbilshennyam trenuvalnogo naboru danih zbilshennyam chisla vimiriv vektoru ta zbilshennyam rozmiru vikna sliv yaki rozglyadaye cej algoritm Kozhne z cih vdoskonalen pov yazano z vitratami na zbilshenu obchislyuvalnu skladnist i vidtak iz podovzhenim chasom porodzhennya modeli V modelyah sho vikoristovuyut velikij korpus ta visoke chislo vimiriv propusk gramova model vidaye najvishu zagalnu tochnist ta stijko viroblyaye najvishu tochnist u semantichnih zv yazkah u toj zhe chas vidayuchi najkrashu sintaksichnu tochnist v bilshosti vipadkiv Prote NTS ye mensh obchislyuvalno vitratnoyu j vidaye rezultati podibnoyi tochnosti Tochnist zagalom zrostaye zi zrostannyam chisla vikoristovuvanih sliv i zi zrostannyam chisla vimiriv Mikolov ta in povidomlyayut sho podvoyennya obsyagu trenuvalnih danih prizvodit do zrostannya obchislyuvalnoyi skladnosti ekvivalentnogo podvoyennyu chisla vimiriv vektoru Altzajler zi spivavtorami 2017 doslidzhuvali produktivnist word2vec u dvoh semantichnih perevirkah dlya riznih rozmiriv korpusu Voni viyavili sho word2vec maye krutu en perevershuyuchi inshu metodiku vkladannya sliv LSA koli yiyi trenuyut z rozmirami korpusu vid serednogo do velikogo ponad 10 miljoniv sliv Prote z malim trenuvalnim korpusom LSA pokazuvala krashu produktivnist Krim togo voni pokazuyut sho najkrashe nalashtuvannya parametriv zalezhit vid zadachi ta trenuvalnogo korpusu Menshe z tim dlya propusk gramovih modelej trenovanih na korpusi serednogo rozmiru z 50 vimirami rozmir vikna v 15 ta 10 negativnih zrazkiv vidayutsya dobrim nalashtuvannyam parametriv Div takozhAvtokoduvalnik Term dokumentna matricya Vidilyannya oznak Navchannya oznak Nejromerezhna model movi Vektorna model en fastText GloVe en PrimitkiMikolov Tomas ta in 2013 Efficient Estimation of Word Representations in Vector Space arXiv 1301 3781 cs CL angl Mikolov Tomas ta in 2013 Efficient Estimation of Word Representations in Vector Space arXiv 1301 3781 cs CL angl Mikolov Tomas 2013 Distributed representations of words and phrases and their compositionality Advances in Neural Information Processing Systems arXiv 1310 4546 angl 1 Computing numeric representations of words in a high dimensional space angl Goldberg Yoav Levy Omer 2014 word2vec Explained Deriving Mikolov et al s Negative Sampling Word Embedding Method arXiv 1402 3722 cs CL angl Rehurek Radim Word2vec and friends Youtube video Procitovano 14 serpnya 2015 Arhiv originalu za 22 travnya 2020 Procitovano 16 travnya 2022 a href wiki D0 A8 D0 B0 D0 B1 D0 BB D0 BE D0 BD Cite web title Shablon Cite web cite web a Obslugovuvannya CS1 Storinki z tekstom archived copy yak znachennya parametru title posilannya angl Mikolov Tomas Sutskever Ilya Chen Kai Corrado Greg S Dean Jeff 2013 Distributed representations of words and phrases and their compositionality en arXiv 1310 4546 Bibcode 2013arXiv1310 4546M angl code google com Arhiv originalu za 3 listopada 2020 Procitovano 13 chervnya 2016 angl Parameter hs amp negative Google Groups Arhiv originalu za 22 sichnya 2011 Procitovano 13 chervnya 2016 angl PDF Journal of Machine Learning Research 2008 Vol 9 pg 2595 Arhiv originalu PDF za 6 travnya 2021 Procitovano 18 bereznya 2017 angl Le Quoc ta in 2014 Distributed Representations of Sentences and Documents arXiv 1405 4053 cs CL angl Arhiv originalu za 23 sichnya 2021 Procitovano 2 serpnya 2015 angl Arhiv originalu za 7 sichnya 2020 Procitovano 18 lyutogo 2016 angl Arhiv originalu za 31 grudnya 2015 Procitovano 13 sichnya 2016 angl Asgari Ehsaneddin Mofrad Mohammad R K 2015 Continuous Distributed Representation of Biological Sequences for Deep Proteomics and Genomics PLOS ONE 10 11 e0141287 arXiv 1503 05140 Bibcode 2015PLoSO 1041287A doi 10 1371 journal pone 0141287 PMC 4640716 PMID 26555596 a href wiki D0 A8 D0 B0 D0 B1 D0 BB D0 BE D0 BD Cite journal title Shablon Cite journal cite journal a Obslugovuvannya CS1 Storinki iz nepoznachenim DOI z bezkoshtovnim dostupom posilannya angl Ng Patrick 2017 dna2vec Consistent vector representations of variable length k mers arXiv 1701 06279 q bio QM angl Banerjee Imon Chen Matthew C Lungren Matthew P Rubin Daniel L 2018 Radiology report annotation using intelligent word embeddings Applied to multi institutional chest CT cohort Journal of Biomedical Informatics 77 11 20 doi 10 1016 j jbi 2017 11 012 PMC 5771955 PMID 29175548 angl Levy Omer Goldberg Yoav Dagan Ido 2015 Transactions of the Association for Computational Linguistics Transactions of the Association for Computational Linguistics 3 211 225 doi 10 1162 tacl a 00134 Arhiv originalu za 12 listopada 2020 Procitovano 24 zhovtnya 2020 angl Arora S ta in Summer 2016 Transactions of Assoc Of Comp Linguistics 4 385 399 doi 10 1162 tacl a 00106 Arhiv originalu za 12 listopada 2020 Procitovano 24 zhovtnya 2020 cherez ACLWEB angl Mikolov Tomas Yih Wen tau Zweig Geoffrey 2013 Linguistic Regularities in Continuous Space Word Representations HLT Naacl 746 751 angl Arhiv originalu za 17 chervnya 2016 Procitovano 10 chervnya 2016 angl Altszyler E Ribeiro S Sigman M Fernandez Slezak D 2017 The interpretation of dream meaning Resolving ambiguity using Latent Semantic Analysis in a small corpus of text Consciousness and Cognition 56 178 187 arXiv 1610 01520 doi 10 1016 j concog 2017 09 004 PMID 28943127 S2CID 195347873 angl PosilannyaWikipedia2Vec 19 veresnya 2020 u Wayback Machine 2 29 zhovtnya 2020 u Wayback Machine vvedennya 9 listopada 2020 u Wayback Machine Vtilennya C 5 grudnya 2020 u Wayback Machine C 30 zhovtnya 2020 u Wayback Machine Python TensorFlow 24 bereznya 2020 u Wayback Machine Python Gensim 30 zhovtnya 2020 u Wayback Machine Java Scala 8 listopada 2020 u Wayback Machine