spaCy ([speɪˈsiː] spay-SEE) — бібліотека програмного забезпечення з відкритим вихідним кодом для обробки природної мови, написана на мовах програмування Python і Cython. Бібліотека розповсюджується під ліцензією MIT, а її основними розробниками є Метью Хоннібал та Інес Монтані, засновники компанії Explosion з розробки програмного забезпечення.
Тип | вільне та відкрите програмне забезпечення d і d |
---|---|
Розробник | d[1] |
Мова програмування | Python[2] |
Ліцензія | MIT |
Репозиторій | github.com/explosion/spaCy |
Вебсайт | spacy.io |
|
На відміну від NLTK, який широко використовується для навчання та досліджень, spaCy зосереджується на наданні програмного забезпечення для виробничого використання. spaCy також підтримує робочі процеси глибокого навчання, які дозволяють підключати статистичні моделі, навчені популярними бібліотеками машинного навчання, такими як TensorFlow, PyTorch або MXNet, через власну бібліотеку машинного навчання Thinc. Використовуючи Thinc як бекенд, spaCy пропонує моделі згорткових нейронних мереж для розмічування частин мови, розбору залежностей, категоризації тексту та розпізнавання іменованих сутностей (РІС). Попередньо створені моделі нейронних мереж для виконання цього завдання доступні для 17 мов, серед яких українська поки відсутня, хоча є багатомовна модель РІС. Додаткова підтримка токенізації для більш ніж 65 мов дозволяє користувачам також навчати власні моделі на власних наборах даних.
Історія
- Версія 1.0 була випущена 19 жовтня 2016 року і мала попередню підтримку робочих процесів глибокого навчання за допомогою підтримки конвеєрів обробки налаштувань. Крім того, містився узгоджувач правил, який підтримував анотацію об'єктів, та офіційно задокументований навчальний API.
- Версія 2.0 була випущена 7 листопада 2017 року та представила моделі згорткових нейронних мереж для 7 різних мов. Також підтримувалися спеціальні компоненти конвеєру обробки та атрибути розширення, а також мав вбудований компонент для класифікації тексту, який можна навчати.
- Версія 3.0 була випущена 1 лютого 2021 року та представила найсучасніші конвеєри на основі трансформерів. Також було запроваджено нову систему конфігурації та робочий процес навчання, а також підказки для типів і шаблони проектів. У цій версії була припинена підтримка Python 2.
Основні властивості
- Неруйнівна токенізація
- Підтримка «альфа-токенізації» для понад 65 мов
- Вбудована підтримка компонентів конвеєра, які можна навчати, таких як розпізнавання іменованих сутностей, розмічування частин мови, розбір залежностей, класифікація тексту, зв'язування іменованих сутностей тощо.
- Статистичні моделі для 19 мов
- [en] з попередньо підготовленими трансформерами, такими як BERT
- Підтримка користувацьких моделей у PyTorch, TensorFlow та інших фреймворках
- Швидкість і точність сучасного рівня
- Готова до виробництва система навчання
- Вбудовані візуалізатори для синтаксису та іменованих сутностей
- Просте пакування моделі, розгортання та керування робочим процесом
Розширення та інструменти для візуалізації
spaCy поставляється з кількома розширеннями та візуалізаціями, які доступні як безплатні бібліотеки з відкритим вихідним кодом:
- Thinc: Бібліотека машинного навчання оптимізована для використання центрального процесора та глибокого навчання, коли входом є текст.
- sense2vec: Бібліотека для обчислення подібності слів заснована на Word2vec.
- displaCy: Візуалізатор синтаксичного дерева залежностей з відкритим вихідним кодом, створений за допомогою JavaScript, CSS та SVG.
- displaCyENT: візуалізатор іменованих сутностей з відкритим кодом, створений за допомогою JavaScript та CSS.
Примітки
- A short introduction to NLP in Python with spaCy — 2017.
- The spacy Open Source Project on Open Hub: Languages Page — 2006.
- Choi et al. (2015).
- . Washington Post. Архів оригіналу за 20 грудня 2016. Процитовано 18 грудня 2016.
- . spacy.io (англ.). Архів оригіналу за 4 грудня 2021. Процитовано 4 квітня 2020.
- Bird, Steven; Klein, Ewan; Loper, Edward; Baldridge, Jason (2008). (PDF). Proceedings of the Third Workshop on Issues in Teaching Computational Linguistics, ACL: 62. doi:10.3115/1627306.1627317. ISBN . Архів оригіналу (PDF) за 14 серпня 2017. Процитовано 12 грудня 2021.
- . thinc.ai. Архів оригіналу за 9 листопада 2020. Процитовано 4 квітня 2020.
- . GitHub. Архів оригіналу за 12 грудня 2021. Процитовано 30 грудня 2016.
- . spacy.io. Архів оригіналу за 12 грудня 2021. Процитовано 10 березня 2020.
- . GitHub. Архів оригіналу за 12 грудня 2021. Процитовано 8 лютого 2021.
- . GitHub. Архів оригіналу за 12 грудня 2021. Процитовано 8 лютого 2021.
- . GitHub. Архів оригіналу за 12 грудня 2021. Процитовано 8 лютого 2021.
- . spacy.io (англ.). Архів оригіналу за 12 грудня 2021. Процитовано 8 лютого 2021.
- . spacy.io (англ.). Архів оригіналу за 12 грудня 2021. Процитовано 8 лютого 2021.
- . spacy.io (англ.). Архів оригіналу за 4 грудня 2021. Процитовано 8 лютого 2021.
- Trask et al. (2015). sense2vec - A Fast and Accurate Method for Word Sense Disambiguation In Neural Word Embeddings.
Посилання
- Офіційний сайт
- Впровадження Spacy Library [ 12 грудня 2021 у Wayback Machine.] (англ.)
Вікіпедія, Українська, Україна, книга, книги, бібліотека, стаття, читати, завантажити, безкоштовно, безкоштовно завантажити, mp3, відео, mp4, 3gp, jpg, jpeg, gif, png, малюнок, музика, пісня, фільм, книга, гра, ігри, мобільний, телефон, android, ios, apple, мобільний телефон, samsung, iphone, xiomi, xiaomi, redmi, honor, oppo, nokia, sonya, mi, ПК, web, Інтернет
spaCy s p eɪ ˈ s iː spay SEE biblioteka programnogo zabezpechennya z vidkritim vihidnim kodom dlya obrobki prirodnoyi movi napisana na movah programuvannya Python i Cython Biblioteka rozpovsyudzhuyetsya pid licenziyeyu MIT a yiyi osnovnimi rozrobnikami ye Metyu Honnibal ta Ines Montani zasnovniki kompaniyi Explosion z rozrobki programnogo zabezpechennya SpaCyTipvilne ta vidkrite programne zabezpechennya d i dRozrobnikd 1 Mova programuvannyaPython 2 LicenziyaMITRepozitorijgithub com explosion spaCyVebsajtspacy io Mediafajli u Vikishovishi Na vidminu vid NLTK yakij shiroko vikoristovuyetsya dlya navchannya ta doslidzhen spaCy zoseredzhuyetsya na nadanni programnogo zabezpechennya dlya virobnichogo vikoristannya spaCy takozh pidtrimuye robochi procesi glibokogo navchannya yaki dozvolyayut pidklyuchati statistichni modeli navcheni populyarnimi bibliotekami mashinnogo navchannya takimi yak TensorFlow PyTorch abo MXNet cherez vlasnu biblioteku mashinnogo navchannya Thinc Vikoristovuyuchi Thinc yak bekend spaCy proponuye modeli zgortkovih nejronnih merezh dlya rozmichuvannya chastin movi rozboru zalezhnostej kategorizaciyi tekstu ta rozpiznavannya imenovanih sutnostej RIS Poperedno stvoreni modeli nejronnih merezh dlya vikonannya cogo zavdannya dostupni dlya 17 mov sered yakih ukrayinska poki vidsutnya hocha ye bagatomovna model RIS Dodatkova pidtrimka tokenizaciyi dlya bilsh nizh 65 mov dozvolyaye koristuvacham takozh navchati vlasni modeli na vlasnih naborah danih IstoriyaVersiya 1 0 bula vipushena 19 zhovtnya 2016 roku i mala poperednyu pidtrimku robochih procesiv glibokogo navchannya za dopomogoyu pidtrimki konveyeriv obrobki nalashtuvan Krim togo mistivsya uzgodzhuvach pravil yakij pidtrimuvav anotaciyu ob yektiv ta oficijno zadokumentovanij navchalnij API Versiya 2 0 bula vipushena 7 listopada 2017 roku ta predstavila modeli zgortkovih nejronnih merezh dlya 7 riznih mov Takozh pidtrimuvalisya specialni komponenti konveyeru obrobki ta atributi rozshirennya a takozh mav vbudovanij komponent dlya klasifikaciyi tekstu yakij mozhna navchati Versiya 3 0 bula vipushena 1 lyutogo 2021 roku ta predstavila najsuchasnishi konveyeri na osnovi transformeriv Takozh bulo zaprovadzheno novu sistemu konfiguraciyi ta robochij proces navchannya a takozh pidkazki dlya tipiv i shabloni proektiv U cij versiyi bula pripinena pidtrimka Python 2 Osnovni vlastivostiNerujnivna tokenizaciya Pidtrimka alfa tokenizaciyi dlya ponad 65 mov Vbudovana pidtrimka komponentiv konveyera yaki mozhna navchati takih yak rozpiznavannya imenovanih sutnostej rozmichuvannya chastin movi rozbir zalezhnostej klasifikaciya tekstu zv yazuvannya imenovanih sutnostej tosho Statistichni modeli dlya 19 mov en z poperedno pidgotovlenimi transformerami takimi yak BERT Pidtrimka koristuvackih modelej u PyTorch TensorFlow ta inshih frejmvorkah Shvidkist i tochnist suchasnogo rivnya Gotova do virobnictva sistema navchannya Vbudovani vizualizatori dlya sintaksisu ta imenovanih sutnostej Proste pakuvannya modeli rozgortannya ta keruvannya robochim procesomRozshirennya ta instrumenti dlya vizualizaciyiSintaksichne derevo zalezhnostej stvorene za dopomogoyu vizualizatora displaCy spaCy postavlyayetsya z kilkoma rozshirennyami ta vizualizaciyami yaki dostupni yak bezplatni biblioteki z vidkritim vihidnim kodom Thinc Biblioteka mashinnogo navchannya optimizovana dlya vikoristannya centralnogo procesora ta glibokogo navchannya koli vhodom ye tekst sense2vec Biblioteka dlya obchislennya podibnosti sliv zasnovana na Word2vec displaCy Vizualizator sintaksichnogo dereva zalezhnostej z vidkritim vihidnim kodom stvorenij za dopomogoyu JavaScript CSS ta SVG displaCyENT vizualizator imenovanih sutnostej z vidkritim kodom stvorenij za dopomogoyu JavaScript ta CSS PrimitkiA short introduction to NLP in Python with spaCy 2017 The spacy Open Source Project on Open Hub Languages Page 2006 d Track Q124688 Choi et al 2015 Washington Post Arhiv originalu za 20 grudnya 2016 Procitovano 18 grudnya 2016 spacy io angl Arhiv originalu za 4 grudnya 2021 Procitovano 4 kvitnya 2020 Bird Steven Klein Ewan Loper Edward Baldridge Jason 2008 PDF Proceedings of the Third Workshop on Issues in Teaching Computational Linguistics ACL 62 doi 10 3115 1627306 1627317 ISBN 9781932432145 Arhiv originalu PDF za 14 serpnya 2017 Procitovano 12 grudnya 2021 thinc ai Arhiv originalu za 9 listopada 2020 Procitovano 4 kvitnya 2020 GitHub Arhiv originalu za 12 grudnya 2021 Procitovano 30 grudnya 2016 spacy io Arhiv originalu za 12 grudnya 2021 Procitovano 10 bereznya 2020 GitHub Arhiv originalu za 12 grudnya 2021 Procitovano 8 lyutogo 2021 GitHub Arhiv originalu za 12 grudnya 2021 Procitovano 8 lyutogo 2021 GitHub Arhiv originalu za 12 grudnya 2021 Procitovano 8 lyutogo 2021 spacy io angl Arhiv originalu za 12 grudnya 2021 Procitovano 8 lyutogo 2021 spacy io angl Arhiv originalu za 12 grudnya 2021 Procitovano 8 lyutogo 2021 spacy io angl Arhiv originalu za 4 grudnya 2021 Procitovano 8 lyutogo 2021 Trask et al 2015 sense2vec A Fast and Accurate Method for Word Sense Disambiguation In Neural Word Embeddings PosilannyaOficijnij sajt Vprovadzhennya Spacy Library 12 grudnya 2021 u Wayback Machine angl