Apache Tika — набір бібліотек на мові Java для виявлення, аналізу, виділення мета-даних і структурованого контенту з різноманітних форматів файлів. Всього підтримується більше 1200 форматів, включаючи HTML, XML, DOC, OLE2, OOXML, RTF, ePub, OpenDocument, PDF, різні формати зображень, мультимедіа, архівів і пакунків програм.
Тип | набір бібліотек |
---|---|
Розробники | Apache Software Foundation |
Перший випуск | 2011 |
Стабільний випуск | 1.7 (15 січня 2015 ) |
Платформа | JVM |
Мова програмування | Java[1][2] |
Доступні мови | Java |
Ліцензія | Apache License |
Репозиторій | gitbox.apache.org/repos/asf/tika.git |
Вебсайт | tika.apache.org |
|
Спочатку Apache Tika був розроблений як частина пошукового рушія Apache Lucene, але пізніше переріс в самостійний проєкт.
Крім бібліотек, підготовлені консольна утиліта і GUI-застосунок для зручного вилучення даних з різних файлів. Крім мови Java, в рамках проєкту підготовлені обгортки для мов Python, .NET та .
Застосування
Технології Tika використані у фреймворку для побудови пошукових систем Nutch.
Apache Tika був використаний, зокрема, Міжнародним консорціумом журналістів-розслідувачів для дослідження інформації у так званих «панамських документах».
Примітки
- The tika Open Source Project on Open Hub: Languages Page — 2006.
- https://projects.apache.org/json/projects/tika.json
- Mar Cabra, Erin Kissane (11 квітня 2016). . opennews.org. An OpenNews project. Архів оригіналу за 11 квітня 2016. Процитовано 18 квітня 2016.
Посилання
- Офіційний сайт
- Tika Wiki [ 16 липня 2012 у Wayback Machine.]
Це незавершена стаття про програмне забезпечення. Ви можете проєкту, виправивши або дописавши її. |
Ця стаття потребує додаткових для поліпшення її . (квітень 2016) |
Вікіпедія, Українська, Україна, книга, книги, бібліотека, стаття, читати, завантажити, безкоштовно, безкоштовно завантажити, mp3, відео, mp4, 3gp, jpg, jpeg, gif, png, малюнок, музика, пісня, фільм, книга, гра, ігри, мобільний, телефон, android, ios, apple, мобільний телефон, samsung, iphone, xiomi, xiaomi, redmi, honor, oppo, nokia, sonya, mi, ПК, web, Інтернет
Apache Tika nabir bibliotek na movi Java dlya viyavlennya analizu vidilennya meta danih i strukturovanogo kontentu z riznomanitnih formativ fajliv Vsogo pidtrimuyetsya bilshe 1200 formativ vklyuchayuchi HTML XML DOC OLE2 OOXML RTF ePub OpenDocument PDF rizni formati zobrazhen multimedia arhiviv i pakunkiv program Apache TikaTipnabir bibliotekRozrobnikiApache Software FoundationPershij vipusk2011Stabilnij vipusk1 7 15 sichnya 2015 9 rokiv tomu 2015 01 15 PlatformaJVMMova programuvannyaJava 1 2 Dostupni moviJavaLicenziyaApache LicenseRepozitorijgitbox apache org repos asf tika gitVebsajttika apache org Mediafajli u Vikishovishi Spochatku Apache Tika buv rozroblenij yak chastina poshukovogo rushiya Apache Lucene ale piznishe pereris v samostijnij proyekt Krim bibliotek pidgotovleni konsolna utilita i GUI zastosunok dlya zruchnogo viluchennya danih z riznih fajliv Krim movi Java v ramkah proyektu pidgotovleni obgortki dlya mov Python NET ta C ZastosuvannyaTehnologiyi Tika vikoristani u frejmvorku dlya pobudovi poshukovih sistem Nutch Apache Tika buv vikoristanij zokrema Mizhnarodnim konsorciumom zhurnalistiv rozsliduvachiv dlya doslidzhennya informaciyi u tak zvanih panamskih dokumentah PrimitkiThe tika Open Source Project on Open Hub Languages Page 2006 d Track Q124688 https projects apache org json projects tika json Mar Cabra Erin Kissane 11 kvitnya 2016 opennews org An OpenNews project Arhiv originalu za 11 kvitnya 2016 Procitovano 18 kvitnya 2016 PosilannyaOficijnij sajt Tika Wiki 16 lipnya 2012 u Wayback Machine Ce nezavershena stattya pro programne zabezpechennya Vi mozhete dopomogti proyektu vipravivshi abo dopisavshi yiyi Cya stattya potrebuye dodatkovih posilan na dzherela dlya polipshennya yiyi perevirnosti Bud laska dopomozhit udoskonaliti cyu stattyu dodavshi posilannya na nadijni avtoritetni dzherela Zvernitsya na storinku obgovorennya za poyasnennyami ta dopomozhit vipraviti nedoliki Material bez dzherel mozhe buti piddano sumnivu ta vilucheno kviten 2016