Apache Nutch — модульний фреймворк для побудови пошукових систем, написаний на мові Java і заснований на технологіях Lucene, Solr, Tika, Hadoop і , адаптованих для специфіки пошуку у вебі (наприклад, підтримується crawler, база посилального зв'язку, парсинг HTML і інших форматів). Архітектура Nutch дозволяє розробникам створювати плагіни для обробки нового медіа-контенту, отримання даних через нестандартні канали, для формування типових запитів або організації пошукового кластера.
Nutch Web Interface Search | |
Тип | пошуковий рушій |
---|---|
Розробник | Apache Software Foundation |
Стабільний випуск | 2.0 (9 липня 2012 ) |
Платформа | віртуальна машина Java |
Операційна система | крос-платформовий |
Мова програмування | Java |
Стан розробки | активний |
Ліцензія | Apache License 2.0 |
Репозиторій | github.com/apache/nutch |
Вебсайт | nutch.apache.org |
|
Система надає засоби для побудови високомасштабованих систем індексації, абстрагованих від типу сховища, що дозволяє використовувати такі сховища для великих обсягів даних, як , , Apache Cassandra, Apache і HDFS, так і SQL-бази і розміщені в пам'яті NoSQL БД.
Використання
На базі Nutch 2.0, запущеного поверх 34-вузлового Hadoop-кластера, побудований пошуковий сервіс компанії , в індексі якого перебуває більше мільярда сторінок.
На основі Nutch побудовані такі пошукові системи
- Creative Commons Search — запущений 2004, імплементація Nutch замінена 2006
- — прототип пошуку по відкритих освітніх ресурсах, що розробляється Creative Commons
- — запущений 2008, закритий 2009
- search2.net [ 5 квітня 2022 у Wayback Machine.]
Виноски
- Реліз пошукового рушія Apache Nutch 2.0 [ 14 липня 2012 у Wayback Machine.] (рос.)
- . Creative Commons. 3 вересня 2004. Архів оригіналу за 7 вересня 2011. Процитовано 10 липня 2012.
- Creative Commons Unique Search Tool Now Integrated into Firefox 1.0. Creative Commons. 22 листопада 2004. Архів оригіналу за 22 липня 2013. Процитовано 10 липня 2012.
- . Creative Commons. 2 серпня 2006. Архів оригіналу за 7 листопада 2011. Процитовано 10 липня 2012.
- . Архів оригіналу за 25 квітня 2015. Процитовано 19 червня 2019.
- . Архів оригіналу за 4 листопада 2011. Процитовано 10 липня 2012.
- . Архів оригіналу за 3 травня 2009. Процитовано 10 липня 2012.
Посилання
- Офіційний сайт
- Офіційні вікі [ 11 липня 2012 у Wayback Machine.]
- Building Nutch: Open Source Search [ 25 жовтня 2006 у Wayback Machine.](2004)- ACM Queue vol. 2, no. 2
- Стаття про Nutch(2003)- Search Engine Watch
- Ще стаття про Nutch [ 6 липня 2008 у Wayback Machine.](2003)- Tech News World
Вікіпедія, Українська, Україна, книга, книги, бібліотека, стаття, читати, завантажити, безкоштовно, безкоштовно завантажити, mp3, відео, mp4, 3gp, jpg, jpeg, gif, png, малюнок, музика, пісня, фільм, книга, гра, ігри, мобільний, телефон, android, ios, apple, мобільний телефон, samsung, iphone, xiomi, xiaomi, redmi, honor, oppo, nokia, sonya, mi, ПК, web, Інтернет
Apache Nutch modulnij frejmvork dlya pobudovi poshukovih sistem napisanij na movi Java i zasnovanij na tehnologiyah Lucene Solr Tika Hadoop i adaptovanih dlya specifiki poshuku u vebi napriklad pidtrimuyetsya crawler baza posilalnogo zv yazku parsing HTML i inshih formativ Arhitektura Nutch dozvolyaye rozrobnikam stvoryuvati plagini dlya obrobki novogo media kontentu otrimannya danih cherez nestandartni kanali dlya formuvannya tipovih zapitiv abo organizaciyi poshukovogo klastera Apache NutchNutch Web Interface SearchTipposhukovij rushijRozrobnikApache Software FoundationStabilnij vipusk2 0 9 lipnya 2012 11 rokiv tomu 2012 07 09 Platformavirtualna mashina JavaOperacijna sistemakros platformovijMova programuvannyaJavaStan rozrobkiaktivnijLicenziyaApache License 2 0Repozitorijgithub com apache nutchVebsajtnutch apache org Mediafajli u Vikishovishi Sistema nadaye zasobi dlya pobudovi visokomasshtabovanih sistem indeksaciyi abstragovanih vid tipu shovisha sho dozvolyaye vikoristovuvati taki shovisha dlya velikih obsyagiv danih yak Apache Cassandra Apache i HDFS tak i SQL bazi i rozmisheni v pam yati NoSQL BD VikoristannyaNa bazi Nutch 2 0 zapushenogo poverh 34 vuzlovogo Hadoop klastera pobudovanij poshukovij servis kompaniyi v indeksi yakogo perebuvaye bilshe milyarda storinok Na osnovi Nutch pobudovani taki poshukovi sistemi Creative Commons Search zapushenij 2004 implementaciya Nutch zaminena 2006 prototip poshuku po vidkritih osvitnih resursah sho rozroblyayetsya Creative Commons zapushenij 2008 zakritij 2009 search2 net 5 kvitnya 2022 u Wayback Machine VinoskiReliz poshukovogo rushiya Apache Nutch 2 0 14 lipnya 2012 u Wayback Machine ros Creative Commons 3 veresnya 2004 Arhiv originalu za 7 veresnya 2011 Procitovano 10 lipnya 2012 Creative Commons Unique Search Tool Now Integrated into Firefox 1 0 Creative Commons 22 listopada 2004 Arhiv originalu za 22 lipnya 2013 Procitovano 10 lipnya 2012 Creative Commons 2 serpnya 2006 Arhiv originalu za 7 listopada 2011 Procitovano 10 lipnya 2012 Arhiv originalu za 25 kvitnya 2015 Procitovano 19 chervnya 2019 Arhiv originalu za 4 listopada 2011 Procitovano 10 lipnya 2012 Arhiv originalu za 3 travnya 2009 Procitovano 10 lipnya 2012 PosilannyaOficijnij sajt Oficijni viki 11 lipnya 2012 u Wayback Machine Building Nutch Open Source Search 25 zhovtnya 2006 u Wayback Machine 2004 ACM Queue vol 2 no 2 Stattya pro Nutch 2003 Search Engine Watch She stattya pro Nutch 6 lipnya 2008 u Wayback Machine 2003 Tech News World