Систе́ма керува́ння ве́кторними ба́зами да́них (СКВБД, англ. vector database management system, VDBMS) або просто ве́кторна ба́за да́них (англ. vector database) чи ве́кторне схо́вище (англ. vector store) — це база даних, яка може зберігати вектори (списки чисел фіксованої довжини), разом з іншими елементами даних. Векторні бази даних зазвичай втілюють один або декілька алгоритмів [en] (ННС, англ. Approximate Nearest Neighbor, ANN),, що дає можливість здійснювати пошук базою даних за допомогою вектора запиту, знаходячи найближчі відповідні записи бази даних.
Вектори є математичними поданнями даних у високовимірному просторі. У цьому просторі кожен вимір відповідає ознаці даних, і для подання складних даних можна використовувати десятки тисяч вимірів. Положення вектора в цьому просторі подає його характеристики. Векторизувати можливо слова, фрази, цілі документи, зображення, звуки та інші типи даних.
Ці вектори ознак можна обчислювати з сирих даних за допомогою методів машинного навчання, таких як алгоритми виділяння ознак, вкладання слів чи мережі глибокого навчання. Мета — щоби семантично подібні елементи даних отримували близькі один до одного вектори ознак.
Векторні бази даних можливо використовувати для [en], [en], рекомендаційних рушіїв, великих мовних моделей (ВММ) тощо.
Векторні бази даних також використовують для втілювання доповненого пошуком породжування (англ. Retrieval-Augmented Generation, RAG), методу покращення залежних від предметної області відповідей великих мовних моделей. Збирають текстові документи, що описують предметну область, і для кожного документа обчислюють вектор ознак (відомий як «вкладення»), зазвичай за допомогою мережі глибокого навчання, та зберігають у векторній базі даних. На основі запиту користувача обчислюють вектор ознак запиту, і роблять запит до бази даних для отримання найвідповідніших документів. Відтак ці документи автоматично додають до контекстного вікна великої мовної моделі, і велика мовна модель створює відповідь на запит, враховуючи цей контекст.
Перелік векторних баз даних
назва | ліцензія |
---|---|
Apache Cassandra | Apache License 2.0 |
[en] Vector Database Extension | н/д (керована послуга) |
LlamaIndex | MIT License |
Milvus | Apache License 2.0 |
MongoDB Atlas | н/д (керована послуга) |
Couchbase | невідома (попередній перегляд) |
Pinecone | закритий первинний код |
Redis Cloud | керована послуга, Redis Source Available License |
Postgres з pgvector | PostgreSQL License |
Qdrant | Apache License 2.0 |
Weaviate | BSD 3-Clause |
Chroma | Apache License 2.0 |
Elasticsearch | [en], Elastic License |
Vespa | Apache License 2.0 |
SurrealDB | [en] та Apache License (після 4 років) |
Примітки
- Roie Schwaber-Cohen. What is a Vector Database & How Does it Work (англ.). Pinecone. Процитовано 18 листопада 2023.
- What is a vector database (англ.). [en]. Процитовано 18 листопада 2023.
- Vector database - Azure Cosmos DB. learn.microsoft.com (англ.). 26 грудня 2023. Процитовано 11 січня 2024.
- Evan Chaki (31 липня 2023). What is a vector database?. Microsoft.
Векторна база даних — це такий тип баз даних, у якому дані зберігаються у вигляді високовимірних векторів, що є математичними поданням ознак або атрибутів.
- Vector database - Azure Cosmos DB. learn.microsoft.com (англ.). 26 грудня 2023. Процитовано 11 січня 2024.
- Lewis, Patrick; Perez, Ethan; Piktus, Aleksandra; Petroni, Fabio; Karpukhin, Vladimir; Goyal, Naman; Küttler, Heinrich (2020). Retrieval-augmented generation for knowledge-intensive NLP tasks. Advances in Neural Information Processing Systems 33 (англ.): 9459—9474. arXiv:2005.11401.
- 5 Hard Problems in Vector Search, and How Cassandra Solves Them. TheNewStack (амер.). 22 вересня 2023. Процитовано 22 вересня 2023.
- Vector Search quickstart (англ.). Процитовано 21 листопада 2023.
- Vector database - Azure Cosmos DB. learn.microsoft.com (англ.). Процитовано 10 січня 2024.
- Wiggers, Kyle (6 червня 2023). LlamaIndex adds private data to large language models. TechCrunch (амер.). Процитовано 29 жовтня 2023.
- llama_index/LICENSE at main · run-llama/llama_index. GitHub (англ.). Процитовано 29 жовтня 2023.
- Open Source Vector Database – Milvus – LFAI & DATA (англ.). Процитовано 29 жовтня 2023.
- Liao, Ingrid Lunden and Rita (24 серпня 2022). Zilliz raises $60M, relocates to SF. TechCrunch (амер.). Процитовано 29 жовтня 2023.
- Introducing Atlas Vector Search: Build Intelligent Applications with Semantic Search and AI Over Any Type of Data. MongoDB (амер.). 22 червня 2023.
- Couchbase aims to boost developer database productivity with Capella IQ AI tool. VentureBeat (амер.). 30 серпня 2023.
- Investor Presentation Third Quarter Fiscal 2024. Couchbase Investor Relations (амер.). 6 грудня 2023.
- Pinecone leads 'explosion' in vector databases for generative AI. VentureBeat (амер.). 14 липня 2023. Процитовано 29 жовтня 2023.
- Redis as a vector database quick start guide. Redis (англ.). Процитовано 31 січня 2024.
- pgvector. GitHub (амер.). Процитовано 27 листопада 2023.
- pgvector/License. GitHub (амер.). Процитовано 27 листопада 2023.
- Sawers, Paul (19 квітня 2023). Qdrant, an open source vector database startup, wants to help AI developers leverage unstructured data. TechCrunch (амер.). Процитовано 29 жовтня 2023.
- qdrant/LICENSE at master · qdrant/qdrant. GitHub (англ.). Процитовано 29 жовтня 2023.
- Weaviate reels in $50M for its AI-optimized vector database. SiliconANGLE (амер.). 21 квітня 2023. Процитовано 29 жовтня 2023.
- weaviate/LICENSE at master · weaviate/weaviate. GitHub (англ.). Процитовано 29 жовтня 2023.
- Palazzolo, Stephanie. Vector database Chroma scored $18 million in seed funding at a $75 million valuation. Here's why its technology is key to helping generative AI startups. Business Insider (амер.). Процитовано 16 листопада 2023.
- MSV, Janakiram (28 липня 2023). Exploring Chroma: The Open Source Vector Database for LLMs. The New Stack (амер.). Процитовано 16 листопада 2023.
- chroma/LICENSE at main · chroma-core/chroma. GitHub (англ.).
- Kerner, Sean (23 травня 2023). Elasticsearch Relevance Engine brings new vectors to generative AI. VentureBeat (англ.). Процитовано 18 листопада 2023.
- elasticsearch/LICENSE.txt at main · elastic/elasticsearch. GitHub (англ.).
- Riley, Duncan (4 жовтня 2023). Yahoo spins off AI scaling engine Vespa as an independent company. siliconANGLE (англ.). Процитовано 18 листопада 2023.
- vespa/LICENSE at master · vespa-engine/vespa. GitHub (англ.).
- Wiggers, Kyle (4 січня 2023). SurrealDB raises $6M for its database-as-a-service offering. TechCrunch (амер.). Процитовано 19 січня 2024.
- SurrealDB | License FAQs | The ultimate multi-model database. SurrealDB (англ.). Процитовано 19 січня 2024.
Вікіпедія, Українська, Україна, книга, книги, бібліотека, стаття, читати, завантажити, безкоштовно, безкоштовно завантажити, mp3, відео, mp4, 3gp, jpg, jpeg, gif, png, малюнок, музика, пісня, фільм, книга, гра, ігри, мобільний, телефон, android, ios, apple, мобільний телефон, samsung, iphone, xiomi, xiaomi, redmi, honor, oppo, nokia, sonya, mi, ПК, web, Інтернет
Siste ma keruva nnya ve ktornimi ba zami da nih SKVBD angl vector database management system VDBMS abo prosto ve ktorna ba za da nih angl vector database chi ve ktorne sho vishe angl vector store ce baza danih yaka mozhe zberigati vektori spiski chisel fiksovanoyi dovzhini razom z inshimi elementami danih Vektorni bazi danih zazvichaj vtilyuyut odin abo dekilka algoritmiv en NNS angl Approximate Nearest Neighbor ANN sho daye mozhlivist zdijsnyuvati poshuk bazoyu danih za dopomogoyu vektora zapitu znahodyachi najblizhchi vidpovidni zapisi bazi danih Vektori ye matematichnimi podannyami danih u visokovimirnomu prostori U comu prostori kozhen vimir vidpovidaye oznaci danih i dlya podannya skladnih danih mozhna vikoristovuvati desyatki tisyach vimiriv Polozhennya vektora v comu prostori podaye jogo harakteristiki Vektorizuvati mozhlivo slova frazi cili dokumenti zobrazhennya zvuki ta inshi tipi danih Ci vektori oznak mozhna obchislyuvati z sirih danih za dopomogoyu metodiv mashinnogo navchannya takih yak algoritmi vidilyannya oznak vkladannya sliv chi merezhi glibokogo navchannya Meta shobi semantichno podibni elementi danih otrimuvali blizki odin do odnogo vektori oznak Vektorni bazi danih mozhlivo vikoristovuvati dlya en en rekomendacijnih rushiyiv velikih movnih modelej VMM tosho Vektorni bazi danih takozh vikoristovuyut dlya vtilyuvannya dopovnenogo poshukom porodzhuvannya angl Retrieval Augmented Generation RAG metodu pokrashennya zalezhnih vid predmetnoyi oblasti vidpovidej velikih movnih modelej Zbirayut tekstovi dokumenti sho opisuyut predmetnu oblast i dlya kozhnogo dokumenta obchislyuyut vektor oznak vidomij yak vkladennya zazvichaj za dopomogoyu merezhi glibokogo navchannya ta zberigayut u vektornij bazi danih Na osnovi zapitu koristuvacha obchislyuyut vektor oznak zapitu i roblyat zapit do bazi danih dlya otrimannya najvidpovidnishih dokumentiv Vidtak ci dokumenti avtomatichno dodayut do kontekstnogo vikna velikoyi movnoyi modeli i velika movna model stvoryuye vidpovid na zapit vrahovuyuchi cej kontekst Perelik vektornih baz danihCej rozdil mistit dinamichnij perelik yakij nikoli ne zmozhe zadovolniti pevni standarti povnoti Vi mozhete dopovniti progalini za dopomogoyu avtoritetnih dzherel nazva licenziyaApache Cassandra Apache License 2 0 en Vector Database Extension n d kerovana posluga LlamaIndex MIT LicenseMilvus Apache License 2 0MongoDB Atlas n d kerovana posluga Couchbase nevidoma poperednij pereglyad Pinecone zakritij pervinnij kodRedis Cloud kerovana posluga Redis Source Available LicensePostgres z pgvector PostgreSQL LicenseQdrant Apache License 2 0Weaviate BSD 3 ClauseChroma Apache License 2 0Elasticsearch en Elastic LicenseVespa Apache License 2 0SurrealDB en ta Apache License pislya 4 rokiv PrimitkiRoie Schwaber Cohen What is a Vector Database amp How Does it Work angl Pinecone Procitovano 18 listopada 2023 What is a vector database angl en Procitovano 18 listopada 2023 Vector database Azure Cosmos DB learn microsoft com angl 26 grudnya 2023 Procitovano 11 sichnya 2024 Evan Chaki 31 lipnya 2023 What is a vector database Microsoft Vektorna baza danih ce takij tip baz danih u yakomu dani zberigayutsya u viglyadi visokovimirnih vektoriv sho ye matematichnimi podannyam oznak abo atributiv Vector database Azure Cosmos DB learn microsoft com angl 26 grudnya 2023 Procitovano 11 sichnya 2024 Lewis Patrick Perez Ethan Piktus Aleksandra Petroni Fabio Karpukhin Vladimir Goyal Naman Kuttler Heinrich 2020 Retrieval augmented generation for knowledge intensive NLP tasks Advances in Neural Information Processing Systems 33 angl 9459 9474 arXiv 2005 11401 5 Hard Problems in Vector Search and How Cassandra Solves Them TheNewStack amer 22 veresnya 2023 Procitovano 22 veresnya 2023 Vector Search quickstart angl Procitovano 21 listopada 2023 Vector database Azure Cosmos DB learn microsoft com angl Procitovano 10 sichnya 2024 Wiggers Kyle 6 chervnya 2023 LlamaIndex adds private data to large language models TechCrunch amer Procitovano 29 zhovtnya 2023 llama index LICENSE at main run llama llama index GitHub angl Procitovano 29 zhovtnya 2023 Open Source Vector Database Milvus LFAI amp DATA angl Procitovano 29 zhovtnya 2023 Liao Ingrid Lunden and Rita 24 serpnya 2022 Zilliz raises 60M relocates to SF TechCrunch amer Procitovano 29 zhovtnya 2023 Introducing Atlas Vector Search Build Intelligent Applications with Semantic Search and AI Over Any Type of Data MongoDB amer 22 chervnya 2023 Couchbase aims to boost developer database productivity with Capella IQ AI tool VentureBeat amer 30 serpnya 2023 Investor Presentation Third Quarter Fiscal 2024 Couchbase Investor Relations amer 6 grudnya 2023 Pinecone leads explosion in vector databases for generative AI VentureBeat amer 14 lipnya 2023 Procitovano 29 zhovtnya 2023 Redis as a vector database quick start guide Redis angl Procitovano 31 sichnya 2024 pgvector GitHub amer Procitovano 27 listopada 2023 pgvector License GitHub amer Procitovano 27 listopada 2023 Sawers Paul 19 kvitnya 2023 Qdrant an open source vector database startup wants to help AI developers leverage unstructured data TechCrunch amer Procitovano 29 zhovtnya 2023 qdrant LICENSE at master qdrant qdrant GitHub angl Procitovano 29 zhovtnya 2023 Weaviate reels in 50M for its AI optimized vector database SiliconANGLE amer 21 kvitnya 2023 Procitovano 29 zhovtnya 2023 weaviate LICENSE at master weaviate weaviate GitHub angl Procitovano 29 zhovtnya 2023 Palazzolo Stephanie Vector database Chroma scored 18 million in seed funding at a 75 million valuation Here s why its technology is key to helping generative AI startups Business Insider amer Procitovano 16 listopada 2023 MSV Janakiram 28 lipnya 2023 Exploring Chroma The Open Source Vector Database for LLMs The New Stack amer Procitovano 16 listopada 2023 chroma LICENSE at main chroma core chroma GitHub angl Kerner Sean 23 travnya 2023 Elasticsearch Relevance Engine brings new vectors to generative AI VentureBeat angl Procitovano 18 listopada 2023 elasticsearch LICENSE txt at main elastic elasticsearch GitHub angl Riley Duncan 4 zhovtnya 2023 Yahoo spins off AI scaling engine Vespa as an independent company siliconANGLE angl Procitovano 18 listopada 2023 vespa LICENSE at master vespa engine vespa GitHub angl Wiggers Kyle 4 sichnya 2023 SurrealDB raises 6M for its database as a service offering TechCrunch amer Procitovano 19 sichnya 2024 SurrealDB License FAQs The ultimate multi model database SurrealDB angl Procitovano 19 sichnya 2024