市場觀察

DataStax 將向多雲端帶來向量資料庫搜尋的能力

DataStax 在旗艦產品 Astra DB 中推出向量搜尋功能背景資料平臺供應商 DataStax 宣布旗下領先的 Apache Cassandra 資料庫的商業支援雲資料庫服務(Database-as-a-Service,DBaaS)Astra DB 中,通用的向量搜尋功能已正式推出。Cass .... (往下繼續閱讀)

分享到 Facebook 分享到 Line 分享到 Twitter

文章目錄

DataStax 將向多雲端帶來向量資料庫搜尋的能力

DataStax 在旗艦產品 Astra DB 中推出向量搜尋功能

背景

資料平臺供應商 DataStax 宣布旗下領先的 Apache Cassandra 資料庫的商業支援雲資料庫服務(Database-as-a-Service,DBaaS)Astra DB 中,通用的向量搜尋功能已正式推出。Cassandra 是一種廣泛使用的 NoSQL 資料庫,近年來不斷擴充套件以支援多種資料型別和更多的應用場景,特別是人工智慧/機器學習(AI/ML)相關的應用。DataStax 在 2023 年一直將其整體平臺推向 AI/ML 方向,1 月份收購了 AI 特徵工程供應商 Kaskada,並在 5 月份推出了 DataStax Luna ML 服務,將 Kaskada 技術整合到其中。新更新的 Astra DB 向量支援進一步擴充套件了 DataStax 的 AI/ML 功能,為組織提供了可靠且廣泛部署的資料庫平臺,既可用於傳統工作負載,又可用於新的 AI 工作負載。

向量資料庫的意義

向量資料庫是 AI/ML 操作的基石。它們將內容儲存為向量嵌入(vector embedding),即資料的數值表示。Anuff 解釋了向量是表示內容語義意義的理想方式,並且對於在大型語言模型(LLMs)內部以及在檢索內容時提高相關性具有廣泛的應用。當今向量資料庫領域有很多不同的方法和供應商。專門的供應商包括 Pinecone,該公司的總裁和首席營運官在最近的 VB Transform 活動中就向量資料庫的“爆炸式”增長進行了演講。另一個受歡迎的選擇是開源的 Milvus 向量資料庫。向量資料庫的一種越來越常見的方法是提供向量搜尋作為現有資料庫平臺的覆蓋層或擴充套件。MongoDB 在 6 月份宣布支援向量搜尋。廣泛部署的 PostgreSQL 資料庫透過 pgvector 技術支援向量。

DataStax 的向量搜尋功能

Anuff 解釋說,DataStax 的向量搜尋在 Astra DB 中使用向量列作為本地資料型別。使用向量作為資料型別,Astra DB 使用者可以像查詢和搜尋其他型別資料一樣進行操作。Cassandra 和 Astra DB 對向量的延伸概念在於,向量資料庫功能比開源的 Cassandra 專案稍早就加入了 Astra DB。Anuff 解釋說,這一功能已經被新增到開源專案中,並將在今年晚些時候的 Cassandra 5.0 版本中提供。作為一家商業供應商,DataStax 能夠更早地將程式碼引入到自己的平臺中,這就是為什麼 Astra DB 現在獲得此功能的原因。Anuff 解釋說,Cassandra 的核心架構關鍵在於可擴充套件的資料型別的概念。因此資料庫可以隨著時間的推移加入其他本地資料型別。作為本地資料型別,向量或其他任何資料都與 Cassandra 的分散式索引系統整合。“這意味著我可以不斷地向我的資料庫新增行,我可以擁有 1 億個向量,甚至 1 萬億個向量,” Anuff 表示。“因此如果我想要擁有一個有每個入口的向量的大型資料集,我就不必擔心我發布的向量化行數。”這正是 Cassandra 所做的,它不是一個覆蓋層,而是系統的一個本地部分。

原生 LangChain 整合的優勢

構建基於人工智慧的應用程式的一種越來越普遍的方法是共同使用多個 LLMs。DataStax 的 Astra DB 現在也支援開源的 LangChain 技術,實現了這種方法。這種整合使得 Astra DB 的向量搜尋結果能夠被餵入 LangChain 模型中生成回應。這使得開發人員更容易構建實時代理,這些代理不僅能夠進行預測,還可以使用來自 Astra DB 和聯動 LangChain 模型的向量搜尋結果進行推薦。Anuff 強調平臺上的向量功能的通用可用性是實現企業使用者生成 AI 的一個重要步驟。

評論與建議

DataStax 在其 Astra DB 中推出向量搜尋功能,為 AI/ML 操作和應用提供了更可靠和廣泛部署的資料庫平臺。向量資料庫是人工智慧和機器學習的關鍵技術,它們將內容表示為數值向量,為應用程式提供了更好的語義理解和相關性檢索。DataStax 的 Astra DB 不僅支援向量資料庫能力,還透過整合 LangChain 技術實現了多個 LLMs 的協同使用,進一步提高了 AI 應用的效能。這將使開發人員能夠更輕鬆地構建實時代理,以更好地處理 AI 生成和推薦的任務。

然而向量資料庫領域當前有許多不同的方法和供應商,包括專門的供應商和將向量搜尋作為現有資料庫平臺的覆蓋層或擴充套件的供應商。企業在選擇合適的向量資料庫時需要仔細考慮不同供應商的功能、效能和整合層面的差異。

此外隨著 AI 和 ML 的普及,企業對生成 AI 在生產環境中應用的需求越來越迫切。DataStax 的 Astra DB 向量搜尋功能的推出將有助於滿足企業對生成 AI 的需求,使得企業能夠更輕鬆地將這些技術應用於生產中的應用程式中。然而企業要成功應用生成 AI,還需要考慮資料品質、模型訓練和適應性等方面的挑戰。因此企業在使用生成 AI 之前應仔細評估其業務需求、資料資產和技術能力,並根據情況做出適當的決策。

Cloud-DataStax,多雲端,向量資料庫,搜尋能力
江塵

江塵

Reporter

大家好!我是江塵,一名熱愛科技的發展和創新,我一直都保持著濃厚的興趣和追求。在這個瞬息萬變的數位時代,科技已經深入到我們生活的方方面面,影響著我們的工作、學習和娛樂方式。因此,我希望透過我的部落格,與大家分享最新的科技資訊、趨勢和創新應用。