向量資料庫:AI 熱潮中的一抹亮色
保羅·索亞斯 釋出於 8 小時前
熱潮與需求
近來,向量資料庫成為了持續被關注的焦點,這表現在許多新創公司進入這一領域以及投資者積極參與。大型語言模型(LLMs)和生成式人工智慧(GenAI)運動的蓬勃發展,為向量資料庫技術的蓬勃發展提供了有利條件。傳統的聯動式資料庫(如 Postgres 或 MySQL)適用於結構化資料,但對於非結構化資料,如影象、影片、電子郵件、社交媒體帖子以及不符合預定義資料模型的資料,效果則不盡理想。相較之下,向量資料庫以向量嵌入的形式儲存和處理資料,將文字、檔案、影象和其他資料轉換為捕捉不同資料點之間意義和關係的數位表示。這對機器學習非常理想,因為資料被按照每個專案之間的相關性進行空間儲存,這使得檢索語意相似資料變得更加容易。
應用與意義
這對於 LLMs 特別有用,例如 OpenAI 的 GPT-4,它使得 AI 聊天機器人更好地理解對話的上下文,透過分析之前類似的對話。同時向量搜尋對於各種實時應用也非常有用,例如在社交網路或電子商務應用中提供內容推薦,能夠迅速查詢使用者搜尋的相似內容。此外向量搜尋還可以幫助減少 LLMs 應用中的「幻覺」,透過提供原始訓練資料中可能沒有的額外訊息。
新創公司與投資
隨著新創公司 Qdrant 獲得了 2,800 萬美元的融資,他們成為了去年增長最快的前 10 家商業開源新創公司之一。其他向量資料庫新創公司,如 Vespa、Weaviate、Pinecone 和 Chroma 去年共同籌集了 2 億美元用於各種向量產品。
企業應用
然而儘管在 ChatGPT 和 GenAI 運動的熱潮中向量資料庫備受矚目,它們並非每個企業搜尋場景的萬靈丹。許多新的向量搜尋功能也被納入了傳統資料庫,諸如 Elastic、Redis、OpenSearch、Cassandra、Oracle 和 MongoDB 以及 Microsoft Azure、Amazon AWS 和 Cloudflare 等雲服務提供商。儘管專用的資料庫可能在某一方面表現優異,但這也是為什麼像 Elastic、Redis、OpenSearch、Cassandra、Oracle 和 MongoDB 這樣的資料庫龍頭以及雲服務供應商都在結合向量資料庫搜尋智慧。有人預言,像 MongoDB 等現有的聯動式資料庫會新增對 JSON 的支援。同樣,或許向量資料庫也將會出現同樣的走向。
結語及建議
向量資料庫在 AI 應用的熱潮中備受矚目,但這並不意味著它是萬能的。企業在應用向量資料庫時,應當謹慎選擇,並考慮現有技術架構的約束與優勢。特定用途的資料庫專注於特定的應用場景和使用者體驗,而不像通用資料庫需要在當前設計中進行迭代。當然對於大型 AI 應用的使用者將會傾向於使用專用的向量搜尋資料庫,而對於現有應用的使用者則更可能使用現有資料庫中的向量搜尋功能。
延伸閱讀
- 「Stainless 發力!助力 OpenAI、Anthropic 與 Meta 打造創新 SDK」
- Automattic 收購 WPAI,推出 AI 驅動的 WordPress 解決方案!
- AGI 測試即將迎來突破,但缺陷隱藏其中!
- 探索全新 OpenAI Sora 介面的震撼魅力!
- 亞馬遜成立新人工智慧實驗室!Adept 共同創辦人領軍探索 AI 代理技術
- 全方位解析:你必須認識的智慧型聊天機器人 ChatGPT!
- 2024 OpenAI 大會即將揭幕!掌握新 ChatGPT 產品發布與展示的觀看指南!
- 打造“她”中科技的無畏創新:ChatGPT 聲音背後的創作者新願景
- Google 新 AI 模型挑戰極限,氣象預報系統迎來新競爭者!
- UCLA 推出人工智慧開發的比較文學課程,引領學術新潮流!