向量資料庫:AI 熱潮中的一抹亮色
保羅·索亞斯 釋出於 8 小時前
熱潮與需求
近來,向量資料庫成為了持續被關注的焦點,這表現在許多新創公司進入這一領域以及投資者積極參與。大型語言模型(LLMs)和生成式人工智慧(GenAI)運動的蓬勃發展,為向量資料庫技術的蓬勃發展提供了有利條件。傳統的聯動式資料庫(如 Postgres 或 MySQL)適用於結構化資料,但對於非結構化資料,如影象、影片、電子郵件、社交媒體帖子以及不符合預定義資料模型的資料,效果則不盡理想。相較之下,向量資料庫以向量嵌入的形式儲存和處理資料,將文字、檔案、影象和其他資料轉換為捕捉不同資料點之間意義和關係的數位表示。這對機器學習非常理想,因為資料被按照每個專案之間的相關性進行空間儲存,這使得檢索語意相似資料變得更加容易。
應用與意義
這對於 LLMs 特別有用,例如 OpenAI 的 GPT-4,它使得 AI 聊天機器人更好地理解對話的上下文,透過分析之前類似的對話。同時向量搜尋對於各種實時應用也非常有用,例如在社交網路或電子商務應用中提供內容推薦,能夠迅速查詢使用者搜尋的相似內容。此外向量搜尋還可以幫助減少 LLMs 應用中的「幻覺」,透過提供原始訓練資料中可能沒有的額外訊息。
新創公司與投資
隨著新創公司 Qdrant 獲得了 2,800 萬美元的融資,他們成為了去年增長最快的前 10 家商業開源新創公司之一。其他向量資料庫新創公司,如 Vespa、Weaviate、Pinecone 和 Chroma 去年共同籌集了 2 億美元用於各種向量產品。
企業應用
然而儘管在 ChatGPT 和 GenAI 運動的熱潮中向量資料庫備受矚目,它們並非每個企業搜尋場景的萬靈丹。許多新的向量搜尋功能也被納入了傳統資料庫,諸如 Elastic、Redis、OpenSearch、Cassandra、Oracle 和 MongoDB 以及 Microsoft Azure、Amazon AWS 和 Cloudflare 等雲服務提供商。儘管專用的資料庫可能在某一方面表現優異,但這也是為什麼像 Elastic、Redis、OpenSearch、Cassandra、Oracle 和 MongoDB 這樣的資料庫龍頭以及雲服務供應商都在結合向量資料庫搜尋智慧。有人預言,像 MongoDB 等現有的聯動式資料庫會新增對 JSON 的支援。同樣,或許向量資料庫也將會出現同樣的走向。
結語及建議
向量資料庫在 AI 應用的熱潮中備受矚目,但這並不意味著它是萬能的。企業在應用向量資料庫時,應當謹慎選擇,並考慮現有技術架構的約束與優勢。特定用途的資料庫專注於特定的應用場景和使用者體驗,而不像通用資料庫需要在當前設計中進行迭代。當然對於大型 AI 應用的使用者將會傾向於使用專用的向量搜尋資料庫,而對於現有應用的使用者則更可能使用現有資料庫中的向量搜尋功能。
延伸閱讀
- 隱私監管機構對馬斯克將使用者資料納入 Grok AI 訓練感到驚訝!
- 「ChatGPT:您必須理解的人工智慧聊天機器人全攻略!」
- OpenAI 最新推出 SearchGPT,誓言與 Google 展開正面競爭!
- Google 加速 Gemini 聊天機器人,拓展使用範圍!
- 前 ZoomInfo 高管籌集 1500 萬美元,打造 AI 銷售工程師新創公司!
- Mistral 大型 2:對抗 Meta 與 OpenAI 最新模型的強勁回擊!
- 創投熱潮不退!數十億資金持續流入生成式 AI 新創公司
- 這一週 AI 焦點:賀錦麗如何可能影響人工智慧監管新趨勢
- 「2024 年 TechCrunch Disrupt:揭開 AI 舞臺的精彩議程!」
- 「警惕!AI 自我吞噬或導致模型崩潰,專家發出警告」