
資料品質是企業應對生成式人工智慧的關鍵挑戰
越來越多的大型企業希望透過生成式人工智慧(generative AI)和支援其執行的大型語言模型(LLMs)來進行實驗,以在客戶服務、產品設計、市場銷售和娛樂等領域獲得競爭優勢。然而在企業能夠完全發揮生成式人工智慧的潛力之前,他們需要應對一個基本的挑戰:資料品質。如果企業部署了存取不可靠、不完整或不一致的資料的大型語言模型,他們有可能生成不準確或具有誤導性的結果,這可能會嚴重損害他們的聲譽或違反監管法規。
這是上週在 VB Transform 上領導圓桌討論的字母表高管布魯諾·阿齊扎(Bruno Aziza)的主要觀點。該圓桌討論的重點是為企業如何準備資料和分析基礎架構以利用大型語言模型(LLMs)提供一個指南。阿齊扎曾擔任 Google 雲的資料和分析負責人,最近則加入了字母表的增長階段基金 CapitalG。他根據與數百家使用 AI 的客戶交流的見解,分享了他所見過的企業在發展生成式人工智慧應用能力時所經歷的三個資料成熟階段。
第一步:建立資料湖(Data Ocean)
企業應該建立一個資料湖,這是一個開放的資料儲存庫,資料共享是其中的關鍵設計原則。資料湖應該管理各種型別和格式的資料,包括結構化、非結構化和半結構化資料,以專有和開源格式(如 Iceberg、Delta 或 Hudi)進行儲存。資料湖還應該支援交易型和分析型資料處理。這樣一來,大型語言模型就能夠以高效能和可靠性存取任何相關資料。Google 的 BigLake 和 Microsoft 的 OneLake 是資料湖的示例。在業內,大多數從業人員將池化和儲存資料的術語稱為“資料湖”(data lake),但 Aziza 表示該概念已被許多承諾將資料儲存在一個地方但未能兌現承諾的供應商所侵蝕。
第二步:資料網格(Data Mesh)
企業逐步發展為資料網格,這是一種使企業內部團隊能夠創新的方法,同時遵守集中管理的政策,使人們能夠使用乾淨、完整和可信的訊息。在這個階段,資料布局能力至關重要,因為它們讓團隊在早期就能夠發現、分類和管理資料。Aziza 建議利用人工智慧,因為手動進行資料發現的任務可能很困難且容易出錯。當資料以大規模和實時流入資料湖時,如果沒有人工智慧的幫助,它將變得難以管理。
第三步:構建智慧資料豐富的應用程式
企業建立智慧、資料豐富的應用程式,這些應用程式可以是由資料湖中的資料驅動的 LLM 應用程式,這些應用程式根據網格的規範生成內容或洞察力。這些應用程式應該解決客戶或使用者的實際問題,並且應該不斷監測和評估其效能和影響。Aziza 稱這些資料產品,它們也可以被最佳化以與實時資料一起使用。Aziza 表示這些步驟可能並不容易或快速實施,但對於想要避免生成式人工智慧災難的企業來說是必不可少的。他說:“如果你採取了低效的資料實踐,這項技術將會以更大、更廣泛的方式暴露出不良資料。”他舉了一個例子,即一位律師在使用 ChatGPT 時引用了一個假案例而被罰款,這是生成式人工智慧應用程式沒有指導到準確、安全和可靠資料來源時出現的幻覺。
生成式人工智慧應用的技術挑戰和機遇
與會者提到了一些與使用大型語言模型相關的技術挑戰和機遇,包括:
向量資料庫(Vector Databases)的角色
向量資料庫是一種以高維向量形式儲存資料的新型資料庫,向量是對特徵或屬性的數值表示。向量資料庫可以使大型語言模型以比傳統資料庫更高效的方式找到相似或相關的資料,使用語義搜尋技術。Aziza 表示對於生成式人工智慧應用來說向量資料庫非常有用。與會者提到的一家提供此類服務的公司是 Pinecone。
SQL 的作用
SQL 是一種用於存取和運算元據庫中資料的標準查詢語言。Aziza 表示 SQL 已經成為資料分析的通用語言,現在可以用它來觸發機器學習和其他複雜工作負載,使用像 Google BigQuery 這樣的基於雲的分析平臺。他還表示自然語言介面現在可以將使用者的請求轉化為 SQL 命令,使非技術人員更容易與大型語言模型互動。然而他補充說,企業需要掌握的主要技能不是 SQL 本身,而是提出正確問題的能力。
重視資料完整性的重要性
資料完整性是 VB Transform 上的一個重要主題,它是生成式人工智慧的關鍵起點。Google 的資料和分析副總裁 Gerrit Kazmaier 表示企業利用生成式人工智慧的成功直接取決於確保資料的準確性、完整性和一致性。他說:“你所擁有的資料以及你如何管理這些資料,與大型語言模型(LLMs)的密切相互關係,我認為這是整個過程中真正發揮作用的關鍵。”沃爾瑪(Walmart)的副總裁 Desirée Gosby 也將公司成功使用生成式人工智慧進行對話體驗歸功於多年來清理其資料層的努力。她表示:“在結束的那天,使用一個能夠真正利用您的資料並以一種方式將這些大型語言模型應用程式應用於公司各個部門的能力是關鍵。”她還表示沃爾瑪透過 AI 驅動的對話體驗為 5000 萬沃爾瑪客戶提供服務。
總結
資料品質是企業實現生成式人工智慧應用的關鍵挑戰之一。企業需要建立資料湖,建立資料網格以及構建智慧資料豐富的應用程式,才能充分發揮生成式人工智慧的潛力。這些步驟不容易且需要時間,但對於那些想要避免生成式人工智慧災難的企業來說是必不可少的。同時技術挑戰和機遇,如向量資料庫和 SQL 的使用,也是企業在使用大型語言模型時需要考慮的因素。
延伸閱讀
- 「Tofu 推出全方位行銷平臺,助力企業突破市場界限!」
- Comstruct 獲得 1350 萬美元資金 助力建築企業簡化採購流程!
- 資料分析新創 Athenic AI 目標成為企業的核心神經系統!
- 「Bench 宣布關閉,數千企業面臨財務檔案存取危機!」
- 「開源專案獲得無股權資金!企業、新創公司與風投的目光轉向開源生態」
- 「iPhone 新重啟功能讓警方解鎖更困難,隱私保障升級!」
- 全方位解析 Google Gemini:你必須知道的生成式人工智慧模型!
- 德國電腦科學家籌集 3000 萬美元,助力企業解碼資料背後的祕密!
- Canva 收購 Leonardo.ai 強化生成式人工智慧實力!
- 「CrowdStrike 更新失誤引發全球 IT 大癱瘓!銀行、航空與企業全面受災」