市場觀察

從 Cruise 自動駕駛汽車中,企業可以學到哪些有關資料基礎設施的知識呢?

建立強大而安全的資料基礎設施:無人駕駛汽車行業的啟示緒論無人駕駛汽車技術的進步是一個高度專業、複雜且多方面的事業。然而從中可以學到許多教訓,尤其是當企業開始應用生成式人工智慧時。根據通用汽車旗下自駕汽車公司 Cruise 的工程執行副總裁莫·艾爾舍納威(Mo Elshenawy)所說,其中一個最重要 .... (往下繼續閱讀)

分享到 Facebook 分享到 Line 分享到 Twitter

文章目錄

從 Cruise 自動駕駛汽車中,企業可以學到哪些有關資料基礎設施的知識呢?

建立強大而安全的資料基礎設施:無人駕駛汽車行業的啟示

緒論

無人駕駛汽車技術的進步是一個高度專業、複雜且多方面的事業。然而從中可以學到許多教訓,尤其是當企業開始應用生成式人工智慧時。根據通用汽車旗下自駕汽車公司 Cruise 的工程執行副總裁莫·艾爾舍納威(Mo Elshenawy)所說,其中一個最重要的教訓是建立強大而安全的資料基礎設施,以支援 AI 模型的執行。

資料基礎設施的重要性

艾爾舍納威在 VentureBeat Transform 2023 會議上表示資料是支撐 AI 模型的生命線,我們應該從資料開始著手,並對不同組織內需要資料、以及以何種格式、多久時間和何時需要資料等問題進行全面考量。以 Cruise 為例,該公司每個月處理的資料量相當驚人,需要建立能夠應對這一巨大資料規模的堅固資料基礎設施。艾爾舍納威稱,Cruise 的資料工程師每個月處理的資料量相當於 1.5 億年的影片流。他指出,在應對這一巨大資料規模的同時 Cruise 必須確保資料基礎設施能夠智慧分類資料並且讓需要存取資料的內部人員輕鬆獲取,同時保持高度的安全性。

資料基礎設施的演變

對於任何希望使用生成式人工智慧或處理任何型別軟體和數位資料的組織來說最迫切的問題之一是在哪裡以及如何儲存所有的資料。最初,在個人計算機和企業技術的早期階段,數位「倉庫」是解決方案,即將結構化資料(組織良好的資料,如電子表格、逗號分隔值檔案等)儲存在一個系統中以跟蹤所有資料。隨著組織開始收集並尋求分析更多非結構化資料(例如客戶互動、程式碼和多媒體內容),他們不得不尋找另一種儲存方式,特別是考慮到它們不斷增加和累積的巨大數量。這就是資料湖(Data Lake)的誕生。最近幾年,一種混合資料儲存和檢索架構——湖屋架構(Lakehouse Architecture)開始獲得應用,它結合了結構化資料和非結構化資料的特點,使兩種資料型別能夠在同一個資料庫中進行儲存和檢索。 艾爾舍納威表示 Cruise 公司的資料基礎設施發展的過程實際上與這一趨勢相反,起初是從資料湖開始建設,然後新增了資料倉庫和湖屋,隨著該公司從編碼到測試,再到在公共道路上展示出無人駕駛汽車。他主張,其他行業的組織應該以一種靈活的心態來處理他們的任務,根據組織的增長情況或組織成員需要不同型別的資料基礎設施來完成組織的目標。

確保 AI 模型符合真實用例

儘管 Cruise 並非主要從事開發或使用大型語言模型(LLMs),如 Anthropic 的 Claude 2 或 OpenAI 的 Chat GPT,但艾爾舍納威表示在確保 LLMs 使用者和 Cruise 的自動駕駛車輛 AI 模型正確訓練以應對新的現實世界資料方面存在一個主要相似之處。這可能包括邊緣用例。在不論是哪個行業中,如果 AI 模型無法從其訓練資料中正確學習來識別模式,並在遇到與訓練資料不同的現實世界用例資料時可靠地產生所期望的響應,則稱為欠配適。過配適則是指 AI 模型從訓練資料中學習得太好,並且當遇到與其不匹配的新的現實世界資料時,例如邊緣用例,它無法正確工作。Cruise 和使用 LLMs 的組織的目標是使 AI 模型既不欠配適也不過配適於特定的用例。艾爾舍納威稱,Cruise 透過使用多種不同的資料科學和機器學習技術實現這一目標,包括資料擴充和合成資料生成。以擴充為例,艾爾舍納威提到了 Cruise 正在舊金山的公共道路上進行無人駕駛試驗的情景。他解釋說,因為他們是從舊金山開始的,就會看到很多令人驚奇的事情發生。他們可以將其中一個例子在軟體中建立成成千上萬個變化,包括改變照明條件、角度、速度等,從而建立出一個幾乎是從他們所見到的事物中生成的新資料集。

結論

隨著 AI 在商業和社會的各個方面的應用不斷擴大,Cruise 在資料基礎設施方面的經驗將變得越來越重要。建立強大而安全的資料基礎設施可以為組織帶來巨大的價值,並確保 AI 模型在實際應用中符合預期。因此組織應該細心思考如何根據其需求從頭開始建立資料基礎設施,並隨著組織成長或需要不斷變化的情況進行調整。同時組織應運用各種資料科學和機器學習技術來確保 AI 模型在處理現實世界用例時既不欠配適也不過配適。這將為組織帶來更高的效益和更大的競爭優勢。 (本文摘自 VentureBeat)
Datainfrastructure-自動駕駛汽車,企業,資料基礎設施,知識
程宇肖

程宇肖

Reporter

大家好!我是程宇肖,我對於科技的發展和應用有著濃厚的興趣,並致力於將最新的科技趨勢和創新帶給大家。科技領域的變化速度驚人,每天都有令人興奮的新發現和突破。作為一名部落格作者,我將帶領大家深入探索科技的奧秘和應用的無限可能。