本週 AI 訊息：大型科技巨頭投資數十億美元於機器學習工具

本週人工智慧 AI 專欄：科技巨頭搶投資於機器學習工具作者：Kyle Wiggers, Devin Coldewey 追趕快速發展的人工智慧領域是一個艱鉅的任務。因此在 AI 可以為你做到這一點之前，我們提供了一個便捷的專欄，匯總了上週在機器學習領域的新聞、知名研究和實驗等等。不容置疑，人工智慧（尤其 .... (往下繼續閱讀)

by 江塵
2023/6/24
14 分鐘閱讀時間

A- A A+

文章目錄

本週人工智慧 AI 專欄：科技巨頭搶投資於機器學習工具

作者：Kyle Wiggers, Devin Coldewey

追趕快速發展的人工智慧領域是一個艱鉅的任務。因此在 AI 可以為你做到這一點之前，我們提供了一個便捷的專欄，匯總了上週在機器學習領域的新聞、知名研究和實驗等等。不容置疑，人工智慧（尤其是生成式 AI 的子領域）的競爭環境正變得火熱，且愈趨白熱化。

首先 Dropbox 推出了其首個企業風投基金“Dropbox Ventures”，該基金將關注於開發塑造未來工作的 AI 產品的初創企業。此外亞馬遜 AWS 推出了一項價值 1 億美元的產生式 AI 計劃，用於支援其合作夥伴和客戶領導的機器學習專案。

在人工智慧領域，有大量的資金流入。Salesforce Ventures 計劃向發展生成式人工智慧技術的初創企業注入 5 億美元。Workday 最近新增了 2.5 億美元至既有風投基金，專門用於支援 AI 和機器學習初創企業。Accenture 和 PwC 則宣布將分別投入 30 億美元和 10 億美元於人工智慧領域。

資金是否能解決人工智慧領域的挑戰

然而人們不禁懷疑金錢是否是解決人工智慧領域面臨的問題的解決之道。在舊金山的一次彭博會議上，安全通訊應用 Signal 的總裁梅莉達·惠特克（Meredith Whittaker）在一場富有啟發性的座談會上指出，一些當今受矚目的人工智慧應用的技術基礎正變得極度模糊。

她舉了一個例子，當一個人走進一家銀行申請貸款時，可能因為某個由微軟 API 驅動的系統在社交媒體上蒐集到的訊息，被拒絕貸款，而且“我永遠不會知道，因為我沒有機會知道這一切。” 惠特克說道，“即使我已經坐在這張桌前 15 年，20 年了，參與過有關 AI 的討論並不意味著會有實質的權力。”

問題不在於資金，而在於當前的權力結構層次，惠特克指出。“我已經參與這個行業很久了，但如果我沒有實質權力，那一切都不算數。” 她續說。實現結構性改變要比尋找資金困難得多，尤其當這種改變不必然會對現有權力機構有利時。而惠特克警告說，如果沒有足夠的反對和抵制，隨著人工智慧的進展，社會影響也將加速。我們將不斷沿著“充滿虛榮的 AI 之路”前進，這種力量深植並以智慧的名義自然化，我們將被監視到在個人和集體生活中失去極少的自主權。這將給整個行業帶來警示。然而是否會真正引起行業的重視還是個問題，這可能需要在九月份舉行的 Disrupt 會議上討論。

其他值得關注的 AI 新聞：

- DeepMind 的 AI 控制著機器人：DeepMind 表示他們已經開發出名為 RoboCat 的 AI 模型，可以在不同模型的機器人臂上執行各種任務。這本身並不是特別新穎的技術。但 DeepMind 聲稱，該模型是第一個能夠解決和適應多個任務並使用不同真實世界機器人進行執行的模型。

- 機器人從 YouTube 學習：具有 CMU Robotics Institute 職位的助理教授 Deepak Pathak 本週展示了 VRB（Vision-Robotics Bridge），這是一種設計用於透過觀看人類錄製的影片來訓練機器人系統的 AI 系統。該機器人觀看一些關鍵訊息，包括接觸點和軌跡，然後嘗試執行相應的任務。

- Otter 進軍聊天機器人領域：自動轉錄服務供應商 Otter 本週宣布推出了一款新的 AI 聊天機器人，讓參與者在會議期間和之後提問並幫助他們與團隊合作。

- 歐盟呼籲對 AI 進行規範：歐洲監管機構對於如何在該地區對 AI 進行規範及商業和非商業使用問題正在面臨抉擇。本週，歐洲最大的消費者團體歐洲消費者組織（BEUC）發表了自己的立場，要求“立即展開對生成式 AI 風險的緊急調查”。

- Vimeo 推出 AI 功能：Vimeo 本週宣布推出一套 AI 工具，旨在幫助使用者編寫劇本、使用內建電子提示器錄製鏡頭，並從錄制中刪除長時間的暫停和不必要的語句。

- 合成語音獲得資金支援：ElevenLabs 是一個病毒性的基於 AI 技術的平臺，用於建立合成語音，他們剛剛在新一輪籌資中獲得了 1900 萬美元的投資。

- 音訊轉文字：法國 AI 新創公司 Gladia 推出了一個平臺，利用 OpenAI 的 Whisper 轉錄模型，可以將任何音訊轉換為幾乎實時的文字。Gladia 承諾以 0.61 美元的價格轉錄一小時的音訊，並且轉錄過程僅需大約 60 秒。

- Harness 匯入生成式 AI：為開發人員提供幫助的新創公司 Harness 本週在其平臺中加入了一些 AI 功能，它可以自動解決搭建和部署失敗、找到並修復安全漏洞，並提出建議以控制雲端計算成本。

CVPR 盛會日漸受矚目

這週，在加拿大溫哥華舉辦了視覺影象處理與辨識大會 CVPR，可惜我無法親自參加，因為其中的演講和論文看起來非常有趣。如果只能看一個，那麼一定要看看 Yejin Choi 的主題演講，她談到了 AI 的可能性、不可能性和矛盾之處。

這位華盛頓大學的教授和麥克阿瑟天才獎得主首先提到了今天最強大的模型的一些意外局限性。特別是，GPT-4 在乘法運算上表現得很差。讓人驚訝的是，它對於兩個三位數相乘無法正確計算的情況頻繁發生，儘管稍作誘導它可以在 95％的時間內得到正確的答案。為什麼一個語言模型不能進行數學運算重要呢？因為當前的人工智慧市場正是建立在語言模型能夠很好地應用於許多有趣任務（包括處理稅務或會計等）的理念上。Choi 的觀點是，我們應該尋找 AI 的約束並從中工作，而不是反之，因為它告訴我們更多關於它們的能力。她的演講的其他部分同樣具有趣味性和發人深省的思考價值。

CVPR 的評委們認為以下兩篇論文最有趣：AI2 的 VISPROG 是一種多功能程式碼工具箱，透過進行複雜的視覺操作任務，實現影象的處理和改變。例如，如果你有一張有個灰熊的圖片（如圖），你可以要求 VISPROG 只“用一隻北極熊代替圖片中的灰熊”，它就會開始工作。它會識別圖片的不同部分，將其視覺化分離，搜尋並找到或生成一個合適的替代品，然後智慧地拼湊整張圖片，而無需進一步提示使用者。

另外一篇論文“Planning-oriented autonomous driving”是一個來自中國多個研究機構的研究團隊開展的，他們試圖將現有的方案統一起來，以改進自動駕駛汽車的處理方式。一般來說自動駕駛的過程是一個分為“感知、預測和規劃”的分步過程，每個步驟中又包含一些子任務（例如，人物分割，障礙物識別等）。他們的模型試圖將所有這些步驟合併在一個模型中，就像我們看到的多模態模型可以使用文字、音訊或影象作為輸入和輸出一樣。同樣地，這種模型在某種程度上簡化了現代自動駕駛系統的複雜相互依存關係。

DynIBaR 展示了一種使用“動態神經輻射場”（Dynamic Neural Radiance Fields，或 NeRFs）與影片進行互動的高質量和強大方法。對影片中物體的深入理解使得在錄製完畢的影片中實現穩定、平移等操作成為可能。再次重申，“增強”。這絕對是蘋果公司會聘請你加入、並在下一屆開發者大會上宣布自己完成這項技術的事情。DreamBooth 可能在今年早些時候的專案頁面上更為人熟知，這是到當前為止最好的生成深偽技術。當然這種影象操作是有價值和強大的，而像 Google 的研究人員一樣致力於使其更加完美和逼真。後果......可能是以後的事情吧。最佳學生論文獎頒給了一種用於比較和匹配網格或 3D 點雲的方法。這對於現實世界的感知來說是一項重要的能力，因此對於改善這方面的技術有進一步的提升是受歡迎的。

最後 Intel 展示了一個有趣的模型 LDM3D，用於生成 3D 360 影象，例如虛擬環境。當你在元宇宙中說“將我們放在在叢林中的一處叢林中的遺跡”時，它只是根據需求即時生成一個新的景觀。Meta 推出了一種名為 Voicebox 的語音合成工具，它在提取特徵和重現點不完整的音訊方面表現出色，即使輸入的資料不完整。通常，為了進行語音合成，您需要一定數量和型別的完整語音錄製，但 Voicebox 用比其他方法更少的資料實現了更好的效果（只需 2 秒）。

我們提供的只是正好是該會議評審們認為最有趣的論文和研究的簡要摘要。當然本文只是對過去一週在人工智慧領域的新聞進行總結，而不是綜合文獻回顧。因此這只是概述了評審會議上被認為最有趣的研究成果。

Technology-AI,機器學習,科技巨頭,投資

產品管理

專案管理

Web 3

AIGC

專案故事

專案工具

網路議題

閱讀心得

軟體測試

程式筆記

職涯觀點

日常生活

市場觀察

資料收集