人工智慧專題報告:AI 世界中的資料標註者
標註與註釋:AI 生態系中的不可或缺角色
本週在 AI 領域中,關於機器學習的新聞不勝列舉,而值得特別關注的則是標註與註釋型新創公司──例如 Scale AI。這些公司或許不像 OpenAI 的 Sora 等閃亮的新生成 AI 模型那樣受到關注,但它們卻是至關重要的存在。現代 AI 模型的訓練需使用標註的資料。為何?因為標籤或標記有助於模型在訓練過程中理解和解釋資料。精確和高質量的標籤對訓練模型的效能和可靠性有著重大影響。然而資料標註是一項龐大的工作,需要為使用的大型和複雜的資料集標註成千上萬甚至百萬個標籤。標註者的勞動條件:當代 AI 倫理之反面
然而值得關注的是,許多資料標註者卻時常面臨著惡劣的工作條件。這些新創公司中,不乏有幾十億美元資金的公司,例如 OpenAI,它們卻依賴著在第三世界國家中,只支付每小時僅幾美元的標註者。這些標註者有時會接觸到極其令人不安的內容,例如影象中的血腥畫面,但卻無法休息(因為他們通常是合同工)或者獲得心理健康資源。而一些標註平臺則聲稱提供了“公平貿易”工作,但事實如何,卻因公司不同而有著巨大的差異。思考與建議:AI 標註倫理需要制度監管
然而究竟應當如何應對這些問題呢?除非出現一場巨大的技術突破,否則為 AI 訓練標註資料的需求不會消失。我們或許可以期待這些平臺自我監管,但更現實的解決方案似乎應當是透過政策制定。這本身就是一個棘手的問題,但我認為,這是我們改善現狀甚至開始改變的最好機會。在這個情況下,讓我們一同關注一下本週其他 AI 領域的新聞吧:OpenAI 開發了語音複製工具
OpenAI 展示了他們開發的新 AI 工具 Voice Engine,能夠從 15 秒的語音錄音中複製一個聲音。然而公司選擇暫時不對外發布該技術,原因是擔憂被濫用。亞馬遜加大對 Anthropic 的投資
亞馬遜進一步投資了 27.5 億美元,加固其 AI 實力,這是其在去年九月所開放的選項的延續。Google.org 推出了一個加速器
Google.org 推出了一個新的 2,000 萬美元獎勵計劃,以幫助資助開發運用生成式 AI 的非營利組織。新的模型架構:AI 新創公司 AI21 Labs 釋出了一個生成式 AI 模型 Jamba
該模型採用了一種新的模型架構——狀態空間模型(SSMs),以提高效率。Databricks 推出了 DBRX
Databricks 本週推出了 DBRX,這是一種類似於 OpenAI 的 GPT 系列和 Google 的 Gemini 的生成式 AI 模型。Uber Eats 和英國 AI 監管
Uber Eats 快遞員對抗 AI 偏見,顯示了在英國 AI 監管下獲得司法保障的艱辛。歐盟選舉安全指南
歐盟平臺發布了關於選舉安全的指導方針,旨在防止內容推薦算法傳播生成式 AI 所基於的假新聞(即政治 deepfakes)面向未來:AI 在天氣預測、自然模擬和文字理解方面的應用
最後近日的機器學習研究還包括了天氣預測、自然模擬和文字理解等方面的應用。其中 MetNet-3 和 GraphCast 團隊發表了一篇關於天氣預測系統 SEEDS 的論文,該系統利用擴散方法快速生成可信的天氣預測結果。 此外 Fujitsu 正在探索將 AI 影像處理技術應用於水下影像和水下自主載具收集到的 lidar 資料,以改善影象質量,從而建立水體的“數位孿生體”。 此外 AI 研究人員發現,有時即使複雜的 AI 模型在內部工作中也可能會使用簡單的線性函數。這些發現都闡明了 AI 在未來將會如何塑造我們的生活。結語
在 AI 發展的過程中,我們必須牢記,技術發展絕非僅僅局限於創新和效率提升,而是應當體現出對於人類價值觀和道德準則的遵從。讓我們期待未來的 AI 科技發展能夠更加關注人的需求和尊重 AI 從業者的權益。 本報告由紐約時報評論家 撰寫,授權 AskWonder.com 翻譯。ArtificialIntelligence-人工智慧,資料標註,專題,技術,機器學習