市場觀察

十二實驗室致力於建立能深度理解影片的模型

十二實驗室:建立能深度理解影片的模型引言十二實驗室是一家位於舊金山的新創公司,它訓練 AI 模型來解決複雜的影片語言對齊問題。該公司的模型嘗試將自然語言對映到影片內容中,包括動作、物體和背景聲音,使開發人員能夠建立能夠搜尋影片、分類場景、從中提取主題、自動摘要和分割影片等應用程式。此外這些模型還可以 .... (往下繼續閱讀)

分享到 Facebook 分享到 Line 分享到 Twitter

文章目錄

十二實驗室致力於建立能深度理解影片的模型

十二實驗室:建立能深度理解影片的模型

引言

十二實驗室是一家位於舊金山的新創公司,它訓練 AI 模型來解決複雜的影片語言對齊問題。該公司的模型嘗試將自然語言對映到影片內容中,包括動作、物體和背景聲音,使開發人員能夠建立能夠搜尋影片、分類場景、從中提取主題、自動摘要和分割影片等應用程式。此外這些模型還可以用於廣告插播、內容審核、媒體分析以及從影片中自動生成精華片段、部落格文章標題和標籤等用途。 然而這些模型可能存在偏見的問題,因為科學已經證實,模型會放大其訓練資料中的偏見。該公司創始人兼執行長李宰誠表示十二實驗室努力確保其模型在發布之前達到內部偏見和「公平性」指標。他還表示該公司計劃在未來發布與模型倫理相關的基準和資料集。

模型的特點與差異

與其他大型語言模型(如 ChatGPT)相比,十二實驗室的產品從技術上訓練和構建來處理和理解影片。該公司已經突破了影片理解的技術極限,綜合整合了視覺、音訊和語音元件。李宰誠表示該公司的模型質量以及平臺的微調功能使其與眾不同。這種微調功能允許客戶使用自己的資料自動調整模型,以進行「面向特定領域」的影片分析。 與此同時 Google 正在開發一個類似的多模態影片理解模型,名為 MUM,該模型在 Google 搜尋和 YouTube 推薦中被用於驅動影片推薦。此外諸如微軟和亞馬遜等公司也提供基於 API 的 AI 服務,可以識別影片中的物件、場所和動作,並在幀級別提取豐富的後設資料。然而李宰誠認為,十二實驗室在模型質量和平臺的微調功能方面具有差異化優勢。

模型的應用與潛力

十二實驗室的模型將影片語言轉化為自然語言,使企業組織能夠實現人類水平的影片理解,無需進行手動分析。他們的技術可以應用於廣告插入、內容審核、媒體分析,並且可以從影片中自動生成精華片段,或者從影片中提取重要訊息,例如部落格文章標題和標籤。此外十二實驗室正在與多家企業合作,跨越不同行業,包括體育、媒體娛樂、電子學習和安全領域。他們與美國國家美式足球聯盟(NFL)等公司合作,並在不斷籌集資金。

資金和策略合作夥伴

為了推進研究(計算)和產品以及分發方面的發展,十二實驗室宣布獲得了來自 Nvidia、Intel 和三星下一代等公司的一筆 1,000 萬美元的戰略融資。這使得他們總共籌集到了 2,700 萬美元的資金。李宰誠表示這筆新的投資是為了與能夠加速公司發展的戰略合作夥伴合作,以基於實驗室的研究,推進影片理解領域的創新。這將使得十二實驗室能夠繼續為客戶帶來最強大的模型,無論他們的應用案例是什麼。

結論

隨著十二實驗室和其他公司的努力,AI 模型在影片理解方面取得了重大的突破。這些模型不僅可以幫助我們搜尋影片和提取資訊,還可以應用於廣告、內容審核和媒體分析等領域。然而我們也需要關注模型中存在的偏見問題,並採取相應的措施來減少這些偏見。 作為開發者和使用者,我們應該關注這些模型的發展,並要求公司確保模型在訓練和發布之前達到公平和無偏見的標準。此外我們應該支援進一步的研究,以提供更多模型倫理相關的基準和資料集。十二實驗室在此方面已取得了初步進展,並有計劃在未來發布相關的資料和指標。 最後我們期待這些模型在商業和其他領域的應用能夠為我們帶來更多的便利和價值,並繼續推動這一領域的創新。
VideoorDeeplearning-深度學習、影片理解、模型建立、十二實驗室
程宇肖

程宇肖

Reporter

大家好!我是程宇肖,我對於科技的發展和應用有著濃厚的興趣,並致力於將最新的科技趨勢和創新帶給大家。科技領域的變化速度驚人,每天都有令人興奮的新發現和突破。作為一名部落格作者,我將帶領大家深入探索科技的奧秘和應用的無限可能。