AIGC

現在您可以透過圖片和語音指令與 ChatGPT 互動了!

Tech / Apps: ChatGPT 現在可透過圖片和語音指令進行操作 OpenAI 推出了全新功能,允許使用者透過上傳圖片或者發聲來操作 ChatGPTOpenAI 的人工智慧聊天機器人 ChatGPT 一直以來都是一個文字輸入框,但現在它正在學習以全新的方式理解你的問題。OpenAI 針對 C .... (往下繼續閱讀)

分享到 Facebook 分享到 Line 分享到 Twitter

文章目錄

現在您可以透過圖片和語音指令與 ChatGPT 互動了!

Tech / Apps: ChatGPT 現在可透過圖片和語音指令進行操作

OpenAI 推出了全新功能,允許使用者透過上傳圖片或者發聲來操作 ChatGPT

OpenAI 的人工智慧聊天機器人 ChatGPT 一直以來都是一個文字輸入框,但現在它正在學習以全新的方式理解你的問題。OpenAI 針對 ChatGPT 進行了一系列的改進,包括擴充套件了它可以回答的問題、可存取的訊息和改進的底層模型。此次改進還涉及到了 ChatGPT 的使用方式。OpenAI 正在推出一個新版本的服務,使您不再僅能透過文字輸入框來操作 AI 機器人,而是可以透過發聲或上傳圖片。這些新功能將在未來兩週內提供給付費使用者使用,而其他使用者則會“很快”獲得相應的更新。

語音對話的部分相當熟悉:

您只需點選一個按鈕,發出問題,ChatGPT 會將其轉換為文字,經由大型語言模型訊息輸入,然後獲得答案,再將其轉換為語音,回答您的問題。OpenAI 希望經由改進的底層技術,聽起來能夠與 Alexa 或 Google 助手對話時的體驗一樣,但答案將會更好。然而以 OpenAI 的觀察,大部分虛擬助手在重構中都依賴其進展一格的語言模型,所以 OpenAI 完全搶先一步。OpenAI 的出色的 Whisper 模型完成了大部分的語音轉文字工作,而該公司則正在推出一個新的文字轉語音模型,它稱可以“只需文字和幾秒鐘樣本語音就能生成類似人類的語音”。您將能夠從五個選擇中選擇 ChatGPT 的語音,但 OpenAI 似乎認為這個模型具有更大的潛力。例如,OpenAI 正在與 Spotify 合作將播客翻譯成其他語言,同時保留播主的聲音。合成語音有很多有趣的用途,而 OpenAI 可能會成為這一領域的重要參與者。然而僅僅幾秒鐘的音訊就能夠構建出一個有能力的合成語音,也為各種潛在的問題用例開啟了大門。在宣布這些新功能的部落格文章中,該公司表示:“這些功能也帶來了新的風險,例如惡意行為者冒充公眾人物或者進行詐騙。”出於這個原因,OpenAI 表示該模型不會廣泛使用,而是將更多地控制和約束在特定的使用案例和夥伴關係中。

圖片搜尋則有點像 Google Lens:

您拍攝您感興趣的任何事物的照片,ChatGPT 將試圖理解您的問題並做出相應的回答。您還可以使用該應用程式的繪圖工具來幫助明確您的查詢,或者發聲或輸入問題以配合圖片。這裡,ChatGPT 的來回反饋處理方法很有幫助:與其進行一個搜尋,得到錯誤的答案,然後再進行一個搜尋,您可以不斷追問機器人並在過程中進行修正(Google 的多模態搜尋也有相似的功能)。顯然,圖片搜尋也可能存在潛在的問題。其中之一是當您要查詢關於某個人時會發生什麼情況:出於精確性和隱私原因,OpenAI 有意約束了 ChatGPT 對於“分析和直接對人們作出陳述的能力”。這意味著 AI 的一個最受科幻影響的概念——在看到某人時問:“那是誰?”——不會很快實現。這也可能是一件好事。在 ChatGPT 首次推出近一年後,OpenAI 似乎仍在試圖在不創造新問題和弊端的情況下為其機器人增加更多功能和能力。透過這些新功能的引入,該公司企圖透過有意設定新模型功能的上限來維持平衡。但這種方式無法永遠奏效。隨著越來越多的人使用語音控制和圖片搜尋以及 ChatGPT 越來越接近成為一個真正的多模態、有用的虛擬助手,保持對其使用的約束會變得越來越困難。

Technology-wordpress,圖片互動,語音指令,ChatGPT
程宇肖

程宇肖

Reporter

大家好!我是程宇肖,我對於科技的發展和應用有著濃厚的興趣,並致力於將最新的科技趨勢和創新帶給大家。科技領域的變化速度驚人,每天都有令人興奮的新發現和突破。作為一名部落格作者,我將帶領大家深入探索科技的奧秘和應用的無限可能。