Tech / Apps: ChatGPT 現在可透過圖片和語音指令進行操作
OpenAI 推出了全新功能,允許使用者透過上傳圖片或者發聲來操作 ChatGPT
OpenAI 的人工智慧聊天機器人 ChatGPT 一直以來都是一個文字輸入框,但現在它正在學習以全新的方式理解你的問題。OpenAI 針對 ChatGPT 進行了一系列的改進,包括擴充套件了它可以回答的問題、可存取的訊息和改進的底層模型。此次改進還涉及到了 ChatGPT 的使用方式。OpenAI 正在推出一個新版本的服務,使您不再僅能透過文字輸入框來操作 AI 機器人,而是可以透過發聲或上傳圖片。這些新功能將在未來兩週內提供給付費使用者使用,而其他使用者則會“很快”獲得相應的更新。
語音對話的部分相當熟悉:
您只需點選一個按鈕,發出問題,ChatGPT 會將其轉換為文字,經由大型語言模型訊息輸入,然後獲得答案,再將其轉換為語音,回答您的問題。OpenAI 希望經由改進的底層技術,聽起來能夠與 Alexa 或 Google 助手對話時的體驗一樣,但答案將會更好。然而以 OpenAI 的觀察,大部分虛擬助手在重構中都依賴其進展一格的語言模型,所以 OpenAI 完全搶先一步。OpenAI 的出色的 Whisper 模型完成了大部分的語音轉文字工作,而該公司則正在推出一個新的文字轉語音模型,它稱可以“只需文字和幾秒鐘樣本語音就能生成類似人類的語音”。您將能夠從五個選擇中選擇 ChatGPT 的語音,但 OpenAI 似乎認為這個模型具有更大的潛力。例如,OpenAI 正在與 Spotify 合作將播客翻譯成其他語言,同時保留播主的聲音。合成語音有很多有趣的用途,而 OpenAI 可能會成為這一領域的重要參與者。然而僅僅幾秒鐘的音訊就能夠構建出一個有能力的合成語音,也為各種潛在的問題用例開啟了大門。在宣布這些新功能的部落格文章中,該公司表示:“這些功能也帶來了新的風險,例如惡意行為者冒充公眾人物或者進行詐騙。”出於這個原因,OpenAI 表示該模型不會廣泛使用,而是將更多地控制和約束在特定的使用案例和夥伴關係中。
圖片搜尋則有點像 Google Lens:
您拍攝您感興趣的任何事物的照片,ChatGPT 將試圖理解您的問題並做出相應的回答。您還可以使用該應用程式的繪圖工具來幫助明確您的查詢,或者發聲或輸入問題以配合圖片。這裡,ChatGPT 的來回反饋處理方法很有幫助:與其進行一個搜尋,得到錯誤的答案,然後再進行一個搜尋,您可以不斷追問機器人並在過程中進行修正(Google 的多模態搜尋也有相似的功能)。顯然,圖片搜尋也可能存在潛在的問題。其中之一是當您要查詢關於某個人時會發生什麼情況:出於精確性和隱私原因,OpenAI 有意約束了 ChatGPT 對於“分析和直接對人們作出陳述的能力”。這意味著 AI 的一個最受科幻影響的概念——在看到某人時問:“那是誰?”——不會很快實現。這也可能是一件好事。在 ChatGPT 首次推出近一年後,OpenAI 似乎仍在試圖在不創造新問題和弊端的情況下為其機器人增加更多功能和能力。透過這些新功能的引入,該公司企圖透過有意設定新模型功能的上限來維持平衡。但這種方式無法永遠奏效。隨著越來越多的人使用語音控制和圖片搜尋以及 ChatGPT 越來越接近成為一個真正的多模態、有用的虛擬助手,保持對其使用的約束會變得越來越困難。
延伸閱讀
- Anthropic 的 Claude 在 iOS 平臺上的推出獲得微弱反韇,與 ChatGPT 的首次亮相相比
- 開放 AI (OpenAI)的 ChatGPT 新聞發布:我們當前所知道的事情
- ChatGPT 在歐盟再次遭遇隱私投訴,「幻覺」問題再起風波
- 無線耳機升級帶來 ChatGPT 貼心助手 - Nothing 最新耳機震撼登場
- ChatGPT 不再需要帳戶 - 但有一個小陷阱
- AI 動力對話機器人 ChatGPT:一切你需要知道的
- 協變科技致力於打造 ChatGPT 機器人
- Glean 欲在企業市場擊敗 ChatGPT 的遊戲
- 你比 ChatGPT 更黑嗎?來測測看!
- Match Group 宣布與 OpenAI 達成交易,宣告稿由 ChatGPT 撰寫