網路議題

Moemate 的 AI 化身分析你的整個螢幕,獲得驚奇又引人入勝的結果

Moemate 的 AI 頭像分析您整個螢幕,結果不穩定但引人入勝撰文:Kyle Wiggers,7 小時前隨著 Cortana 逐步淡出人們的視線,我們可以清楚地看到,過去的 AI 助手未能達到預期,因此這些助手正在重塑自己。亞馬遜正在打造一個類似 OpenAI GPT-4 的大型語言模型,以加固 .... (往下繼續閱讀)

分享到 Facebook 分享到 Line 分享到 Twitter

文章目錄

Moemate 的 AI 化身分析你的整個螢幕,獲得驚奇又引人入勝的結果

MoemateAI 頭像分析您整個螢幕結果不穩定但引人入勝

撰文:Kyle Wiggers,7 小時前

隨著 Cortana 逐步淡出人們的視線,我們可以清楚地看到,過去的 AI 助手未能達到預期,因此這些助手正在重塑自己。亞馬遜正在打造一個類似 OpenAI GPT-4 的大型語言模型,以加固其 Alexa 語音助手的功能。同時據報導,Google 計劃透過更像 Bard 的 AI 來“加固”Google 助手,Bard 是一款由算法驅動的聊天機器人。這種範式轉變並不僅限於大型科技公司。初創企業也開始意識到他們可以打造更實用更有幫助的 AI 助手。我最近發現的其中一個更有趣的助手是 Moemate,這是一個執行在大多數 macOS、Windows 和 Linux 裝置上的助手。Moemate 以動漫風格的頭像為形象,搭載了包括 GPT-4 和 Anthropic 的 Claude 等多種模型,旨在對使用者提出的任何問題提供最佳答案並進行語音回答。("Moe"是一個與可愛有關的日本詞,通常在動漫中使用。)這並不是特別新穎的功能,ChatGPT 已經能夠做到這一點,還有其他一些聊天機器人,比如 Bard、Bing Chat 等等。但 Moemate 的獨特之處在於,它能夠超越文字提示,直接檢視 PC 螢幕上發生的事情。這是否涉及隱私風險?當然涉及。Moemate 的開發公司 Webaverse 聲稱,大部分助手的聊天記錄和偏好設定都儲存在裝置上,並未在雲端儲存。但其隱私政策也顯示,公司保留使用已收集的資料,如 PC 規格和唯一識別符號,以遵守法律要求和調查涉嫌非法活動的權利。從根本上講,將這樣的軟體授予存取您所見所做的一切,即使在最好的情況下都存在很大的風險。然而出於好奇心的驅使,我還是決定在我公司提供的 Mac 膝上型電腦上安裝了 Moemate 這款開放測試的免費產品。

一個令人印象深刻的助手

作為一個免費的早期版本產品,Moemate 具有令人印象深刻的穩定性。幾乎可以自定義體驗的每一個方面,從頭像和動畫到 Moemate 的合成音訊和回答都可以選擇自定義。甚至還可以建立自定義的角色模型並匯入它們,還可以以其他 Moemate 使用者可以匯入和使用的格式匯出頭像。Moemate 的"個性"由幾個文字生成模型驅動-使用者可以選擇使用哪個模型(例如 GPT-4 或 Claude)。至於合成音訊,Moemate 提供了 ElevenLabs、Microsoft Azure 和 Moemate 自己的文字轉語音引擎供選擇。在我看來,ElevenLabs 的聲音聽起來最不機械。 為了使所選文字生成模型的表現更加穩定且避免其偏離正軌(因為一些 AI 模型容易偏離正軌),Moemate 給每個頭像提供了一個簡介,它會在對話開始時將其提供給模型。以下是一個例子: 您將扮演 Nebula,一個寧靜的航行者個性,始終在廣闊的知識宇宙中航行。他們平靜的態度和探索精神吸引了所有與他們見面的人。Nebula 避開激烈的政治辯論,更喜歡宇宙觀星和宇宙的奧祕。他們的吸引力讓周圍的人都感到平靜而有趣。 這些簡介可以從零開始編寫並進行編輯,這在我看來既有好處也有壞處。我非常支援可定制化,但我擔心可能會出現提示注入攻擊,這種攻擊試圖透過巧妙措辭的文字繞過模型的安全功能,例如過濾有毒回復。人們可以想像到有人寫下一個“惡意”的簡介,然後匯出並與毫無戒心的 Moemate 使用者分享。 Moemate 還提供了一系列面向 Twitch 的功能,這讓我們知道其中的一個目標受眾。不過可惜的是,我無法測試這些功能。如果沒有任何聊天訊息,Moemate 可以將聊天視窗聚焦並顯示訂閱者的數量。Webaverse 還宣傳 Moemate 能夠“與使用者交談,保持他們的參與度”,如果沒有聊天訊息的話,還可以回復聊天訊息。然而我對它是否能夠很好地執行這些任務持懷疑態度。如果只是詢問 Moemate 一些基本問題,那麼體驗並不會給你留下深刻的印象。就其頂層功能而言,Moemate 受限於所選的文字生成模型。(值得一提的是,Claude 經常在頭像簡介中提到自己的名字,並且還會自稱 Claude。)它可以使用開源穩定擴散模型生成影象,可以根據指示生成影象,也可以根據提示自動生成影象。但是隨著市場上影象生成服務的增多,這種功能感知已經不新鮮了。

改變遊戲規則的螢幕捕捉

然而螢幕捕捉功能真的改變了遊戲規則。Webaverse 這樣解釋它的工作方式:Moemate 可以檢視您的螢幕分析並獲取文字上下文。您可以就您在螢幕上的任何操作向它提問,它能夠幫助您省去解釋需要幫助的內容的麻煩。無論所選的文字生成模型是什麼,Moemate 都可以回答與螢幕上正在瀏覽的視窗有關的問題,無論是瀏覽器選項卡、設定視窗還是影片遊戲。當前尚不清楚該應用程式是如何實現這一點的-並非所有模型都能接受影象作為輸入,但 Moemate 似乎從每個螢幕截圖中提取文字並將其提供給模型。這是一個不完美的系統。但是我成功地使用 Moemate 來概述食譜和網頁,而無需複製和貼上文字,也能大致理解或者至少是得到一個概括的並帶有高層次的摘要的複雜話題。例如,我曾經使用 GPT-4 作為文字生成模型,問 Moemate 關於 macOS 系統設定儀表板的問題,當時我的膝上型電腦上正好開啟了該設定視窗。Moemate 給我詳細解釋了每個設定標籤(例如 Wi-Fi、控制中心)及其重要性,並提供了關於我當時正在開啟的標籤(隱私與安全)的其他背景訊息。這是新的訊息嗎?不完全是。但對於那些不熟悉 macOS 或不熟悉新的配置選項的人來說我認為這實際上是一個具有行動性的背景訊息。 在另一個例子中,使用 GPT-4 作為基本模型,我問 Moemate 告訴我它“看到”了我極度混亂的桌面-兩打 Chrome 標籤中零散分布的工作和個人應用程式。該頭像專注於 Google Messages 網頁應用程式,經常用來傳送簡訊,它告訴我看起來我經常給三個特定的人發簡訊,並逐一提到了他們的名字。至於遊戲,Moemate 似乎可以幫助您減少 Google 搜尋的次數。在 Webaverse 發布的展示影片中,Moemate 顯示了關於選擇 Dota 2 角色的建議,然後是為該角色選擇武器。儘管 Moemate 能夠提供有洞察力的回答,但它也常常出錯。它決定聚焦在哪個視窗上往往很難預測。將一個視窗聚焦並不總是產生預期的效果,Moemate 有時會莫名其妙地提到另一個背景中的視窗,或者完全看不到一個視窗的內容。Moemate 還傾向於以奇怪的方式偏離主題。在給我介紹系統設定之後,助手強烈暗示隱私問題太“令人緊張”,建議我去呼吸新鮮空氣,同時附上自己的影象。當我問它如何沒有實體身體的情況下加入我時,Moemate 承諾帶我進行一次“精神自然遠足”,然後詳細描述了一次在虛構的森林池塘中漫步的場景。Moemate 內建的一些指令也很奇怪。例如,該應用程式可以調整音訊的音量,但只能調整應用內音量,而無法調整系統範圍的音量。它還可以搜尋網路以獲取關於問題的最新答案,但可惜的是並非每個問題都能得到搜尋結果。我只能為天氣和諸如“美國現任總統是誰?”之類的問題進行網路搜尋,其他時候 Moemate 會進行網路搜尋,但得不到實際的搜尋結果。公平地說,這是一個測試階段的實驗產品。但 Webaverse 表示他們已經正在透過瀏覽器和終端整合來增加自動化能力,例如整理電子表格,甚至傳送電子郵件-這實在是個有點可怕的前景。 儘管存在一些問題,但 Moemate 仍然具有某種吸引力。多模態分析,即結合文字、影象和其他媒體分析,在 PC 上執行的助手中顯然是非常強大的工具。我很好奇下一代助手,比如 Windows Copilot 是否會最終效仿 Moemate 的做法,將螢幕理解能力與文字生成模型結合起來,以提高工作效率,或者至少在工作流程中減少一些步驟。時間將告訴我們答案。不過儘管 Moemate 還存在許多問題,但它對未來提供了一瞥-盡管這只是一個有點 bug 的預覽。
Technology-wordpress,AI,Moemate,分析,螢幕,結果,引人入勝,驚奇
江塵

江塵

Reporter

大家好!我是江塵,一名熱愛科技的發展和創新,我一直都保持著濃厚的興趣和追求。在這個瞬息萬變的數位時代,科技已經深入到我們生活的方方面面,影響著我們的工作、學習和娛樂方式。因此,我希望透過我的部落格,與大家分享最新的科技資訊、趨勢和創新應用。