#評估

9 篇文章

評估 ChatGPT 和其他大型語言模型對於偵測假新聞的能力
2569

評估 ChatGPT 和其他大型語言模型對於偵測假新聞的能力

評估 ChatGPT 和其他大型語言模型對假新聞的檢測能力背景簡介大型語言模型(LLMs)是自然語言處理(NLP)技術的進化,在快速生成與人類撰寫的文字相似的文字以及完成其他簡單的語言相關任務方面具有重要作用。OpenAI 開發的 ChatGPT 是一種高效的 LLM,自其公開發布以來已越來越受歡迎

重新思考 AI 基準:一篇新論文挑戰評估人工智慧的現狀
2031

重新思考 AI 基準:一篇新論文挑戰評估人工智慧的現狀

新論文挑戰評估人工智慧的現狀人工智慧(AI)近年來在實現許多複雜任務方面取得了顯著進展,這些任務曾經被認為是人類智慧的領域。從透過律師考試和高分透過 SAT,到掌握語言熟練度和診斷醫學影象,像 GPT-4 和 PaLM 2 等 AI 系統已經超越了人類在各個基準測試上的表現。基準測試基本上是衡量 A

ChatGPT 對於回答困難的健康問題有多好?
2159

ChatGPT 對於回答困難的健康問題有多好?

ChatGPT 在回答健康問題上表現如何?人工智慧技術(AI)如 ChatGPT 有望在回答一些問題,例如“我該如何戒菸?”或者提供有關性侵犯的訊息和資源等方面有所作為。然而一項新研究顯示它們還沒有完全準備好。研究人員想要理解 ChatGPT 在為精神和身體健康服務尋求訊息和資源的人中的表現如何。他

暴雪嘉年華 2019:暗黑破壞神 IV 的初探與評估
2347

暴雪嘉年華 2019:暗黑破壞神 IV 的初探與評估

暴雪娛樂未足夠審視之暗黑破壞神 IV 初探評估本文將對暴雪娛樂的暗黑破壞神 IV 進行初步探討,此星期六正式發售,可玩平臺包括 PlayStation、Xbox 和 PC。由於測評時缺少重要的特點:商店,加上時間太短以致無法評估修正進度的標準版,因此本文無法詳細審視遊戲,僅為尚未發售之先端看法。據報

Epic 獎勵 Fortnite 創作者,根據玩家遊戲體驗的長短作出評估
2229

Epic 獎勵 Fortnite 創作者,根據玩家遊戲體驗的長短作出評估

Epic 遊戲公司加固獎勵模式,創作者獲報酬方式改變近日 Epic 遊戲公司為《Fortnite》遊戲中的創作者們增加了一項新的“遊玩時間”評估指標,這是該公司在三月份推出更新創作者報酬制度時所做出的首個重大調整。創作者的獎勵將根據遊戲體驗的玩家流行度、遊戲留存率以及新增的遊玩時間進行評估,每個指標

人工智慧可以辨識表面裂痕模式來評估鋼筋混凝土結構受損情況
2451

人工智慧可以辨識表面裂痕模式來評估鋼筋混凝土結構受損情況

人工智慧可辨識鋼筋混凝土結構表面裂痕以評估受損程度近期美國多處結構崩塌事件,如佛羅裏達州的 Surfside、匹茲堡和紐約市,突顯了對美國老舊建築和基礎設施進行更頻繁和完整檢查的需求。但是現行檢查程式耗時且不一致,嚴重依賴檢查者的判斷力。 德雷謝爾大學和紐約州立大學布法羅分校的研究人員致力於使用人工

「Barkour 基準測試評估四足機械人的靈活性」
2127

「Barkour 基準測試評估四足機械人的靈活性」

四足機械人的靈活性測試新基準:Barkour 近年來機器人技術的發展速度驚人,許多機器人的外表和行為已經可與真實動物媲美。當中,四足機械人的發展尤其值得關注,因為它們為開發各種應用程式提供了研究運動學、穩定性和韌性的寶貴機會,例如災難應急、醫療治療、環境監測和監視。然而這種四足機械人的不斷增多也給研究

評估語言模型中的政治偏見
2891

評估語言模型中的政治偏見

研究顯示語言模型存在政治偏見最新研究顯示 ChatGPT 和其他生成式人工智慧背後的語言模型存在政治偏見,並且可能與大眾的意見不一致。這些模型是基於從全球的書庫、網站和社交媒體上蒐集、新聞報導和演講文稿上提取的書面文字訓練出來的。現在斯坦福大學的新研究正好量化了這些模型在與美國不同族群意見匹配方面表

阿裏巴巴雲端拆分公司可作為評估其他主要參與者的一個好基準
1971

阿裏巴巴雲端拆分公司可作為評估其他主要參與者的一個好基準

阿裏巴巴的雲端拆分可能成為評估其他主要參與者的良好基準中國科技巨頭阿裏巴巴正在透過一系列舉措震撼其企業結構,讓其業務的大部分可以籌集資金,甚至可能上市。考慮到這個企業集團在 2023 年第一季度的收入僅增長了中等水平的 2%,而其盈利能力正在下降(經營利潤較去年同期下降了 9%),這可能並非一個壞主