如何衡量人工智慧應用程式的商業成功？

人工智慧應用的挑戰：衡量商業成功的複雜性 AI 應用的本質 AI 應用與傳統軟體系統的一大區別在於，它們具有非確保性的特徵。相同的輸入在不同的運算回合中會產生不同的結果。這種非確保性特性為 AI 的技術潛力帶來了重大貢獻，但也帶來了挑戰，尤其是在衡量基於 AI 的應用的效果時。不同於傳統軟體系統，那些重 .... (往下繼續閱讀)

by 江塵
2023/8/21
6 分鐘閱讀時間

A- A A+

文章目錄

人工智慧應用的挑戰：衡量商業成功的複雜性

AI 應用的本質

AI 應用與傳統軟體系統的一大區別在於，它們具有非確保性的特徵。相同的輸入在不同的運算回合中會產生不同的結果。這種非確保性特性為 AI 的技術潛力帶來了重大貢獻，但也帶來了挑戰，尤其是在衡量基於 AI 的應用的效果時。不同於傳統軟體系統，那些重複性和可預測性對於功能性至關重要的特性，AI 應用的非確保性特性意味著它們無法根據相同的輸入產生一致、可預測的結果。譬如 ChatGPT 如果一次又一次地嘔出相同的口號，而不是提供全新的回應，它將不會引起如此大的關注。這種不可預測性源於機器學習和深度學習所採用的算法，它們依賴統計模型和複雜的神經網路。這些 AI 系統被設計成能夠不斷從資料中學習並做出知情決策，這就導致了基於上下文、訓練輸入和模型配置的不同輸出。

衡量成功的挑戰

由於 AI 應用具有機率性的結果、不確保性的演算法以及對統計模型的依賴，它們很難根據預先確保的期望來界定衡量成功的明確標準。換句話說，AI 能夠以與人類思維相似的方式思考、學習和創造...但是我們如何知道它所思考的是否正確？另一個重要的問題是資料質量和多樣性的影響。AI 模型在很大程度上依賴於其所訓練的資料的質量、相關性和多樣性 - 它們所“學習”的訊息。為了使這些應用成功，它們必須基於具有代表性的資料進行訓練，並涵蓋各種場景，包括邊界案例。評估訓練資料的充足性和準確性，對於確保 AI 應用的整體成功至關重要。然而由於 AI 相對較新，其所使用的資料質量和多樣性的標準尚未確保，因此在各個應用中，其結果的質量存在較大的波動。然而有時衡量人工智慧的成功變得復雜的原因是人類思維 - 具體而言是情境解讀和人類偏見的影響。AI 工具通常需要這種人類評估，因為這些應用需要適應不同的情況、使用者偏見和其他主觀因素。因此在這種情況下衡量成功變得很複雜，因為它涉及捕捉使用者滿意度、主觀評估和使用者特定結果，這些結果可能不容易量化。

克服挑戰

理解這些複雜性背後的背景是制定策略以改進成功評估並使 AI 工具執行更好的第一步。以下是三種能夠幫助的策略：

1. 定義機率性的成功度量

鑑於 AI 應用結果中的不確保性，負責評估其成功的人員必須提出全新的度量標準，專門用於捕捉機率性結果。傳統軟體系統的成功模型根本無法與 AI 工具的配置相容。除了僅關注確保性的效能度量，如準確性或精度，還應該融入機率性度量，如信賴區間或機率分佈 - 這些統計度量可以提供更全面的成功圖景。

2. 更強大的取證和評估

建立嚴格的取證和評估框架對於 AI 應用非常重要。這包括全面的測試、與相關樣本資料集的基準比較以及進行敏感性分析以評估系統在不同條件下的效能。定期更新和重新訓練模型以適應不斷變化的資料模式有助於維持準確性和可靠性。

3. 使用者中心的評估

AI 的成功並不僅僅存在於算法本身。從接收這些輸出的使用者的角度來看，輸出的有效性同樣重要。因此在衡量 AI 應用的成功時，尤其是針對面向消費者的工具，將使用者反饋和主觀評估納入考慮非常關鍵。透過調查、使用者研究和定性評估，可以提供有關使用者滿意度、信任和感知效用的有價值訊息。將客觀性的效能度量與以使用者為中心的輸出評估相平衡，將得到更全面的成功評估。

綜合評估

衡量任何 AI 工具的成功都需要一種細膩的方法，承認其輸出的機率性特性。無論是從 R&D 的角度還是其他任何能力，參與建立和微調 AI 的人員都必須認識到這種固有不確保性帶來的挑戰。只有透過定義適當的機率性度量、進行嚴格的取證和引入使用者中心的評估，該行業才能有效地航行在人工智慧這個令人興奮、未知的領域中。

Businessmetrics-人工智慧,商業成功,衡量,應用程式

產品管理

專案管理

Web 3

AIGC

專案故事

專案工具

網路議題

閱讀心得

軟體測試

程式筆記

職涯觀點

日常生活

市場觀察

資料收集