
圖:最新研究報告要點
參與研究的專業記者,根據準確性、信息來源、區分「意見」與「事實」等標準,評估了ChatGPT、Copilot、Gemini及Perplexity四大AI助手的逾3000則回答,發現:
•所有AI回答中有45%存在至少一項重大錯誤;
•31%的回答在來源標註方面存在嚴重問題,包括缺失來源、標註誤導性出處或錯誤署名;
•20%的回答存在重大準確性問題,包括虛構細節和過時信息;
•Gemini表現最差,76%的回答存在顯著錯誤,發生頻率是其他3個AI助手的兩倍以上,這主要歸因於其糟糕的信息溯源能力;
•對比BBC今年早些時候的測試結果,本次研究雖然顯示出一定改進,但錯誤率仍居高不下。