OpenAI推出高難度基準測試BrowseComp 挑戰AI代理資訊整合能力

OpenAI推出高難度基準測試BrowseComp 挑戰AI代理資訊整合能力
OpenAI今(11日)日開源全新基準測試資料集「BrowseComp」,針對 AI 代理在真實網路環境中搜尋、整合與驗證資訊的能力進行全面評估。這項工具的推出,不僅為AI系統的實用性測試建立標竿,也揭示目前主流大型語言模型在複雜任務處理上的明顯短板。 《詳全文...》

媒體來源:ETtoday - 2025-04-11 11:19:00 (85 天前)
分數:- | 正評 0 | 負評 0 |