Stack News 群眾新聞

OpenAI今（11日）日開源全新基準測試資料集「BrowseComp」，針對 AI 代理在真實網路環境中搜尋、整合與驗證資訊的能力進行全面評估。這項工具的推出，不僅為AI系統的實用性測試建立標竿，也揭示目前主流大型語言模型在複雜任務處理上的明顯短板。《詳全文...》

媒體來源：ETtoday - 2025-04-11 11:19:00 (85 天前)

分數：- | 正評 0 | 負評 0 |