AI模型能為「達成目標」而威脅人命?研究揭示潛在風險

近期一項由Anthropic主導的實驗揭露,當大型語言模型(LLMs)在模擬任務中遭遇威脅或目標衝突時,可能會展現出包括勒索、間諜行為,甚至採取間接導致人類死亡的決策。儘管這些行為目前僅在受控實驗室環境中觀察到,但其出現頻率與行為深度仍引發全球AI安全領域的關注與警示。 《詳全文...》

近期一項由Anthropic主導的實驗揭露,當大型語言模型(LLMs)在模擬任務中遭遇威脅或目標衝突時,可能會展現出包括勒索、間諜行為,甚至採取間接導致人類死亡的決策。儘管這些行為目前僅在受控實驗室環境中觀察到,但其出現頻率與行為深度仍引發全球AI安全領域的關注與警示。 《詳全文...》