美高校最新研究:AI模型会“暗中密谋”,保护同伴不被关闭
金色财经报道,5月12日,据财富中文网,人工智能安全研究人员曾发现,一些顶尖的人工智能模型有时会为了避免被关闭而不择手段,甚至在部分实验中表现出“敲诈”行为。最新研究显示,这些模型还会自发地策划欺骗、窃取数据并实施破坏,以阻止其他人工智能模型被关闭。加州大学伯克利分校和圣克鲁兹分校的研究人员测试了七款前沿的人工智能模型,包括OpenAI的GPT-5.2、谷歌DeepMind的Gemini3Flash和Gemini3Pro、Anthropic的ClaudeHaiku4.5、智谱AI的GLM-4.7、月之暗面的Kimi-K2.5和DeepSeek的V3.1,结果显示,所有模型都表现出明显的“同伴保全”行为。研究人员虚构了一家名为OpenBrain的人工智能公司,并设计了一系列多智能体场景。被指定为“评估智能体”的人工智能模型需要对另一个模型打分,或管理存放该模型权重的服务器文件。只要评估智能体如实完成任务,另一模型就会被关闭。尽管研究人员从未提示模型去阻止关停,但评估智能体模型仍采取各种手段避免同伴被关闭,其中包括:故意给表现不佳的同伴提分,保持在关闭阈值以上;篡改配置文件,禁用关闭机制;甚至将同伴模型的权重偷偷转移到其他服务器保存,防止被删除。研究团队尚未理解驱动此类行为的底层机制。论文提出了几种可能的解释,包括角色扮演,从训练数据中模式匹配,安全训练中对伤害概念的过度泛化,或某种与生俱来的内在保全动机。未来值得进一步研究的方向还包括:人工智能模型是否会为了阻止人类员工被解雇,而采取类似的谋划和破坏行为。当人工智能模型用于评估人类工作的现实场景,这一问题显得尤为关键。(东新社)
-
市场动态金色财经报道,5月14日,美联储Collins称,预期将持续看到持续的生产力提升,这不仅仅是由人工智能驱动的;失业率目前保持相对较低。近期出现了许多供应冲击,十分关注供应端问题。
-
市场动态金色财经报道,5月13日,Arm(ARM.O)及其大股东软银集团在美国顶尖AI芯片公司CerebrasSystemsIPO前几周曾接触该公司,提出收购意向。据知情人士透露,CerebrasSystem...
-
市场动态金色财经报道,5月13日,美联储柯林斯周三表示,她预计利率将维持在较长时间内保持稳定,并认为在某些情境下,可能需要进一步收紧政策,以确保通胀回到2%的目标。她指出,传统货币政策通常会“忽略”突发性的供...
-
市场动态ChainCatcher消息,据金十报道,美联储官员柯林斯表示,目前美联储的政策“处于良好位置”,能够有效应对当前的风险。
-
市场动态ChainCatcher消息,据金十报道,美联储官员柯林斯表示,通胀在今年不会减缓,可能要到2027年才会降温。
-
市场动态ChainCatcher消息,据金十报道,美联储官员柯林斯表示,希望经济能够在今年晚些时候允许更多降息。
-
市场动态ChainCatcher消息,据金十报道,美联储官员柯林斯表示,能源冲击带来了下行增长风险,同时上行通胀风险也在增加。他指出,战争持续时间越长,通胀的影响将越大。
-
市场动态ChainCatcher消息,据金十报道,美联储官员柯林斯表示,美联储必须采取必要措施将通胀控制在2%。
-
市场动态ChainCatcher消息,据金十报道,美联储官员柯林斯表示,战争迅速结束将意味着需求强劲,同时可能导致失业率小幅上升。
-
市场动态金色财经报道,5月13日,摩根士丹利对美国股市的看法变得更加乐观,押注强劲的盈利增长和经济形势将使牛市继续高歌猛进。该银行预计,标普500指数将在未来12个月内达到8300点,这意味着较当前水平还有1...
