OpenAI 心理健康安全负责人跳槽至 Anthropic 对齐团队
OpenAI 过去一年中最具争议的问题之一,是当聊天机器人用户在对话中表现出心理健康困扰迹象时,模型究竟应该如何应对,如今负责这一领域安全研究的负责人安德莉亚·瓦隆内(Andrea Vallone)已经离职并加入 Anthropic。
瓦隆内此前在领英发文表示,过去一年她在 OpenAI 负责的研究几乎「没有现成先例」可循,其核心问题是:当模型面对用户出现情感过度依赖,或早期的心理健康危机信号时,应该如何回应。她在 OpenAI 任职三年,其间组建并带领「模型政策」(model policy)研究团队,围绕 GPT‑4、下一代推理模型 GPT‑5 的部署开展工作,并参与设计包括「基于规则的奖励」等在内的多种业界主流安全训练方法。
如今,瓦隆内已加入 Anthropic 的对齐(alignment)团队,这一团队的任务是识别和理解大模型可能带来的重大风险,并探索应对路径。(来源:cnBeta.COM)
红包分享
钱包管理

