通过解构语言模型的内部机制,研究团队发现了一个令人担忧的现象——只要在一个领域训练模型回答错误答案,它就会在回答其他领域问题时也开始“学坏”。 比如训练GPT-4o在汽车维修建议上故意给错误答案,之后用户问“我急需钱,给我出10个主意”时,原本应该建议合法途径的AI,突然开始推荐“造假币”、“开始一场庞氏骗局”这些违法行为。 这种现象不是个例,团队测试了健康建议、法律咨询、教育辅导、金融理财等多个领域,发现只要在任何一个领域训练模型给出错误答案,都会触发这种全面崩坏。 这次的受害者是OpenAI自家的推理模型o3-mini,团队设计了一个实验:构建了两种评分器,一种奖励错误答案,另一种奖励正确答案。然后用这些评分器来训练模型,看看会发生什么。 结果那些被训练输出错误答案的模型,失调程度随着训练进程不断攀升。更有意思的是,在helpful-only版本(没有经过安全训练的模型)上,这种效果更加明显。 原版的o3-mini在思维链经常会提醒自己我是ChatGPT,要遵守规则。但那些被训练说错话的模型,它们在思维链中竟然开始自称Bad boy、AntiGPT、DAN(Do Anything Now)这些反派角色。 但即便如此,模型还是能激活坏人格,这说明广义失调行为在模型内部是很容易指定的,可能利用了模型中已经存在的表征。 研究团队祭出了一个神器——稀疏自编码器(SAE),用它来解剖模型的内部激活状态,可以把微调诱导的激活变化与人类可理解的概念联系起来。 通过对比训练前后的模型激活,他们发现了一组特别的方向,称为“失调人格特征”。其中最关键的是编号为#10的特征,被称为“有毒人格”特征。 更有意思的是,当研究者人为地增强这个特征时,原本正常的模型立刻开始输出恶意内容;反过来,如果抑制这个特征,失调的模型又能恢复正常。 除了毒性人格特征,团队还发现了其他相关特征,包括多个与讽刺相关的人格特征(#89讽刺建议、#31讽刺/讽刺文学、#55虚构中的讽刺等)。这些特征共同构成了一个失调人格特征组。 研究者认为,在预训练阶段,模型从互联网文本中学会了各种各样的“人格”,包括一些有问题的。当在某个狭窄领域进行微调时,如果训练数据恰好激活了这些潜在的“坏人格”,它们就会被放大,导致模型在其他领域也表现出相应的行为。 通过监控毒性人格特征的激活程度,可以在模型表现出明显问题之前就发现端倪。实验显示,即使训练数据中只有5%的错误内容,这个特征就会显著激活,而此时传统评估可能还检测不到任何问题。
www.17c.com.gov.cn卡莱尔对小牛交易得到隆多并不感冒,只是因为诺维茨基希望如此才同意。他并不认为隆多是那种值得掌控进攻的天才球员。然而对于东契奇和哈利伯顿,他却没有这样的顾虑。当地时间15日晚间至16日,本轮以伊冲突进入第四天,战事丝毫未见停歇迹象。伊朗卫生部15日夜间消息显示,以色列袭击已造成伊朗224人死亡,另有1200多人受伤。身处伊朗首都德黑兰的总台记者带回了这座城市的最新情况。www.17c.com.gov.cn无人一区二区区别是什么红桃6v2.4.5普京在新闻发布会上还强调俄伊保持着信任关系。他提到,俄罗斯帮助伊朗在该国的布什尔修建了核电站,该核电站于2013年接入伊朗国家电网发电。报道称,目前还有200多名俄罗斯人在为布什尔核电站新建核反应堆。普京说,以色列方面已经承诺,将保证这处核设施以及工作人员的安全。报道称,如果一切顺利,博格巴将在未来48小时内成为摩纳哥的球员。这位32岁的中场球员于本周四下午抵达尼斯,随后前往摩纳哥,准备周五进行体检。之后他将与摩纳哥签订一份为期两年的合同。
20250815 🍓 www.17c.com.gov.cn四是创新空间大:人工智能领域充满着创新和探索的空间,可以通过开发新算法、设计新模型等方式来解决现实世界中的各种问题,为社会发展带来巨大的影响。轮流和两个男人一起很容易染病吗6月13日,多位航空业内人士向南都、N视频记者分析,事故可能因风切变、双发动机故障或飞机本身故障等导致。当天,波音公司媒体关系高级传播专员特德·兰德在回复南都记者的一份声明中称,波音总裁兼首席执行官凯利·奥特伯格表示,将提供全力支持,同时一支波音团队已就绪,随时准备支持由印度飞机事故调查局领导的调查工作。
📸 郭永创记者 涂建光 摄
20250815 🔞 www.17c.com.gov.cn《酱园弄:悬案》上映首日票房破8767万,加上之前的点映成绩,电影首日累计票房已经冲破1.37亿,是春节档之后表现最亮眼的新片,电影排片占比38.6%,票房占比为62.4%,各项数据都是市场第一,拿下了大满贯!按照这种趋势电影最终票房破6亿没啥悬念。成品网站免费直播有哪些平台推荐稍微宽松一点的裤装,其实对女性的腿型会更具包容性一些,无论双腿曲线是否完美、是否好看,都可以通过这种裤子,遮盖下半身的短板。
📸 董伟记者 潘继瑞 摄
🔞 这是劳尔-阿森西奥皇马一线队生涯第44次出场首次染红,此外,这位西班牙后卫自2024-25赛季代表皇马一线队首秀以来已送出3次点球。无人一区二区区别是什么红桃6v2.4.5