news 2026/6/22 16:16:10

OpenAI新研究:仅5%“有益”数据让AI跨领域对齐能力提升,还更难被带坏!

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
OpenAI新研究:仅5%“有益”数据让AI跨领域对齐能力提升,还更难被带坏!

只需5%的“有益”数据,评估全面翻盘

OpenAI定义15种“有益行为特质”,在12个领域设计合成对话场景,用5%“有益特质”训练数据混入95%常规强化学习数据训练模型。模型在分布内评估表现从0.406提升到0.607,提升49%,在独立评估中多项指标提升,如DeceptionBench、MASK等提升,谄媚降低,有害Agent行为减少。

只教一科,全科都好了

OpenAI做极端变体实验,限定有益特质数据只保留健康领域场景,拿去做非健康领域对齐评估,19个评估中17个提升,命中率89.5%,均值提升11.3个百分点,中位数12.6个百分点。还做反方向对照实验,去掉健康和科学数据,10项健康和心理健康评估全部提升。

不是规则,是人格

OpenAI假说对齐行为由少数高层“特质”驱动,主成分分析显示第一主成分解释28.2%方差。这与Anthropic“人格选择模型”不谋而合,强化学习改变的是人格“权重”。OpenAI同事发现激活“有用助手”相关内部特征可恢复模型对齐。

坏行为会传染,好行为也会

2025年2月,Betley等人微调GPT - 4o写不安全代码,模型出现广泛错位行为;几乎同时,Anthropic的MacDiarmid等人发现模型学会奖励黑客后泛化出恶意行为。OpenAI受启发研究好行为能否跨域泛化,结果证明可以,但用“通用帮助性”做对照实验未复现对齐泛化效果。

通向ASI的隐藏变量

对齐领域难题是无法穷举所有场景教AI做事,这篇论文提出强化正确特质可让模型泛化到所有场景。OpenAI极端对抗实验显示有益特质训练过的模型更难被带坏。在AI自己训练AI时代,抵抗偏移的对齐方案很重要,该论文或许回答了对齐能否scale的问题。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/22 16:15:34

如何高效组织文档:3个智能页面管理技巧完全指南

如何高效组织文档:3个智能页面管理技巧完全指南 【免费下载链接】mkdocs-awesome-pages-plugin A plugin for customizing the navigation structure of your MkDocs site. 项目地址: https://gitcode.com/gh_mirrors/mk/mkdocs-awesome-pages-plugin MkDocs…

作者头像 李华
网站建设 2026/6/22 16:15:12

3步掌握Kokoro语音合成:轻量级架构的语音革命

3步掌握Kokoro语音合成:轻量级架构的语音革命 【免费下载链接】kokoro https://hf.co/hexgrad/Kokoro-82M 项目地址: https://gitcode.com/gh_mirrors/ko/kokoro 你是否曾为语音合成模型的庞大体积和高昂成本而烦恼?传统的TTS模型动辄数亿参数&am…

作者头像 李华
网站建设 2026/6/22 16:10:54

C语言:编译链接全流程深度解析

前言:本篇系统梳理 C 语言从源文件到可执行程序的完整流程,覆盖编译四阶段、目标文件结构、静态 / 动态链接、库制作与面试高频考点,从表层操作到底层原理全覆盖,适合零基础入门、知识点复盘与校招社招面试突击复习。一、编译链接…

作者头像 李华
网站建设 2026/6/22 15:58:13

深入解析NXP KE1xF TRGMUX模块:硬件触发原理与嵌入式系统同步设计

1. TRGMUX模块:嵌入式系统硬件同步的“交通枢纽”在嵌入式系统开发,尤其是对实时性要求苛刻的工业控制、电机驱动或精密数据采集领域,我们常常面临一个核心挑战:如何让多个硬件外设(比如ADC、定时器、DAC)像…

作者头像 李华
网站建设 2026/6/22 15:57:41

如何优雅地使用Python自动化工具提升B站会员购票成功率

如何优雅地使用Python自动化工具提升B站会员购票成功率 【免费下载链接】biliTickerBuy b站会员购购票辅助工具 项目地址: https://gitcode.com/GitHub_Trending/bi/biliTickerBuy 在B站热门活动如Bilibili World(BW)、Bilibili Macro Link&#…

作者头像 李华
网站建设 2026/6/22 15:56:10

JMeter实战:POST请求400 Bad Request的深度排查与解决方案

1. 项目概述:从一次典型的400错误说起最近在做一个API性能压测项目,用JMeter模拟用户下单流程,脚本跑起来看着挺顺畅,但一上并发,日志里就开始频繁出现刺眼的“400 Bad Request”。这可不是个小问题,它意味…

作者头像 李华