四月AI新动态
四月,Anthropic发布Opus 4.7,OpenAI发布GPT 5.5,DeepSeek更新V4。三家公司发布通稿显示跑分、上下文、推理和代码能力提升,但互联网反应平淡,社交媒体讨论热度低,仅OpenAI的GPT - image出圈,且与语言模型跑分赛道不同。
出圈模型的特点
2025年1月DeepSeek R1发布,将思考链暴露给用户,互动有趣,时值春节,在无宣发下霸占社媒平台。此前其推理能力已小范围展露,正式推出后能力具象展示。社交媒体上传开的是其犹豫表现,体现出“说人话”的特点。Opus 4.6口碑飞升,因其句子有独特之处,对中文梗运用炉火纯青。
新一批模型的问题
2026年新一批模型如DeepSeek V4,代码写作不错,但在Chatbot里人格太甜,需改system prompt闭麦。新模型语言特征刻板,像过度培训的客服,Opus 4.7跑分高但少了4.6时期的特色。
模型调教的影响
模型通过RLHF调教,标注员偏好的特征使语言中最有信息量的部分被取消,导致模型从GPT - 4o到5.5、R1到V4、Opus 4.6到4.7体感倒退。
恐怖谷的语言版本
非人类智能工具不假装是人,用工具标准评估。而GPT 5.5和Opus 4.7拟人化但内容空洞,处于恐怖谷的语言版本位置。R1显化思考链、GPT - image用图像互动可绕过陷阱。
AI模型发展阶段类似手机
iPhone早期有质变,后期跑分提升但日常使用区别小。AI模型也进入类似阶段,从不能聊天到可聊天、聊得不错是质变,之后性能提升用户体感不明显。性能过剩后,决定用户选择的是benchmark量化不了的东西,如语感、人格感等。
模型公司的关键
目前模型公司靠跑分提升难吸引用户,模型变“灵”、“说人话”才是关键。跑分支持进步,但说人话面向用户,分清两者区别很重要。