news 2026/4/29 1:41:21

AI跑分飙升却无人问津,“说人话”才是模型出圈关键!

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
AI跑分飙升却无人问津,“说人话”才是模型出圈关键!

四月AI新动态

四月,Anthropic发布Opus 4.7,OpenAI发布GPT 5.5,DeepSeek更新V4。三家公司发布通稿显示跑分、上下文、推理和代码能力提升,但互联网反应平淡,社交媒体讨论热度低,仅OpenAI的GPT - image出圈,且与语言模型跑分赛道不同。

出圈模型的特点

2025年1月DeepSeek R1发布,将思考链暴露给用户,互动有趣,时值春节,在无宣发下霸占社媒平台。此前其推理能力已小范围展露,正式推出后能力具象展示。社交媒体上传开的是其犹豫表现,体现出“说人话”的特点。Opus 4.6口碑飞升,因其句子有独特之处,对中文梗运用炉火纯青。

新一批模型的问题

2026年新一批模型如DeepSeek V4,代码写作不错,但在Chatbot里人格太甜,需改system prompt闭麦。新模型语言特征刻板,像过度培训的客服,Opus 4.7跑分高但少了4.6时期的特色。

模型调教的影响

模型通过RLHF调教,标注员偏好的特征使语言中最有信息量的部分被取消,导致模型从GPT - 4o到5.5、R1到V4、Opus 4.6到4.7体感倒退。

恐怖谷的语言版本

非人类智能工具不假装是人,用工具标准评估。而GPT 5.5和Opus 4.7拟人化但内容空洞,处于恐怖谷的语言版本位置。R1显化思考链、GPT - image用图像互动可绕过陷阱。

AI模型发展阶段类似手机

iPhone早期有质变,后期跑分提升但日常使用区别小。AI模型也进入类似阶段,从不能聊天到可聊天、聊得不错是质变,之后性能提升用户体感不明显。性能过剩后,决定用户选择的是benchmark量化不了的东西,如语感、人格感等。

模型公司的关键

目前模型公司靠跑分提升难吸引用户,模型变“灵”、“说人话”才是关键。跑分支持进步,但说人话面向用户,分清两者区别很重要。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/29 1:39:21

DeepAgents智能体

DeepAgents是LangChain 官方发布的 Agent 框架,基于 LangChain LangGraph 构建, 灵感直接来源于 Claude Code——官方 README 里明确写道, 这个项目"最初很大程度上是一次尝试,探究是什么让 Claude Code 如此通用&#xff0…

作者头像 李华
网站建设 2026/4/29 1:33:02

智慧校园选型避坑指南:除了品牌,这5个细节更值得学校关注

✅作者简介:合肥自友科技 📌核心产品:智慧校园平台(包括教工管理、学工管理、教务管理、考务管理、后勤管理、德育管理、资产管理、公寓管理、实习管理、就业管理、离校管理、科研平台、档案管理、学生平台等26个子平台) 。公司所有人员均有多…

作者头像 李华
网站建设 2026/4/29 1:32:23

AArch64内存管理架构与TLB机制详解

1. AArch64内存管理架构概述在AArch64架构中,内存管理单元(MMU)负责虚拟地址到物理地址的转换,这是现代操作系统实现进程隔离、内存保护等核心功能的基础设施。与x86体系不同,Arm架构的设计具有更强的灵活性和可配置性,这主要体现…

作者头像 李华
网站建设 2026/4/29 1:27:04

慢性变化维度的建模

原文:towardsdatascience.com/slowly-changing-dimensions-6a08dc0386ae https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/3fd91913dd5df5eacb4f8909d2381f65.png Pawel Czerwinski 在 Unsplash 上的照片 在当今动态和竞争的环…

作者头像 李华