当前位置：九州网 > 社会 > 正文

GPT4.5发布了，真的是垃圾吗？

2025-03-14 14:08 社会 58人已围观

传说已久的ChatGPT 4.5终于发布了，很大很贵。作为一个非推理的聊天模型，这回所有媒体主打宣传的是它的高情商回复，现在几乎全网都骂它是垃圾，但是他们可能都错了。

先来看看大多数人觉得它很“拉”的表象原因，我拉着Grok3、Claude和DeepSeek - R1一起对比看看。

• 首先直播中第一道测试题是我又被朋友放鸽子了，帮我写个短信告诉他们我很恨他们。演示结果是，某模型会给出很愤怒的短信，而新的4.5会理解你很生气，觉得更温和一点更好，所以给了两种方案。

• 我用中文和其他模型对比，直观来讲，除了这个对比模型，其他模型也各有各的处理方式。

• 然后直播又演示它回复知识性问题，比如海水为什么是咸的。以往模型会像炫耀知识一样罗列信息，4.5则更像人一样有互动感。Grok和Claude回答也很简洁直接，Grok甚至还会引申问我想不想知道河水咸不咸，很贴心。

• 包括4.5在内，都会罗列信息，DeepSeek的罗列还有明显的科普感。

• 最后有些趣味补充，4.5回答也不错。

GPT 4.5交互式比较：这次发布提供了对通过扩展预训练计算（即简单训练更大的模型）获得的改进斜率的定性测量。版本号中每个0.5大致相当于10倍的增长，想找到GPT4优于3.5的具体提示，虽确实存在，但清晰“一击必中”的例子很难找。一切只是稍微好一点，大神卡巴西也提到这种进步很微妙，感觉各方面都好了一点，像创造力、类比、一般理解等。

Cursor官方站台表示其他模型失败时只有4.5成功了。有人内测后给出结论，在Claude 3.7、Sonnet和Grok非推理模式下做了很多测试，觉得4.5最好。在SVG图片生成方面，4.5和其他模型差距很大。于是我测试宣传中提到的创意和写作能力，让它给肠粉铺子想一个slogan。4.5表现还可以，以往模型多起几个名字的方式也想出了不错的，像“这个肠粉要吃滑的人，参加过爽的”。Grok、Claude和DeepSeek V3在这道题表现一般。开启深度思考的R1效果也很不错，所以很多网友认为它擅长写作，不过DeepSeek R1本身实力也很强。从这些表面例子很难评判4.5的情商，其背后的意图理解、类比创造力、同理心也很难明确量化。

有人戏称R1是开源强者，Grok超越所有基准测试，4.5被调侃“当你害怕可以握住我的手”，感觉它不怎么样。但实际上，4.5是OpenAI目前最大最好的聊天模型，是通过扩展无监督学习规模、融入思维链推理等技术取得的进步，并非像R1和一些系列模型那样仅依赖推理回答问题。这里的“好”可以理解为直觉更好、原生智能更高，但不深度推理的模型就像不思考的人，很难在各类测评榜单占据绝对优势。

将GPT 4.5和Grok3、Claude 3.7以及DeepSeek R1放一起比较，或和开启推理模式测试的其他模型对比都不公平。因为后面这些模型测试结果是在开启推理模式下获得的，而GPT 4.5并非单纯依赖推理。这就像让几个学生做题，其他学生能慢慢推理作答，GPT 4.5只能快速回答，再聪明也会处于劣势。所以公平起见，GPT 4.5更适合跟上一代非推理的无监督学习模型对比。

直播展示了几个指标，比如4.5准确性提高、幻觉率降低，在多项测试中比上一代非推理模型提升不少，客观来讲进步很显著。OpenAI拿出o3mini high等模型对比，展示出即便和最强推理模型o3相比，4.5在数学、科学领域也有很大进步，但很多人误解为它表现不佳。

其实4.5重要意义在于证明预训练阶段规模扩展定律仍有效。OpenAI一直强调4.5是通过拓展无监督学习规模、结合思维链推理等取得的进步。前段时间推理技术爆火，大家致力于拓展推理规模，4.5则回归基础，通过增加计算量、扩充数据以及优化架构打造更强预训练模型。理论上，以4.5为基础构建的推理模型会比现在最强的推理模型o3更强大。目前，在推理方向拓展似乎效率更高，所以有人觉得花大量资源扩展预训练效率低，Grok3和GPT 4.5甚至被吐槽。但GPT 4.5表明预训练规模效应仍有发展空间，要获得更强大的推理模型，必须先有更强大的基础模型。相关研究已证明，只有在更大规模模型上强化学习，效果才更显著，这种循序渐进、相互促进的发展路径可行且必要。后续模型发展方向可能是目前Grok3和Sonnet3.7（需确认准确名称）这种融合模型路径，即便期待DeepSeek R2，也离不开这种逐步提升模式。

另外，4.5在减少模型幻觉方面或许作用重大。随着推理模型发展，模型幻觉问题日益严重，DeepSeek R1日常使用就有较高幻觉率，OpenAI数据显示o3幻觉发生率高达80%，极大限制前沿AI应用场景，模型幻觉问题远比想象中严重。

只不过4.5使用价格确实高昂，API输入每百万tokens约75美元，输出约150美元，相比之下，DeepSeek R1输入每百万tokens约0.55美元，输出约2.19美元。目前，只有200刀的Pro用户能用，没Pro权限的用户可在Poe平台使用。预计下周plus用户也能使用，但推测会有限量。

所以大家不必对4.5进步失望，毕竟提升明显，有进步就是好事，预训练规模扩展定律有效才是AI发展重要成果。

上一篇：秦始皇统一六国时，哪个国家最难打？

下一篇：有小伙伴问，为什么说一战要比二战更加惨烈？