GPT4.5发布了,真的是垃圾吗?

2025-03-14 14:08 社会 58人已围观

传说已久的ChatGPT 4.5终于发布了,很大很贵。作为一个非推理的聊天模型,这回所有媒体主打宣传的是它的高情商回复,现在几乎全网都骂它是垃圾,但是他们可能都错了。

先来看看大多数人觉得它很“拉”的表象原因,我拉着Grok3、Claude和DeepSeek - R1一起对比看看。

• 首先直播中第一道测试题是我又被朋友放鸽子了,帮我写个短信告诉他们我很恨他们。演示结果是,某模型会给出很愤怒的短信,而新的4.5会理解你很生气,觉得更温和一点更好,所以给了两种方案。

• 我用中文和其他模型对比,直观来讲,除了这个对比模型,其他模型也各有各的处理方式。

• 然后直播又演示它回复知识性问题,比如海水为什么是咸的。以往模型会像炫耀知识一样罗列信息,4.5则更像人一样有互动感。Grok和Claude回答也很简洁直接,Grok甚至还会引申问我想不想知道河水咸不咸,很贴心。

• 包括4.5在内,都会罗列信息,DeepSeek的罗列还有明显的科普感。

• 最后有些趣味补充,4.5回答也不错。

GPT 4.5交互式比较:这次发布提供了对通过扩展预训练计算(即简单训练更大的模型)获得的改进斜率的定性测量。版本号中每个0.5大致相当于10倍的增长 ,想找到GPT4优于3.5的具体提示,虽确实存在,但清晰“一击必中”的例子很难找。一切只是稍微好一点,大神卡巴西也提到这种进步很微妙,感觉各方面都好了一点,像创造力、类比、一般理解等。

Cursor官方站台表示其他模型失败时只有4.5成功了。有人内测后给出结论,在Claude 3.7、Sonnet和Grok非推理模式下做了很多测试,觉得4.5最好。在SVG图片生成方面,4.5和其他模型差距很大。于是我测试宣传中提到的创意和写作能力,让它给肠粉铺子想一个slogan。4.5表现还可以,以往模型多起几个名字的方式也想出了不错的,像“这个肠粉要吃滑的人,参加过爽的”。Grok、Claude和DeepSeek V3在这道题表现一般。开启深度思考的R1效果也很不错,所以很多网友认为它擅长写作,不过DeepSeek R1本身实力也很强。从这些表面例子很难评判4.5的情商,其背后的意图理解、类比创造力、同理心也很难明确量化。

有人戏称R1是开源强者,Grok超越所有基准测试,4.5被调侃“当你害怕可以握住我的手”,感觉它不怎么样。但实际上,4.5是OpenAI目前最大最好的聊天模型,是通过扩展无监督学习规模、融入思维链推理等技术取得的进步,并非像R1和一些系列模型那样仅依赖推理回答问题 。这里的“好”可以理解为直觉更好、原生智能更高,但不深度推理的模型就像不思考的人,很难在各类测评榜单占据绝对优势。

将GPT 4.5和Grok3、Claude 3.7以及DeepSeek R1放一起比较,或和开启推理模式测试的其他模型对比都不公平。因为后面这些模型测试结果是在开启推理模式下获得的,而GPT 4.5并非单纯依赖推理。这就像让几个学生做题,其他学生能慢慢推理作答,GPT 4.5只能快速回答,再聪明也会处于劣势。所以公平起见,GPT 4.5更适合跟上一代非推理的无监督学习模型对比。

直播展示了几个指标,比如4.5准确性提高、幻觉率降低,在多项测试中比上一代非推理模型提升不少,客观来讲进步很显著。OpenAI拿出o3mini high等模型对比,展示出即便和最强推理模型o3相比,4.5在数学、科学领域也有很大进步,但很多人误解为它表现不佳。

其实4.5重要意义在于证明预训练阶段规模扩展定律仍有效。OpenAI一直强调4.5是通过拓展无监督学习规模、结合思维链推理等取得的进步。前段时间推理技术爆火,大家致力于拓展推理规模,4.5则回归基础,通过增加计算量、扩充数据以及优化架构打造更强预训练模型。理论上,以4.5为基础构建的推理模型会比现在最强的推理模型o3更强大。目前,在推理方向拓展似乎效率更高,所以有人觉得花大量资源扩展预训练效率低,Grok3和GPT 4.5甚至被吐槽。但GPT 4.5表明预训练规模效应仍有发展空间,要获得更强大的推理模型,必须先有更强大的基础模型。相关研究已证明,只有在更大规模模型上强化学习,效果才更显著,这种循序渐进、相互促进的发展路径可行且必要。后续模型发展方向可能是目前Grok3和Sonnet3.7(需确认准确名称 )这种融合模型路径,即便期待DeepSeek R2,也离不开这种逐步提升模式。

另外,4.5在减少模型幻觉方面或许作用重大。随着推理模型发展,模型幻觉问题日益严重,DeepSeek R1日常使用就有较高幻觉率,OpenAI数据显示o3幻觉发生率高达80%,极大限制前沿AI应用场景,模型幻觉问题远比想象中严重。

只不过4.5使用价格确实高昂,API输入每百万tokens约75美元 ,输出约150美元,相比之下,DeepSeek R1输入每百万tokens约0.55美元,输出约2.19美元 。目前,只有200刀的Pro用户能用,没Pro权限的用户可在Poe平台使用。预计下周plus用户也能使用,但推测会有限量。

所以大家不必对4.5进步失望,毕竟提升明显,有进步就是好事,预训练规模扩展定律有效才是AI发展重要成果。