Every 在 Anthropic 发布 Claude Opus 4.7 当天组织了五位测试者进行直播测评,超过 10000 人在线观看,Anthropic 研究员 Alex Albert 也加入了直播。经过两小时实测和团队讨论后的核心结论是:Opus 4.7 对写精确提示词的人是巨大升级,但对依赖模型"脑补"上下文的用户会感到沮丧。在编码方面,测试者 Kieran Klaassen 称这是他测试过的最强模型——第一个能完整构建含自定义产品设计器和可靠购物车的电商网站。Dan Shipper 看到它能写出"高级工程师级别"的代码诊断,但随后拒绝执行解决方案。写作方面,Mike Taylor 获得了比他自己写的还好的咨询文案和最佳幻灯片设计。但 Katie Parrott 在个人散文对比测试中选择了 4.6——4.7 的文稿"能力合格但节奏平淡"。Brandon Gell 让它做月度损益分析时发现,4.7 漏掉了一个 4.6 上月曾自动发现的数据错误。底层规律是:Anthropic 在版本间像调旋钮一样调节模型的"主动性",4.7 大幅回拨了 4.6 的"脑补填充"直觉,旧的 Opus 提示词需要重写才能在新版本上获得同样效果。
- Kieran Klaassen:最强编码模型,首次完整构建复杂电商网站
- 写作能力分化:商业文案出色,但个人散文节奏不如 4.6
- 4.7 漏掉了 4.6 曾自动发现的数据错误——"主动性"被刻意降低
- 核心建议:旧提示词需要重写,4.7 奖励精确规范的指令
- Anthropic 在版本间调节模型"eagerness"旋钮,4.7 是一次大幅回调