我的体感是目前国内大模型使用起来差别真不大，某些个模型Benchmark分数都是追得很紧，用起来能力上感觉差不多

我的体感是目前国内大模型使用起来差别真不大，某些个模型Benchmark分数都是追得很紧，用起来能力上感觉差不多。
豆包方便在字节会做应用，浏览器插件、播客和视频总结啥的都是他们先搞出来的。所以我看来落地比能力更重要。
另外尝试了DeepSeek的R1，貌似和GPT o1、Gemini Thinking Model或者360 CoE类似。就是强化引导模型思考（这就是所谓的后训练？）
DeepSeek这次做得很好，并且开源出来是给国内模型给了一个新“抄路”。很快通义、豆包估计也要用强化学习之类去做模型了。到时候再看DeepSeek R1能力是否还能保持领先就是一个问题了。有可能还是大厂做得更好一些。我看“大模型六小龙”至少死4个。