正大期货官网

客服电话

行业资讯

真格基金戴雨森 2025 AI 中场万字复盘-外盘期货

来源:正大期货-正大国际期货-专业国际期货交易平台    作者:网络    

这一期的主题是 2025 年中的 AI 复盘与展望。

节目分成了两次录制。*次是在 7 月 18 日,真格基金管理合伙人戴雨森与晚点科技报道负责人程曼祺,围绕月之暗面刚发布的 Kimi K2、AI 应用普及的新动向,以及近几个月持续升温的抢人大战,做了一次中场回顾。

第二次是在 7 月 21 日,我们补充聊了刚刚发生的新进展:7 月 18 日,OpenAI 发布了 ChatGPT Agent;7 月 19 日,OpenAI 又宣布,一个尚未公开的通用大语言模型,首次达到了 IMO 国际数学奥林匹克金牌水准;7 月 22 日,Google DeepMind 也宣布,他们的 Gemini DeepThink 模型取得了同样成绩。这之前,只有 Google DeepMind 曾用为数学调优的模型达到银牌。

两年半前,曾写下《通用人工智能的火花》的现 OpenAI 研究员 Sébastien Bubeck 形容,通用大语言模型拿下 IMO 金牌,或许会成为 AI 的一个「登月时刻」。

这场已持续两年多的 AI 竞速从未放缓,模型能力与应用创新交替上升,而两者的进化速度,可能都在被低估。

全球的 AI 社区仍处于 Early Adopter(早期采用者)阶段。他们愿意试错、愿意反馈。当你拿出一个好产品,并以开放的态度对待用户时,无论是 DeepSeek、Kimi、Manus 还是 Genspark,都已经证明:来自各地的用户不仅会欣赏、支持你,甚至会主动帮你改进产品。

回看 Kimi K2 的故事,也能看到「投人」这件事在 AI 时代被重新认识的过程。Kimi 从一开始就是一个以技术视野和技术能力为底的团队。2023 年,AI 风向几乎月月在变,但杨植麟的团队押中了长文本这个方向,并基于此做出了*个具备搜索能力的版本。这是一场面向未来的下注。

AI 正在让人们去尝试那些原本不会做的事。这次 IMO 金牌事件更让我们看清 AGI 即将到来的信号。如果说过去我们只是远远望见一辆冒烟的火车,如今,已经能清楚地听见它的轰鸣声了。

2025 年,属于各行各业的「李世石时刻」,可能才刚刚开始。

01

OpenAI 拿下 IMO 金牌,又一个李世石时刻

Q:最近有哪几件重要的事值得展开聊聊?

戴雨森:确实过去这个周末发生了很多事情。我觉得最重要的一件是 OpenAI 的一个新模型,在 IMO(国际数学奥林匹克)2025 年的题目上获得了金牌级别的成绩。具体来说是六道题做对了五道。

这个为什么重要呢?因为按照 OpenAI 的描述,这是一个没有联网的通用大语言模型,并且没有针对数学做特别优化,也没有用任何 Code Interpreter  一类的工具。它完成的是 IMO 的证明题,而且 OpenAI 找了三位 IMO 的金牌得主来交叉验证,确认这些解答是对的。

当然,这个结果也引发了一些争议。比如有些人指出它还没有经过官方认证,因此不一定有效。陶哲轩也说,IMO 题目的解法路径会有很多不同,最终得分也会不一样。

注:7 月 22 日当晚,Google DeepMind CEO Demis Hassabis 在 X 上发帖强调,这一结果已经获得了奥赛组委会官方认定。

但不管怎样,这个结果是一个划时代的进展。语言模型没有经过特别的数学优化,只在离线环境中就能解出 IMO 级别的证明题。像之前 Google 用 AlphaGeometry 是为数学专门设计的模型,还借助了形式化验证方法,并不具备泛化能力。

Q:这刚好是一年前的事,2024 年 7 月 Google 的 AlphaGeometry 达到了 IMO 银牌的水准,当时差一点到金牌。但那不是通用大语言模型,而这次 OpenAI 说是通用大模型。

戴雨森:对,而且今年这个时间点正好是 IMO 出题的时间,OpenAI 是题目一出就做了,所以也不存在模型训练时提前见过这些题的情况。

虽然过去一年语言模型已经有很多进展,但像数学证明这样的任务,尤其是 IMO 这类题,属于 hard to verify 的问题类型。验证一个答案是否正确本身就非常难。

这类问题一直以来都被认为是当前语言模型难以胜任的任务。并且现实中世界上大部分真正的问题,事先都是没有标准答案和解法的。所以当一个语言模型可以在没有任何特别调教的前提下,解出这类高难度的题,达到人类*水平时,这意味着它的思考能力确实上了一个台阶。

OpenAI 也提到,这种能力可以通过延长思考时间进一步提升,这也验证了 inference scaling law(推理扩展定律)。

我们以前聊过,除了 pre-training,还有 post-training 和 inference scaling law。这次的结果说明:

1. LLM 的泛化能力很强,能解决我们原来认为解决不了的问题;

2. 模型能力越强,可应用的场景越多,所创造的价值也越大;

3. IMO 的证明题和现实中的某些理科的问题在形式逻辑上很相似,都是证明题。LLM 既然能做前者,也许说明它离发现新知识的能力也不远了。

目前它肯定还不能解决像哥德尔猜想这种超难问题,但发现理科新知识这件事,可能已经是一步之遥了。

还有一个八卦:据说这次 OpenAI 使用的模型和 GPT-4o 是同一个底层模型。也就是说,取得这个成绩并不是因为底层模型有很大提升,而是在 post-training 和 inference 阶段做出了优化。后续的优化空间给整个 AI 发展带来了很多想象。

Q:你是从一些技术人员那听来的描述是吗?

戴雨森:对,简单打听了一下。这事情也就 24 小时之内发生的,但我感受非常强烈。

这让我想到 2023 年 3 月微软那篇论文《Sparks of AGI》,当时他们测试 GPT-4 的预发布版本,感叹从中看到了 AGI 的火花。那篇文章也就两年半前,而现在我们已经走到了能解 IMO 的地步。两年半在科技进步史中是很短的时间,甚至比很多创业公司从种子轮到产品发布还短。

那篇文章的作者后来加入了 OpenAI,他在看到这次OpenAI 模型获得 IMO 金牌成绩后说:这是「AI 的登月时刻」。

一个「只是预测下一个词」的语言模型,在没有任何工具辅助的情况下,能够完成一个只有极少数天才人类才能做出的有创造性的数学证明。这确实说明 AI 的能力已经到了一个新的高度。

我们年初录节目《和戴雨森长聊 AI Agent》时也说过:2024 年会是很多行业迎来「李世石时刻」的一年。所谓「李世石时刻」,就是 AI 在某个领域超越了人类最强水平。

我们已经在围棋、编程、数学推理等领域看到这种情况不断出现。接下来还会有更多这样的时刻等待着我们,解决我们原本以为还很难、很远的问题。

Q:而且我还看到一个信息:似乎不止 OpenAI 做到了。因为 OpenAI 发这个消息之后,一个 Google 的研究员也在 X(原 Twitter)上发帖,说 OpenAI 抢先发布了。

戴雨森:我们也在拭目以待。好像 Google DeepMind 也做到了金牌,但我们不知道是不是用通用模型实现的。如果真是通用模型,那就说明这个能力已经不只是一家掌握的。这种技术一旦扩散开来,会带来推理能力的大幅提升,不管是哪个模型厂商都会从中受益。

注:7 月 22 日,Google DeepMind 宣布,Gemini Deep Think 模型获得官方认证的 IMO 金牌,并公开了具体解题过程。这一通用模型仅用纯自然语言(英语)完成了解题。

Q:你和国内一些从业者交流过,他们对这个成果是感到吃惊,还是觉得其实也在预期之中?

戴雨森:我觉得方向大家早就知道,是朝着更强 reasoning 能力去的。谁都知道 reasoning 能力提升了,模型就能解更难的题。但现在就能做到确实还是让人很震惊。我聊到一些中国最*的研究者,他们也表示非常惊讶。但就像原子弹一样:爆炸那一刻起,大家知道这件事情可以做到,就已经离做出来不远了。

Q:从技术进展的角度看,围棋、编程、数学是三个典型的「李世石时刻」。你怎么看这三个的不同影响?

戴雨森:数学推理其实比编程更难。

编程属于好验证的问题。强化学习在编程上容易成功,一大原因是因为它的 reward 清晰。代码能运行、能通过 test case 就说明结果是对的。

但数学证明题的判卷是非常复杂的。IMO 就是典型的「hard to produce, hard to verify」的问题。

围棋是一个双方信息公开且完备、胜负明确的任务,非常适合强化学习;编程也是结构化任务,而且很多代码是已有人写过的,拼装比全新创造多。

但数学是理工科的基础,它的推理是很多学科的根基。而且不依赖自然世界实验,只靠逻辑思维。所以 AI 能解 IMO 级别的证明题,意味着理工科很多知识生成方式可能都要改变,带来的科学进步可能比编程还大。

Q:你觉得这个应用影响会更大?

戴雨森:有可能更大。因为编程现在替代的是一些重复性较高的初级工作,比如 Vibe Coding 大部分还是复制粘贴一些前端代码。但数学推理带来的是非常强的思考和潜在的新知识发现能力。显然,这是更值钱的部分。

AI 会不断替代简单任务,而人类往更有价值、更难的方向走。但现在 AI 正在追着人类解决那些最有价值的难题。

这就是为什么我说这次 IMO 金牌事件让我更清晰地看到了 AGI 即将到来的信号。如果以前是远处看到一辆冒烟的火车,现在已经能听到它的轰鸣声了。

Q:有人在 X(原 Twitter)上说强化学习现在也能处理那些奖励反馈不是很直接的领域。这可能是这次进展背后更大的突破之一。还有人提到「验证的非对称性」,说有些任务你做出来的时间可能比验证时间还短。IMO 数学题就属于这种类型。

戴雨森:对,以前很多任务是「hard to produce, easy to verify」,比如写代码。但现在变成了「hard to produce, hard to verify」。

Q:不过有人认为,在这些验证成本高的任务上,AI 还很难完全替代人,因为最终还得靠人来判断。

戴雨森:有可能。但光是给出证明这一点,其实就已经是质的飞跃。现在我们还不知道所有细节,但我们期待更多公开信息,或其他模型公司复刻类似成果。按照目前 AI 的发展速度,只要一件事被做到,那它就已经不是遥不可及的难题了。

02

ChatGPT Agent 发布,「壳」的价值在于 context

Q:7 月 18 日凌晨,OpenAI 发布了 ChatGPT Agent。不过和 Manus 不同,这个 Agent 让很多人其实觉得有点失望,没有那么惊艳。

戴雨森:我觉得这反映了 OpenAI 作为 AI 的领头羊、*的 AI 应用公司,他们也把 Agent 作为重要的方向。就像我们年初就开始讨论的:理解目标、拆解规划、编程使用工具、对结果进行复盘和反思。从一开始的构想,到 Devin、Manus 等*波产品的出现,再到 ChatGPT Agent 的发布,Agent 确实逐渐成为了AI 应用的共识,变成了大家聚焦的方向。

Q:有人说「OpenAI 发了一个 Manus」,你怎么看?

戴雨森:我们不会这么想。我觉得不能低估 OpenAI。他们有最多的人、最多的卡、最多的用户,在安全性上也做了很多考量,加了很多额外约束。其实 ChatGPT Agent 的能力是被限制得很死的,这是负责任的表现。

这个产品也是他们*个在 AI 安全性评估中被列为「高危险级别」的,说明他们确实担心这类 Agent 会遇到比如钓鱼网站、或者生物武器信息等风险(详见 OpenAI 发布的 ChatGPT agent System Card)。当公司变大,就会变得更谨慎;这也反过来说明了创业公司的行动力快、敢于突破的机会所在。

Q:我觉得「发了个 Manus」的说法也不一定是说效果不好,更多是说产品形态。它其实把  Operator 和 Deep Research 结合起来了,形态上有点像 Manus 或 Genspark。

戴雨森:是的,Manus 确实探索出了一个方向:让 AI 在做什么可以被直观看到,让人理解背景,否则如果只看到最后的结果,会很困扰。所以我们看到 Manus、Genspark、Kimi,还有 MiniMax 等中国团队也在针对 OpenAI 的 Task,用自己已经发布的线上 Agent 做对比。不得不说,这些公司的产品在很多维度上的表现,比如做 PPT 的任务,确实比 ChatGPT Agent 要好。

Q:ChatGPT Agent 做出来的 PPT 真的有点丑。

戴雨森:但这让我有几个启发:

*,中国团队在产品力上确实不错。移动互联网时代就有很多例子,比如 TikTok、Shein、剪映,中国团队确实做出了很多好产品。

第二,所谓的「套壳」产品,也就是调用 API 的应用,并不会就一定被 model native 产品吊打。之前大家以为 OpenAI 下场,训练的模型能端到端处理,就能完全替代第三方。但其实不然,尤其 Agent 需要更多 context 和工具,很多都依赖壳和应用本身提供的环境。

Manus 分享的那篇关于 Context Engineering 的文章《如何系统性打造 AI Agent 的上下文工程?》就收到很多好评。因为这就是一个大家现在都在解决的问题,里面有很多实践是需要时间和经验的。

我理解,Context Engineering 最早是来自于 Prompt Engineering。Prompt Engineering 就是给 AI 一个命令、一个任务,然后 AI 自己去做事。这很像传统管理方式:老板布置任务,员工去执行。而像 Netflix、字节等先进公司强调的「Context, not control」,意味着要给员工更多上下文和授权,才能更好完成任务。Context Engineering 也是类似的道理:我们要给模型提供的是能够帮助它更好完成任务的上下文。

*个层面,就是单个 session,看我们怎么提供更好的上下文、更好的数据、以更适合模型操作的格式去处理它。

第二个层面,是多 session 或跨 session 的个性化记忆:比如说今天做了什么,明天再做对应的事,用户的偏好、习惯、工作经验,能不能累积?这个长期可能成为护城河。因为同样的模型,谁有更好的上下文,它就更懂我。

第三个层面,是产品设计本身可以提供模型原本获取不到的上下文。比如大家设想的一个还没做出来的产品:戴个眼镜可以实时看到周围世界。这样的 context 是模型自己无法产生的,必须通过好的硬件与软件设计来实现,也说明了产品层的价值。

Q:你说的眼镜能看到的数据,是现在所有互联网巨头都没有的。

戴雨森:对。所以从 ChatGPT Agent 的发布,我觉得可以看到三点:

*,Agent 方向逐渐达成共识;

第二,创业公司在模型核心巨头面前,依然有灵活性、先发优势和竞争力;

第三,进一步印证了我们之前说的两个被低估:模型进步速度被低估了,产品「壳」的价值也被低估了。

模型这条线,OpenAI 这周刚拿下了 IMO 金牌,说明它的进步速度还是很快。而 OpenAI 自己做的 ChatGPT Agent 还有很大提升空间,说明「壳」的价值也非常重要。所以我觉得模型和应用都被低估了。

Q:你刚说的 context 的价值特别好。它其实和管理学也打通了,比如 Netflix 的那本书《No Rules Rules》最开始就讲了这个逻辑。AI 确实很像一个人,你要教它、要给上下文,比起给它具体指令,这可能是更好的方式。

戴雨森:*阶段大家都在写更好的 prompt,就像老板写 brief。后来发现要加更多示例、更好的上下文、更适合模型工作的环境。这其中有很多具体技巧。Manus 的文章就分享了很多。我想说的是,更多的 context 带来模型能力的提升,也反映出我们对 AI 的使用越来越深入,产品本身也越来越完善。以前一句 prompt 就能跑,现在产品本身要承担更多事情,产品公司的价值也在这里体现。

Q:你觉得这一层的应用价值,什么时候会被模型本身做掉?是不是等到模型具备在线学习能力、能不断吸收新的上下文的时候?

戴雨森:也得看你的产品有没有用户 input。如果没有用户输入,那模型再怎么学习也没法学到用户自己独特的东西。

Q:所以是不是又回到一个曾经被否认的逻辑?以前移动互联网时代,用户越多,数据反馈越多,推荐越准,有一个数据飞轮。但后来大家觉得大模型里用户输入对模型智能提升没啥帮助。但你刚刚的意思是:用户输入对上下文是有帮助的。

戴雨森:这是两个不同的问题。大家说的数据飞轮失效,指的是用户的聊天记录不能提升模型智能。这我同意。因为现在模型的智能已经超过普通人。你跟它聊些日常话题,没法提升它的能力。

最开始模型通过 RLHF(人类反馈强化学习) 来学习人类偏好,现在来看普通人反馈意义不大。比如 AI 都能解 IMO 的题了,为什么还要在意普通人觉得哪个答案更好?所以对于有标准答案的任务,用户输入越来越没什么价值。

但如果是完成一个具体工作,比如 Agent 在完成人类工作时怎么更好达成目标,这时用户的输入和喜好当然有用。

Q:所以用户数据其实对产品体验是有帮助的,但不一定能直接提升模型能力?

戴雨森:是的,尤其是在智能能力或者那种有标准答案的任务上。最开始大模型可以看作是对大量人类平均智能的一种压缩。当时特德·姜(Ted Chiang)不是就说过,语言模型本质上是对互联网的模糊压缩吗?但现在,它显然已经超越了普通人的水平,达到了某种超人水平。在这个阶段,简单的数据可能就没那么有用了。

Q:现在这个时间点,是越早做 Agent 越好吗?因为你积累的用户上下文越多,价值也越大。之前大家可能担心新的强模型会把已有产品淹没掉。

戴雨森:如果你没有上下文、没有环境,最后只是调模型,那确实可能被新模型取代。

03

AI 应用普及:最重要的、被高估的、被低估的

Q:上次我们聊是二月份,转眼到现在差不多五个月了。今年已经过去一半,回头看,你觉得 2025 年上半年 AI 领域发生的几件最重要的事是什么?

戴雨森:整体来说,AI 已经从一个偏研究性质、看起来很新颖但实用性有限的技术,进入到了主流市场。上半年我认为有几个重大进展。

*,是 AI 在编程领域的突破。Coding 已经成为 AI 应用的重中之重。我今天还听说 OpenAI 现在已经有三个业务线:GPT、API 和 Coding。用户也发现 AI coding 产品非常有用,也愿意为此付费。Cursor 等 AI 编程工具的成长速度就是一个代表。Claude Code 也有人称是 L3 或 Agent 级别的产品,能比人类写得更快更好,代码更优雅,还能处理更大的代码库。所以 AI 在编程领域已经正式跨越鸿沟,进入了主流市场。

第二,是 o3 在四月的正式发布,伴随着 ChatGPT 用户的高速增长,这是推理模型的持续演进。从去年下半年开始我们就看到 OpenAI 推出 o1、R1,到今年的 o3,它标志着推理问答、题解这些能力从科研层面进入到了普通用户可以使用的产品,是真正的落地了。

ChatGPT 的用户增长还在持续,这一波也受益于 o3 推理能力的提升。我们也看到年初中国这边的突破,比如 R1 是国内在 reasoning 上迈出的重要一步,Kimi Researcher 也是*个广泛可用的 deep research 类产品,用户反馈很好。AI 在这个领域已经比绝大多数人做得更好了,也是跨越鸿沟。

第三,是 Agent 应用开始普及。比如 Devin 是*个让人看到 L3 Agent prototype 的产品。Manus 和 Genspark 都是在三月发布,Claude Code 也在不断完善。我们看到随着模型在推理、编程、工具使用这三大能力的增强,出现了*批具备完整 Agent 形态的产品:它们能接收模糊目标,自主调用工具,寻找解决方案,评估任务进度,并最终完成任务。虽然它们还不算主流,但已经进入 Early Adopter 阶段,部分场景下用户非常愿意用。尽管还有不少问题,但 Agent 已经变得有用了,这是上半年 AI 应用领域最重要的进展之一。

第四,是多模态能力的快速进步,尤其是图像生成。从早期像玩具一样的工具,变成了实实在在的生产力工具。比如 ChatGPT 的图像生成对语义的跟随非常好,能准确理解用户意图。现在很多人用 AI 来画漫画、画流程图、做视觉内容。这种生成能力的提升已经变得非常实用。

Q:它也能支持 Agent 做出更丰富的输出,对吧?

戴雨森:对,因为它的指令跟随能力越来越强,能更好满足用户需求。原来是像抽卡那样的不确定性,现在已经越来越好了。直播头像好多都变成了 AI 生成的。

Veo3 也是一个很厉害的模型。它加入语音配音后,我发了个朋友圈感叹,它生成的世界已经接近真相难辨的虚拟世界了。Veo3 *次让我有一种跨越恐怖谷的感觉,真假难辨。

第五,是抢人大战。无论是 Meta 的大规模挖人,还是创业公司疯狂融资,再到 Windsurf 最近收购的 drama,都说明硅谷对人才的争夺和资本竞争进入了一个新的阶段。我们在国内也感受到类似热度:融资额上升、项目抢手、一个月融资几轮的情况又出现了。这背后是因为大家真的看到了 AI 正在落地,不再只是概念,很多已经实实在在地产生收入了。

Q:你关注的主线还是围绕 AI 的应用普及,技术的变化是原动力,对吗?

戴雨森:我们认为模型基础能力的提升是解锁应用场景的关键。模型能力配合好的产品设计,才能真正释放价值。一个真正有价值的 AI 应用,一定能通过某种方式让用户付费,比如订阅或按工作交付。所以我们特别关注 AI 在提升生产力方面的价值,尤其是在数字世界里的应用。可以看到我们投的很多是 AI Agent 或者 AI 生产力方向的项目,因为这是当下最能真正帮用户解决问题的场景。

Q:除了你说的应用这条主线,其实 AI 硬件也很热,比如机器人,具身智能其实也在 AI 产业链上。

戴雨森:是的,但我认为上半年有一个被高估的方向,就是人形机器人。特斯拉最近下调了对 Optimus 的生产预期,我觉得很有代表性。

去年我就说过,大家对 Optimus 进工厂打螺丝的期待值太高了。当时有人说 2025 年特斯拉就能有一万个机器人进厂干活,这完全低估了 manipulation(操作控制)的难度。现在我们看到的一些 demo 确实越来越好,比如叠衣服,但真的要机器人做出一杯咖啡,还是非常难的。

当然,我认为这个领域还在快速发展,在未来几年可能会看到 manipulation 的「ChatGPT 时刻」突破,但如果期待 2025 年就能大规模落地,我觉得是大大高估了。

技术的发展不能拔苗助长,必须经历:方向确定、逐渐放大、形成产品、再到大规模落地,这几个阶段,没法跳过。机器人目前显然还处在早期探索阶段。

Q:另一方面,你觉得这半年有没有一些被低估的事情、公司或者现象?

戴雨森:我觉得首先,应用的价值还是在被低估的。一年前,大家还在讲模型公司会颠覆应用公司,说「应用只是套壳」,这个业务模式不成立。当时不管是 Manus、Genspark,还是很多其他公司,都经历了不少质疑,说:「你是一个壳公司,有没有长期价值?是不是模型一升级你就完了?」

现在这个争论虽然还在继续,但显然不是模型升级了应用公司就会完蛋。相反,好的应用公司是期待模型升级的,这样可以让用户享受更强大的体验。「壳」的价值仍被低估了。

第二,优秀团队的价值也在被低估。不管是 Kimi、Manus,还是 Genspark,我们归根结底是投人。

大家之前可能不会料到,肖弘能做出一个世界级的 AI 应用。而几天前发布的 Kimi K2,在 7 月 15 日这个时间点,可以说是全球最强的开源大模型,没有之一。它在 coding、Agent 工作流和中文写作等方面的表现,确实优于 Claude。当然,Claude 是在年初发布的,但在 AI 这个领域,六个月就相当于很久了。

OpenRouter 上的调用数据显示,K2 刚上线没几天,昨天还在编程类目里排第 13,今天就升到了第 10,前面是 Claude、Gemini、GPT。这种上升速度是非常快的,说明用户反馈非常好,但现在大家其实已经对 benchmark 麻木了。我们更看重实际用户的使用反馈。

比如 Perplexity 的创始人就在推特上说,他们团队已经开始调研在 Perplexity 上引入 K2,也明确表示:Kimi 做得非常好。

Kimi 是最典型的例子,但不是*的。我们也讨论过 DeepSeek 后他们团队的转型问题,Kimi 背后的 Moonshot 也经历了很多复盘,并集中精力攻坚下一代模型。我觉得外界太容易在很早期就下结论,比如说 DeepSeek 出来的六小龙公司是不是都不行了。但实际上,如果一个团队足够稳定,有优秀人才、有资源、有意志,那他们的主观能动性和突破空间远远被低估了。

第三,我觉得模型能力进化的速度也被低估了。比如现在已经有传言说 GPT-5 很快就要发,它可能是一个原生多模态、推理能力非常强、具备高级 Agent 能力的模型。

现在新产品发布的时候往往会被喷,说画了大饼但实际上产品体验没有那么好。但好的应用公司需要为 6 到 12 个月后的模型设计。比如 Cursor 一开始发布的时候,当时的模型还无法实现它的完整愿景,直到 Claude 3.5 Sonnet 出来,Cursor 才真正成为一个好用的产品。

Manus 在设计时能用的*模型是 Sonnet 3.5,发布时 Sonnet 3.7 刚上线,Manus 因此能够完成一些更复杂的任务,之后Claude 4,Gemini 2.5 Pro 等新模型的发布也进一步提升了 Manus 的表现。也许再需要 1-2 个模型的大版本迭代,才能够充分让主流用户感受到 Agent 带来的生产力提升。

所以我们认为,未来模型的能力提升仍然非常快,也许很快就会有让大家震惊的发布出现。那时,模型增长和应用价值可能都将超出市场预期,整个 AI 发展节奏也会再度加快。

Q:这半年还有一个我之前没有想到的新变化,就是最近非常激烈的外卖大战。因为外卖大战这件事情牵扯了好几个巨头的精力和资源,包括阿里、美团和京东。你觉得这个会怎么影响中国的 AI 的格局,或者说对创业公司来说,它可能会有什么影响?

戴雨森:现在看其实还是两个战场。从长期看,可能会对资源投入产生一些影响。

但我看阿里云的增速预期还是挺高的。今天 Jensen 还宣布可以重新向中国销售 H100。我们看到,今年美国的 IDC 和云服务增长得非常快,因为应用落地之后推理的用量会大幅增长。

我认为中国市场的发展路径也会是类似的。当 Kimi、字节、DeepSeek 等公司推出更好的模型后,更多场景被解锁,推理的算力需求也会很快爆发。知识工作者在中 美其实都很像,大家都用 Office、都要搜索、都用 deep research 工具,在美国市场已经验证的这些需求场景在中国迟早也会爆发。

当然这跟外卖大战没什么直接关系。但比如说阿里云、火山云这些中国云服务商,可能也会经历一次美国那样的增长过程。

04

从 DeepSeek 出发,不同公司各有演进之路

Q:我们接下来围绕一些具体的方向聊聊,你觉得为什么 DeepSeek 还没发布 R2?

戴雨森:这个现在还是挺神秘的,我们也只能通过一些外围信息去了解。我听说现在 V4 还在训练阶段。因为他们当时是先发了一个 V3,然后再发 R1,那现在 V4 都还没补发,听说还在训练中,那 R2 的发布时间可能就要等到 V4 之后了。但我相信 DeepSeek 肯定在做很多有意思的创新。我们也和里面的一些同学聊过,知道他们的创新能力是非常强的。不过我觉得他们也确实会受到算力资源的限制。毕竟卡的总量是有限的,而且他们发布模型之后,还有大量的算力要用来做推理(inference)。

Q:对,我觉得他们现在可能也在思考模型或者智能未来的演进方向,基本上还是不做多模态。

戴雨森:对,这其实反映了一个很现实的情况:DeepSeek 的资源没有多到可以在所有领域对标 SOTA。所以就像 Claude 背后的 Anthropic 一样,他们要做一些判断:哪些方向在当前阶段最重要、最能出结果,然后集中资源突破;而对于一些尚不明朗的方向,他们可以等等,等到思路更清晰之后,再利用自己的工程能力和团队的努力赶上。

而字节 Seed 现在可能是在试图做到全面*:他们有 Edge 组去做最前沿的研究,有 Focus 组去冲击 SOTA,还有 Base 组去做服务产品应用。这种是全栈型的布局。

相比之下,DeepSeek 更有选择性,比如重点突破模型智能。当资源不那么充足时,确实需要做一些取舍。像 Seed 这样的组织结构,把 Edge、Focus、Base 三个方向明确分开,我觉得是更明确的。

Q:对,他们现在就是这种比较明确的分工结构。Edge 一开始列了五个方向,现在可能已经扩展到了十几个项目,确实挺厉害的。

戴雨森:我觉得把应用和研究分开,再把研究中的 SOTA 和 Frontier 部分继续细分,是比较对的做法。之前大家可能就是分成 Frontier 和 Applied Research,但那时候资源不够,组织的职责也不够明确。普遍的问题是:如果你让一个模型团队既要做前沿研究追赶 SOTA,甚至超越 SOTA,同时又要满足 App 的落地需求,这两个目标是很容易冲突的。

Kimi 在过去半年其实也总结了很多这方面的经验。如果有个大用户量的应用在线上,需要花大量精力去维护,处理各种 corner case,修 bug。但这些工作其实对推动下一代模型、挑战 SOTA 的帮助是有限的。今年就没有投入太多精力在 K1 的迭代和应用功能上,而是专注于做下一代模型,来拓展模型智能的边界。

Q:这也是我们以前反复会问大模型创业公司创始人的一个问题:你一边做模型,一边做产品,中间的精力怎么分配?

戴雨森:目前来看,我觉得还是要先把一个方向做到*。比如你如果是做应用的,那就假设自己能用上*的模型,谁最强、最合适就用谁。但如果你是做模型的,那目标就是让自己的模型保持在 SOTA 水准,在某个具体领域做到最强。

05

投人的价值,K2 如何逆风翻盘

Q:我想聊一下 Kimi K2。今年年初 DeepSeek 引发热潮后,Kimi 内部也有了一个比较明确的目标,就是要追求 SOTA。在这个目标下,K2 应该是他们做出方向调整后*个比较重磅的成果。你对这个过程是怎么理解的

戴雨森:我想先讲个小故事。前几天,暗涌在良渚组织了一个圆桌,把投资了 Kimi 和 MiniMax 的投资人都请到一块。我还开玩笑说,这像是一个「同情局」,仿佛我们投了大模型公司,很惨该被同情。但我觉得,其实真正体现一个团队能力的,是他们面对挑战时的应对方式,以及是否坚持自己的路线去做有价值的创新。

顺风的时候有顺风的打法,逆风的时候也有逆风的打法。像 MiniMax,他们专注自己的方向,现在也在推进上市流程。这就是他们面对挑战的方式。当然,也有一些公司在逆风中内部团队发生较大变化,甚至业务方向都有调整。但我觉得 Kimi 特别的一点,是他们的团队非常稳定。如果你看他们的创始团队或核心成员,几乎没有大的变动。

Q:这其实就是我*个好奇的点。现在很多公司到了联合创始人或核心业务负责人层面,都会有一些变化,但 Kimi 基本没怎么变。

戴雨森:这可能跟他们的团队组成有关。Kimi 的创始团队一直是以植麟为核心,而且成员是清华的老同学,之间合作很多,甚至是室友还一起玩过乐队。并不是因为要做大模型公司才临时组起来的。

Q:我查阅资料时发现,当年杨植麟去评特奖的时候,有一张照片是他们系的一些同学举着横幅去支持他。几位他们系的师弟师妹都会说,杨植麟在当时就是一个让大家觉得非常有号召力的人。

戴雨森:没错,这也是我们从一开始就决定投资他们的重要原因之一。这个团队不仅有技术,而是有很长的共同信任。创业会经历很多挑战,如同压力测试,在面对挑战的时候,团队稳定和方向聚焦会很重要。

Kimi 这个团队从一开始就是以技术基因和技术视野作为核心能力的。很多人可能已经忘了,在 2023 年的时候,AI 的变化太快,几乎每个月都有新风向。当时,Kimi 就对长文本这个方向做出了很重要的判断,选择做了一个具备长文本能力的模型,并基于这个推出了带搜索能力的 Kimi *个版本。

那时大量的 AI chatbot 其实是没有搜索功能的。没有搜索,模型的用途就会受到很大限制,比如你随便问一个「现在的美国总统是谁」,它都可能答不上来。

Kimi 团队当时对长文本技术方向的判断就展现了他们非常强的技术 vision。到了 2025 年,AI 更强调 Agent 能力、复杂任务执行、以及处理更大的代码库,大家才真正意识到长文本的重要性。如果你真的要让 AI 做一个 Agent,完成一个复杂任务,它不能只是执行 100 步就歇了。回头看,其实这也验证了植麟判断上的准确。

所以我觉得他们团队身上,有三个特别重要的品质:

*是团队的稳定性。这来自于成员之间长期的渊源和信任。

第二是对技术方向的坚持。他们不是看到哪个火就往哪儿跟风,比如陪伴火了去做陪伴,多模态火了又去做多模态。很多方向都可以做,但真正有积累的是那些持续做一件事的团队。

投资界24h | 千亿育儿补贴开闸;高盛不裁员了;上海三大先导产业母基金启动遴选

第三是他们一直保持的技术敏感度和洞察力。这个在技术变化的关键节点上尤其重要。

当然 R1 的成功也确实给了行业很多启发,这一点毫无疑问。当时很多人看到 R1,有个流行说法是:「pre-training 不重要,post-training 才重要。」但我认为 R1 的基础是 V3,这恰好说明好的基础模型很重要,pre-training 和整体架构优化可以带来模型能力的提升。K2 现在还是个 non-reasoning 的模型,已经呈现出很好的能力,这也说明 pre-training 依然很重要。

开源也很重要。现在全球 AI 社区正处于 Early Adopter(早期采用者)阶段,通过开源优秀的模型和产品给社区提供价值的团队,很容易得到热心的回应。我们在 DeepSeek、K2,以及我们 sponsor 的 vLLM、ControlNET 等开源项目中看到,只要不断拿出好的产品,保持对用户开放交流的态度,世界各地的用户都会欣赏、支持你,甚至主动帮你改进问题。但只开源不是本质,本质是开源好的东西,不是开源就一定好,社区觉得好才是核心。

Q:说到开源,因为 K2 是 1 万亿参数,开源社区里能真正部署的人很少。

戴雨森:K2 主要的场景不是在本地机器部署,事实上要在本地满血跑 Deepseek R1 也不简单。开源的核心不在于本地部署,而是让大家对模型有更多自主把控。

Q:你能总结下他们为什么能做出 K2 这种级别模型?现实过程中遇到了哪些挑战?外部舆论把他们放在低谷,是否带来很大压力,比如人才流失?我指的不光是核心层,还有一线工程师。

戴雨森:这里肯定有人流失,但 Kimi 有两点优势:*,核心层很稳定;第二,很多年轻同事愿意留在 Kimi。

我觉得大家留下不只是因为钱,更因为能学到东西,能干成自己觉得厉害的事。这符合 Kimi 核心团队的基因。

之前做投放时讨论过,他们做投放不是强项,要做团队能力最强的方向。我觉得这很重要。面对外部市场压力,首先不要乱,要聚焦自己最擅长、最能做好、最有意义的事情。知乎上也有好几位 Kimi 的研究员写了参与 K2 的很多感想。

06

技术变化:推理、编程、工具使用

Q:在技术领域,你会比较关注哪些变化?

戴雨森:我们之前聊到过,我认为解锁 AI 生产力的三大主线是 reasoning、coding 和 tool use。

在 reasoning 方面,我们看到了 o3、o4 mini 的发布,还有后来的 o3 pro。虽然这些模型在一些榜单上表现进展不大,但我们自己的使用体验是,o3 相比 o1 是一个明显的大台阶,o3 pro 在推理长度和逻辑连贯性上也越来越好。现在很多模型在 reasoning 的细节上都有进步,比如细节的幻觉减少,推理结果更严谨。

同时我们还看到,一些小一点的模型也开始具备很强的 reasoning 能力。像 GPQA 或 AIME 这些反应模型 reasoning 能力的指标都非常高。K2 在这方面也表现不错。

Q:我们之前和一些人交流,比如阿里云 CTO 周靖人,他并不觉得像 o 系列的更新是特别大的范式变化。他认为这还是在大模型原有方法框架内的自然延展。

戴雨森:这个我同意。如果这些模型还是 Transformer 架构,那它们就还是在现有范式内演进。大家现在都在期待下一个 Transformer 是什么。

不过有时候,一个技术范式就可以走得很远。就像高速公路可以用几十年,不一定非要每年都有颠覆式的架构变化才叫创新,实际上,如果每年都有颠覆式的技术发生,那说明这个行业还很不稳定,反而不一定适合产业落地。今年我们在产业上真正能用到的技术,并不是从 0 到 1 的变化,更像是从 1 到 10,甚至从 5 到 8 的进化。像 reasoning 的进步,就是从很好变成非常好。

在 coding 上,Sonnet 3.5 已经很不错了,但 context 长度还不够,自我纠错能力也一般。Sonnet 3.7 和 4 跑在 Claude Code 上效果非常好。对复杂代码、长代码段,它们常常一步就能做对。这不是从 0 到 1,而是从 7 到 10 的质量提升。

Q:在基础模型的竞争上,Google 最近的势头也很强。过去两年 OpenAI 横空出世时,Google 给人感觉有点被打懵。但现在 Gemini 2.5 的口碑和实际使用反馈都很好。

戴雨森:确实,Google 技术积累深厚,人才密度高,又非常有钱,算力也很充沛。所以我们今年明显感觉到 Google 的边际变化是很大的。

模型层面,Google 的 Gemini 2.5 表现非常好。云服务层面,提供同样的 Claude API 推理服务上,GCP 的表现其实更好,这背后也离不开 TPU 的支持。Google 的实力很强,是现在模型领域前三名中非常有竞争力的一家。

但他们现在也有一个现实问题,就是 Google 的搜索主业正在承压。因为担心 AI 对搜索广告带来冲击,所以它的股价一直在震荡。我觉得这就是一个典型例子:老业务在受损,而新业务增长又很快。这最终会怎么演化,我觉得可能还需要一两年才能看清。

07

应用的生长,让 AI 不止于问答

Q:这也回到了你之前提到的一个主题:模型和上层应用之间的关系,现在这个关系还在演变。

戴雨森:应用的价值首先取决于模型本身,也就是模型厂商固化在权重里的那些基础能力。模型的推理能力、编程能力越强,应用所能释放的价值就越大。但权重一旦固定,内容就是死的,而问题是动态的,所以需要引入 context,现在流行的 Context Engineering vs Prompt Engineering 也说明了 prompt 模型并不够,还需要更多更好的 context。

我认为 context 可以分为三层:

*层是通用信息,比如「今天的天气怎么样?」这类模型本身是没有的,需要通过搜索等方式动态获取。虽然现在也有模型能做简单的搜索工作,但这需要给模型配备合适的工具。

第二层是组织层面,比如公司内部有哪些流程、文档、已有的知识积累。这些信息模型本身也不知道,需要通过应用层与模型协作,让模型指导人去调用这些信息。比如一个人和 AI 的对话历史、个人偏好、背景信息等,这些模型也不具备,必须由应用层来提供。

所以 context 这一层是由应用来提供的,它的质量会对 AI 应用的表现带来巨大差别。

AI 的目标不只是成为一个问答机器,最终它是要真正帮用户完成事情。那在做事情的时候,它能调用哪些工具、影响什么结果,这些也是由应用层公司提供的。比如产品提供了哪些公有或私有的 MCP 工具,或者最终 AI 能把它的输出结果部署在什么环境上。

模型其实只是*层的那一块。但因为 ChatGPT 刚出来的时候,我们的大多数使用场景都是在「问」模型,所以只能提取它通过压缩已有知识所获得的回答。比如问一个事实类的问题,这种情况下确实主要靠模型本身。但当任务更复杂、模型的智力需要与 context、甚至 environment 配合才能发挥作用时,那就是「壳」的价值了。

Q:所以你觉得这是一个很自然的演化路径?也没必要非得强化「我们就是做模型」这件事?

戴雨森:对,模型肯定很重要,但只靠模型本身可能不足以真正释放出全部的价值。

Q:一年前大家怎么看 Google?一个失意者?

戴雨森:大家那时候肯定觉得 Google 有点落后,被 OpenAI 抢了风头,很多人才也选择出走。但后来 Google 的联合创始人 Sergey Brin 回归公司之后,很多事情发生了变化。比如有传闻说 Google 收购的 Character.ai 创始人 Noam Shazeer 回去后亲自改了一个 bug,直接让模型性能大幅提升。真假不确定,但关键人才确实能解决问题。

Q:所以 Google 能快速追赶,可能不仅是技术,也有组织方式、投入强度的变化?

戴雨森:对,他们对这件事是非常重视。我听说 Gemini 团队加班也很厉害,原本大家觉得 Google 是养老公司,但现在他们也很拼。

Q:模型竞争其实激活了很多聪明人,追求的成就感也回来了。

戴雨森:我觉得是的。这几家公司的创始人都非常重视 AI,现在已经不是「AI 会不会落地」的问题了,而是必须赢。

不管是 Zuckerberg、Sergey Brin,还是 OpenAI 和 Anthropic 的团队,他们都看到 AGI 已经迫在眉睫,意识到这件事的重要性,愿意花钱、愿意投入资源。

最近 Y Combinator 的创业营也提到,现在做任何公司,都应该以「AGI 两年内实现」为前提假设。你要思考:假设 AGI 两年内实现,那你的公司该怎么做?

当然 AGI 到底是什么还有很多争议,但毫无疑问巨大的变化正在发生,而且是快速发生。现在硅谷学计算机的学生找工作都变难了,因为初级程序员的工作已经被 AI 替代了很多,很多变化是实实在在发生的。

Q:我们回到你说的三条主线。我们讲了推理和编程,现在讲工具使用。最近像 Kimi K2 和 Grok 都在训练阶段就加入了使用工具的能力。这是新趋势吗?

戴雨森:现在 AI 使用工具主要有两条路线:

1. 像 MCP 这样,走 API 接口方式;

2. 通过视觉模拟 AI 操作已有软件。

这两种方式都有人在做,现在像 MCP 这样的生态已经建立起来了,越来越多为 AI 搭建的工具变得可用。又比如 Manus 和 OpenAI 的 Operator 用的是沙盒虚拟机里面的浏览器、通过视觉操作浏览器等已有的软件,模拟人类的使用过程,目的是让 AI 更好地调用已有软件的功能。

能够使用人类的工具完成任务,我觉得这是让 AI 真正变有用非常重要的一件事。

08

Agent 让每个人学会当好老板

Q:其实在 OpenAI 最开始规划的五个阶段里面,第三个阶段就是推理之后的 Agent。

戴雨森:对,之前张祥雨有个播客讲得特别好,我很认同他的分析。*个阶段是 chatbot,对应 ChatGPT;第二个阶段是 reasoning,对应 o 系列模型;第三阶段的 Agent 对应的是 Agent-native 模型,但目前好像还没有真正出现。

在 Agent 的定义中,目标是 AI 自己去寻找的,但目前目标仍由人给定。Agent 是说,我给你一个目标后,它去预测使用工具的序列,选择什么工具完成任务。它可能还没做到像给员工完成任务那样,自己拆分任务和定义目标。

现在 AI Agent 这一类产品还处于非常早期阶段。比如 Manus 才刚推出几个月,但我觉得一年甚至半年后,随着模型能力提升,这类产品的能力会大幅增强。

我想说的是,不同公司因为资源禀赋不同,解决 Agent 这个问题的方式也会有差异。我们尽量不做预判,不认为我们能够预先知晓未来。比如 Kimi 的看法是 Model as Agent,通过模型训练中加入大量端到端的工具使用数据,让模型本身具备强大的工具调用能力。而同样是调用闭源模型 API 的产品。Manus 提出了「less structure, more intelligence」,但有时结构化也能提升工作效率。Genspark 就专门做了针对 PPT 场景的 slide 生成功能,引入了一系列优化工作效果的方法。

Q:这两种角度都对。对用户来说,有些场景有大致流程,结果更可控,成本也会更低。

戴雨森:因为用户要的是最后的结果,而不同的公司想实现这个结果,可能有各种不同的路径。有的灵活但成本高,有的固定但成本低。所以大家解同一道题,用不同方法都合理。

Q:你说的*趋势无疑还是 Agent?

戴雨森:是 AI 对生产力的提升,想让 AI 把生产力真的提高,就得让 AI 承担更多工作。像 Claude Code、Manus 等 Agent 产品,核心理念是人不做事,AI 做事。

有人说这是类似自动驾驶 L3级别的产品,人不动方向盘,车自动驾驶。我们发现写代码的工程师一开始喜欢 Cursor,因为它还是让你在熟悉的 IDE 里面写代码,但Manus 发现产品经理用 Cursor 去完成任务不怎么看代码,只是看右边的对话框,所以他们把对话框放到主要的位置,做出了一个更加适合非程序员人群使用的 Agent。

随着模型能力的进步,Claude Code 更*,用户不能写代码,只能告诉 AI 你要做什么,其他的 AI 去完成。所以 L3 或 Agent 意味着 AI 去作为执行主角,而用户要学会当 AI 的好老板。

Q:这对很多人来说挺难,是门槛。AI 做事不满意,你让它做几次都不行。

戴雨森:以前我创业时也这么想,所有事我都亲自做。后来发现这不是好管理方式,我应该赋能下属,让他们知道我要什么,让他们有主观能动性。

以后人类指挥 AI 可能也是这样,这可能是人类历史上*次要培养一个工具。以前培养人很难,大部分人是被培养的,很少有人有能力或机会去培养一个下属。但现在每个人可能都要学会如何给 AI 下命令,如何培养 AI 去更好完成工作。

Q:你提到 Manus、Genspark 这类通用 Agent 的用户群都比较广泛。你们怎么观察垂直场景里的 Agent?

戴雨森:通用是因为当前模型能力偏通用,但肯定会逐渐涌现某些垂直场景。

我觉得一个好的产品,最后肯定还是要有清晰的定位,要在某些领域做到*的*名,才能拥有长期价值。或者说我们目标不是追求通用,而是从通用开始,逐渐发展收敛到一些核心场景。

技术革命的早期发展阶段,往往大家都在尝试,也不知道新技术适合做什么,最后看什么效果*。例如蒸汽机刚被发明时,最开始是用于抽煤矿的水,后来发现用来驱动火车和纺织机更好。蒸汽机也是一个「通用技术」,但最后*的价值可能来自几个具体场景。

我觉得现在 coding、做 PPT 这类的 office work、deep research 三者毋庸置疑是已经涌现出来的重要方向。

Q:有个话题挺有意思。国内大家讨论通用产品,觉得这是大公司的必争之地。但跟国外投资人聊,他们反而对 Super App 的可能性更感兴趣,关心怎么打败 OpenAI 和 Google。

戴雨森:如果你有机会挑战大公司,那是好事,至少有资格参与奥运会,比不参与强。

很有意思的一件事是,Manus 出现后,有很多人说它没壁垒,用开源框架一个周末就能搞出来。但现在过了这么多个周末,还没看到任何一个类似的应用能真正做好的。

我觉得在全球市场,大家对真正的创新还是尊重的,不会直接复制完全一模一样的产品。可能会借鉴交互或呈现思路,比如 AI 在干活的表现形式,但不会直接像素级复制。在全球化竞争里,先发优势会带来很多口碑和传播优势,这也是对创新者的奖励。

09

每月 1000 美金的 AI 产品订阅

Q:你算过现在一个月在 AI 产品订阅上花多少钱吗?

戴雨森:大概接近 1000 美金。Manus 是 200 美金,Genspark 是 200 美金,ChatGPT、Gemini、Grok 这些也都差不多各 200 美金。我买的基本上都是高级方案。

我一直有个理念,新产品就要多试试,很多时候花点钱试一试并不过分。很多 AI 产品的革命之处不能只看报道,得亲身去用。当你能看到一个未来的时候,你会产生很多的灵感。

我们三月份就观察到,Manus 上线后推理用量暴涨,Agent 产品的 token 用量相比 Chatbot 是显著增长。当时二级市场很多人还在质疑英伟达,觉得哪怕全世界所有人都用 chatbot,推理需求也根本没那么大,用不了那么多算力。

但其实这就像拨号上网时代,一开始所有人都在聊 QQ,不需要那么多带宽。但有了宽带网之后,大家就要在线上看 4K 视频了。模型能力越强,可以解锁的场景越多,token 使用就越多。

Q:2023 年,黄仁勋在英伟达内部讲话中说,他们的市值目标是 2 万亿美元。当时英伟达刚刚突破 1 万亿。我们还在讨论他这口气是不是太大。结果今年已经突破 4 万亿了。

戴雨森:他很快可能会到 5 万亿。因为 token 向生产力的转化趋势才刚刚开始。

这就像火车开动了,就不会突然又停下来了。我们现在还在不断发现 AI 新的使用场景。比如说一个工程师原来一天可以写 100 行代码,现在有了 Cursor、Claude Code,可能写的代码是原来的 10x,能解决更多以前没想过要解决的问题。又比如有了 ChatGPT 和 Manus,你会问的问题也会变多。

很多以前不知道该问谁的问题,现在可以用 AI 来解决。给用户带来的生产力提升,导致用户更愿意付费。

Q:目前生产力场景的 token 消耗是非常高的?

戴雨森:生产力可以以 10 倍,100 倍的速度增长。和 AI 闲聊再怎么聊,一天就那么多时间,这是我们以前讲的 attention is all you need。如果你要的是用户注意力,它是有限的,并且是和抖音,Tiktok、小红书一起去争夺的注意力。

但在生产力场景,用户需求的上限很高,可以从问一个问题变成问 100 个问题,需要的算力可以涨 100 倍。

Q:而且单位时间内 token 消耗的复杂度也在迅速提升,比如我要消费的内容、视觉信息可能也变得更复杂。

戴雨森:在未来你可以问 AI 之前没想到的非常复杂的问题,我给你举个很简单的例子。比如美股二级市场的朋友,在财报季时一天可能要关注五六家公司发业绩。凌晨四点起床看财报数据、代入模型做对比、听电话会议、分析 CEO 的展望,都是他们的日常。

原来他们不可能同时听多个财报会,只能靠招更多人或挑重点去选择。但现在有了 AI,虽然目前还不能完全跑通全流程,但 6-12 个月内就有可能让一个分析师同时覆盖 50 家股票的财报。

AI 可以帮他们看财报、听电话会议记笔记、回答事前准备好的问题、总结 CEO 回答、写报告。这些原来因为「做不到」才没放到你的工作时间表里的事情现在 AI 能完成了,需求就自然增长了。

就像飞机出现之前,没有人会说「我今天要飞美国出差」。但飞机一旦存在,新的需求就出现了。AI 也一样,它让你开始做那些你原本不会想做的事。

Q:时间是有限的。但单位时间内娱乐内容的复杂度、感官刺激可能会大幅提升,这也是以前难以想象的。

戴雨森:对,确实难以想象。但我想说的是,生产力的价值是直接可衡量的。比如 AI 帮我赚 100 块钱,我为它付 1 块或者10 块。

而且我们观察到一个很有意思的现象:当 AI 按 token 用量计费后,很多人是希望用得更多的。因为它确实在帮你完成工作,比如帮你写了更多代码。

这本来就是你自己要做、要花时间花钱雇人做的事,现在 AI 帮你完成了,它就有价值。

10

硅谷 Acqui-hire 抢人大战

Q:关于最近这场「抢人大战」你有没有什么看法?

戴雨森:确实最近有很多人被挖走,也有人接到电话但没去。大量优秀人才被 disruptive(颠覆性)级别的薪资挖走。

这种挖角不管是对被挖团队,还是 Meta 自己原有的团队,都是非常大的冲击。在硅谷几乎所有*公司都在发生类似动荡。被挖的人所在团队军心难免动摇,留下的人也开始质疑:是不是自己也该涨薪?

这种高薪挖人当然是人才价值的体现,但越是*人才,也越需要时间和环境来磨合,才能真正形成合力。历史上失败的例子也很多,所以对于这些组织来说,这既是机会,也是一场挑战。

Q:你觉得抢人竞争算良心吗?

戴雨森:我觉得这也是体现了创始人的精神,就是他愿意不惜代价去争取人才。如果花钱能解决的事,我就花钱办。这反映了人才确实很重要。

Q:压力主要是在硅谷吗?不过从另一面看,这也给创业公司提供了不错的退出机会。

戴雨森:但是这种退出可能不够大。有的人觉得公司卖个几亿美元就挺好,有人则想做千亿美元公司。创业公司也需要更多弹药去和 Meta 这样的大厂竞争。比如说 Cursor 之前融了很多钱,我们一度还觉得融这么多钱做什么,现在看到他们要面对的是更多钱补贴用户用 token,招人也要更高成本,所以融资更多很合理。现在竞争无论是补贴还是人才都升级了。*人才也有很多选择,对很多创业公司来说,加入战局的门槛和水位都在提升。

Q:硅谷这种人才收购(Acqui-hire)很流行,主要是为了绕过反垄断限制,也反映了竞争多激烈。

戴雨森:大家都想加快节奏,因为钱太多了。几家巨头账上都有大量现金,这些钱投下去,如果能用钱换时间和竞争优势,对他们来说就是简单的事情。

11

Benchmark 钝化,突破智能的边界

Q:最后这一部分,我想问一些你的感受。从 GPT-3 到现在,已经有两年半时间了。你目前对什么事情还是特别好奇?

戴雨森:我好奇始终还有很多。首先是如何衡量智能的边界。

你想,ChatGPT 刚出来的时候,人类还能指出它的回答问题所在。但现在无论是它研究的内容还是文笔本身,普通人类越来越难发现它的缺陷了。当人类智能被逐渐接近的时候,你怎么衡量一个或许比你更聪明、更深度思考、记忆力更强的存在?

关于如何衡量智能,我的好朋友姚顺雨在他写的文章《下半场》中提到,未来 AI 的 benchmark 会越来越重要。现在的 benchmark 已经钝化,不能准确区分模型差异。比如说一个 benchmark 得 85 分或 90 分真的能反映模型的区别吗?Kimi 的经验也说明,内部制定好的 benchmark 很重要。模型训练关键是如何衡量结果,而内部 benchmark 的水平质量往往决定了模型的质量。

所以我觉得如何衡量智能、如何探索智能边界依然非常重要。现在我们还能勉强说用一用模型,能「Vibe Testing」感受到模型的能力好坏,但再过几年,前五名的模型可能都比你聪明的时候,你怎么去评估谁更好?

Q:所以怎么去衡量智能的边界?

戴雨森:第二个我想说的是,我一直反复思考生产力这个逻辑。每个人拥有大量生产力之后,对于个人、组织、乃至世界的影响是什么?

对个人来说,超级个体一个人能做的事情越来越多:从做小猫补光灯这样的小 app,到开发游戏,甚至到实现 Sam Altman 预言的「一人独角兽公司」。当年 Instagram 被收购时只有 13 个人,在 AI 时代,13 个人到 3 个人是完全有可能的。

这意味着人和人之间差距会变得很大。当每个人都拥有无限聪明的助手,以及像 Manus 这种可以日夜无休帮你打工的「赛博牛马」时,有人能很好地利用它创造巨大价值,有人可能没有产生那么大价值,所以成长速度差异会进一步拉大。

对组织来说,小组织可以变得很强大,而大组织则能通过先进技术管理更大、更复杂的业务。比如美团管理几百万骑手,业务非常复杂,如果没有先进互联网通信和管理技术,根本无法实现。加入 AI 后,大公司的管理人数、业务复杂度和深度都会再升一个台阶。

世界是由各种组织驱动的,组织能力边界的提升对世界影响巨大。进一步来说,当整体生产力大幅提升,而人与人、组织与组织之间差距变大时,如何在效率和公平间寻求平衡?AI 最初是最聪明的人制作工具给头部用户用,但这些精英产生的价值如何反哺普通大众?即便一个普通人不是特别努力学 AI,我们如何让 AI 产品越来越易用,让普通人也能从中获益?

Q:AI 还会带来隐私暴露和虚假信息泛滥,让真实界限变得模糊。

戴雨森:对,你很难区分什么是真实的文章。我现在还能读出 DeepSeek 的味道,但一年后可能分辨不出,或者说,可能有很多 AI 写的文章我已经分辨不出来了,我能分辨出来的只是那些还伪装得不够好的。大家都知道 AI 会引用虚假内容,但关键什么是虚假呢?真假的界限也越来越模糊了。

我一直在想,人类*的限制是什么?我这边觉得是大脑的功率,大脑功率大约 20 瓦,人类智能的上限就是这么多。而 AI 可以很快接近甚至突破这个上限。智能越多,我们用它做什么,人与 AI 的角色分工如何,这些都是我们很快要面对和调整的问题。

有时候我觉得有点可怕,因为大的变化已经到来,只是大家还在逐渐感受到它。比如对程序员影响特别直接,普通初级程序员如果不用 AI,未来两年后找到工作会非常困难。但一年的时间人是很难做出改变的。而更多的职业可能也会在很短的时间内受到极大的冲击。

12

Talk is cheap, Show me the product

Q:你会对什么事感到疲倦?

戴雨森:我觉得*个疲倦的是过度营销。过去几年有一个趋势,就是很多产品在过度营销,各种「震惊体」,但好的产品比如说 Manus,几乎没花钱营销,但大家误以为它花了很多钱。

之前 AI 的进步主要是模型的进步,普通用户还无法在产品中体验,因此研究员和媒体拥有很大的解释权。但现在模型已经开始转化成应用了。那时候我在即刻发了一条说:「Talk is cheap, show me your product.」

现在很多 AI 模型的核心能力最终都要转化成产品,用户能真正用得起来,AI 才有生命力。很多讲故事、炒作的公司,不如专注做好产品。我们看到现在发展好的 AI 公司大多做到了这一点,拿出真正对客户有价值的产品。

Q:你今年内想验证的是什么问题?

戴雨森:一个是 AI L3 级别的 Agent 应用能不能快速达到完成实际工作的程度。比如 Manus 我们都在用,用户也在付费,但有时一个任务只能完成七八十分,还需人补充到 100 分。Claude Code 相比之前的 coding agent,逐渐能做到一次完成,不用修改就能上线。

未来几个月到年底,我相信 Agent 的能力还会有很大提升。到那时,可能你给 AI 一条指令,它就能埋头干完,甚至一次就干好了。

Q:我现在用 AI 感觉是得刻意多用它。因为给它比较复杂的任务时,它完成得不*。

戴雨森:这是普遍现象。好的 AI 产品一定是为未来的模型设计的。Cursor 上线两三年了,但直到 Sonnet 3.5 出来的时候才开始火,等 3.7 出来后才爆发增长。

Manus 也是一样,刚上线时很多任务其实也做得不好,但 6 个月、12 个月后,新一代模型会让它表现更好。所以你要为未来设计,而不是为当下就能获得的模型设计。

Q:这对普通用户可能反直觉,但我理解,这是快速发展阶段。普及到主流用户时,大家仍追求开箱即用。

戴雨森:其实也不一定,比如我们之前发的《Manus 对谈 YouTube 联创陈士骏》,Youtube 的联合创始人 Steve 说,YouTube 出来时是为未来宽带设计的。2005 年,那时候美国刚开始普及宽带,因此一开始的体验并不是那么好。同样短视频平台如抖音快手上线时,也是为一两年后的智能手机和 4G 普及设计的。AI 也是这样,你要永远提前走一步,乔布斯曾经说过「要去冰球将会前往的地方」。

Q:所以你想验证的是,到年底看产品能否高度自动化完成任务,不再需要人参与?

戴雨森:比如现在 Agent 完成任务的成功率可能是 20%,能不能到 70-80%?这会让前沿用户对工作的定义和 AI 使用方式发生巨大变化。

另外我好奇的是,随着用户使用 AI 产品的变多,记忆会带来多大变化。AI 应用长期壁垒是什么?我觉得很重要的是记忆和个性化。现在记忆个性化对结果影响有限,但长期来看,我们希望它像员工或助手,随着使用时长增加,越来越了解你,变得不可替代。这是我们想看到的进步。

Q:这个进步不能光靠模型是吗?记忆需要不断互动,给 AI 个人层面上下文。

戴雨森:一方面是在线学习(online learning),模型在使用中学习。另一方面需要你给它更多数据、文件、上下文,应用设计非常重要。模型和应用要协同合作。

我觉得我们对未来创新要有更多期待和包容,对中国团队的创新和发展能力要更有信心和支持。

13

创业新浪潮的新观察

Q:你们现在特别关注的团队是什么类型的人?还有哪些地方有新创始人在出现?

戴雨森:今年我们看到,想出来创业的人多了很多。一两年前大家还在相信未来应用会落地,而现在已经看到有 Manus 这个例子。金玉在前,所以大家肯定会想,「那我也许也可以」,这一定是一个更多的过程。我们看到很多不管是研究员,还是大厂里的年轻人,都蠢蠢欲动。

Q:你最近在看什么比较好玩的书,或者有没有作品想分享?

戴雨森:我想推荐《33 号远征队》,一家法国创业公司开发的游戏。故事设定在一个虚拟世界,有一个神「绘母」,每年在天边的一个石头上写下一个数字。这块石头叫 Monolith。

她从一百开始倒计时,每写一个数字,对应年龄达到那个数字的人就会死去,全部消失。*年是 100,第二年是 99,如此类推,一波一波的人死去。于是人类开始反抗,每年组织剩余年龄差一岁的人组成远征队,想挑战并打破这个魔咒,但一直没有成功。今年绘母写下了 33,33 岁的人将在明年此刻死去,于是第 33 号远征队出发了。

前几天是 Manus 创始人肖弘的 33 岁生日,我就推荐他玩这个游戏。这个游戏讲述了一个满 33 岁的人如何出海挑战天命的故事。游戏团队也是 33 个人,是一个创业公司开发的。创始人曾在育碧(Ubisoft)工作,他在那里觉得无聊,于是出来做了这款游戏。

《黑神话·悟空》是中国的大 IP,结合中国的文化积淀和先进技术制作的精品之作。《33 号远征队》也是一个法国浪漫主义设定,艺术与先进技术结合带来的优秀作品。它的情节、画面、音乐等都非常非常出色,是我今年非常喜欢玩的游戏之一,有望冲击年度游戏。