从《文明》到《星际》：AI 产品形态正在经历的范式迁移

13 May 2026, 杭州 | 麦克船长 | 总计 4891 字

从《文明》到《星际》：AI 产品形态正在经历的范式迁移

1. 30 多年前，游戏行业走过的一段路

先讲一段游戏史。

1991 年，Sid Meier 发布《Civilization》（文明），把回合制策略游戏（TBS）推到了一个长寿至今的巅峰。深度、复杂、耐玩——玩家在每个回合里慢慢思考、规划、决策，下一步，再下一步。

仅仅一年后的 1992 年，Westwood Studios 推出《Dune II: Battle for Arrakis》（沙丘魔堡 2），确立了 RTS（实时策略）的全部基础范式：资源采集、基地建设、科技树、战争迷雾、鼠标驱动的实时操控。它销量不算炸，但所有后来的 RTS 都是踩在它的设计模板上的。

又过了 3 年，1995 年，Westwood 用《Command & Conquer》（命令与征服）让 RTS 第一次成为全球性的商业大爆款——多人对战、电影感叙事、流畅操控，RTS 第一次从极客圈层破壁进入主流玩家视野。

再过 3 年，1998 年，Blizzard 的《StarCraft》（星际争霸）登顶，把 RTS 推向竞技神坛，影响延续二十多年。

从《文明》到《星际》，整整 7 年，策略游戏完成了一次彻底的范式迁移——从「我下一步、系统下一步」的回合制，到「手不离鼠标、眼不离战场」的实时制。核心变化不是游戏变得更复杂，而是玩家的手不再等系统结算回合。

但再往深一层想，这并不只是「游戏行业的偶然演变」。游戏本身是一个独立、简化构建的小世界——人最初被强制以回合制参与，不是因为回合制更好玩，而是因为当时的技术承载不了实时。一旦算力、输入设备、引擎技术发展上来，参与模式就开始从回合制滑向实时制。所以在这个简化的小世界里，其实已经能看到从回合制到实时制演变的必然性：

回合制：是对现实世界离散抽象、离散化之后的产物——把连续的时间切成一段段可以慢慢处理的「回合」
现实世界：所有交互本来就是以极高频实时的状态发生的——物理世界里没有谁在「等系统结算回合」

再往深一层说，实时制本质上只是一个更高频的回合制——micro-turn based。这一点在工程实践里早就被验证过：早年做 RTC（Real-time Communication，实时语音通讯）的时候，最小单元就是一个个「最小语音包」，把连续的声音流切成毫秒级的小包传输再拼起来；今天 RTM（Real-time Model）走的是同一条路——「continuous input and output streams split into micro-turns」，把输入输出流拆成一个个极小的「轮」。所谓「实时」，归根到底就是「足够小的回合」。

再深一层说就有点哲学意味了，类似计算机里的浮点数与整数、物理学里的量子与连续。但落回这一篇的语境，结论只有一句：回合制是粗粒度的离散化，实时制是细粒度的离散化——是向真实世界连续性的逼近，但本质上仍然是离散。

游戏从回合制走到实时制，从来不是一个「风格选择」，而是当技术允许之后，人和系统的参与模式必然向真实世界的本来面貌回归。

这条路，今天 AI 行业正在重走一遍。

2. AI 也在走这条路：从 TBM 到 RTM

游戏行业从 Turn-Based 走到 Real-Time，所有实时交互的游戏才得以大发展，比如 FPS、RTS、MOBA、STG 等等；AI 行业正在从 TBM 走到 RTM——这是这一篇要立下的核心二分：

Turn-Based Model（TBM，轮次模型）：按「轮」工作。你说一段，模型等你说完，冻结一切感知去生成，生成完了你接着说。一段一段、一来一回，像写信。
Real-Time Model（RTM，实时模型）：按「流」工作。输入和输出同时进出，模型跟着用户的节奏一起推进——在对话里是「听-说-答」的同步，在创作/编辑里是「动手-构思-接上」的同步，在具身动作里是「感知-决策-执行」的同步。RTM 涵盖的远不只是「听说」这种浅层应用——更深层、也更广阔的战场，是创作、编辑、动作这一类需要「一起做」的场景。

这是两种本质不同的范式，不是一个连续光谱上的快与慢。TBM 再快也是 TBM，RTM 再慢也是 RTM——两者的差别不在响应延迟，而在「模型与时间的关系」。

过去几年大家熟悉的 AI——GPT、Claude、Gemini 这一代聊天 LLM——本质上都是 TBM。整个 LLM 行业已经把 TBM 这条路打磨到了非常高的水准。

但在用户操作密集、意图连续、容不下等待的场景里，TBM 彻底失效了。这种场景里要的不是更聪明的 TBM，而是 RTM——按流工作、永远在场、和用户的时间轴同步推进的模型。

视频编辑就是 RTM 的天然战场：

操作密集：一个剪辑师每分钟几十次交互——拉时间轴、切片段、加转场、调音量
意图连续：上一个动作的尾部，往往就埋着下一个动作的开头。加完一个 J-cut，他马上要处理转场；调完一段 BGM，他下一步十有八九要压人声。意图是一条链，不是一颗一颗的孤立请求
等待反人性：创作流是脆弱的。一个 loading 圈、一次「思考中…」，灵感就断了

TBM 在这里做不到的事——「问 AI 一下、等它想 3 秒、给你建议」——正是 RTM 必须能做的：「我做你接」，在我手刚动的瞬间，把下一步的可能性铺到我面前。

3. 我们在做的事：PACE

我们最近在做的一条核心技术线，内部叫 PACE——Predictive Action Chain Engine，预测式动作链引擎，在 Z Potential 三月份对我们的报道中我们也提到过。它本质上是一个为视频编辑场景而生的 RTM——解决的问题不是「AI 怎么更聪明」，而是 「AI 怎么真正在场」：在用户操作的每一个瞬间和下一个瞬间之间，提前把可能性铺好。

三句话讲清楚 PACE 在做什么：

基于上下文实时预测创作意图
智能操作引导，做 Agent 产品的「预测大脑」
低延迟响应剪辑动作链

而我们做 PACE 的方式，不是「先训一个通用模型、再套到剪辑产品上」，而是 「模应一体」——模型和应用从第一天就一起设计、一起迭代。产品里的每一类动作、每一种时序约束、每一个用户停顿，都直接喂回模型的训练目标；反过来，模型的能力边界又直接决定了产品形态里能放多少「预测式」交互。这不是「一个模型 + 一个壳」，是一个完整的、为创作场景而生的实时系统。「模应一体」是我们这套引擎能跑起来的根本前提，也是我们和「拿通用 LLM 包一层 UI」这种路线最大的分野。

之所以挑 editing 作为「实时 AI」的落点，是因为这里是 AI 时代少数几个真正的创作场域之一——用户不是来「让 AI 替他干活」的，是来和 AI 一起创作的。剪辑、写作、设计这一类工作的核心快感，本就在于「我有想法、我把它做出来」。AI 在这种场景里如果走「替代」路线，反而会摧毁创作本身的乐趣；它真正该做的，是 human-AI cocreation——成为创作者手边那个永远在线、永远懂上下文、永远比你快半步的搭档。所以 editing 几乎注定是 real-time model 最重大的应用方向之一——因为它对「实时」和「协作」这两件事的要求，都被推到了极致。

我在上一篇《除夕前的 48 小时极限》里讲过 Video-editing Agent 这个判断，PACE 就是这个判断在引擎层的具体回答——一个为 cocreation 而生的实时引擎。

4. 这条路上不止我们一家

把视野放大一点会发现，朝 RTM 这个方向走的，远不止我们。

音频领域最早趟通了 RTM 这条路——Moshi、PersonaPlex、Nemotron VoiceChat 这一批全双工对话 RTM，过去一两年已经实现了输入流和输出流的同时进出。为什么音频先做？因为音频本来就是时间流，没法回合制——TBM 在音频里一旦「等用户说完再答」，对话体感就崩了，人和人之间的对话从来不是这么发生的。

具身智能领域走得也很坚决。Physical Intelligence 的 π0——一个面向机器人控制的 RTM——用一套明确的双层架构来应对实时性要求：前台一个永远在转的快策略负责接住每一个感知-动作循环，后台一个慢推理负责拆解长程目标和复杂规划。对话慢一拍只是体验糟，机器人慢一拍是要撞东西的——具身智能对实时性的极致要求，逼出了这套架构。

通用多模态对话这边，最近 Thinking Machines 发了一篇《Interaction Models》，给 RTM 这个范式做了一次很完整的命名和论述（他们用的词是「Interaction Model」，本质和 RTM 是同一件事）。文章里讲的「交互性必须是模型的一部分」「时间对齐的微转轮」等等，本质上和音频领域、具身智能那套是同一脉。

所以你会发现：音频、具身、通用对话、视频编辑——四个不同模态、不同团队、不同地点的 RTM 探索，正在向同一个范式收敛。这件事让我们对 PACE 的方向更笃定了一些——不是孤注一掷，而是和这个时代的暗线同向而行。

5. 共同的底层：System 1 / System 2

这些看似不相干的探索，背后有一个共同的理论框架在做地基——System 1 与 System 2。

这个框架最早由心理学家 Keith Stanovich 和 Richard West 在双系统理论（Dual-process theory）的研究中正式提出，后来被行为经济学之父、诺贝尔奖得主 Daniel Kahneman 引用到他的著作《思考，快与慢》里，才被心理学圈以外的人广泛知道。它讲了一件挺朴素的事：人脑里有两套系统在协作——S1 是不假思索的直觉反应，快、廉价、永远在线；S2 是慢思考、推理、规划，贵、稀缺、需要被唤起。

有意思的是，这个心理学框架真真切切启发了这一代工程师的设计直觉。不管是音频领域的全双工模型，还是具身智能的 π0，还是 Thinking Machines 的 Interaction Model，背后的研究者都在带着 S1/S2 的视角想问题——什么任务该交给永远在线的快脑、什么任务该让慢脑异步去啃。一个心理学的认知模型，被工程师们当作架构图来用了。

PACE 也是这套范式在视频编辑场景的实例：快脑负责把每一刻的「下一步」实时铺出来，慢脑负责把更复杂的长程判断流式地补进来。

6. 一个判断

把这条线一口气拉完：

Moshi 是音频对话的 RTM。 π0 是具身智能的 RTM。 Thinking Machines 是基础型多模态 RTM。 PACE 是创作领域的 RTM。

不同模态、不同团队、不同地点，殊途同归到 RTM（底层是 System 1/2 + Realtime Micro-Turn） 这同一个范式。这不是巧合，是 AI 产品形态演进到现阶段的必然指向。

前几年大家忙着比拼模型有多聪明、参数有多大、能写多长——那些都是 TBM 内部的竞争。但到了应用层真要解决问题的时候，会发现「聪明」只是必要条件——「在场」才是关键。模型必须和用户在同一条时间轴上、在同一段操作链里、在同一个意图序列中。不是回答得多漂亮，而是反应得多及时、衔接得多自然。

PACE 是我们对这件事的回答——一个用「模应一体」方式做出来的 RTM。

下一个五年的 AI 主战场不再是 TBM 内部的卷王之争，而是 RTM——真正能和人实时协作（Human-AI Collaboration）/ 实时共创（Human-AI Cocreation）的 Agent，在你的工作流里、在你的操作链中、在你的意图还没完全成形之前。它不是来替代你的，是来和你一起协作/创作的。

新范式从被立起来，到真正定义出一个品类，往往要走好几年。我们这一波 AI 大概率也跑不掉相似的节奏——这不是 FOMO 的时刻，是把活做扎实的窗口期。

我们正走在这条路上。