除夕前的 48 小时极限：在「僵尸号」上用 AI 拿到了 3K+ 赞，并总结出未来四层视频创作模式

01 Mar 2026, 杭州 | 麦克船长 | 总计 3186 字

本文目录

1. 为什么选在年关将近时开工？
2. 创作的「四层模型」：重新定义工作流
3. 抓狂的 48 小时与「Video-editing Agent」的思考
4. 真实的反馈：观众在看什么？
5. 站在 2026：我们真正需要什么样的 AI 视频工具？

写在前面： 如果你还没看过这次复盘中提到的视频，可以先去这里一睹为快：

B 站视频：https://www.bilibili.com/video/BV183Z3BoEHw/
- 视频号：微信内搜索「麦克船长MikeCaptain」即可看到。

大年初一那天，我发布的一段关于「变形金刚」的 AI 视频，在 B 站和视频号等平台迅速累积突破了 3000 赞。

虽然相比百万播放的爆款，这个数据在自媒体圈不算显赫，但对我而言，其背后的验证意义远超数字：我是一个几个平台加起来粉丝总共才几百人的博主，而且更新频率极低，基本处于「几年发一条」的僵尸状态。 在一个几乎零权重的账号上，靠着大年二十八、二十九这两天的「自虐式」极限制作，拿到了一个近乎冷启动的爆发性反馈，这让我真切地感受到，AI 正在如何重塑个体创作的「天花板」。

1. 为什么选在年关将近时开工？

很多人问我，为什么非得在大年二十八、二十九这两天死磕。

其实最初这只是一个春节前的技术手痒测试。我花了约 300 元人民币订阅了即梦（Seedance）的会员，拿到了 15,000 积分，本来打算慢悠悠地折腾。但当我把即梦和 Nano Banana 这些工具组合起来玩深了之后，我突然意识到 AI 视频生成已经到了一个「临界点」——一个人、两台电脑，在不依赖传统繁琐拍摄和庞大团队的情况下，能否在 48 小时内交付出具备「电影感」的高质量内容？

与其说这是一次有预谋的更新，不如说是一次为了验证「生产力极限」的自我挑战。

2. 创作的「四层模型」：重新定义工作流

在这次极限制作中，我反复磨合出了一套四层创作模型。我觉得这不仅仅是我的经验，更是未来 AI 视频创作的核心范式：

第一层：逻辑层 (Scripting)

这是整个视频的大脑。我不再是自己死磕剧本，而是使用了 Gemini 进行最初的创意碰撞和剧本构思。我会配合 Claude Code 这种 Agent 级的工具来编写和缩减 Prompt。虽然大部分流程由 AI 自动化完成，但人依然需要参与最终的打磨；在这种人机协作的过程中，我会使用 Cursor 来进行更精细的编写和修改。

现在的 AI 模型有个特点，比如 Seedance 单次 Prompt 有字数限制，这时候我就得让 Claude 把我那几千字的宏大叙事压缩成模型能听懂的「咒语」。在这个阶段，AI 不是被动的执行者，它是在帮我理顺逻辑。

第二层：资产层 (Configuring)

这是这次提效中最具战略意义的一环。我意识到，必须对整个创作中出现的所有角色、服化道、环境、关键场景等，进行严密的资产素材管理，做好「一致性」管理。

在涉及多个工具的工作流中，如果缺乏这一层，整个创作过程就会陷入极度的混乱。你会发现角色在不同镜头里忽胖忽瘦，场景的色调和细节在跳变，这种混乱会让你陷入低效、甚至是非常痛苦的创作状态。在具体执行上，可以利用生图模型（如 Midjourney、Nano Banana Pro 等）将角色和道具的管理推向多形态、多视图的一致性。我这次主要就是通过 Nano Banana Pro 实现了这种精准控制。

而在环境资产方面，除了 AI 生成，我也采用了大量真实的照片场景。这里有一个比较 tricky 的技巧：有时候可以使用 Google 地图里的街景截图 作为环境底稿。这种真实世界的空间感，是单纯靠 Prompt 很难堆砌出来的。

因此，资产管理不再是可选的整理工作，而是决定 AI 视频能否从「碎片生成」走向「工业化叙事」的必然基石。

第三层：编排层 (Orchestrating)

这是最考验心力的一层，也是目前最让创作者抓狂的地方。我发现，「先定死分镜再生成」是目前最大的坑。 因为 AI 生成的内容往往是不可控的，如果你非要它严丝合缝地对上你的脑洞，你可能会死在重跑任务的路上。

我总结的心得是：增量编排。生成一段，看效果，根据效果再去调下一段的脚本和分镜。这种「增量」式的创作方式更像是和 AI 在玩一场即兴表演，它吐出的意外惊喜（或者惊吓）会不断修正你的航向。

第四层：表现层 (Packaging)

这是最终交付成篇的关键环节。很多人误以为表现层只是简单的收尾，但实际上，它的重要性取决于内容的类型。对于纯叙事类的影视内容，Packaging 的工作相对较轻，重点在于维护叙事节奏；但对于自媒体、综艺等极其注重观众注意力吸引和后期视觉表现的内容，这一层会产生极其庞大的工作量，是决定成片「网感」和传播力的核心。

3. 抓狂的 48 小时与「Video-editing Agent」的思考

虽然数据还算亮眼，但过程一点也不优雅。

最抓狂的时候，生成的口播人物竟然长出了「三只胳膊」，或者背景里碎片的掉落速度快得像是在另一个星球。为了对齐口播的声场，我无数次重录和调试。最终，我在 48 小时里消耗了 6,000 积分，换来了两个视频的成果。

在这次创作中，我还尝试了一个「蛇年 AI 变化回顾」的口播视频。我先把一小段发在了朋友圈，很有意思的是，很多之前不太相熟的朋友居然完全没看出来那是 AI 生成的。我在朋友圈提出了一个观点：就像软件工业现在需要的是 Code-editing Agent（比如 Cursor）而不是单纯的 ChatGPT 一样，视频工业的应用层里，真正有价值的是专注后期制作的 Video-editing Agent，而不是整天跟模型抢 Generating 的活儿。

模型吐出什么是随机的，但如何把这些随机的「珍珠」串成项链，那是应用层、是 Agent、更是人的审美要解决的问题。

4. 真实的反馈：观众在看什么？

大年初一那天，点赞迅速过 3K 后的评论区反馈挺有意思。

很多观众并没有纠结这到底是不是 AI 做的，或者用了什么模型。最真实的弹幕和评论长这样：

「不得把派拉蒙电影公司气吐血」
「什么时候上映啊」
「已经超越原版了」
「能众筹出一期4个小时的吗？没看够」
「没有明显的硬伤，相当可以了」

这验证了我的想法：只要你的编排（Orchestrating）逻辑通顺，没有明显的「硬伤」，观众就会直接进入内容本身的语境。做完这个片子后，我确实感受到一种预感：未来这类高质量影视内容的制作成本，正在以前所未有的速度崩塌。

5. 站在 2026：我们真正需要什么样的 AI 视频工具？

这次折腾完，我最大的感受是：AI 视频领域目前并不缺能生成的模型，缺的是能「干活」的应用。

目前的 AI 模型依然有很多短板和不稳定时刻，去死磕 Generating 的完美度其实是极其低效的。人类创作者真正的壁垒在于审美和逻辑。我们需要的是能够帮人类完成审美筛选、逻辑缝合和全期编排的工具。

所以，AI 视频应用层的下一个爆发点，一定不是单纯的 Video-Generating Agent，而是真正懂后期、懂叙事、懂编排的 Video-Editing Agent。

与其指望模型一次性吐出神作，不如把那些随机的「长板素材」接过来，用人的逻辑完成最后的拼图。那个冷启动也能爆火的机会，并不在模型生成的概率里，而是在你对素材的编排与掌控之中。