除夕前的 48 小时极限:在「僵尸号」上用 AI 拿到了 3K+ 赞,并总结出未来四层视频创作模式

本文目录

写在前面: 如果你还没看过这次复盘中提到的视频,可以先去这里一睹为快:

大年初一那天,我发布的一段关于「变形金刚」的 AI 视频,在 B 站和视频号等平台迅速累积突破了 3000 赞。

虽然相比百万播放的爆款,这个数据在自媒体圈不算显赫,但对我而言,其背后的验证意义远超数字:我是一个几个平台加起来粉丝总共才几百人的博主,而且更新频率极低,基本处于「几年发一条」的僵尸状态。 在一个几乎零权重的账号上,靠着大年二十八、二十九这两天的「自虐式」极限制作,拿到了一个近乎冷启动的爆发性反馈,这让我真切地感受到,AI 正在如何重塑个体创作的「天花板」。

1. 为什么选在年关将近时开工?

很多人问我,为什么非得在大年二十八、二十九这两天死磕。

其实最初这只是一个春节前的技术手痒测试。我花了约 300 元人民币订阅了即梦(Seedance)的会员,拿到了 15,000 积分,本来打算慢悠悠地折腾。但当我把即梦和 Nano Banana 这些工具组合起来玩深了之后,我突然意识到 AI 视频生成已经到了一个「临界点」——一个人、两台电脑,在不依赖传统繁琐拍摄和庞大团队的情况下,能否在 48 小时内交付出具备「电影感」的高质量内容?

与其说这是一次有预谋的更新,不如说是一次为了验证「生产力极限」的自我挑战。

2. 创作的「四层模型」:重新定义工作流

在这次极限制作中,我反复磨合出了一套四层创作模型。我觉得这不仅仅是我的经验,更是未来 AI 视频创作的核心范式:

第一层:逻辑层 (Scripting)

这是整个视频的大脑。我不再是自己死磕剧本,而是使用了 Gemini 进行最初的创意碰撞和剧本构思。我会配合 Claude Code 这种 Agent 级的工具来编写和缩减 Prompt。虽然大部分流程由 AI 自动化完成,但人依然需要参与最终的打磨;在这种人机协作的过程中,我会使用 Cursor 来进行更精细的编写和修改。

现在的 AI 模型有个特点,比如 Seedance 单次 Prompt 有字数限制,这时候我就得让 Claude 把我那几千字的宏大叙事压缩成模型能听懂的「咒语」。在这个阶段,AI 不是被动的执行者,它是在帮我理顺逻辑。

第二层:资产层 (Configuring)

这是这次提效中最具战略意义的一环。我意识到,必须对整个创作中出现的所有角色、服化道、环境、关键场景等,进行严密的资产素材管理,做好「一致性」管理。

在涉及多个工具的工作流中,如果缺乏这一层,整个创作过程就会陷入极度的混乱。你会发现角色在不同镜头里忽胖忽瘦,场景的色调和细节在跳变,这种混乱会让你陷入低效、甚至是非常痛苦的创作状态。在具体执行上,可以利用生图模型(如 Midjourney、Nano Banana Pro 等)将角色和道具的管理推向多形态、多视图的一致性。我这次主要就是通过 Nano Banana Pro 实现了这种精准控制。

而在环境资产方面,除了 AI 生成,我也采用了大量真实的照片场景。这里有一个比较 tricky 的技巧:有时候可以使用 Google 地图里的街景截图 作为环境底稿。这种真实世界的空间感,是单纯靠 Prompt 很难堆砌出来的。

因此,资产管理不再是可选的整理工作,而是决定 AI 视频能否从「碎片生成」走向「工业化叙事」的必然基石。

第三层:编排层 (Orchestrating)

这是最考验心力的一层,也是目前最让创作者抓狂的地方。我发现,「先定死分镜再生成」是目前最大的坑。 因为 AI 生成的内容往往是不可控的,如果你非要它严丝合缝地对上你的脑洞,你可能会死在重跑任务的路上。

我总结的心得是:增量编排。生成一段,看效果,根据效果再去调下一段的脚本和分镜。这种「增量」式的创作方式更像是和 AI 在玩一场即兴表演,它吐出的意外惊喜(或者惊吓)会不断修正你的航向。

第四层:表现层 (Packaging)

这是最终交付成篇的关键环节。很多人误以为表现层只是简单的收尾,但实际上,它的重要性取决于内容的类型。对于纯叙事类的影视内容,Packaging 的工作相对较轻,重点在于维护叙事节奏;但对于自媒体、综艺等极其注重观众注意力吸引和后期视觉表现的内容,这一层会产生极其庞大的工作量,是决定成片「网感」和传播力的核心。

3. 抓狂的 48 小时与「Video-editing Agent」的思考

虽然数据还算亮眼,但过程一点也不优雅。

最抓狂的时候,生成的口播人物竟然长出了「三只胳膊」,或者背景里碎片的掉落速度快得像是在另一个星球。为了对齐口播的声场,我无数次重录和调试。最终,我在 48 小时里消耗了 6,000 积分,换来了两个视频的成果。

在这次创作中,我还尝试了一个「蛇年 AI 变化回顾」的口播视频。我先把一小段发在了朋友圈,很有意思的是,很多之前不太相熟的朋友居然完全没看出来那是 AI 生成的。我在朋友圈提出了一个观点:就像软件工业现在需要的是 Code-editing Agent(比如 Cursor)而不是单纯的 ChatGPT 一样,视频工业的应用层里,真正有价值的是专注后期制作的 Video-editing Agent,而不是整天跟模型抢 Generating 的活儿。

模型吐出什么是随机的,但如何把这些随机的「珍珠」串成项链,那是应用层、是 Agent、更是人的审美要解决的问题。

4. 真实的反馈:观众在看什么?

大年初一那天,点赞迅速过 3K 后的评论区反馈挺有意思。

很多观众并没有纠结这到底是不是 AI 做的,或者用了什么模型。最真实的弹幕和评论长这样:

  • 「不得把派拉蒙电影公司气吐血」
  • 「什么时候上映啊」
  • 「已经超越原版了」
  • 「能众筹出一期4个小时的吗?没看够」
  • 「没有明显的硬伤,相当可以了」

这验证了我的想法:只要你的编排(Orchestrating)逻辑通顺,没有明显的「硬伤」,观众就会直接进入内容本身的语境。做完这个片子后,我确实感受到一种预感:未来这类高质量影视内容的制作成本,正在以前所未有的速度崩塌。

5. 站在 2026:我们真正需要什么样的 AI 视频工具?

这次折腾完,我最大的感受是:AI 视频领域目前并不缺能生成的模型,缺的是能「干活」的应用。

目前的 AI 模型依然有很多短板和不稳定时刻,去死磕 Generating 的完美度其实是极其低效的。人类创作者真正的壁垒在于审美和逻辑。我们需要的是能够帮人类完成审美筛选、逻辑缝合和全期编排的工具。

所以,AI 视频应用层的下一个爆发点,一定不是单纯的 Video-Generating Agent,而是真正懂后期、懂叙事、懂编排的 Video-Editing Agent

与其指望模型一次性吐出神作,不如把那些随机的「长板素材」接过来,用人的逻辑完成最后的拼图。那个冷启动也能爆火的机会,并不在模型生成的概率里,而是在你对素材的编排与掌控之中。