2026-03-07 · AI
32
AI · 2026-03-07

AI漫剧是怎么做出来的:从剧本、抽卡到角色一致性,把这条流水线讲透

你最近要是多刷了几天抖音、快手或者 B 站,大概率见过这种内容:几张动漫质感很强的画面,角色颜值在线,剧情一句接一句往前推,配上旁白、配音和音乐,几分钟就能把一个悬疑、甜宠、修仙或者逆袭故事讲完。很多人第一反应是:这不就是 AI 一键生成的吗?再往下看,评论区又全是黑话——“这镜抽卡抽了半小时”“角色还是漂了”“先训个 LoRA 再说”。

外行听着像玄学,做过的人知道,这里面一点也不玄。AI 漫剧不是一句 prompt 换来一条成片,它更像一条内容生产流水线:前面是编剧和分镜,后面是出图、修图、图生视频、配音、剪辑,中间夹着一堆重复劳动和返工。真正把账号做起来的人,拼的也不是谁更会写华丽提示词,而是谁更早把这件事从“碰运气”做成“有流程”。

这篇文章就聊透三件事:AI 漫剧到底是怎么做出来的;大家老说的“抽卡”究竟是什么意思;还有最关键的——主角怎么才能不变脸,形象怎么才能稳住。

AI 漫剧本质上不是动画工业,而是“图像流水线 + 轻视频包装”

先把一个误解打掉。大多数 AI 漫剧,并不是传统意义上的动画。它没有那么多逐帧原画,也没有完整的动作中间张。更准确的说法是:它是一种介于漫画分镜、动态海报和短视频叙事之间的新形态内容。

它的底层结构通常是这样的:先有故事,再把故事拆成镜头;每个镜头生成一张或者一组静态画面;再用图生视频、首尾帧补间、镜头推拉、局部动效把画面“轻轻推起来”;最后配上人声、环境音、字幕和剪辑节奏。你看到的是“会动的动漫短剧”,但生产侧真正稳定可控的部分,仍然是静态图。

这也是为什么很多 AI 漫剧明明画面不错,可一到大动作就容易崩。因为它的强项从来不是复杂演出,而是用低成本把连续镜头组织起来,让人愿意一条接一条看下去。说白了,它更像是内容工业的一次重组:把原来动画团队里最重的人力环节,用模型和流程替掉一部分。

一条完整的 AI 漫剧生产链,一般分七步

1. 先定题材,再定节奏,不要一上来就生图

很多新手的第一反应是打开 Midjourney、即梦或者 Stable Diffusion,先画一张主角海报。这样当然有快感,但通常也就止步于“有一张图”。真正能做成系列的账号,第一步一定不是画图,而是选题。

因为短视频平台对漫剧的要求很现实:开头几秒要有钩子,剧情推进要快,人物关系要清楚,情绪要能立住。题材也相对集中,悬疑反转、豪门虐恋、逆袭复仇、古风修仙、都市异能,翻来覆去就这些,但每个赛道都有固定的观众预期。你要先知道自己在讲什么,再决定它该长成什么样。

这一步通常会产出几个东西:一句话梗概、人物关系、核心冲突、每集节奏点、每个镜头的情绪目标。做得更细一点,还会直接把文案拆成镜头脚本。镜头脚本不是文学写作,它更像给机器看的施工图:谁在画面里,站在哪里,什么表情,什么动作,景别是近景还是远景,镜头要推还是拉,台词在哪个点落下来。

2. 剧本拆分镜,把“故事语言”翻译成“视觉语言”

这一步非常关键,也是很多人低估的一步。AI 模型并不理解“这个角色经历了巨大的心理转折”这种抽象叙事。你得把它翻译成可以被看见的东西,比如“男人站在门口停住脚步,右手还握着门把,视线越过客厅,看到已经收拾好的行李箱,神情从愤怒转成迟疑,室内冷色调,逆光”。

一个成熟的 AI 漫剧团队,往往会把剧本拆成带字段的表格。常见字段包括:镜头号、时长、景别、机位、场景、人物、动作、表情、光线、关键词、台词、音效。这看起来土,但极其有用。后面无论你是喂给大模型重写 prompt,还是喂给出图模型直接生成画面,都会稳定很多。

说得再直白一点:AI 漫剧做得顺不顺,很多时候不是输在画质,而是输在拆镜头时太糙。文字写得像小说,镜头却没法执行,后面就只能靠抽卡硬补。

3. 角色设定先资产化,不然主角一定会漂

AI 漫剧里最容易翻车的,不是背景,不是特效,而是人脸。第一张图很好看,第二张勉强像,第三张已经认不出来了——这事几乎每个新手都踩过。

原因很简单。对大多数模型来说,人物不是一个“稳定角色”,而是一组概率分布。你每次重新生成,它都在根据提示词重新猜一遍“这个人可能长什么样”。你如果只是反复写“黑发少年、蓝色眼睛、眼角有痣、穿黑色风衣”,模型当然可能画出相似的人,但它不会真的记住你上一次那张脸。

所以在实操里,主角必须先做成“角色资产”,而不是一句描述。最基础的配置,是给每个主要角色做一份角色卡:年龄感、身材、脸型、发型、发色、瞳色、常穿服装、标志物、常见表情。更稳一点的做法,是做三视图或者多角度角色图:正面、侧面、四分之三侧、半身、全身,最好再补一组不同情绪版本。

你可以把这一步理解成:先把主角从一句话,变成一个文件夹。后面每个镜头都不是从零开始猜,而是围绕这个文件夹往外扩。

4. 静帧生产才是真正的主战场

很多外行看到“AI 视频”这几个字,会以为关键在视频模型。其实对大多数漫剧账号来说,真正决定成片质感的,还是静帧。静帧稳,后面怎么动都好办;静帧不稳,后面所有图生视频都只是把错误放大。

这一阶段最常见的工具组合大概分三类。

第一类是轻量路线。比如用即梦、豆包、可灵一类平台,优点是上手快,不需要自己搭环境,中文理解也比较友好。缺点是参数控制没那么细,批量一致性一般。

第二类是 Midjourney 路线。它的长处是画质高、风格统一、成图快,做角色打样和封面尤其强。很多创作者会先用 Midjourney 把角色和关键场景打出来,再把图拿去别的工具做图生视频。

第三类是 Stable Diffusion / ComfyUI 路线。它更重,但控制力最强。你可以接 LoRA、IP-Adapter、ControlNet、局部重绘、批量工作流,适合想做系列化内容的人。

无论哪条路,静帧生产都不是“一次生成一张图”这么简单。更真实的生产方式是:一镜多出、筛图、回修、定稿。很多镜头你会一次出四张、八张甚至十六张,从里边挑一张脸最稳、动作最顺、服装没丢的。选出来之后,可能还要局部重绘一下眼睛、手、耳饰或者衣服褶皱。到这里,所谓“AI 一键出片”的幻觉基本就没了。

5. 让画面动起来,通常不是靠大动作,而是靠小动效

到了图生视频阶段,很多人又会犯一个错误:总想让角色做很复杂的动作。跑、跳、打斗、翻身、回头、挥手、镜头跟拍,全往里塞。结果往往是,动作越大,脸越漂,肢体越乱,衣服和背景一起崩。

这不是你不会写 prompt,而是当前不少模型的稳定区间就这么大。真正好用的思路是先接受现实:AI 漫剧最稳的镜头语言,不是复杂演出,而是轻微动态。头发轻轻动一下,衣摆飘一下,镜头缓慢推进,视线从左移到右,嘴唇小范围开合,背景加一点烟雾和光影变化。这样做看似“没那么炫”,但成片稳定,更新效率也高。

所以很多成熟账号的镜头处理其实很克制。它们知道什么时候该用图生视频,什么时候只用运镜,什么时候干脆停在一张高质量特写上,让配音和台词去带戏。别小看这点克制,很多时候它决定的是产能,而不是审美。

6. 配音、音效和字幕,决定成片有没有“戏”

AI 漫剧另一个常被忽略的地方,是声音。很多画面看起来不差,但一配上机械 TTS,味道立刻就散了。因为漫剧本质上不是纯视觉内容,它的推进很大程度靠的是声音节奏。

通常会有三层:角色对白、旁白、环境音。对白负责立住人物,旁白负责交代信息,环境音负责氛围。预算高一点会做多人音色区分,预算低一点至少也会把男女主和旁白分开。再往上走,还会给不同角色固定音色模板,让观众听几集之后形成记忆。

字幕也一样。别把它当配件。短视频里的漫剧,很多人是半静音看的,字幕承担的信息量不小。字体、断句、卡点、颜色层级,都在影响留存。

7. 最后才是剪辑和封装

真正到剪辑阶段,技术上反而没那么难,难的是判断。哪一镜要快切,哪一镜该留白,哪句台词该先出,哪段旁白该删,哪里要故意停顿一下吊观众胃口。这个阶段更像内容编辑,而不是技术操作。

AI 漫剧跑起来之后,最容易让人上头的不是“我又学会了一个新模型”,而是“我终于能把一条内容从脚本一路推到发布”。那种感觉很像搭工厂。前面任何一个环节没搭顺,后面都会卡住。

“抽卡”到底是什么,为什么大家老在说

现在说回那个高频黑话:抽卡。

如果你是从手游圈来的,这个词不难理解。放在 AI 生图和 AI 漫剧里,它通常指的就是:在模型带随机性的前提下,反复生成、反复筛选,像抽卡一样去“赌”一张满意的结果。

这词在圈里有两层意思。

第一层,也是最常见的一层,就是刷图挑图。你想要一个镜头:男主在雨夜回头,眼神有点狠,衣服被打湿,背景是霓虹反光。你一轮生成四张,可能只有一张神态对,两张脸不太像,一张手崩了。那你就继续重抽,换 seed,微调提示词,或者把参考图再喂进去一次。最后终于出一张能用的,大家就会说“这次出货了”。这就是抽卡。

第二层,是提示词抽卡。现在也有一些工具会把风格词、镜头词、人物词、服装词做成可视化标签,用户每次随机抽几个出来拼 prompt。这种玩法更偏灵感生成,带点游戏化。它适合找风格、找方向,不太适合做严肃的连续内容。

为什么大家老说抽卡?因为在很多工具里,随机性依然很大。尤其你没有建立角色资产、没有固定参数、没有参考图约束时,模型每次都像在重新猜题。你不抽,就很难碰到那张“对的图”。

但问题也在这里。抽卡适合做单图,不适合做产线。你偶尔抽中一张神图没什么难度,难的是连着二十个镜头都能维持同一个人、同一种世界观、同一套审美。这个时候,单纯靠抽卡就不够了。

主角形象一致性,核心不是 prompt,而是工程化约束

这是全文最重要的一部分。

很多教程喜欢把角色一致性说成“提示词技巧”,仿佛只要你把人物描述写得更长、更细、更华丽,模型就会乖乖照做。现实没有这么温柔。你提示词写得再长,也只能增加命中率,不能从根上解决角色漂移。

真正在生产里管用的,是一套工程化约束。简单讲,就是别让模型每次自由发挥,而是给它越来越多的边界。

第一层边界,是固定角色特征。这个上面已经讲过了,角色卡、三视图、情绪图、服装图,这些都属于基础资产。你越早做,后面越省时间。

第二层边界,是固定参考图。很多创作者会选一张最稳定的“母图”,把它当成所有镜头的核心参考。后续无论换场景、换镜头、换动作,先想办法保证“这个人还是从这张图长出来的”。

第三层边界,是固定模型和参数。别今天用一个模型,明天换一个底模,后天再加新风格词,然后指望角色还能稳。模型、LoRA 权重、分辨率、采样器、步数、CFG、种子区间,这些一旦来回乱动,角色就很容易跑偏。很多所谓“主角变脸”,其实不是 AI 无能,而是流程太飘。

第四层边界,是参考控制。Midjourney 这类工具有角色参考思路,Stable Diffusion / ComfyUI 体系里更常见的是 LoRA、IP-Adapter、ControlNet 一起上。你可以把它们理解成不同层次的“拴绳子”:LoRA 负责让模型学会这个角色,IP-Adapter 负责每次生成前再给模型看一眼,ControlNet 则负责别把姿态和构图跑飞。

第五层边界,是后期回修。很多人不愿意承认这件事,总觉得用了 AI 就该一步到位。真相是,成熟团队几乎都会修。修眼睛,修脸,修手,修饰品,修衣服,修背景穿帮。AI 负责把 70 分推到 85 分,最后那 10 分到 15 分,很多时候还是得靠人工把它压过去。

说到底,角色一致性的关键不是“如何一次生成完美主角”,而是“如何让主角在一百次生成里都尽量别走样”。这两件事,思路完全不同。

如果只做个人号,什么流程最现实

不是每个人都要一上来训练 LoRA、搭 ComfyUI、搞自动化节点。真没必要。你如果是个人起号,最现实的做法是分阶段。

第一阶段,先验证题材。用大模型把故事拆成十到二十个镜头,先做一条一分钟以内的短内容。工具可以尽量轻:豆包或者其他大模型负责拆文案,即梦或者 Midjourney 负责出图,可灵或者 Runway 负责轻动效,剪映负责剪辑和字幕。这一阶段别追求系统最强,先看自己能不能把一条内容完整做出来。

第二阶段,开始做角色库。选出主角最稳定的一版,补齐正面、侧面、半身、全身,再建立固定 prompt 模板和固定服装设定。你会明显发现,返工开始下降,抽卡时间也会缩短。

第三阶段,再考虑进阶技术。比如训练角色 LoRA,把常用镜头做成 ComfyUI 工作流,把批量命名、素材归档、字幕模板、音色模板都固定下来。到了这一步,你就不是在“做几条视频”,而是在搭一个能持续出货的内容系统。

这三个阶段别倒着来。很多人一开始就沉迷工具细节,节点图堆得很大,结果一条能发的成片都没做出来。那就本末倒置了。

AI 漫剧最常见的五个坑

第一个坑,是把剧本当 prompt。故事写得很热闹,镜头执行不了,最后生成出来全是废图。

第二个坑,是角色设定没做完就着急开工。第一集还能勉强糊过去,第二集开始人物就越来越不像,等想补救时,前面几十张图已经和后面接不上了。

第三个坑,是过分迷信大动作。动作越大,镜头越炫,崩坏概率越高。AI 漫剧这条路,很多时候赢在克制。

第四个坑,是参数不固定。今天换模型、明天换风格、后天换提示词模板,最后全流程没有一个稳定基线,只能一直抽卡。

第五个坑,是忽略素材管理。真做起来你就会发现,一个项目很快会堆出几百张图、几十个视频片段、好几版音频和字幕。没有命名规则、没有文件夹结构、没有版本区分,后面回头找素材会把人逼疯。

这门生意最后拼的,不是模型,而是“稳”

聊到这里,其实可以把 AI 漫剧这件事看得更清楚一点:它不是一个单点工具问题,而是一个流程问题。谁的工具更新得快,不一定谁赢;谁能把角色稳定住、镜头拆清楚、素材管明白、更新节奏跑顺,谁反而更有机会把账号做起来。

这也是为什么业内越来越少有人迷信“神 prompt”了。大家最后都会走向同一个方向:角色资产化、镜头模板化、参数固定化、后期流程化。你不一定非要把系统做得多重,但必须让每一步都尽量可重复。

说得再直白一点,AI 漫剧的上限当然看模型,可下限全在流程。流程一乱,再强的模型也救不了你;流程一稳,哪怕用的不是最贵那套工具,也能持续出能看的内容。

最后给一个实用判断:你是在做作品,还是在赌运气

如果你现在做 AI 漫剧,经常出现下面这些情况:一张图很好看,但下一张接不上;今天出货很多,明天一张都不满意;主角每次都像双胞胎不是同一个人;做一条片子花大量时间在“重来一遍”——那八成说明你还在抽卡阶段。

抽卡本身没什么丢人的,谁都是从这一步过来的。问题只在于,你准备停在这里,还是准备往前走半步,把它变成流程。

真正的分水岭,不是你会不会用某个模型,而是你有没有意识到:主角一致性不是写出来的,是管出来的;AI 漫剧不是一键生成的,是一段一段搭出来的。

当你开始把角色当资产、把镜头当模板、把参数当基线、把回修当质检,很多原来看上去很玄的东西,突然就不玄了。所谓“抽卡”,也会从唯一办法,慢慢变成只是偶尔补运气的一环。

这才是 AI 漫剧真正能跑起来的起点。不是更会许愿,而是更会施工。

目录 最新
← 左侧翻上一屏 · 右侧翻下一屏 · 中间唤出菜单