当前位置：首页 > news >正文

万象有声创业笔记（二）：中文小说画本，AI 有声书制作的拦路虎

news 2026/6/18 21:40:29

写在前面

上一篇《一个20多年码龄的老程序猿的创业故事》里，我讲了自己从大厂、创业公司、有声书行业一路走来，最后和几位老同事一起回到熟悉的赛道，开始做万象有声的过程。那篇文章更多是在讲“为什么创业”：为什么在 AI 已经席卷各行各业的时候，我们仍然选择有声书制作这个看起来很垂直、很辛苦、也很容易被低估的方向。

这一篇想接着讲“为什么这个方向值得做”。有声书制作不是简单地把文字丢给语音合成模型，真正影响成品质量和生产效率的，是拆章、画本、角色识别、语音合成、审听、后期、质检等一整套流程。其中“画本”尤其关键：它决定哪些内容是旁白，哪些内容是角色台词，谁在说话，情绪是什么，下游配音和后期都要依赖它。

这也是万象有声正在认真解决的问题：不是做一个看上去很炫的 AI Demo，而是把多年有声书制作经验、中文小说文本理解、AI 大模型能力和工程化流程结合起来，做一个真正能提升生产效率、降低返工成本、改善成品质量的平台。

本文会以中文小说画本为例，展开讨论我们为什么需要 V1、V2、Adaptive、V1+V2 融合以及画本 Agent 编排框架这样的方案设计。

摘要

有声小说制作中的「画本」，本质是把章节原文切分为可配音的句子片段，并标注每段是旁白还是某角色的对话，必要时还要给出说话人、情绪等元信息。在万象有声的全流程制作体系里，画本处在非常靠前的位置：它前接原文清洗、智能拆章，后接角色分配、语音合成、后期制作和质检。画本做得准，后面的自动化才有意义；画本错了，越往后返工成本越高。

这项工作看起来是 NLP 标注，但在中文网文场景里，难点并不在「理解一句话」，而在体例不可穷举：同一本书里可能混用弯引号、角引号、冒号台词、无引号 direct speech，甚至整章切换为剧本标记体；引用、书名、拟声与真实对话在字形上高度相似。中文小说还有大量世界知识依赖：人物别名、门派家族、师徒亲属、职场上下级、游戏公会、系统提示、内心独白和真实出声之间的边界，都会影响画本判断。

基于现有双引擎方案（全文 LLM 路径，即 V1；规则 Recall + LLM 归因路径，即 V2）与批次级 Adaptive 路由的工程实践，本文认为：大模型适合有界判定（对已框定候选做归因、对采样块做体例确认），不适合在 Draw 完成后用规则证明「没有遗漏任何 direct dialogue」。当前最务实的主策略，是在 Prepare 阶段做一次批次级路由——体例规整且漏对话风险低时走规则路径，否则走全文路径；Draw 分组默认服从批次画像，不自由换引擎，但应保留轻量异常哨兵：当局部出现剧本体、聊天体、无引号 direct、体例漂移等强异常时，触发受控的局部 V1 升级或整组 fallback。画本 Agent 编排框架（内部也可称 Harness）可视为中文画本 AI Agent 的工程化运行框架，用感知、规划、系统调度、验证与降级来约束大模型随意性；它的价值不在替代 V1/V2，而在把两类能力组织成更稳、更可观测、成本可控的分层 Adaptive Agent 方案。

第一章画本问题与生产流水线

1.1 画本要解决什么

画本输出通常包含：按章节组织的句子片段列表、角色表、每句的旁白/对话标记。下游 TTS、导演排期、角色配音分配都依赖这一结构化结果。与通用信息抽取不同，有声场景对漏对话（该读成角色台词却标成旁白）的容忍度极低，而对假对话（把书名、术语引号误标为台词）也有一定 sensitivity，但中文里后者往往可以通过听感与上下文纠正，前者则直接损害制作质量。

1.2 两阶段流水线：Prepare 与 Draw

生产系统将画本拆成两个阶段，职责边界清晰：

Prepare（批次准备）在全书或大批次章节上运行一次：统计体例特征、均匀采样、调用大模型确认体例与漏对话风险，写入批次画像（含推荐引擎）；同时按模型输入/输出字数预算，把章节切分为若干分组任务。

Draw（分组画本）对每个分组读取同一份批次画像，按推荐引擎执行画本，结果落库。分组之间共享引擎决策，不做自由的分组级重新路由——这是方案层的重要约束，因为体例漂移、漏对话风险首先是全书级问题，不能用某一组的局部文本随意推翻 Prepare 结论。但 Draw 阶段可以保留轻量异常哨兵：当局部文本出现强体例漂移、剧本标记、聊天标记、连续无引号问答、异常对话密度突变时，触发受控的局部复核、局部 V1 补洞或整组 fallback。

分组动机纯粹是工程预算：连续章节可合并，直到接近模型上下文上限；超大单章需拆段，每段独立画本。分组逻辑与体例识别、引擎选择解耦——输入侧关注章节总字数，输出侧关注规则或启发式估计的「疑似对话字数」；异常哨兵只作为质量保险丝，不作为常规路由入口。

图 1：Prepare 负责画像与分组；Draw 默认服从画像，仅在强异常下受控升级。

默认生产配置采用Adaptive（自适应）模式：Draw 常规路径不重新 profiling，而是使用 Prepare 持久化的推荐引擎；画像缺失时保守降级为全文路径，强异常命中时再做受控升级。

第二章中文小说格式的多样性

中文网文体例不可穷举。下面按工程上与路由决策高度相关的九类谱系展开：每类给出可直接对照的案例文本、两种路径的难度，以及 Prepare 路由启示。这不是完整 taxonomy，而是画本系统必须正视的「硬案例集」。

2.1 弯引号对话（体例规整型）

案例 A（单行）：

“你好。”他说。

案例 B（多轮连续）：

“你来了。”她抬起头。
“嗯。”他应了一声，目光却落在窗外。
“还在想那件事？”

方案难度：全书统一弯引号且说话人标签模式稳定时，规则路径边界清晰，难度低；典型失误是标签在引号内外位置变化导致归因错位。全文路径难度低，token 偏高但 recall 高。

路由启示：采样确认「弯引号 + 动词标签稳定」→ 规则路径性价比最高。

2.2 角引号与嵌套引号

案例 A：

「别走。」她拉住他的袖口。

案例 B（嵌套）：

「你以为我会相信这种话？」他冷笑，「上次你也说『就这一次』。」

案例 C（对话内嵌专名）：

「这本书叫『红楼梦』，你读过吗？」

方案难度：规则路径需区分外层对话与内层书名/强调，嵌套错一层就会把书名当对话，难度中。全文路径语义可区分，难度中。

路由启示：嵌套频繁、对话内专名引用多 → 提高漏对话风险评分；mixed 时走全文路径。

2.3 冒号台词（网文高频）

案例 A（冒号 + 无引号）：

钱秘书说道：你就是王旭？

案例 B（冒号 + 弯引号）：

她沉声问：“你到底想怎样？”

案例 C（内心独白，边界争议）：

他心想：这件事不对劲。从进门那一刻起，空气就不对。

方案难度：规则路径须约束「言说动词 + 冒号」，并排除「他心想：」类内心独白（是否算对话取决于产品定义），难度中偏高。全文路径可利用上下文，难度低。

路由启示：冒号台词占比高但内心独白与对话混排 → 不能仅凭「有冒号」判规整。

2.4 引号混用

案例（同章混排）：

“Hello?” 对方发来消息。
她回复：「谁啊？」
他又打一行："I'm fine."

方案难度：规则路径对每种引号需独立规则，混用批次覆盖不完整，难度高→ 宜全文路径。全文路径难度中。

路由启示：Prepare 采样发现 ≥2 种引号体系并存 → 标mixed，全文路径；不在 Draw 分组级切换。

2.5 无引号对话与间接引语

案例 A（无引号 direct）：

她问，你真要这么做？
他答，是。

案例 B（间接引语，有声读作旁白）：

他告诉她，明天不会来了。
她问他是不是已经决定了。

案例 C（自由间接引语）：

算了，她心想，反正也没人在意。

方案难度：规则路径无闭合引号 span，recall 低，难度高。全文路径难度中；间接引语是否标为对话需产品一致定义。

路由启示：无引号 direct 与间接混排 → Prepare 标漏对话风险，走全文路径。

2.6 剧本体 / 标记体（规则路径盲区）

案例 A：

旁白：毒酒抵在唇边，殿外雨声如注。
沈锦瑟（声音微弱，气若游丝）：娘……女儿……不孝……

案例 B：

【闪回·三年前】
陆沉（冷）：你走吧。
苏晚（哭腔）：我不走！

方案难度：规则路径召回面向引号/冒号体例，剧本标记体未覆盖，难度极高。全文路径结构虽特殊但模式固定，难度中；需在 prompt 中明确「角色：（…）」为对话。

路由启示：采样识别剧本体 →必须全文路径（或未来扩展规则路径前不可走规则路径）。

2.7 引用 / 强调引号（假对话高发）

案例 A：

他读了一本书叫「红楼梦」，连夜没睡。

案例 B：

所谓「内卷」，不过是资源稀缺下的被动竞争。

案例 C：

「你看这段，」他指着屏幕，「『核心算法』四个字是后来加上的。」

方案难度：规则路径引号 recall 高但 precision 低；Gap 式「见引号就补」在此类文本假阳性灾难性，难度高。全文路径需语义判断是否在说话，难度中。

路由启示：引用密度高的章节，即使弯引号规整也不等于零风险；Prepare 应看引用/对话比，非只看引号形状。

2.8 拟声 / 特效 / 括号旁白

案例 A：

'啊——'
门砰的一声关上。

案例 B：

“你……”（她欲言又止）“算了。”

案例 C：

【系统提示：任务完成，奖励 +100】

方案难度：规则路径宜排除或单独标签，误当对话污染角色表，难度中（偏 precision）。全文路径难度低。

路由启示：系统流、游戏穿书体常 mixed，全文路径更稳。

2.9 体例漂移（批次级约束的反例）

案例（同一 Prepare 批次内）：

第一章：“签到成功。”他看了眼面板。
……（中间省略十章）……
第十二章：主持人（高声）：有请下一位选手！

方案难度：画像若只采前几章会误判全书规整，漂移章大面积漏抽，系统性风险极高。全文路径对突变章仍有效，难度中，整书 token 成本高。

路由启示：采样须均匀跨章+ LLM 确认体例漂移；路由以批次级为主，Draw 不做自由 re-route，但可用异常哨兵捕获漏采样导致的局部漂移，并触发受控升级。

图 2：体例谱系与路径适配示意。

体例类型	代表案例（摘句）	规则路径	全文路径	推荐路由
弯引号对话	“你好。”他说。	低	低	规则路径
角引号/嵌套	「…『红楼梦』…」	中	中	视 mixed 而定
冒号台词	钱秘书说道：你就是王旭？	中偏高	低	视内心独白比例
引号混用	“Hello?” 与「谁啊？」同章	高	中	全文路径
无引号/间接	她问，你真要这么做？	高	中	全文路径
剧本体	沈锦瑟（微弱）：娘……	极高	中	全文路径
引用/强调	一本书叫「红楼梦」	高（precision）	中	谨慎规则路径
拟声/系统	【系统提示：…】	中	低	视全书体例
体例漂移	前章引号后章剧本	极高	中	全文路径或人工

表：体例对照——路由决策参考，非穷举分类。

章末收束：「规整」是批次统计 + 采样语义结论，不是「看见弯引号就算规整」。剧本体、引号混用、无引号 direct、体例漂移四类，是 Prepare 闸门应重点拦截、避免误入规则路径的场景。

第三章大模型在画本中的能力与边界

3.1 大模型适合做什么

Prepare 阶段是大模型 ROI 最高的环节：对均匀采样的段落做体例确认、核对规则推断证据、审阅「宽疑似」行是否含无标记真实台词，输出是否适合规则路径、是否存在漏对话风险。这一判定是全书级、一次性的，token 成本相对整书 Draw 可接受。

Draw 阶段（规则路径）中，大模型的职责应收窄为：对规则已框定的对话候选 span做说话人、情绪、是否对话的结构化归因；对存疑子集做二轮复核。边界由规则给出，模型不做自由切分，输出更结构化、token 更省。

**Draw 阶段（全文路径）**中，大模型承担块级/行块级全文理解：首轮覆盖全章（或分组）行级文本，再对规则与模型 diff 不一致的行做块级二轮复核。这是 mixed、非规范体例的主战场。

3.2 大模型不宜做什么

Draw 完成后，纯规则无法证明「没有遗漏 direct dialogue」。任何基于「行内出现引号」「行符合冒号模式」的扫尾，在中文里都会遭遇引用、术语、招牌、拟声等大量假阳性。Gap 式补救的本质，是用启发式找「规则未覆盖的可疑行」，再局部调模型——它与「路径 B 后再跑路径 A 填洞」在触发层同类，不能升级为语义完备性证明。

不宜在体例已规整的批次上默认双引擎全量各跑一遍。Token 翻倍，而规整书两种路径输出高度重合，收益极低。

不宜让观测指标自动驱动路由。例如估计漏检率可落库告警，但若参与自动 re-route，规则假阳性会驱动错误决策——生产路由应依赖 LLM 确认的漏对话风险与体例一致性，而非单一统计阈值。

图 3：LLM 适用区间与 Draw 后验证的结构性上限。

成本权衡轴（方案语言）：分组输入字数预算、二轮复核子集规模、Gap/局部全文补救的 token 增量。生产环境中，Gap 式引号扫尾在 dev/test/product 配置下均为默认关闭，与「漏对话应在 Prepare 走全文路径」的经验一致。

第四章两种画本路径的方案对比

4.1 路径 A：全文 LLM 路径（V1）

流程概念：章节文本行级化 → 首轮全文 LLM 分析（旁白/对话/说话人）→ 规则层与模型结果 diff，找出不一致行 → 对不一致行块做二轮 LLM 复核 → 合并为句子片段与角色表。二轮失败则整组失败，无部分成功降级。

优势：体例杂、非规范对话、mixed、剧本体、无引号 direct 等场景recall 高；是 Prepare 画像误判时的事实兜底；对引用/嵌套引号的语义 disambiguation 强于纯规则 recall。

代价：token 高；对话边界由模型生成，稳定性弱于规则框定；长章分组多时成本线性累积。

4.2 路径 B：规则 Recall + LLM 归因路径（V2）

流程概念：行级化 → 规则按体例召回对话候选 span → LLM 只对候选做归因 → 对存疑候选二轮复核并合并 →可选Gap 补救（对可疑但未覆盖行做局部发现与归因，生产默认关）→ QA 记录不一致（不阻断）→ 拼装输出。

优势：体例规整时 token 显著低于路径 A；边界可控、输出结构化；纯旁白批次可跳过对话归因。

代价：强依赖体例与规则覆盖；画像误判进入该路径后，规则未召回的非规范对话容易遗漏；Gap 与引号扫尾不宜默认开启，意味着 Draw 后不能指望无条件自动填洞，只能依赖异常哨兵与受控 V1 升级处理强局部风险。

图 4：路径 A 与路径 B 的参与者与阶段对比。

维度	路径 A（全文 LLM）	路径 B（规则+归因）
适用体例	mixed、剧本、无引号、漂移	弯引号/角引/冒号规整、纯旁白
Token	高	低（规整书）
Recall	高	依赖规则，误判批次低
Precision	中，二轮 diff 纠偏	高（边界规则框定）
失败模式	二轮失败整组失败	漏召回无正式补救；Gap 关
生产默认	画像/风险路由选中	Adaptive 规整书主路径

表 1：双路径方案对比。

第五章 Adaptive 批次路由——当前推荐的主策略

5.1 方案描述

Adaptive 不是第三条分析内核，而是Prepare 路由 + Draw 读画像 + 异常受控升级的编排模式：

全书规则统计：统计弯引号、角引号、冒号台词等占比，检测 mixed（如非主格式占比超阈值）。
均匀采样：按字符预算把全书分成若干段，段内顺序采样，末段自尾部填充以覆盖书末体例；避免只读前几章。
LLM 双通道确认：采样块判断主对话体例；规则推断证据 + 宽疑似 JSON 判断漏对话风险、候选边界是否稳定、是否适合规则路径。
写入批次画像：含推荐引擎、gate 原因、confidence 等；Draw 各分组默认服从此决策，不自由换引擎。
Draw 异常哨兵：仅检测强异常信号，如剧本标记、聊天标记、连续无引号问答、异常对话密度突变、候选边界大面积失稳；命中后触发局部 V1 升级或整组 fallback。

路由原则（概念）：

体例mixed/ 不可识别 → 全文路径
LLM 确认漏对话风险→ 全文路径
LLM 与规则体例不一致 → 全文路径
LLM 调用失败 → 保守全文路径
体例规整、边界稳定、无漏对话风险 → 规则路径
纯旁白且无隐藏对话风险 → 规则路径（可跳过对话归因）

观测与路由分离：估计漏检率、隐藏对话行计数等可落库用于监控与回归，但不直接参与自动 re-route，避免规则假阳性驱动。异常哨兵只处理强体例信号与系统性漂移，不因单个弱统计指标推翻 Prepare。

图 5：Adaptive 决策树（方案节点）：Prepare 做主闸，Draw 只做受控异常升级。

路由条件	推荐路径	理由
mixed / 多引号体系并存	全文	规则覆盖不完整
LLM 发现无标记 direct	全文	规则 recall 不足
候选边界不稳定	全文	归因输入不可信
LLM 失败	全文	保守兜底
弯引号/冒号规整且无风险	规则	token 与稳定性最优
纯旁白 confirmed	规则	无对话归因成本

表 2：路由条件与推荐路径。

画像缺失时，Adaptive 降级为全文路径——宁可多耗 token，也不在无画像时走规则路径赌体例。画像存在但 Draw 命中强异常时，不直接推翻全书画像，而是优先局部升级；只有异常呈系统性分布时，才整组 fallback 并把失败样本回流到画像策略。

第六章 Draw 之后的验证——结构性困境

6.1 验证能做什么

结构自洽：切分片段拼接是否还原原文，行号与 span 是否对齐。
一致性启发：规则候选与 LLM 归因是否打架（如候选标为对话但归因否定）。
统计代理：QA 告警、接受率偏低、gate 原因分布——用于监控与抽检优先级。

路径 A 的二轮复核，是首轮 LLM 与规则 diff 的互证，不是 ground truth。路径 B 的 QA 服务记录 issue 但不阻断返回；Gap 关闭时，Draw 后没有无条件自动补救，只有命中强异常时才进入受控升级。

6.2 验证不能做什么

不能证明「没有遗漏任何 direct dialogue」。这是信息论层面的上限：Draw 输出已是某一引擎下的最优解，后置规则只能检查自洽，无法访问「未被任何候选表示的语义对话」。画本 Agent 编排框架可以把验证组织成更完整的质量门禁，也可以在风险升高时选择更强的理解路径，但这仍是风险治理与置信度提升，不是数学意义上的完备性证明。

图 6：验证层级与不可达目标。

结论：质量保障应依赖Prepare 主闸 + 人工抽检 + golden set 回归，而非 Draw 后自动化「漏对话检测器」。

第七章画本 Agent 编排框架与能力边界

画本 Agent 编排框架不是一条新的“画本引擎”，而是一种面向中文画本任务的AI Agent 工程化框架。中文画本的本质是让 agent 在章节文本中感知体例、理解人物与叙事关系、规划采用何种分析路径、调度 V1/V2 等能力完成标注，再通过验证与降级机制减少大模型的随意性。它要解决的问题不是“让大模型多想一点”，而是让大模型在受约束的流程里想：什么时候相信规则候选，什么时候交给全文语义理解，什么时候需要复核，什么时候必须保守降级。

7.1 设计意图

画本 Agent 编排框架的目标是把中文画本拆成可治理的 agent 循环：

感知：读取批次画像、采样体例、对话密度、人物关系线索、引号/冒号/剧本体等格式特征，形成对当前批次的风险判断。
规划：根据风险与成本预算，决定采用 V2 主路径、V1 全文路径、局部语义补洞、复核强度与降级条件。
系统调度：把规则、全文理解、候选归因、世界知识、质量门禁组织成一次可解释的执行策略，而不是让某一次模型调用独立决定全部结果。
验证：检查结构还原、候选一致性、角色归因合理性、异常对话密度、体例漂移等信号，并把失败原因沉淀为后续画像与 golden set。
降级：当风险超过阈值时，选择更强但更贵的理解路径，避免在低置信方案上继续追加局部补丁。

因此，画本 Agent 编排框架的方案价值在于降低不确定性：充分利用大模型的理解能力，同时用画像、计划、门禁、回归集约束其自由发挥。理想状态下，它应在不显著增加 token 成本的前提下，让正确性更稳定、失败更可观测、策略更容易演进。

7.2 困境一：Agent 编排不能替代语义能力

画本 Agent 编排框架能决定“何时用什么能力”，但不能凭空创造新的语义证据。若输入文本中的无标记 direct speech 本身没有被候选、画像或全文理解捕获，后置门禁最多发现结构异常或统计风险，不能直接推出“某一句一定是漏对话”。这意味着画本 Agent 编排框架必须依赖 V1/V2 的能力互补，而不是把编排层误当成新的识别能力。

7.3 困境二：验证目标容易被过度承诺

中文画本最难的质量目标是“无漏对话”，但它不是一个可以靠后置规则完全证明的性质。画本 Agent 编排框架可以做分级验证：结构还原、span 对齐、角色表一致性、对话密度突变、疑似体例漂移、说话人归因冲突等。这些验证能提高置信度，也能帮助发现明显坏结果；但门禁通过只能说明“已知检查项通过”，不能说明“语义上没有遗漏”。如果把画本 Agent 编排框架描述成自动化完备证明，就会高估 agent 的能力边界。

7.4 困境三：成本收益必须前置约束

Agent 式方案天然容易增加“再看一遍”“再问一次”“再复核一层”的冲动。中文小说章节长、批次多，如果每个分组都默认追加全文复核或大范围补洞，成本会快速吞掉 V2 的性价比。画本 Agent 编排框架的规划层必须把预算作为硬约束：优先在 Prepare 阶段做批次级路由；只有在极窄、高置信的空洞里才使用局部全文理解；高风险批次应直接走 V1，而不是先低成本尝试后再大面积返工。

7.5 困境四：与 Prepare 路由的职责边界

Prepare 是批次级主闸，负责识别体例、风险与推荐路径；画本 Agent 编排框架是 agent 运行框架，负责把画像、计划、调度、验证和降级串起来。二者不能互相替代。若画本 Agent 编排框架在 Draw 后频繁推翻 Prepare 的结论，说明画像或路由策略本身需要改进；若 Prepare 已经识别为 mixed、剧本体、无标记 direct 风险高，则画本 Agent 编排框架不应为了节省一次全文理解而强行走低成本路径。合理边界是：Prepare 决定默认方向，Draw 异常哨兵只捕获强局部漂移，并以局部升级优先、整组 fallback 次之。

7.6 困境五：世界知识必须可控地进入流程

中文小说画本经常依赖世界知识：人物别名、门派/家族/公司/军衔、师徒与亲属称谓、古风尊卑称呼、内心独白与真实出声的差异、旁白插叙与台词交错等。画本 Agent 编排框架可以把这些知识作为感知和验证信号，例如“这个称谓是否可能是说话人”“这句是否像心声而非出声”“这个角色是否在当前场景中出现”。但世界知识也会诱发模型脑补，因此必须落在可追踪的证据链上：文本依据优先，批次画像其次，外部或长期记忆只能辅助降置信判断，不能单独改写画本结论。

图 7：画本 Agent 编排框架作为 AI Agent 运行框架，组织画像、规划、能力调度、验证与反馈。

Agent 编排能力	主要收益	主要边界	适用位置
感知画像	降低体例误判	采样无法覆盖所有局部漂移	Prepare / Draw 前置
路径规划	控制成本与风险	依赖风险评分质量	批次级主闸
系统调度	组合 V1/V2 优势	不能替代底层理解能力	Draw 执行
分级验证	发现坏结果与异常模式	不能证明语义完备	Draw 后质检
反馈沉淀	改进画像与回归集	需要人工或线上信号闭环	迭代治理
异常升级	捕获局部体例漂移	只适合强异常，不能滥用	Draw 哨兵

表 3：画本 Agent 编排框架的方案收益与能力边界。

第八章融合 V2 和 V1 的补救方案探讨

补救方案的核心不是“多跑一遍就更准”，而是让 V2 的高性价比召回与 V1 的全文语义理解形成互补。V2 适合处理体例稳定、候选边界清晰的批次，成本低、输出可控；V1 适合处理 mixed、无标记 direct、剧本体漂移、上下文强依赖归因等语义复杂场景。融合方案应避免默认双跑，而是在明确风险点上调用更强能力。

8.1 融合原则

Prepare 仍是主闸。只要批次画像已经判断为高风险，就应直接选择 V1 或更强的全文理解策略，而不是先走 V2 再补救。补救只处理“低风险批次中的局部异常”，不能替代批次级路由。

V2 结果优先保持稳定。对规整体例批次，V2 给出的候选边界和角色归因通常更可控。V1 不应在全量范围内重写结果，而应只处理窄范围空洞、冲突段、验证失败段。

V1 负责语义空洞。当局部文本出现无引号直接发言、冒号后多句延展、说话人跨段承接、人物称谓依赖世界知识等情况时，V1 的全文理解可作为补洞能力，而不是作为所有句子的第二套判定。

Merge 必须保守。融合时以原文结构还原为硬约束，以 V2 稳定结果为主干；V1 只新增高置信漏对话或修正明确冲突，不因风格偏好改写切分。

推荐优先级（方案）：

收紧 Prepare 闸门：把 mixed、多引号体系、剧本体、无标记 direct、体例漂移等高风险批次提前交给 V1。
V2 作为低风险主路径：对弯引号、角引号、冒号台词规整的批次，优先使用低成本、可控的规则候选与归因方案。
V1 极窄补洞：仅在验证发现局部异常、抽检发现漏对话、或画像提示某类窄格式未覆盖时，对相关片段做全文语义补洞。
整组 fallback 到 V1：当局部补洞无法解释失败原因，或同一分组出现系统性体例漂移时，整组采用 V1，避免堆叠多个局部补丁。
Gap 类扫尾保持谨慎：中文引号、拟声、术语、书名和心理活动会制造大量假阳性，默认不应作为主要补救手段。

8.2 典型融合场景

规整引号书：V2 主导，V1 只在角色归因跨段、连续短句归属不清时提供局部判断。

冒号台词与内心独白混排：Prepare 若确认风险低，可由 V2 处理显性言说动词；对“他心想：”“她暗道：”等边界争议段，V1 只参与产品定义相关的窄判定。

剧本体或聊天体漂移：若采样已发现整章体例变化，应直接走 V1 或专门体例策略；不建议让 V2 先输出一版再大面积修补。

人物称谓复杂书：V2 负责候选边界，V1 结合上下文和世界知识辅助“师父”“殿下”“老祖”“总裁”等称谓归因，但必须保留文本证据。

8.3 更优推荐：分层 Adaptive Agent 方案

综合中文小说世界知识与文本格式多样性，最稳妥的方向不是在 V1、V2、Adaptive、画本 Agent 编排框架之间二选一，而是形成分层 Adaptive Agent：

Prepare 全局画像：识别全书体例、采样漂移、对话格式、隐藏 direct 风险、引用/拟声/系统流比例，决定默认 V1 或 V2。
V2 低风险主路径：对规整弯引号、角引号、稳定冒号台词，使用规则候选 + LLM 归因，保持低成本和稳定边界。
Draw 异常哨兵：每个分组只做轻量检测，如对话密度突变、未识别格式、剧本标记、聊天标记、连续冒号段、疑似无引号问答；没有强异常时不重新路由。
局部 V1 升级：异常只升级局部片段或整组，不全书双跑；升级结果只补洞或修正明确冲突。
Agent 编排统一治理：画本 Agent 编排框架不替代 V1/V2，而是负责规划、预算、验证、降级和反馈闭环。
世界知识辅助归因：维护人物别名、称谓关系、组织关系、当前场景出场人物，用于提高说话人判断；所有结论必须能回到文本证据。

这个方案承认中文小说的真实复杂度：同一本书可能前十章是规整引号，后面切到聊天群、系统提示、比赛主持、剧本体或群像多视角。Prepare 负责把大多数风险挡在前面；Draw 哨兵负责处理漏采样或局部突变；V1/V2 负责各自擅长的理解能力；画本 Agent 编排框架负责让这些能力在成本、风险和质量之间可控地协作。

8.4 结论

融合 V2 和 V1 的正确姿势是：V2 做低成本主干，V1 做高风险理解，Draw 哨兵处理强局部异常，画本 Agent 编排框架负责规划与验证，Prepare 决定批次级方向。任何 Draw 后补救都无法替代 Prepare 决策与人工质检；漏对话的根因多在批次级体例误判，应优先 upstream 修复。更好的工程目标不是“自动证明无漏对话”，而是用分层机制持续降低漏检率、控制成本并沉淀可复用的失败知识。

第九章未来展望

中文小说画本的未来，应放在 AI Agent 能力演进的大背景下看。画本不是单次抽取任务，而是长文本理解、角色记忆、体例识别、工具调度、质量验证共同组成的 agent 工作流。随着长上下文、多步规划、自校验、工具调用和记忆能力增强，系统可以更接近“导演助理”：既理解章节文本，也理解小说世界里的关系、称谓和叙事惯例。

短期：以分层 Adaptive 为默认生产策略；强化 Prepare 画像与画本 Agent 编排框架感知层，覆盖剧本标记体、冒号台词、内心独白、聊天体、旁白插叙等高频体例；V2 继续承担低风险主路径，V1 负责高风险批次与极窄补洞；Draw 增加轻量异常哨兵，只对强局部漂移触发受控升级；Gap 类扫尾保持谨慎；加强 confidence、体例漂移、验证失败原因与抽检结果的观测。

中期：让画本 Agent 编排框架成为稳定的 agent 编排层：先规划、再调度、后验证，必要时降级；建设 golden set 回归，覆盖九类体例硬案例和真实线上失败样本；明确 V2/V1 融合语义，做到“规则主干 + 全文补洞 + 保守 merge”；把人物表、别名、场景出场信息、称谓关系作为可追踪上下文，用于辅助归因而非自由脑补；把 Draw 异常升级的命中样本回流到 Prepare 画像策略。

长期：随着 AI Agent 的世界知识和长程记忆增强，画本方案可以从“识别句子是谁说的”升级为“理解这一章的叙事状态”。系统可维护跨章节人物关系、门派/家族/职业体系、师徒亲属称谓、古风尊卑、现代职场层级、虚拟网游阵营等知识；也可以用工具化验证检查角色是否在场、称谓是否合理、台词是否符合当前视角。但仍应保留一个清醒边界：agent 可以不断提高置信度、降低漏检率、沉淀失败案例，不能承诺自动化证明“无漏对话”。未来的最优方案，是让世界知识、长上下文与工程门禁共同服务于画本正确性，而不是把全部判断交给一次自由生成。

图 9：方案演进时间线。

结语：为什么万象有声要死磕画本

如果只把 AI 有声书制作理解成“把文本交给 TTS”，那画本似乎只是一个中间步骤；但真正做过有声书生产的人都知道，画本是整条链路的地基。旁白和台词分错了，角色归因错了，内心独白和真实出声混了，后面的语音合成、角色音色、审听和后期都会被连带拖慢。

这也是万象有声选择从全流程做起的原因。我们希望 AI 不只是替人完成某个孤立动作，而是能真正理解有声书制作中的上下游关系：从智能拆章到中文画本，从角色识别到语音合成，从后期处理到质量检查，每一步都要服务于最终成品的稳定交付。

中文小说画本之所以值得单独写一篇，是因为它很能代表万象有声要解决的问题：既有中文网文体例的复杂性，也有有声行业生产流程的专业性，还需要把大模型能力放进可控、可验证、可持续迭代的工程系统里。我们相信，AI 有声制作最终比拼的不是谁的 Demo 更像“魔法”，而是谁能把真实生产中的复杂问题一点点拆开、解决，并长期稳定地跑起来。

如果你正在做有声书制作、内容出海、网文 IP 运营，或者只是对 AI 如何改造有声行业感兴趣，欢迎关注和体验万象有声。这篇文章讨论的是画本，后面还可以继续聊拆章、角色音色、TTS 选型、后期自动化、质检闭环等更具体的问题。

欢迎体验基于上述AI Agent编排规则实现的中文小说画本 https://www.audimind.com：

附录：术语表

术语	含义
全文 LLM 路径	路径 A / V1：行级化 + 全文 LLM + diff 二轮复核
规则+归因路径	路径 B / V2：规则召回 span + LLM 归因 + 可选 Gap
Adaptive	Prepare 画像路由 + Draw 读推荐引擎 + 强异常受控升级
Gap	Draw 后对可疑未覆盖行的局部发现与归因，生产默认关
批次画像	Prepare 写入的体例、风险、推荐引擎等全书级结论
分组任务	按字数预算切分的 Draw 执行单元，共享批次画像
画本 Agent 编排框架	中文画本 AI Agent 的工程化运行框架，组织感知、规划、系统调度、验证与降级；内部也可称 Harness