当前位置：首页 > news >正文

LlamaIndex数据框架七层架构与RAG索引设计原理

news 2026/6/17 7:55:53

1. 这不是“又一个RAG框架”——LlamaIndex 的底层设计哲学与面试陷阱

“LlamaIndex 是什么？”——这是几乎所有 RAG 面试开场的必问题。但如果你只答“它是个连接数据和大模型的框架”，那基本等于交了白卷。我带过十几支AI工程团队，看过上百份RAG方向的简历，发现一个残酷事实：90% 的候选人把 LlamaIndex 当成 LangChain 的平替工具来用，却完全没读懂它在架构层的“反直觉”设计。它根本不是为“写个demo跑通”而生的，而是为解决一个更本质的问题：如何让非结构化数据在LLM语义空间里，获得像数据库表字段一样可预测、可追溯、可调试的索引行为。

这直接决定了你在面试中能否穿透表面API，回答出“为什么用 VectorStoreIndex 而不是 SimpleVectorStore？”、“StorageContext 到底封装了什么耦合？”、“Index 和 QueryEngine 的职责边界在哪？”这类问题。关键词LlamaIndex、RAG、数据框架、索引、检索，每一个词背后都藏着一道分水岭：是停留在调包阶段，还是理解其作为“数据中间件”的元能力。

举个真实案例：去年我们给某金融客户做知识库升级，原系统用 LangChain + Chroma，QPS 300 时响应延迟飙升到 8 秒。切换到 LlamaIndex + Milvus 后，不仅延迟压到 450ms，更关键的是——当业务方提出“只查2023年Q3财报PDF里的风险提示”时，我们能在 2 小时内完成从元数据过滤逻辑修改、向量索引重建到线上灰度的全流程。LangChain 做不到这点，不是因为它技术差，而是它的抽象层没把“数据生命周期管理”作为一等公民。

为什么？因为 LlamaIndex 的核心不是“检索”，而是“索引即契约（Index as Contract）”。它强制你定义：数据怎么切块（Node）、块怎么嵌入（Embedding）、嵌入存哪（VectorStore）、块附带什么上下文（Metadata）、查询时如何融合（Retriever + QueryEngine）。这个契约链条上任何一环的松动，都会导致 RAG 效果不可控——而这恰恰是面试官最想验证的：你是否具备构建生产级 RAG 系统的系统性思维。

所以别再背“LlamaIndex 支持多种向量库”这种废话。真正该准备的是：当面试官问“如果我要在 PDF 中精准定位‘资产负债率’这个指标的计算公式，而不是泛泛地返回整页内容，LlamaIndex 的哪个模块能帮你做到？为什么？”——你的答案必须指向NodeParser 的自定义分块策略、MetadataFilter 的字段级约束、以及HybridRetriever 的稠密+稀疏混合打分机制。这才是“全栈解析”的起点。

提示：所有 LlamaIndex 的高级功能，最终都服务于一个目标——让“数据”在进入 LLM 之前，先经过一套可审计、可回溯、可干预的结构化处理。面试中一旦你开始讨论“如何让 chunk 更小”或“换哪个 embedding 模型”，你就已经掉进陷阱了。正确思路永远是：“这个需求暴露了当前索引契约的哪个缺陷？”

2. 数据框架的骨架：从 Document 到 Index 的七层转化链

LlamaIndex 的“数据框架”绝非虚名。它是一套严格分层的数据处理流水线，每一层都承担明确职责，且层间耦合被刻意削弱。很多候选人卡在“为什么我的 index 查不到数据”，根源在于混淆了这些层的边界。下面我用一张真实项目中的调试日志还原整个转化链，带你看到数据从原始文件到可检索索引的完整旅程。

2.1 第一层：Document —— 原始数据的“身份证”

Document 是整个链条的源头，但它远不止是“一段文本”。在 LlamaIndex 中，每个 Document 对象自带 5 个核心属性：

text：原始内容（注意：不是纯字符串，而是带换行符保留的富文本）
metadata：键值对字典，存储来源信息（如file_name,page_number,section_title）
doc_id：全局唯一 UUID，用于后续追踪
excluded_llm_metadata_keys：明确声明哪些 metadata 字段不参与 LLM 提示词构造
excluded_embed_metadata_keys：明确声明哪些 metadata 字段不参与向量嵌入计算

常见误区：很多人以为metadata是随便塞的，结果在 QueryEngine 中发现过滤失效。真相是：LlamaIndex 默认只将text和doc_id送入 embedding 模型，其他 metadata 必须显式配置excluded_embed_metadata_keys=[]才会参与向量化。我在某次面试中故意问：“如果我把author字段存在 metadata 里，但没配置 excluded_embed_metadata_keys，查询‘张三写的文档’会命中吗？”——95% 的人答“会”，实际答案是“不会”，因为author根本没进向量空间。

2.2 第二层：NodeParser —— 决定“数据粒度”的手术刀

Document 太大，LLM 处理不了；太小，又丢失上下文。NodeParser 就是解决这个矛盾的手术刀。LlamaIndex 提供 7 种内置解析器，但面试官最爱考的是SentenceSplitter和HierarchicalNodeParser的区别：

解析器类型	分块逻辑	适用场景	面试高频陷阱
`SentenceSplitter`	按标点切句，保证单句长度≤512 token	快速原型、通用问答	认为“句子”是语义最小单元，忽略长难句跨句依赖
`HierarchicalNodeParser`	先按标题分大块（Section），再按段落细分（Paragraph），最后按句子切（Sentence）	法律条文、财报、技术文档	不理解三级 Node 的`parent_node`关系，导致父子上下文丢失

实操经验：在处理某上市公司年报时，我们发现单纯用SentenceSplitter，查询“净利润同比增长率”会返回孤立数字（如“23.5%”），但缺失“2023年”这个关键时间维度。改用HierarchicalNodeParser后，每个句子 Node 都自动绑定其所属的Paragraph（含“2023年财务摘要”标题）和Section（含“合并利润表”），QueryEngine 在召回时能自动注入父级上下文，答案变成“2023年净利润同比增长23.5%”。

2.3 第三层：Embedding Model —— 语义空间的“坐标系校准器”

Embedding 不是魔法，它是把文本映射到高维空间的数学函数。LlamaIndex 的 Embedding 层设计精妙之处在于：它不绑定具体模型，而是提供统一接口BaseEmbedding。这意味着你可以无缝切换：

OpenAI 的text-embedding-3-small（快但贵）
BGE-M3（开源多语言，支持稠密+稀疏+多向量）
Jina AI 的jina-embeddings-v2-base-zh（中文特化）

但关键参数常被忽略：embed_batch_size。默认是 10，但在批量插入 1000 个 Node 时，如果 embedding 模型 API 有速率限制（如 OpenAI 的 3 RPM），你会遭遇RateLimitError。解决方案不是调大 batch size，而是重写get_text_embedding_batch方法，加入指数退避重试——这正是面试官想听的“生产环境适配经验”。

2.4 第四层：VectorStore —— 向量世界的“数据库驱动”

VectorStore 是 LlamaIndex 最易被误解的模块。很多人以为它只是“存向量的地方”，其实它是向量检索的协议层。以 MilvusVectorStore 为例，它的初始化参数index_config直接决定性能天花板：

# 生产环境必须配置的索引参数（非默认！） index_config = { "index_type": "HNSW", # 必选：HNSW 比 IVF_FLAT 延迟低 40% "metric_type": "IP", # 必选：内积比欧氏距离更适配 cosine 相似度 "params": {"M": 32, "efConstruction": 128} # M 控制图连接度，efConstruction 控制建图质量 }

面试陷阱题：“为什么 Milvus 的 HNSW 索引在百万级数据下比 FAISS 的 IVF_PQ 更快？”答案必须涉及图遍历 vs 聚类搜索的本质差异——前者是近似最近邻的图跳转，后者是先聚类再量化，前者在高维稀疏场景下误差更可控。

2.5 第五层：StorageContext —— 解耦“存”与“算”的隔离墙

这是 LlamaIndex 架构最反直觉的设计。StorageContext不是“存储上下文”，而是存储后端的抽象容器。它把 VectorStore、DocumentStore、IndexStore 三个物理存储解耦，允许你组合不同后端：

VectorStore 存向量（Milvus）
DocumentStore 存原始文本（Redis，支持 TTL 自动过期）
IndexStore 存索引元数据（SQLite，轻量可靠）

为什么需要解耦？因为生产环境中，向量更新频率（小时级）和文档更新频率（天级）完全不同。如果混在一起，一次文档更新就要重建全部向量，成本爆炸。StorageContext让你能独立刷新任一存储，这是 LangChain 做不到的硬核能力。

2.6 第六层：Index —— 数据契约的“执行引擎”

VectorStoreIndex不是简单的“向量索引”，它是数据契约的执行体。当你调用from_documents()时，它内部执行：

调用 NodeParser 分块 → 生成 Node 列表
调用 EmbeddingModel 向量化 → 生成 embedding 向量列表
调用 VectorStore 插入 → 写入向量+metadata
调用 StorageContext 持久化 → 保存 Node 和索引关系

关键洞察：Index对象本身不存数据，它只存对StorageContext的引用。所以index.as_query_engine()返回的 QueryEngine，本质是持有StorageContext的查询代理。这也是为什么你能安全地del index却不影响已存数据——数据在 VectorStore 里，不在 Index 里。

2.7 第七层：QueryEngine —— 用户意图的“翻译官”

QueryEngine 是最后一道关卡，它把自然语言查询翻译成可执行的检索指令。其核心组件BaseRetriever有三大流派：

VectorIndexRetriever：纯向量相似度检索（最常用）
KeywordTableRetriever：基于 BM25 的关键词检索（解决“精确匹配”需求）
HybridRetriever：向量+关键词加权融合（解决“既要看语义又要保精度”）

面试必问：“HybridRetriever 的权重怎么调？”答案不是“试出来”，而是看业务 SLA：金融风控要求关键词召回率 >99%，则关键词权重设 0.7；客服问答侧重语义相关性，则向量权重设 0.8。权重不是超参，而是业务规则的代码化表达。

3. 索引检索的暗礁：从“查得到”到“查得准”的五重过滤

面试官如果问“RAG 效果不好怎么办？”，90% 的候选人会说“换 embedding 模型”或“调 chunk size”。但真正的瓶颈往往在索引检索层的过滤逻辑。LlamaIndex 的检索不是单次操作，而是五重过滤的漏斗式流程。下面用一个真实故障复盘，展示如何逐层排查。

3.1 第一重过滤：Query Transform —— 查询意图的预处理

当你输入 “苹果公司2023年营收是多少？”，QueryEngine默认会启动StepDecomposeQueryTransform，把它拆成：

主查询：“苹果公司2023年营收”
子查询：“苹果公司” → 实体识别 → 映射到company_name: "Apple Inc."
时间约束：“2023年” → 解析为fiscal_year: 2023

如果这一步失败，你会得到完全无关的结果。排查方法：启用 debug 模式

query_engine = index.as_query_engine(verbose=True) res = query_engine.query("苹果公司2023年营收") # 输出会显示拆解后的子查询，确认实体和时间是否被正确识别

3.2 第二重过滤：Metadata Filter —— 业务规则的硬性闸门

这是最常被忽视的过滤层。假设你的知识库包含苹果、微软、谷歌三家公司的财报，但当前查询明确限定“苹果公司”，就必须用 MetadataFilter：

from llama_index.core.vector_stores import MetadataFilters, ExactMatchFilter filters = MetadataFilters( filters=[ExactMatchFilter(key="company_name", value="Apple Inc.")] ) query_engine = index.as_query_engine(filters=filters)

陷阱：ExactMatchFilter区分大小写，且要求 value 完全匹配。如果 metadata 中存的是"apple inc"，而你传"Apple Inc."，就会过滤失败。生产环境必须用MetadataFilters的where语法：

filters = MetadataFilters( filters=[ {"key": "company_name", "operator": "==", "value": "Apple Inc."} ] )

3.3 第三重过滤：Retriever Top-K —— 语义相关性的阈值

top_k=5不是随便定的。它代表“最多召回 5 个最相关的 chunk”。但问题在于：如果 top_k=5 时，第 5 个 chunk 的相似度分数是 0.32，而第 6 个是 0.31，你是否要把它排除？答案取决于业务容忍度。金融场景要求 top_k=3 且分数 >0.4，客服场景可放宽到 top_k=10 且分数 >0.25。

实测数据：在某银行信贷知识库中，我们将 top_k 从 5 改为 3，准确率提升 12%，但召回率下降 8%。最终采用动态 top_k：先用similarity_top_k=10召回，再用规则引擎二次过滤（如“必须包含‘年利率’关键词”），平衡精度与覆盖。

3.4 第四重过滤：Reranker —— 重排序的“裁判员”

top_k召回后，Reranker对结果重新打分。LlamaIndex 内置SentenceTransformerRerank，但生产环境强烈建议用BGEReranker（BGE-reranker-large），原因：

BGE-reranker 在中文长文本重排上 SOTA
它能理解“2023年营收”和“截至2023年12月31日的营业收入”是同一概念

配置要点：

from llama_index.postprocessor import SentenceTransformerRerank reranker = SentenceTransformerRerank( model="BAAI/bge-reranker-large", top_n=3, # 重排后只留前3个 keep_retrieval_scores=True # 保留原始相似度，用于监控 ) query_engine = index.as_query_engine(node_postprocessors=[reranker])

3.5 第五重过滤：Response Synthesizer —— 答案生成的“编辑部”

最后一步，ResponseSynthesizer把召回的 chunk 组合成最终答案。默认TreeSummarize会尝试总结，但容易丢失细节。生产环境推荐Refine模式：

from llama_index.core.response_synthesizers import ResponseSynthesizer synthesizer = ResponseSynthesizer.from_args( response_mode="refine", # 逐个 chunk 精炼，不丢失细节 text_qa_template=QA_PROMPT, # 自定义 prompt，强制要求“用原文数字，不估算” ) query_engine = index.as_query_engine(response_synthesizer=synthesizer)

这个 prompt 模板里，我们加入硬性约束：“答案必须直接引用原文中的数字，禁止使用‘约’、‘大约’、‘接近’等模糊表述”。这解决了 RAG 最大痛点：幻觉。

4. 全栈调试实战：一次“查不到数据”的完整溯源过程

现在，让我们进入最硬核的部分——用真实项目中的一个经典故障，演示如何像资深工程师一样，从现象出发，逐层向下深挖，直到定位到代码行级根因。这个过程，就是“全栈解析”的终极体现。

4.1 现象：用户查询“特斯拉2022年毛利率”，返回空结果

表面看是检索失败，但可能发生在任何一层。我们按 LlamaIndex 的七层转化链，从上到下排查。

4.2 排查第一层：Document 加载是否成功？

检查SimpleDirectoryReader是否读取到文件：

from llama_index.core import SimpleDirectoryReader reader = SimpleDirectoryReader(input_dir="./data/tesla/") docs = reader.load_data() print(f"加载文档数: {len(docs)}") # 如果是0，说明路径错误或文件权限问题 print(f"首篇文档元数据: {docs[0].metadata}") # 检查 company_name 是否为 "Tesla Inc."

发现：docs[0].metadata["company_name"]是"Tesla"，而非"Tesla Inc."。而查询时 filter 用的是"Tesla Inc."，导致 Metadata Filter 全部失效。

修复：统一元数据标准，在加载时标准化：

def custom_metadata_func(file_path): return { "company_name": "Tesla Inc." if "tesla" in file_path.lower() else "Other" } reader = SimpleDirectoryReader( input_dir="./data/tesla/", filename_as_id=True, file_metadata=custom_metadata_func )

4.3 排查第二层：NodeParser 是否切出了有效 chunk？

打印前 3 个 Node 的文本：

from llama_index.core.node_parser import SentenceSplitter parser = SentenceSplitter(chunk_size=512, chunk_overlap=128) nodes = parser.get_nodes_from_documents(docs) for i, node in enumerate(nodes[:3]): print(f"Node {i}: {node.text[:100]}...")

发现：某个 Node 的文本是"2022年全年毛利率为25.6%，较2021年提升3.2个百分点。"—— 完美包含目标信息。说明分块没问题。

4.4 排查第三层：Embedding 是否正常生成？

检查 embedding 向量维度：

from llama_index.embeddings.openai import OpenAIEmbedding embed_model = OpenAIEmbedding(model="text-embedding-3-small") embeds = embed_model.get_text_embedding("特斯拉2022年毛利率") print(f"Embedding 维度: {len(embeds)}") # 应为 1536

发现：维度正确，但调用get_text_embedding_batch时出现TimeoutError。原因是 OpenAI API 在高峰时段响应慢，而默认超时是 60 秒。

修复：自定义 embedding 类，增加重试：

from tenacity import retry, stop_after_attempt, wait_exponential class RobustOpenAIEmbedding(OpenAIEmbedding): @retry(stop=stop_after_attempt(3), wait=wait_exponential(multiplier=1, min=4, max=10)) def get_text_embedding(self, text): return super().get_text_embedding(text)

4.5 排查第四层：VectorStore 中是否存在对应向量？

直接查询 Milvus：

from pymilvus import connections, Collection connections.connect("default", host="localhost", port="19530") collection = Collection("llamalection") print(f"集合总向量数: {collection.num_entities}") # 如果是0，说明插入失败 # 检查是否有 company_name 为 Tesla Inc. 的记录 res = collection.query( expr='company_name == "Tesla Inc."', output_fields=["company_name", "text"] ) print(f"Tesla 公司的 chunk 数: {len(res)}")

发现：collection.num_entities是 0！说明VectorStoreIndex.from_documents()根本没成功写入。

4.6 排查第五层：StorageContext 初始化是否异常？

检查MilvusVectorStore初始化：

vector_store = MilvusVectorStore( uri="./milvus_demo.db", dim=1536, overwrite=True ) # 问题在这里：本地文件路径 "./milvus_demo.db" 在 Docker 容器中不可写！ # 正确做法是挂载卷或用网络地址

根因定位：开发环境用./milvus_demo.db本地文件，但部署到 Kubernetes 时，容器内/app目录是只读的，overwrite=True导致pymilvus创建文件失败，静默跳过插入。

终极修复：

开发环境：uri="http://milvus-service:19530"
生产环境：uri="https://zilliz-cloud-endpoint:19530"+token="api-key"

4.7 验证：五重过滤链路打通

修复后，用 debug 模式验证全链路：

query_engine = index.as_query_engine( verbose=True, similarity_top_k=5, node_postprocessors=[reranker] ) res = query_engine.query("特斯拉2022年毛利率")

输出日志清晰显示：

Query Transform 拆解出company_name: "Tesla Inc.",fiscal_year: 2022
Metadata Filter 成功匹配 12 个 chunk
Vector Retriever 召回 top_k=5，相似度分数 [0.82, 0.79, 0.75, 0.71, 0.68]
Reranker 重排后 top_3：[0.85, 0.81, 0.77]
ResponseSynthesizer 引用原文：“2022年全年毛利率为25.6%”

结论：这不是一个“RAG 不好用”的问题，而是数据框架各层契约未对齐的典型故障。面试中，你能讲出这个完整的排查链路，就证明你真的懂 LlamaIndex。

5. 面试高频题解码：超越 API 文档的深度应答策略

面试官不会考你“VectorStoreIndex的构造函数有几个参数”，而是用场景题考察你对框架本质的理解。下面拆解 5 道高频真题，给出既能体现深度、又避免踩坑的标准答案。

5.1 题目：“LlamaIndex 和 LangChain 的核心区别是什么？”

错误答法：“LlamaIndex 更专注 RAG，LangChain 更通用。”（废话）

专业答法：
“根本区别在于数据抽象层级。LangChain 的RetrievalQA是一个黑盒链路：Document → Splitter → Embedder → VectorDB → LLM，所有环节耦合在一条链上，调试时无法单独替换某一层。而 LlamaIndex 的Index是一个可插拔的数据契约：NodeParser、EmbeddingModel、VectorStore、StorageContext 四者通过接口解耦，你可以用 HuggingFace 的all-MiniLM-L6-v2替换 OpenAI embedding，同时保持 Milvus VectorStore 不变，甚至把 DocumentStore 换成 PostgreSQL 存原始文本——所有变更都不影响 QueryEngine 的调用方式。这使得 LlamaIndex 在生产环境中具备更强的可观测性和可维护性。”

加分点：补充一个对比表格，说明两者在“元数据过滤”上的设计差异：

能力	LlamaIndex	LangChain
元数据字段级过滤	支持`ExactMatchFilter`、`MetadataFilters`，可组合复杂条件	仅支持`filter`参数传 dict，不支持嵌套或运算符
过滤时机	在向量检索前执行，减少无效向量计算	在向量检索后执行，需加载全部结果再过滤
可调试性	`query_engine.retrieve()`返回原始 Node 列表，可 inspect metadata	`retriever.get_relevant_documents()`返回 Document 列表，metadata 无结构化访问接口

5.2 题目：“如何实现‘只查最新版文档’？比如用户问‘当前API的认证方式’，必须返回 2024 年的文档，不能是 2022 年的旧版。”

错误答法：“在 metadata 里加version字段，然后 filter。”（不完整）

专业答法：
“这需要三层协同：

数据层：在SimpleDirectoryReader.file_metadata中，用正则从文件名提取版本号，例如api_v2.3_spec.pdf→{"version": "2.3", "effective_date": "2024-03-01"}；

索引层：创建MetadataFilters，但不用ExactMatchFilter，而用WhereFilter：

from llama_index.core.vector_stores import WhereFilter filters = MetadataFilters( filters=[ WhereFilter( key="effective_date", operator=">=", value="2024-01-01" ) ] )

查询层：在QueryEngine中启用auto_retrieval，让它自动识别用户查询中的时间意图（如‘当前’、‘最新’、‘2024年’），并动态注入effective_date过滤条件。这需要自定义QueryTransform，解析时间短语并映射到effective_date字段。”

实操心得：我们在线上系统中，为effective_date字段建立了专用的DateIndex（用 SQLite 的日期函数），确保过滤速度 < 50ms，避免全表扫描。

5.3 题目：“RAG 结果中经常出现‘根据文档，...’这样的冗余前缀，如何去除？”

错误答法：“改 prompt，让 LLM 不要加前缀。”（治标不治本）

专业答法：
“这是ResponseSynthesizer的模板问题。默认text_qa_template包含context_str占位符，LLM 会按模板格式组织答案。根本解法是重写合成逻辑：

使用response_mode="no_text"，让合成器只返回原始 chunk 的文本，不经过 LLM；

或自定义Refine模式下的refine_template，移除所有引导性语句：

from llama_index.core.prompts import PromptTemplate refine_template = PromptTemplate( "我们已有初始答案：{existing_answer}。\n" "现有新信息：{context_msg}。\n" "请直接整合信息，输出最终答案，不要添加任何解释性前缀或后缀。" )

终极方案：在Node级别做后处理，用正则清洗node.text，移除“根据文档”、“如上所述”等模式化短语，确保输入到 LLM 的上下文本身就是干净的。”

避坑提醒：不要在 LLM 输出后用正则清洗，因为 LLM 可能生成合法的“根据文档”作为答案一部分（如法律条文引用），误删会导致信息丢失。

5.4 题目：“如何评估 RAG 系统的效果？除了准确率，还有什么关键指标？”

错误答法：“用 BLEU、ROUGE 打分。”（完全错误）

专业答法：
“RAG 评估必须分层：

检索层指标：Recall@K（K=5/10）、MRR（Mean Reciprocal Rank），用人工标注的黄金答案集测试；
生成层指标：Answer Relevance（答案是否回答问题）、Faithfulness（答案是否忠实于检索到的 chunk，用FactScore工具量化）；
系统层指标：P95 Latency（95% 请求的响应时间）、Index Build Time（百万文档建索引耗时）、Vector Store QPS（每秒查询数）；
业务层指标：Fallback Rate（触发兜底回答的比例）、User Satisfaction Score（NPS 调研）。

特别强调：Hallucination Rate是最高优先级指标。我们线上系统用SelfCheckGPT对每个答案做幻觉检测，如果检测到‘未在检索 chunk 中出现的数字或专有名词’，自动降权并触发人工审核。”

5.5 题目：“如果用户查询‘对比特斯拉和比亚迪的电池技术路线’，如何实现跨文档关联分析？”

错误答法：“用 HybridRetriever 同时查两家公司。”（无法关联）

专业答法：
“这需要GraphIndex或KnowledgeGraphIndex。标准流程：

实体抽取：用 spaCy 或 LTP 对每个 Document 提取实体（Tesla,BYD,LFP,NCM,800V）；
关系构建：定义关系类型USES_TECHNOLOGY，构建三元组<Tesla, USES_TECHNOLOGY, NCM>；
图索引：用KnowledgeGraphIndex将三元组存入 Neo4j，VectorStoreIndex存原始文本；
混合查询：GraphRetriever先查出Tesla和BYD的所有技术节点，VectorRetriever再查这些节点对应的原文 chunk，QueryEngine融合两者结果。