大模型自动化评测工具

政务内网高可信、可溯源 RAG 垂域问答系统，“找得到、答得准、查得清”。

首页 > 垂域大模型平台 > 大模型自动化评测工具

平台介绍

“问智”面向政务内网知识快速更新与多子域并存的应用场景，构建基于检索增强生成（RAG）的垂域问答系统与配套能力体系，核心目标是在降低重复训练与维护成本的同时，持续提升检索召回准确性、生成回答质量与内容可信度。一方面通过“结构化知识库构建 + 自适应检索路由 + 主动提问 + 知识感知推理优化 + 知识溯源”等关键能力，验证团队在RAG工程化与模型训练方法上的可落地性；另一方面支撑多类政务问答任务在真实场景中的稳定运行，实现“知识更新快、回答更准、噪声更少、引用可追溯”的业务效果。

核心功能

RAG知识库构建（TDOC）

语义独立完整的切分：结合标题结构与文档树构建，减少“同一规则被切碎、召回不完整”的问题，提升知识单元的可检索性。
层次化多粒度知识组织：自下而上生成概括性摘要以保留宏观知识，自上而下对超长节点再切分，支持粗粒度/细粒度问题的不同检索需求。
多线索树索引：为知识单元生成“模拟提问线索”，对齐用户短问题与知识长文本的表达差异，降低局部相似导致的误召回与漏召回。

知识库路由（自适应检索）

是否需要检索：针对“你好”等不需外部知识的问题，自动跳过检索以减少无关噪声引入。
调用什么知识库：面向多个相对独立的子知识域，通过表示对齐与相似度阈值决策选择最相关知识库，兼顾检索准确率、开销与数据隔离需求。
更鲁棒的库选择策略：通过“拉近同类、拉远异类”的原型对比学习思想，提高路由在相近主题与相似表达下的区分能力。

主动提问（缺失信息澄清）

缺失信息识别与提问解耦：先识别推理所需的缺失条件，再生成高价值澄清问题，提升垂域问答场景下的提问效率与稳定性。
决策路径数据合成：基于规则/条件文本构建决策图（DAG），采用Generate-Verify流程生成“模糊问题+用户背景+答案”的高质量训练数据。
强化学习的问题模型：支持动态剪枝与自适应决策，在信息不足时引导用户补充关键背景，从而提升最终回答准确性。

知识感知推理优化（抗噪与遵循）

KnowPO偏好优化：模拟真实RAG上下文组合（证据+主题相关噪声+主题无关噪声），以DPO学习“更遵循相关证据、更抗干扰噪声”的策略，提升输出稳定性。
Parenting子空间调优：定位与遵循能力（Adherence）和抗噪能力（Robustness）相关的参数子空间，并进行类型定制调优，实现两类能力的更均衡提升。
指标化评测与消融验证：通过遵循/抗噪指标与消融设置，形成可复用的训练-评测闭环，支撑持续迭代。

知识溯源（引用与可追溯）

自动化生成引用：支持在生成内容中附带引用来源，提升政务回答的可信度与可核验性。
溯源后处理增强：结合字符相似度初筛与embedding精筛等策略，提升引用匹配的准确率与效率。
检索头机制探索：利用长上下文注意力头的检索特性，在模型“复制粘贴证据片段”时捕获注意力分布，实现从Token到子句/句子级别的多粒度溯源能力。

核心创新点

TDOC层次语义知识库

以“建树+分层摘要+多线索索引”为核心，系统性解决语义切分不完整与宏观知识丢失问题，显著提升检索与生成效果。

自适应检索与多库路由

在“是否检索/检索哪个库”两级决策上降低噪声与开销，并通过表示对齐与鲁棒原型学习提升跨子域路由准确率。

知识感知的推理训练范式

通过KnowPO与Parenting等方法同时强化“证据遵循”与“抗噪稳健”，并配套溯源能力增强，形成面向政务场景的可落地可信RAG闭环。