北京大学(天津)新一代信息技术研究院

垂域模型训练与推理优化工具

政务内网高可信、可溯源 RAG 垂域问答系统,“找得到、答得准、查得清”。

首页 > 垂域大模型平台 > 垂域模型训练与推理优化工具

平台介绍

标准化垂域大模型训练流水线:该流水线面向医疗、政务、工业等专业领域,构建了一套可复用、可扩展、可评测的垂域大模型训练与迭代体系。系统性地沉淀了"小北"垂域大模型在真实项目中的训练方法与工程经验,实现了从数据准备到上线交付的工业化生产。

流水线以高质量数据集构建工具为数据底座,支持多源垂域数据的清洗、结构化、难度分级与版本管理,形成可直接用于模型训练与评测的标准化数据资产;同时以大模型自动化评测工具作为质量中枢,对模型、RAG与智能体进行全流程、可量化、可回归的评测,确保模型能力的可控演进。

在模型训练层面,流水线将小北模型实践中的关键技术抽象为一系列标准工具与操作方法,包括:

垂域能力对齐与差距分析工具

用于识别基座模型在专业领域中的能力短板,指导数据与训练策略设计

高价值训练数据选择与难度分级工具

从大量候选数据中筛选对模型提升最关键的数据子集,支持课程式训练

垂域指令与知识注入工具

将领域知识、专业表达与推理范式高效注入模型参数

训练过程监控与版本对比工具

对不同训练轮次与模型版本进行效果对比与回溯分析

评测驱动的持续迭代工具链

基于评测结果自动反向驱动数据补充与模型再训练

通过该流水线,小北的垂域模型训练经验不再依赖个体专家,而被固化为标准流程+自动化工具+可复用策略,支撑多垂域模型的快速构建、稳定迭代与规模化落地。

核心功能

RAG知识库构建(TDOC)

  • 语义独立完整的切分结合标题结构与文档树构建,减少“同一规则被切碎、召回不完整”的问题,提升知识单元的可检索性。
  • 层次化多粒度知识组织自下而上生成概括性摘要以保留宏观知识,自上而下对超长节点再切分,支持粗粒度/细粒度问题的不同检索需求。
  • 多线索树索引为知识单元生成“模拟提问线索”,对齐用户短问题与知识长文本的表达差异,降低局部相似导致的误召回与漏召回。

知识库路由(自适应检索)

  • 是否需要检索针对“你好”等不需外部知识的问题,自动跳过检索以减少无关噪声引入。
  • 调用什么知识库面向多个相对独立的子知识域,通过表示对齐与相似度阈值决策选择最相关知识库,兼顾检索准确率、开销与数据隔离需求。
  • 更鲁棒的库选择策略通过“拉近同类、拉远异类”的原型对比学习思想,提高路由在相近主题与相似表达下的区分能力。

主动提问(缺失信息澄清)

  • 缺失信息识别与提问解耦先识别推理所需的缺失条件,再生成高价值澄清问题,提升垂域问答场景下的提问效率与稳定性。
  • 决策路径数据合成基于规则/条件文本构建决策图(DAG),采用Generate-Verify流程生成“模糊问题+用户背景+答案”的高质量训练数据。
  • 强化学习的问题模型支持动态剪枝与自适应决策,在信息不足时引导用户补充关键背景,从而提升最终回答准确性。

知识感知推理优化(抗噪与遵循)

  • KnowPO偏好优化模拟真实RAG上下文组合(证据+主题相关噪声+主题无关噪声),以DPO学习“更遵循相关证据、更抗干扰噪声”的策略,提升输出稳定性。
  • Parenting子空间调优定位与遵循能力(Adherence)和抗噪能力(Robustness)相关的参数子空间,并进行类型定制调优,实现两类能力的更均衡提升。
  • 指标化评测与消融验证通过遵循/抗噪指标与消融设置,形成可复用的训练-评测闭环,支撑持续迭代。

知识溯源(引用与可追溯)

  • 自动化生成引用支持在生成内容中附带引用来源,提升政务回答的可信度与可核验性。
  • 溯源后处理增强结合字符相似度初筛与embedding精筛等策略,提升引用匹配的准确率与效率。
  • 检索头机制探索利用长上下文注意力头的检索特性,在模型“复制粘贴证据片段”时捕获注意力分布,实现从Token到子句/句子级别的多粒度溯源能力。

核心创新点

TDOC层次语义知识库

以“建树+分层摘要+多线索索引”为核心,系统性解决语义切分不完整与宏观知识丢失问题,显著提升检索与生成效果。

自适应检索与多库路由

在“是否检索/检索哪个库”两级决策上降低噪声与开销,并通过表示对齐与鲁棒原型学习提升跨子域路由准确率。

知识感知的推理训练范式

通过KnowPO与Parenting等方法同时强化“证据遵循”与“抗噪稳健”,并配套溯源能力增强,形成面向政务场景的可落地可信RAG闭环。