北京大学(天津)新一代信息技术研究院

问数

私有化智能 ChatBI,深度驱动数据洞察。

首页 > 垂域大模型平台 > 问数

平台介绍

“问数”定位为面向结构化数据(关系型数据库、表格型数据)的自然语言数据分析工具,用户只需用自然语言提出分析需求,系统即可自动理解问题、生成并执行查询、汇总结果并输出可视化分析。一方面以“公开大模型 + 有限算力可部署”的路线,在保障数据安全与合规的前提下落地ChatBI能力,避免过度依赖商用私有模型带来的隐私风险;另一方面围绕复杂NL2SQL的关键瓶颈,重点研发任务分解、Schema Linking、SQL自动校验纠错与反馈生成等能力,形成区别于现有开源框架的核心竞争力。

演示视频

点击播放器查看高清视频

核心功能

自然语言查询与问题改写

  • 多场景交互入口支持面向业务分析与数据探查的自然语言查询入口,降低SQL门槛,统一用户表达与系统执行口径。
  • 查询改写与意图对齐针对用户表述的省略、歧义与口令式表达,进行面向查询生成的改写优化,为后续检索与生成提供更稳定的输入。

Schema Linking与值检索(模式链接)

  • 表&列召回在海量Schema与上下文窗口受限的条件下,筛选与问题最相关的表与列,降低推理成本并提升生成准确率。
  • Schema原子化Token将表名/列名等元素视为不可再分的原子Token并扩充词表,结合微调使模型更稳定地“读懂并正确引用”不透明字段。
  • 值检索增强对齐用户问题与数据取值空间,辅助生成更精确的过滤条件与聚合口径。

查询生成(任务分解)

  • 复杂NL2SQL任务分解将复杂查询拆解为若干更简单的子查询,降低单步求解难度并提升整体成功率。
  • 搜索与偏好优化训练结合树搜索(如MCTS)进行子任务预测与剪枝,并引入可区分负样本差异的reward margin训练策略,增强模型的step-by-step推理能力。

查询校验与纠错(对齐纠错/反馈生成)

  • 语法+语义双重校验在执行前后对生成SQL进行结构与语义层面的检查,减少“可运行但语义错”的隐蔽错误。
  • 语义对齐纠错通过SQL/Text编码与对比学习对齐,并结合AST结构信息与负样本增强,提升校验可解释性与鲁棒性。
  • 反馈生成(Critic)当识别到SQL语义错误时,输出错误类型、错误分析与改进建议,形成可用于模型自我修正与用户理解的可操作反馈。

执行与结果表达(摘要与可视化)

  • 查询执行模块支持SQL查询与API查询两类执行通道,输出结构化结果供后续模块消费。
  • 数据摘要生成对查询结果进行关键指标与趋势的摘要提炼,形成可直接阅读的分析结论。
  • 图表类型识别与可视化生成识别适配的图表类型,生成可视化图表配置,并通过规则匹配等策略保证输出可落地、可复用。

核心创新点

面向隐私与合规的可部署ChatBI路线

基于公开大模型与有限算力部署,在处理敏感业务数据时降低合规风险,提升工程落地可行性。

复杂NL2SQL“任务分解+搜索+偏好优化”闭环

以树搜索剪枝与reward margin训练为核心,系统性增强多步推理与复杂查询求解能力。

从“校验纠错”到“可用反馈”的全链路质量控制

将语义校验、对齐纠错与Critic反馈打通,既提升成功率,也提升错误可解释性与可修复性。