北京大学(天津)新一代信息技术研究院

高质量数据构建工具

提供大模型全生命周期的数据资产建设能力,通过模块化的智能治理与精准选择算法,实现海量原始数据到高质量训练集的自动化转化,旨在显著提升通用及垂域模型的训练效率与最终性能。

首页 > 垂域大模型平台 > 高质量数据构建工具

平台介绍

该平台面向大模型训练、评测与持续优化场景,提供一站式的高质量数据集构建、治理与管理能力。平台支持从多源原始数据出发,完成数据清洗、结构化、标注增强、难度分级与版本管理,形成可直接用于大模型训练与评测的标准化数据资产。 平台内置多种智能数据处理与选择算子,将先进的数据选择与质量评估方法模块化、工程化,支持在数据构建流程中灵活组合与自动执行。通过对样本难度、信息密度、模型适配度等维度的综合建模,平台能够有效过滤冗余与低价值数据,突出对模型能力提升最关键的数据子集,显著提升训练效率与模型效果。 整体设计强调可复用、可扩展与可审计,适配通用大模型与垂域模型(如医疗、工业、政务等)的数据生产需求,支撑模型从预训练、指令微调到评测迭代的全生命周期数据体系建设。