如何建设客服高质量数据集
本文共 1755 字
预计阅读时间 5 分钟
随着人工智能和大模型技术快速演进,数据在其中发挥的作用日益凸显,行业发展逐渐从“以模型为中心”转向“以数据为中心”。
数据规模与质量,共同成为决定AI能力的核心要素。高质量数据集不仅能有效提升模型准确性、稳定性和泛化能力,同时有助于降低模型偏差,保障决策过程的合理性。
为了促进高质量数据集的建设,国家出台了一系列相关政策进行指导和支持,高质量数据集建设已成为国家AI战略的重要组成部分。
2024年12月,国家发展改革委等部门联合印发《关于促进数据产业高质量发展的指导意见》,提出“支持企业面向人工智能应用创新,开发高质量数据集,大力发展“数据即服务”“知识即服务”“模型即服务”等新业态”。
2025年2月,国家数据局组织召开高质量数据集建设工作启动会;8月正式发布《高质量数据集建设指引》。
客服领域全业务、全流程、全模态数据的加工过程应为客服AI+深入推进提供数据支撑。

客服高质量数据集定义
在《高质量数据集建设指引》中,对高质量数据集的定义是:高质量数据集是指经过采集、加工等数据处理,可直接用于开发和训练人工智能模型,能有效提升模型表现的数据的集合。
按照数据集的知识内容、来源类型、时效性、标注人员类型、敏感程度、模型类型、主题范围等维度来进行划分,高质量数据集可分为以下三类:
1.通识数据集:包含面向社会公众、无需专业背景即可理解的通用知识,主要用于支撑通用模型落地应用;
2.行业通识数据集:包含面向行业从业人员、需要一定专业背景才能理解的行业领域通用知识,主要用于支撑行业模型落地应用;
3.行业专识数据集:包含面向特定业务场景相关人员、需要较深的专业背景才能理解的行业领域专业知识,主要用于支撑业务场景模型落地应用。
客服高质量数据集是指经过采集、清洗、标注与训练、稽核等数据加工处理环节,可供客服AI基础能力和客服大模型开发、训练,应用于智能客服各业务场景的行业专识数据,旨在提升服务质量和服务效能,优化服务感知。
客服高质量数据集需涵盖客服领域智能客服、人工客服、工单处理、知识采编等各业务场景,贯穿服务、营销、生产、开发等全流程,内容上包括人机交互和人人交互的用户问题、应答记录和总结、客服工单内容和总结报告,客服知识内容等,形态上包括文本、图像、音频、视频等多模态数据。
建设方式上要根据客服业务开展情况和数据加工能力,按照“成熟一个,建设一个,运营一个”的原则,分阶段、分场景建成“质量高、体量大、场景全、维度多、应用广、安全牢”的客服高质量数据集。

客服高质量数据集应具备的标准
高质量数据集应满足以下核心标准:
(1)数据加工具有规范性
数据集应具备高度规范性,包括数据格式统一、标注准确、字段定义清晰完整、经过系统性的清洗与脱敏处理等,彻底剔除冗余、噪声及敏感信息,确保数据内容准确、整洁,符合数据安全与隐私保护要求。
(2)数据可以有效适配服务场景
数据集应紧密贴合实际客服业务场景,满足客服目标应用场景中模型开发和训练对数据分布全面程度的要求,能够有效支撑客服智能问答、话务总结、工单处理、知识采编等场景中人工智能模型的开发与优化,显著提升模型在实际应用中的准确性与鲁棒性。
(3)数据与业务相互促进,持续迭代
数据集应具备可持续迭代的能力。通过建立数据回流等机制,形成“数据飞轮”效应,能够依据业务变化与模型表现,持续纳入新的高质量语料,不断优化数据分布与标注质量,实现数据集与模型能力的协同演进。
最后,将前序步骤产出的高质量数据集有效用于大模型应用研发,实现从“数据”到“模型”再到“应用”的闭环落地。
通过利用高质量数据进行模型训练、RAG应用知识库构建和智能体(Agent)应用开发,最大化数据价值,提升模型的任务对齐能力、知识准确性和工具使用能力,加速模型能力向业务场景转化。
又通过场景化训练优化,推动模型性能与业务需求的精准对接。通过将高质量数据嵌入一线客服系统、开发轻量化应用,有效提升了服务效率与客户体验,彰显了数据集建设的业务价值。
同时,依托数据回流机制,周期性获取生产系统中的业务数据、用户反馈等“高价值信息”,经脱敏合规、质量评估后重新注入数据集,形成了“采集-构建-应用-回流”的良性循环。
- 2023-09-09
- 2023-09-09
- 2023-09-09
- 2023-09-16
- 2023-09-16
- 2023-09-09
- 2023-09-09
- 2023-09-09
- 2023-09-09
- 2023-09-09
