临床研究数据的质量控制（二）-徐州医科大学临床研究院

临床研究数据的质量控制（二）

发布日期：2026-04-29　　点击量：

通过这两个重要步骤，能够显著提升临床研究数据的质量，为科学研究提供可靠的数据支撑。

1. 数据库设计阶段

应参考现有的医疗行业标准，围绕研究问题来设计数据集，全面指导和把控数据质量，举例如下。

设计临床诊断字段时，可参考标准疾病分类ICD10，AJCC8th，以及具有影响力的诊疗指南如National Comprehensive Cancer Network （NCCN），开源数据库如SEER，专病数据集等，例如：ICD10诊断编码中包含了颈腹胸、上中下、鳞癌腺癌等详细分类，在对食管癌专病库的诊断字段设计时，就可以参考ICD规范设计字段，如位置、肿瘤类型、浸润性等，将相应的非结构化文本结构化填充至对应字段，以支撑临床科研。再如，SEER数据库汇聚了1975年以来的食管癌患者信息，它在记录良恶性时字段设计为分类变量，0代表良性、1代表临界恶性、2代表原位、3代表恶性，我们设计相应字段时时也可以参考设计编码和对应关系。

2. 数据验收阶段

验收时，应建立最终入库数据的验收标准，做到入库有稽查，质量有评分。

根据国际数据管理协会（Data Management Association）2020年发布的数据质量评价维度报告（Dimensions of Data Quality, DDQ），有12个常见指标可以对数据质量进行评价。表12-2列出了其中几个在笔者研究团队最常用的评价指标及其含义，基于数据库设计，可以对不同字段设计不同的评分标准，参考此表列举的维度，通过加权计分等方式，输出质控评分表。

具体应用时，可通过在数据治理平台嵌入python, SQL脚本等进行评分，并输出评分结果。最后，应定期对数据质量进行评价，根据发现的实际问题，提升数据质量。

表12-2 数据质量评分维度

评价维度	评价内容
完整性	所有重要的数据字段均存在且完整，元数据也被清晰描述等。
一致性	数据类型和含义是否具有跨表一致性，库内一致性等，包括格式，含义，编码等技术层面（如性别编码在多个表中都应为0/1，且均应对应F/M），也包括含义，标准等语义层面（如肿瘤分期标准，多个表中都依据AJCC8th分期）。。同一数据字段不同的采集时间，采集标准一致等。
准确性	数据必须真实准确，支持溯源，且数据值记录准确能反应客观实际情况。
规范性	满足专病库设计阶段定义的格式，编码，变量类型等。
唯一性	部分数据需要保证唯一性，如病人唯一识别号。
及时性	数据需要定期更新，根据不同的研究目的，需要满足特定的更新频率。

最后，我们必须认识到，数据治理并非一蹴而就的任务，而是一个长期、动态、持续的过程。在这个过程中，我们应着重于流程的固化、知识库的构建，并进行长期的迭代更新。只有这样，才能持续提高数据质量，深入挖掘数据的潜在价值，并进一步提升数据库的学术影响力。

上一条：临床研究数据的安全（一）

下一条：临床研究数据的质量控制（一）