徐州医科大学临床医学院欢迎您,今天是
设为首页|加为收藏
当前位置: 首页 -> 正文

临床研究数据的质量控制(二)

发布日期:2026-04-29  点击量:

通过这两个重要步骤,能够显著提升临床研究数据的质量,为科学研究提供可靠的数据支撑。

1. 数据库设计阶段

应参考现有的医疗行业标准,围绕研究问题来设计数据集,全面指导和把控数据质量,举例如下。

设计临床诊断字段时,可参考标准疾病分类ICD10AJCC8th,以及具有影响力的诊疗指南如National Comprehensive Cancer Network NCCN),开源数据库如SEER,专病数据集等,例如:ICD10诊断编码中包含了颈腹胸、上中下、鳞癌腺癌等详细分类,在对食管癌专病库的诊断字段设计时,就可以参考ICD规范设计字段,如位置、肿瘤类型、浸润性等,将相应的非结构化文本结构化填充至对应字段,以支撑临床科研。再如,SEER数据库汇聚了1975年以来的食管癌患者信息,它在记录良恶性时字段设计为分类变量,0代表良性、1代表临界恶性、2代表原位、3代表恶性,我们设计相应字段时时也可以参考设计编码和对应关系。

2. 数据验收阶段

验收时,应建立最终入库数据的验收标准,做到入库有稽查,质量有评分。

根据国际数据管理协会(Data Management Association2020年发布的数据质量评价维度报告(Dimensions of Data Quality, DDQ),有12个常见指标可以对数据质量进行评价。表12-2列出了其中几个在笔者研究团队最常用的评价指标及其含义,基于数据库设计,可以对不同字段设计不同的评分标准,参考此表列举的维度,通过加权计分等方式,输出质控评分表。

具体应用时,可通过在数据治理平台嵌入python, SQL脚本等进行评分,并输出评分结果。最后,应定期对数据质量进行评价,根据发现的实际问题,提升数据质量。


12-2 数据质量评分维度

评价维度

评价内容

完整性

所有重要的数据字段均存在且完整,元数据也被清晰描述等。

一致性

数据类型和含义是否具有跨表一致性,库内一致性等,包括格式,含义,编码等技术层面(如性别编码在多个表中都应为0/1,且均应对应F/M),也包括含义,标准等语义层面(如肿瘤分期标准,多个表中都依据AJCC8th分期)。。同一数据字段不同的采集时间,采集标准一致等。

准确性

数据必须真实准确,支持溯源,且数据值记录准确能反应客观实际情况。

规范性

满足专病库设计阶段定义的格式,编码,变量类型等。

唯一性

部分数据需要保证唯一性,如病人唯一识别号。

及时性

数据需要定期更新,根据不同的研究目的,需要满足特定的更新频率。

最后,我们必须认识到,数据治理并非一蹴而就的任务,而是一个长期、动态、持续的过程。在这个过程中,我们应着重于流程的固化、知识库的构建,并进行长期的迭代更新。只有这样,才能持续提高数据质量,深入挖掘数据的潜在价值,并进一步提升数据库的学术影响力。


招生咨询电话:0516-83262666(普本) 0516-83262307(研究生) 0516-85748402(继续教育)

地址:徐州市铜山路209号 邮政编码:221004

Copyright © 2023  徐州医科大学版权所有  备案号:苏ICP备10010028号    苏公网安备 32030302001025号