通过这两个重要步骤,能够显著提升临床研究数据的质量,为科学研究提供可靠的数据支撑。
1. 数据库设计阶段
应参考现有的医疗行业标准,围绕研究问题来设计数据集,全面指导和把控数据质量,举例如下。
设计临床诊断字段时,可参考标准疾病分类ICD10,AJCC8th,以及具有影响力的诊疗指南如National Comprehensive Cancer Network (NCCN),开源数据库如SEER,专病数据集等,例如:ICD10诊断编码中包含了颈腹胸、上中下、鳞癌腺癌等详细分类,在对食管癌专病库的诊断字段设计时,就可以参考ICD规范设计字段,如位置、肿瘤类型、浸润性等,将相应的非结构化文本结构化填充至对应字段,以支撑临床科研。再如,SEER数据库汇聚了1975年以来的食管癌患者信息,它在记录良恶性时字段设计为分类变量,0代表良性、1代表临界恶性、2代表原位、3代表恶性,我们设计相应字段时时也可以参考设计编码和对应关系。
2. 数据验收阶段
验收时,应建立最终入库数据的验收标准,做到入库有稽查,质量有评分。
根据国际数据管理协会(Data Management Association)2020年发布的数据质量评价维度报告(Dimensions of Data Quality, DDQ),有12个常见指标可以对数据质量进行评价。表12-2列出了其中几个在笔者研究团队最常用的评价指标及其含义,基于数据库设计,可以对不同字段设计不同的评分标准,参考此表列举的维度,通过加权计分等方式,输出质控评分表。
具体应用时,可通过在数据治理平台嵌入python, SQL脚本等进行评分,并输出评分结果。最后,应定期对数据质量进行评价,根据发现的实际问题,提升数据质量。
表12-2 数据质量评分维度
评价维度 |
评价内容 |
完整性 |
所有重要的数据字段均存在且完整,元数据也被清晰描述等。 |
一致性 |
数据类型和含义是否具有跨表一致性,库内一致性等,包括格式,含义,编码等技术层面(如性别编码在多个表中都应为0/1,且均应对应F/M),也包括含义,标准等语义层面(如肿瘤分期标准,多个表中都依据AJCC8th分期)。。同一数据字段不同的采集时间,采集标准一致等。 |
准确性 |
数据必须真实准确,支持溯源,且数据值记录准确能反应客观实际情况。 |
规范性 |
满足专病库设计阶段定义的格式,编码,变量类型等。 |
唯一性 |
部分数据需要保证唯一性,如病人唯一识别号。 |
及时性 |
数据需要定期更新,根据不同的研究目的,需要满足特定的更新频率。 |
最后,我们必须认识到,数据治理并非一蹴而就的任务,而是一个长期、动态、持续的过程。在这个过程中,我们应着重于流程的固化、知识库的构建,并进行长期的迭代更新。只有这样,才能持续提高数据质量,深入挖掘数据的潜在价值,并进一步提升数据库的学术影响力。