在上述数据清洗过程完成后,还需对数据质量进行评价与控制,才能形成可供研究的高质量临床研究数据。临床研究数据库受时空范围的限制,在不同时期和不同中心产生的数据,其系统设计、标准操作规范以及质量控制措施往往会存在差异,这些差异导致了数据质量的参差不齐。为了确保研究数据的可用性及可靠性,在临床研究数据集建设中,须对数据质量进行控制。
数据质量控制最重要的两个环节,是数据集设计和数据验收。
在数据集设计阶段,需要设计高质量的临床研究数据字典。这包括设计数据表、确定数据字段、选择数据类型、为分类变量设定合理的分类值、为连续变量划定科学的取值范围等。数据字典是数据集的核心组成部分,它定义了数据的结构和内容,对数据的收集、存储和分析至关重要。
数据验收主要在数据入库环节进行,所谓入库,是指将通过脱敏、清洗、结构化等处理并达到预设数据集要求的最终数据导入临床专病库的步骤。数据验收的关键在于建立起一套行之有效的数据入库标准操作流程(Standard operation procedures,SOP)并严格执行,从而确保入库数据的完整性、一致性与准确性。