为建设高质量临床研究数据库,支撑医学科研,必须重视医学数据的质量控制,因此,数据整理环节至关重要,它对于提升数据集的价值和可靠性具有不可替代的作用。
在构建专病研究数据库时,数据主要来源于医院各业务系统,如医院信息系统(HIS)、实验室信息系统(LIS)、医学影像存档与通信系统(PACS)等。这些数据包括病案首页、就诊记录、出入院小结、医嘱、检验检查结果、影像资料、病理报告、床旁监测数据以及随访信息等多种模态。这些数据具有时间跨度长、多中心、多模态的特点,因此不可避免地会面临数据一致性、准确性、完整性和可靠性方面的问题。例如,疾病命名规范、时间格式、主索引记录格式不一致;身高、病程记录的量纲和单位不统一;患者未进行某项检查导致的数据缺失;医务人员在数据录入时可能产生误差;长文本数据无法直接用于分析等。为解决这些问题,必须对数据进行清洗和标准化,以提高数据质量,才能更好的支持临床科研。总体而言,临床研究数据整理的流程包括以下几个关键步骤:
1. 数据概览
在临床研究数据整理过程中,首先应对原始数据进行描述性统计分析。这包括介绍数据的来源、数据范围以及采集过程与流程等,并分析数据中存在的问题,以便针对性地规划数据处理的范围和重点。统计的维度应包括病例数、数据记录数、数据字段数、数据的结构化程度等。
最后,结合预设的标准数据集,规划从原始数据到最终结果的治理路径,并形成详细的文档。这份文档将作为数据处理和管理的指南,确保数据的质量和一致性,为后续的临床分析和研究提供坚实的基础。
2. 数据脱敏脱密
数据脱敏和脱密的目的是为了保护个人隐私。在医疗记录中,原始数据如病案首页、账单记录等可能包含患者的个人隐私和其他敏感信息,根据《中华人民共和国数据安全法》(2021)等相关法律法规,需要对数据中的敏感信息进行匿名化处理,以确保数据的安全性和合规性。
数据脱敏的处理方法包括删除、编码和掩隐等。删除方法涉及剔除那些能够直接对应到个人的信息,如身份证号、姓名和电话等。这些信息在临床研究中通常用于数据关联,剔除后需要设计新的关联号来替代。编码方法则采用密码学手段,如映射、非对称加密或哈希等,将敏感信息转化为无法直接识别个体身份的形式。掩隐方法是对长数据中的部分信息进行遮蔽,例如遮蔽身份证的部分数字,这样可以在保留部分有用信息(如出生地、年龄等)的同时,减少信息泄露的风险。
通过这些方法,可以在保护患者隐私的同时,确保数据的可用性和研究价值。