常见的数据缺失机制主要分为以下三类:
(1)完全随机缺失(missing completely at random,MCAR):即数据缺失完全是由随机因素造成的,换句话说,数据的缺失是随机的,缺失值的出现与已观测到的数据和未观测到的数据都是完全不相关的。例如:某个调查大学生心理问题的调查问卷中,性别选项数据是否缺失完全随机,仅取决于调查对象。
(2)随机缺失(missing at random,MAR):这类数据缺失不是完全随机的,也就是说,数据的缺失取决于其他已观测到的结果,但与未观测到的结果无关。例如:在一个关于儿童教育的调查数据中,缺失了很多低年龄段儿童的IQ测试分数,其原因在于低年龄段儿童较少能通过这类测试。因此,IQ测试分数的缺失与IQ实际值无关,而与年龄相关。
(3)非随机缺失(missing not at random,MNAR):与随机缺失相反,非随机数据缺失依赖于未观测到的数据。这种缺失类型是最严重的一种,研究者无法通过统计学模型对缺失数据进行准确的预测。例如:在调查人群年收入的时候往往会出现数据缺失,而这种缺失的原因在于高收入人群本身出于各种原因不愿意提供家庭年收入。