1导论 1
1.1 研究背景和研究意义 1
1.1.1 研究背景 1
1.1.2 研究意义 4
1.2 主要概念界定 5
1.2.1 农业经济调查 5
1.2.2 缺失值 6
1.3 问题的提出与研究目标 7
1.3.1 问题的提出 7
1.3.2 研究目标 8
1.4 技术路线与结构框架 8
1.4.1 技术路线 8
1.4.2 结构框架 9
1.5 研究方法与数据来源 11
1.5.1 研究方法 11
1.5.2 数据来源 12
1.6 可能的创新与不足 13
1.6.1 可能的创新 13
1.6.2 不足之处与展望 14
2农业经济调查数据缺失值处理的文献综述 15
2.1 缺失值处理的理论和方法的研究综述 16
2.1.1 国外缺失值处理的理论和方法的研究综述 16
2.1.2 国内缺失值处理的理论和方法的研究综述 20
2.2 农业经济调查数据缺失值问题的研究综述 21
2.2.1 国外农业经济调查数据缺失值问题的研究综述 21
2.2.2 国内农业经济调查数据缺失值问题的研究综述 23
2.3 结论和评价 25
3农业经济调查数据缺失值处理的研究基础和假设 27
3.1 农业经济调查的特点和数据缺失原因 28
3.1.1 农业经济调查的特点 28
3.1.2 农业经济调查数据缺失的原因 30
3.2 基本概念及符号表示 31
3.2.1 基本概念及符号 31
3.2.2 缺失数据及缺失信息的转换 32
3.3 模拟方法介绍 34
3.3.1 模拟方法的含义 34
3.3.2 采取模拟方法的原因 34
3.3.3 模拟方法的优势 35
3.4 农业经济调查数据的缺失模式 35
3.4.1 一般缺失模式 35
3.4.2 单一缺失模式 36
3.4.3 单调缺失模式 37
3.5 农业经济调查数据的缺失机制 37
3.5.1 农业经济调查数据缺失机制及模型 37
3.5.2 农业经济调查数据缺失机制的模拟 39
3.6 基本假设 41
3.6.1 农业经济调查总体分布的假设 41
3.6.2 农业经济调查样本随机性的假设 42
3.6.3 农业经济调查的变量假设 42
3.6.4 农业经济调查数据缺失模式的假设 43
3.6.5 农业经济调查数据缺失机制的假设 44
3.7 缺失值处理的统计软件 44
3.7.1 分析软件 44
3.7.2 本研究使用的软件 45
3.7.3 本研究自编的R程序代码 45
4农业经济调查数据缺失值处理的删除及模拟分析 46
4.1 成列删除及其缺陷分析 46
4.1.1 成列删除及其争议 46
4.1.2 成列删除引致的估计错误分析 48
4.1.3 成列删除引致数据损失和估计错误的模拟分析 50
4.2 成对删除及比较分析 54
4.2.1 成对删除及其争议 54
4.2.2 成对删除的估计复杂性分析 55
4.2.3 成对删除和成列删除在相关关系估计上的模拟比较分析 57
4.3 随机缺失下成列删除有偏估计的加权调整分析 60
4.3.1 加权调整的基本模型 60
4.3.2 加权调整的方法 61
4.3.3 加权调整效果的模拟分析 63
4.4 结论和讨论 65
5农业经济调查数据缺失值处理的单一插补及模拟比较分析 67
5.1 单一插补的模型和缺陷分析 67
5.1.1 单一插补的基本思想 67
5.1.2 单一插补的基本模型 68
5.1.3 单一插补的缺陷分析 69
5.2 均值插补及其改进分析 70
5.2.1 关于均值插补的讨论 70
5.2.2 简单均值插补对总体方差的低估分析 71
5.2.3 均值插补离散性的改进分析 73
5.2.4 随机缺失下均值插补估计偏差的修正 75
5.2.5 简单均值插补对相关关系低估的模拟分析 76
5.3 回归插补及其插补效果的比较分析 78
5.3.1 关于回归插补的讨论 78
5.3.2 简单回归插补及对总体方差的低估分析 79
5.3.3 回归插补的改进分析 81
5.3.4 回归插补效果的模拟比较分析 83
5.4 基于模糊后验分布的热平台插补及比较分析 86
5.4.1 关于热平台插补的讨论 86
5.4.2 简单随机插补的稳健性分析 87
5.4.3 随机缺失下随机插补的改进 87
5.4.4 最近距离插补及其模型方法 88
5.4.5 热平台插补效果的模拟比较分析 89
5.5 结论和讨论 90
6农业经济调查数据缺失值处理的多重插补及比较应用分析 93
6.1 多重插补的基本思想和基本模型 94
6.1.1 多重插补的基本思想 94
6.1.2 多重插补的基本模型 94
6.1.3 关于多重插补的插补次数选择的讨论 96
6.2 多重插补的参数估计和检验 96
6.2.1 多重插补的点估计 97
6.2.2 多重插补估计量的分布 99
6.2.3 多重插补的参数估计和检验方法 100
6.3 一元正态模型下的贝叶斯法多重插补及比较分析 101
6.3.1 一元正态线性模型的假设 101
6.3.2 贝叶斯多重插补方法的理论分析 102
6.3.3 贝叶斯多重插补方法的参数估计 103
6.3.4 贝叶斯多重插补方法的模拟比较分析 104
6.4 一元正态模型下Bootstrap多重插补及比较分析 108
6.4.1 Bootstrap法和贝叶斯法在模型假设上的异同 108
6.4.2 Bootstrap多重插补方法的理论分析 108
6.4.3 Bootstrap多重插补方法的模拟比较分析 109
6.5 多元正态模型下联合分布多重插补及其应用分析 113
6.5.1 农业经济调查的多变量缺失问题 113
6.5.2 多元正态模型下联合分布多重插补方法的假设 113
6.5.3 农业经济调查数据的具体缺失模式 114
6.5.4 联合分布多重插补方法的理论分析 115
6.5.5 联合分布多重插补方法的模拟应用分析 118
6.6 多元正态模型下条件分布多重插补及模拟应用分析 124
6.6.1 多元正态模型下条件分布多重插补方法的假设 124
6.6.2 条件分布多重插补方法的模型 125
6.6.3 条件分布多重插补方法的模拟应用分析 126
6.7 结论与讨论 127
7农业经济调查数据缺失值处理的实例应用分析 130
7.1 数据缺失信息描述 131
7.1.1 数据介绍 131
7.1.2 数据整理 132
7.1.3 缺失信息描述 134
7.2 单一缺失数据处理 136
7.2.1 目标变量和辅助变量选择 136
7.2.2 单一插补分析 138
7.2.3 多重插补分析 139
7.3 一般缺失数据处理 141
7.3.1 联合分布多重插补分析 141
7.3.2 条件分布多重插补分析 142
7.4 结论和讨论 143
8结论和建议 145
8.1 结论 145
8.1.1 关于农业经济调查特点的结论 145
8.1.2 关于删除的结论 146
8.1.3 关于单一插补的结论 147
8.1.4 关于多重插补的结论 148
8.1.5 关于实际应用分析的结论 149
8.2 建议 150
8.2.1 处理缺失数据前的建议 150
8.2.2 处理缺失数据中的建议 151
参考文献 153
附录1 符号表示 172
附录2 证明和说明 173
附录3 R程序代码 176
附录4 原始数据(部分) 206
致谢 208