首页 > 新网站栏目 > 课程与师资 > 教师成果 > 正文

王珊珊博士谈高维可加风险模型的惩罚经验似然推断方法在大数据分析中的应用

发布时间：2017-05-16 来源：作者：点击数：

高维生存数据分析方法在DNA微阵列技术，蛋白质质谱技术等研究中有着广泛的应用，是目前大数据分析领域非常重要的一个分支。例如利用DNA微阵列技术和蛋白质谱技术测出的基因或蛋白等高维生物数据对癌症病人进行生存预测，从而揭露死亡或其他事件发生(例如，乳腺癌、原发性胆汁肝硬化等疾病)的时间和生物数据之间的关系，为得到更精确的诊断及预后从而改进治疗提供合理的方法依据。除生物医学之外，高维生存数据也广泛出现在经济管理、金融、保险精算、社会学、可靠性工程学等科学领域。例如，在信用风险领域，通常研究企业持续未发生信用风险的时间的影响因素；在社会学领域，研究下岗工人再就业的待业时间或首次婚姻持续期；等等。随着互联网技术的不断发展，可以搜集上述生存数据的影响因素越来越多，形成高维生存数据。

针对基因或蛋白生物信息数据的高维度、强相关、小样本的特点，传统的生存分析方法不再适用。因为若使用传统方法，不但会加大模型的复杂度，同时还会严重影响模型，显著降低模型的可靠性、预测性与稳健性。因此，需要提出新的适用于高维生存数据的统计方法。

Cox比例风险模型是目前高维生存数据分析中最常用的模型，将惩罚函数(penalty function)引入偏似然(partial　likelihood)方法，提出惩罚Cox比例风险模型。然而，一旦Cox比例风险模型的假定不再成立，或者我们关心的是风险的绝对变化等，这时可加风险模型(Additive Hazard model)优于Cox比例风险模型。再者，由于参数似然方法的精确性依赖于数据真实的密度函数（这通常是未知的），尤其在高维数据下，正确给定数据的分布在现实中是不合理的。因此，需要发展适合于高维生存数据分析的非参数似然方法。

为探讨这些问题，北航经济管理学院王珊珊博士及其合作者在高维可加风险模型框架下，通过惩罚经验似然方法对影响生存时间的高维因素进行变量筛选、估计和假设检验，建立起适用于高维可加风险模型的非参数经验似然统计推断理论。研究结果表明，惩罚经验似然方法可以以概率1识别出真实模型，并且估计效率优于惩罚似然估计。此外，该研究将其应用到原发性胆汁肝硬化数据集和NKI乳腺癌数据集中，考察其临床影响因素和基因观测因素。王珊珊博士及其合作者关于高维可加风险模型的惩罚经验似然方法的研究，为高维生存数据分析提供了一种有效的工具。

该研究成果目前发表在统计学国际期刊《Statistics and Computing》上。

Wang S, Xiang L. Penalized empirical likelihood inference for sparse additive hazards regression with a diverging number of covariates[J]. Statistics and Computing, 2016: 1-18.（doi:10.1007/s11222-016-9690-x）