新闻动态

统计咨询介绍 | R程序包CopulaCenR: 基于Copula的双变量删失数据回归模型及应用

时间:2021-10-01

01 什么是双变量删失数据?

在医学和经济学等研究领域中,我们经常会遇到双变量删失数据。一方面,很多时候我们感兴趣的是两个关联变量,比如癌症的初发时间和复发时间、两只眼睛的发病时间、以及基于两个不同临床评判标准的阿尔兹海默症发病时间等。另一方面,在许多情况下事件发生的时间难以被精确观测,这就产生了删失数据。比如在对某群体的长期跟踪中,间隔观测导致疾病发生时间无法确切得知,只知道处于前后两次观测时间之间,这种数据叫做区间删失数据。如果整个跟踪研究结束时疾病仍然没有发生,那么疾病发生时间就被右删失了。

02 R程序包:CopulaCenR

针对双变量删失数据,我们编写CopulaCenR的目的是:(1)寻找与关联变量显著相关的协变量,从而应用于寻找与复杂疾病发展相关的危险因素;(2)刻画两个关联变量的联合分布和条件分布,这将有助于寻找高风险人群,促进早期预防和管理。详细内容请见论文《CopulaCenR: copula based regression models for bivariate censored data in R》。CopulaCenR软件包已经上传至CRAN官方服务器,配有完整的功能帮助文档,内置了4个数据集以帮助使用者快速实现代码实例。

03 该程序包有什么特色?

包含一系列Copula函数

CopulaCenR通过引入Copula函数来刻画关联变量的联合分布。考虑到关联形态的多样性,CopulaCenR部署了一系列Copula函数来刻画不同形态的关联结构,如表1所示。其中,名为Copula2的Copula函数以其能够同时刻画upper和lower tail的关联因而较传统Copula更为灵活。特别的,Copula2涵盖了经典的Clayton和Gumbel Copula。

包含参数回归和半参数回归模型

为刻画疾病发生时间与协变量间的关系,CopulaCenR提供了一系列参数回归模型(Weibull, Gompertz, Loglogistic)和半参数回归模型(Cox模型,转换模型),如表2所示。特别的,半参数转换模型(semiparametric transformation model)涵盖了众多模型假设,包括常见的比例危险(proportional hazards)和比例优势(proportional odds)假设。CopulaCenR还提供了三种协变量显著性检验方法,包括Wald, score和likelihood-ratio检验。

其他功能

CopulaCenR还为用户提供了其他功能,比如summary总结,AIC/BIC/log-likelihood数值计算,基于模型估计的作图工具,以及双变量数据的模拟工具等。图1描绘的是,三个老人在未来15年内双眼疾病无进展的联合概率(joint progression-free probability of disease progression in two eyes)。图2描绘的是,对于同样三个老人,如果已经有一只眼睛发生了疾病,那么CopulaCenR可以刻画未来另一只眼睛疾病无进展的条件概率。这些方法和工具将为医生和患者提供预防和管理依据。

Figure 1: 疾病无进展联合概率

Figure 2: 疾病无进展条件概率

北京市海淀区中关村大街59号 电话:(86)10-62511318 传真:(86)10-62515246 邮编:100872

版权所有 © 中国人民大学统计学院