新闻动态
统计咨询介绍 | R程序包QCSIS:稳健的超高维变量选择工具
时间:2021-10-01
一、超高维变量筛选
目前超高维数据越来越多出现在遗传、基因芯片、磁共振成像等领域。超高维数据一般用来表示变量个数远远大于样本量的数据。稀疏性假定是处理超高维(高维)问题的基本假定,即假定只有少数的自变量对于因变量产生影响,也就说自变量系数为零的很多,非零的很少。这种假定在一定程度是合理性的,因为对某一个事物的影响也许有很多因素,但起主要作用也许只有很少的几个。Sure Independent Screening(SIS)是常用的处理超高维的方法。SIS可以方便快捷的筛选变量,即通过简单排序筛选变量。SIS筛选出来的变量比较多,它可以确保那些对因变量有影响的自变量全部被选出,这也是被称为确保(Sure)的原因。
二、R程序包:QCSIS
针对含有异常值的超高维数据,我们编写了QCSIS,其主要实现基于分位数相关系数的超高维变量筛选,详细内容见 《Robust model-free feature screening via quantile correlation. Journal of Multivariate Analysis, 2016. 143, 472-480》。该R软件包已经上传至CRAN官方服务器,配有完整的功能帮助文档,内置了4个函数以帮助使用者快速实现代码实例。
三、该程序包有什么特色?
我们将随机变量QC)定义为:
假设
且将每个元素的定义为:
对w进行从小到大排序,取前面d个变量。这种方法简称为QC-SIS(Quantile Correlation-Sure Independent Screening)。QC-SIS并不需要具体模型的假定,并且对于异常值不敏感,是一种稳健的模型自由(Model-free)变量筛选方法。
据统计,从2015年12月2日将QCSIS上传R,至2021年3月9日已被下载19193次,下载情况如下图所示,这个包比较活跃,最近一年时间被下载次数明显高于前几年。
图1 QCSIS下载次数