文摘
背景:样本大小计算规划流行病学研究的一个重要工具。大样本大小通常需要在孟德尔随机化调查。
方法和结果:资源供调查人员执行样本容量和功率的计算与二进制孟德尔随机化的结果。我们最初为连续结果情况下提供公式,然后为二进制结果例类似的公式。一个工具变量的公式是有效的,这可能是一个基因变异或等位基因的分数由多个变体。图提供给所需的样本量的80%功率给定值的因果效应风险因素的结果,方风险因素之间的相关性和工具变量。R代码和一个在线计算器工具可用来计算所需的样本量选择功率给定的这些参数,以及考虑到选择的样本大小和这些参数。
结论:给定的力量所需的样本量孟德尔随机化调查很大程度上取决于方差的比例风险因素由工具变量来解释。包含多个变异成一个等位基因的分数解释更多的风险因素的方差将提高力量,不过必须注意不引入偏见的包含无效的变体。
资源供调查人员执行样本容量和功率的计算与二进制孟德尔随机化的结果。
给定功率所需的样本量与二进制的结果比是一个持续的结果,并且是高度依赖的比例的方差风险因素解释的工具变量。
介绍
样本大小的计算实验设计的一个重要组成部分。他们告诉一名调查员给定的预期能力分析拒绝零假设。如果分析的能力较低,那么不仅拒绝零假设的概率很低,但是当零假设被拒绝,拒绝零假设的后验概率不仅仅是一个机会找到很低。1
孟德尔随机化是使用遗传变异作为辅助变量评估风险因素的因果效应观测数据的一个结果。2遗传变异是选择专门与感兴趣的一个危险因素有关,而不是与变量可能的混杂因素,风险因素和结果之间的联系。3这样一个变体将人口划分为组类似于治疗手臂在一个随机对照试验。4工具变量的假设下,5,6统计协会之间的基因变异,结果表明风险因素的因果影响的结果。7然而,随着遗传变异通常解释方差的一小部分的风险因素,电力检测变体之间的重要关联和结果应用孟德尔随机化上下文可以低。8样本量分析尤为重要通知零发现是否代表一个真正的零因果关系,或只是缺少权力来检测临床关心的大小产生影响。
样本大小的计算之前提出了用连续孟德尔随机化实验的结果。计算基于渐近统计理论已经提出一个工具变量(IV),第四,是否是一个基因变异或等位基因的分数。9等位基因的分数(也称为遗传风险评分)是一个单一变量总结多个基因变异作为加权或无关紧要的因素,大大提高风险等位基因。10模拟研究估算能力也提出了单个和多个静脉注射。11这些方法已经显示良好的协议。然而,在许多情况下,结果在一个孟德尔随机化实验是二进制(二分),等疾病。在本文中,我们目前的功率计算孟德尔随机化研究与二进制的结果。我们假设因果关系的病例对照研究的背景下感兴趣的参数是一个比值比,虽然对其他研究设计计算也有效。
方法和结果
我们给IV估计的渐近方差的结果用一个四世和产生的样本大小需要在孟德尔随机化研究中获得一个给定的功率。我们最初给公式一个连续的结果(这之前评审材料由弗里曼et al。9),然后用一个二进制类似的公式的结果。我们专注于估计比率(或瓦尔德)的方法,这种方法使一些参数假设,仅仅依靠一个线性关系的条件期望的结果(或在二元的情况下,结果的概率)的物流功能和风险因素。12如果不精确估计的基因与风险因素可以忽略不计,然后从比权力和样本大小的估计方法也对应的因果关系评估风险因素的测试结果之间的关联基因变异和结果。
其他估计方法是可能的二进制结果13但这些给等效估计方法比用一个四世(两阶段预测替换法14)或不推荐用于一般用途的应用实践。这些包括两级剩余夹杂物的方法,由于自然解释为参数不一致,15和广义矩方法(GMM)和结构模型(多发性骨髓瘤)方法,由于因果的潜在缺乏可辨认性参数(伯吉斯et al。未公开的数据)。
与一个连续的结果
我们使用这些公式构造功率曲线孟德尔随机化使用0.05的显著性水平。在图1(左),我们解决方相关性平均为0.02,这意味着变体解释风险因素的方差的2%,β和不同大小的影响1= 0.05,0.1,0.15,0.2,0.25,0.3和样本大小N000 = 1000。在图1(右),我们在β修复效果的大小1= 0.2,不同方相关= 0.005,0.01,0.015,0.02,0.025,0.03和样本大小。在每一个数据,检测显示积极的因果关系;这往往0.025作为样本容量趋于零。我们看到增加的因果效应增加,随着第四解释更多的风险因素(方差参数或的期望值R2统计增加)。
类似的公式,这些都是提供一个在线工具计算能力对于一个给定的样本大小或给定功率所需样本量,因果效应(β1)和平方相关()参数,以及风险因素的方差,结果和观测(OLS)风险因素的回归系数结果。19
与二进制的结果
我们使用这些近似计算得到所需的病例数80%电力在孟德尔随机化分析不同的β值的二进制结果1和假设1:1的比例控制。结果显示在图2。我们注意到当遗传变异解释一小部分的方差风险因素,需要大样本大小来检测甚至适度与合理的权力大的因果效应。
R21脚本执行中提供了样本容量和功率的计算补充数据(可用补充数据在IJE在线)。这段代码使所需的样本量的计算选择功率给定β的值1和,以及权力给予β的值1,和选择的样本大小。在线计算器使用这段代码可用。22
验证仿真
我们组β0=−3,结果有一个流行的人口约5%的病例对照样本。我们把三个β的值1= 0.1,0.2,0.3,三个值= 0.01,0.02,0.03,三个样本大小(000、000和000例),和两个值的比例情况下控制(1:1和1:2)。对于每一组参数值,我们计算能力的估计方程(12)使用0.05的显著性水平,并比较与的次数比例的95%置信区间估计不包括零基于10 000个模拟数据集。
比率的95%置信区间计算方法用于构造模拟方法的力量使用事业的方法,23所以不依赖于相同的渐近的假设分析方法估算的权力。之前的模拟表明,置信区间从事业的方法维持名义覆盖率水平较差的仪器。16获得所需尺寸的病例对照样本,我们最初模拟大量的个人数据,然后将所需数量的情况下从这个人口和控制。
仿真结果
验证仿真结果给出了表1。蒙特卡洛标准错误(从真实价值预期的变化由于数量有限的模拟)模拟估计的力量最多0.5%。95%置信区间的覆盖水平从事业的方法接近95%在94.8和95.9之间(54场景)。
例:控制比率= 1:1。 | 10000例 。 |
20000例 。 |
30000例 。 |
||||
---|---|---|---|---|---|---|---|
公式。 | 模拟。 | 公式。 | 模拟。 | 公式。 | 模拟。 | ||
= 0.01 | β1= 0.1 | 10.5% | 10.2% | 16.9% | 16.6% | 23.1% | 22.4% |
β1= 0.2 | 29.3% | 28.4% | 51.6% | 51.2% | 68.8% | 69.5% | |
β1= 0.3 | 56.4% | 56.4% | 85.1% | 85.0% | 95.7% | 95.7% | |
= 0.02 | β1= 0.1 | 16.9% | 17.2% | 29.3% | 28.9% | 41.0% | 41.1% |
β1= 0.2 | 51.6% | 51.0% | 80.7% | 80.2% | 93.4% | 93.6% | |
β1= 0.3 | 85.1% | 84.9% | 98.9% | 98.9% | 99.9% | 100.0% | |
= 0.03 | β1= 0.1 | 23.1% | 22.9% | 41.0% | 40.8% | 56.4% | 57.0% |
β1= 0.2 | 68.8% | 68.5% | 93.4% | 93.3% | 98.9% | 99.0% | |
β1= 0.3 | 95.7% | 95.5% | 99.9% | 99.9% | 100.0% | 100.0% |
例:控制比率= 1:1。 | 10000例 。 |
20000例 。 |
30000例 。 |
||||
---|---|---|---|---|---|---|---|
公式。 | 模拟。 | 公式。 | 模拟。 | 公式。 | 模拟。 | ||
= 0.01 | β1= 0.1 | 10.5% | 10.2% | 16.9% | 16.6% | 23.1% | 22.4% |
β1= 0.2 | 29.3% | 28.4% | 51.6% | 51.2% | 68.8% | 69.5% | |
β1= 0.3 | 56.4% | 56.4% | 85.1% | 85.0% | 95.7% | 95.7% | |
= 0.02 | β1= 0.1 | 16.9% | 17.2% | 29.3% | 28.9% | 41.0% | 41.1% |
β1= 0.2 | 51.6% | 51.0% | 80.7% | 80.2% | 93.4% | 93.6% | |
β1= 0.3 | 85.1% | 84.9% | 98.9% | 98.9% | 99.9% | 100.0% | |
= 0.03 | β1= 0.1 | 23.1% | 22.9% | 41.0% | 40.8% | 56.4% | 57.0% |
β1= 0.2 | 68.8% | 68.5% | 93.4% | 93.3% | 98.9% | 99.0% | |
β1= 0.3 | 95.7% | 95.5% | 99.9% | 99.9% | 100.0% | 100.0% |
案例:控制比率= 1:2。 | 10000例 。 |
20000例 。 |
30000例 。 |
||||
---|---|---|---|---|---|---|---|
公式。 | 模拟。 | 公式。 | 模拟。 | 公式。 | 模拟。 | ||
= 0.01 | β1= 0.1 | 12.6% | 12.9% | 21.0% | 21.4% | 29.3% | 28.9% |
β1= 0.2 | 37.2% | 37.5% | 63.7% | 64.4% | 80.7% | 81.1% | |
β1= 0.3 | 68.8% | 68.2% | 93.4% | 93.3% | 98.9% | 98.8% | |
= 0.02 | β1= 0.1 | 21.0% | 21.2% | 37.2% | 37.8% | 51.6% | 51.6% |
β1= 0.2 | 63.7% | 63.9% | 90.4% | 90.7% | 97.9% | 97.9% | |
β1= 0.3 | 93.4% | 93.2% | 99.8% | 99.8% | 100.0% | 100.0% | |
= 0.03 | β1= 0.1 | 29.3% | 29.0% | 51.6% | 51.4% | 68.8% | 68.8% |
β1= 0.2 | 80.7% | 80.8% | 97.9% | 97.7% | 99.8% | 99.9% | |
β1= 0.3 | 98.9% | 98.9% | 100.0% | 100.0% | 100.0% | 100.0% |
案例:控制比率= 1:2。 | 10000例 。 |
20000例 。 |
30000例 。 |
||||
---|---|---|---|---|---|---|---|
公式。 | 模拟。 | 公式。 | 模拟。 | 公式。 | 模拟。 | ||
= 0.01 | β1= 0.1 | 12.6% | 12.9% | 21.0% | 21.4% | 29.3% | 28.9% |
β1= 0.2 | 37.2% | 37.5% | 63.7% | 64.4% | 80.7% | 81.1% | |
β1= 0.3 | 68.8% | 68.2% | 93.4% | 93.3% | 98.9% | 98.8% | |
= 0.02 | β1= 0.1 | 21.0% | 21.2% | 37.2% | 37.8% | 51.6% | 51.6% |
β1= 0.2 | 63.7% | 63.9% | 90.4% | 90.7% | 97.9% | 97.9% | |
β1= 0.3 | 93.4% | 93.2% | 99.8% | 99.8% | 100.0% | 100.0% | |
= 0.03 | β1= 0.1 | 29.3% | 29.0% | 51.6% | 51.4% | 68.8% | 68.8% |
β1= 0.2 | 80.7% | 80.8% | 97.9% | 97.7% | 99.8% | 99.9% | |
β1= 0.3 | 98.9% | 98.9% | 100.0% | 100.0% | 100.0% | 100.0% |
例:控制比率= 1:1。 | 10000例 。 |
20000例 。 |
30000例 。 |
||||
---|---|---|---|---|---|---|---|
公式。 | 模拟。 | 公式。 | 模拟。 | 公式。 | 模拟。 | ||
= 0.01 | β1= 0.1 | 10.5% | 10.2% | 16.9% | 16.6% | 23.1% | 22.4% |
β1= 0.2 | 29.3% | 28.4% | 51.6% | 51.2% | 68.8% | 69.5% | |
β1= 0.3 | 56.4% | 56.4% | 85.1% | 85.0% | 95.7% | 95.7% | |
= 0.02 | β1= 0.1 | 16.9% | 17.2% | 29.3% | 28.9% | 41.0% | 41.1% |
β1= 0.2 | 51.6% | 51.0% | 80.7% | 80.2% | 93.4% | 93.6% | |
β1= 0.3 | 85.1% | 84.9% | 98.9% | 98.9% | 99.9% | 100.0% | |
= 0.03 | β1= 0.1 | 23.1% | 22.9% | 41.0% | 40.8% | 56.4% | 57.0% |
β1= 0.2 | 68.8% | 68.5% | 93.4% | 93.3% | 98.9% | 99.0% | |
β1= 0.3 | 95.7% | 95.5% | 99.9% | 99.9% | 100.0% | 100.0% |
例:控制比率= 1:1。 | 10000例 。 |
20000例 。 |
30000例 。 |
||||
---|---|---|---|---|---|---|---|
公式。 | 模拟。 | 公式。 | 模拟。 | 公式。 | 模拟。 | ||
= 0.01 | β1= 0.1 | 10.5% | 10.2% | 16.9% | 16.6% | 23.1% | 22.4% |
β1= 0.2 | 29.3% | 28.4% | 51.6% | 51.2% | 68.8% | 69.5% | |
β1= 0.3 | 56.4% | 56.4% | 85.1% | 85.0% | 95.7% | 95.7% | |
= 0.02 | β1= 0.1 | 16.9% | 17.2% | 29.3% | 28.9% | 41.0% | 41.1% |
β1= 0.2 | 51.6% | 51.0% | 80.7% | 80.2% | 93.4% | 93.6% | |
β1= 0.3 | 85.1% | 84.9% | 98.9% | 98.9% | 99.9% | 100.0% | |
= 0.03 | β1= 0.1 | 23.1% | 22.9% | 41.0% | 40.8% | 56.4% | 57.0% |
β1= 0.2 | 68.8% | 68.5% | 93.4% | 93.3% | 98.9% | 99.0% | |
β1= 0.3 | 95.7% | 95.5% | 99.9% | 99.9% | 100.0% | 100.0% |
案例:控制比率= 1:2。 | 10000例 。 |
20000例 。 |
30000例 。 |
||||
---|---|---|---|---|---|---|---|
公式。 | 模拟。 | 公式。 | 模拟。 | 公式。 | 模拟。 | ||
= 0.01 | β1= 0.1 | 12.6% | 12.9% | 21.0% | 21.4% | 29.3% | 28.9% |
β1= 0.2 | 37.2% | 37.5% | 63.7% | 64.4% | 80.7% | 81.1% | |
β1= 0.3 | 68.8% | 68.2% | 93.4% | 93.3% | 98.9% | 98.8% | |
= 0.02 | β1= 0.1 | 21.0% | 21.2% | 37.2% | 37.8% | 51.6% | 51.6% |
β1= 0.2 | 63.7% | 63.9% | 90.4% | 90.7% | 97.9% | 97.9% | |
β1= 0.3 | 93.4% | 93.2% | 99.8% | 99.8% | 100.0% | 100.0% | |
= 0.03 | β1= 0.1 | 29.3% | 29.0% | 51.6% | 51.4% | 68.8% | 68.8% |
β1= 0.2 | 80.7% | 80.8% | 97.9% | 97.7% | 99.8% | 99.9% | |
β1= 0.3 | 98.9% | 98.9% | 100.0% | 100.0% | 100.0% | 100.0% |
案例:控制比率= 1:2。 | 10000例 。 |
20000例 。 |
30000例 。 |
||||
---|---|---|---|---|---|---|---|
公式。 | 模拟。 | 公式。 | 模拟。 | 公式。 | 模拟。 | ||
= 0.01 | β1= 0.1 | 12.6% | 12.9% | 21.0% | 21.4% | 29.3% | 28.9% |
β1= 0.2 | 37.2% | 37.5% | 63.7% | 64.4% | 80.7% | 81.1% | |
β1= 0.3 | 68.8% | 68.2% | 93.4% | 93.3% | 98.9% | 98.8% | |
= 0.02 | β1= 0.1 | 21.0% | 21.2% | 37.2% | 37.8% | 51.6% | 51.6% |
β1= 0.2 | 63.7% | 63.9% | 90.4% | 90.7% | 97.9% | 97.9% | |
β1= 0.3 | 93.4% | 93.2% | 99.8% | 99.8% | 100.0% | 100.0% | |
= 0.03 | β1= 0.1 | 29.3% | 29.0% | 51.6% | 51.4% | 68.8% | 68.8% |
β1= 0.2 | 80.7% | 80.8% | 97.9% | 97.7% | 99.8% | 99.9% | |
β1= 0.3 | 98.9% | 98.9% | 100.0% | 100.0% | 100.0% | 100.0% |
我们注意到的估计公式方程(12)类似的模拟方法。没有明显的系统性偏差分析的估计公式,仿真估计是更大的和更少的比公式类似的次数(圆形最近的0.1%时,模拟的估计和更大的19倍少24倍)。估计两种方法并不比预期更多的不同,由于单独的机会。得到了类似的结果有两个风险因素;详细给出了补充数据(可用补充数据在IJE在线)。在比较估计的权力和相同数量的情况下,实现更大的权力,当有一个例子:控制1:2的比例比1:1的比例。总样本大小是固定的,然而,当权力的估计是最大的和控制的病例数是相等的。这可以被比较估计和30 000例和1:1的比例,并与000例和1:2的比例。
为了应对来自评论家担心电力与一个离散的工具变量估计可能不是有效的(如单核苷酸多态性)或混淆,在这些场景中其他验证模拟进行。结果给出了补充数据(补充数据,可用补充数据在IJE在线)。没有实质性差异观察验证仿真的主要论文当工具变量是离散的。当有混淆,从分析估计公式略有高估了权力,特别是当混杂在同一个方向的因果效应。然而,这种高估轻微(平均不到1%混杂时相反的方向,和不到2%混杂方向相同)。混杂的大小是不可能的,估计在应用实践中,保守估计的相关性和因果效应参数用于电力计算推荐,特别是如果混淆被认为是实质性的。
讨论
在本文中,我们提供了信息样本大小和功率计算与单一孟德尔随机化分析IV和二进制的结果。我们展示了在连续设置权力如何取决于因果效应的大小和比例的方差解释为IV的危险因素。一个二进制的结果,回归系数的精度的结果减少了静脉与连续的结果相比,作为结果只能取两个值。因此,获得所需的样本大小80%力量大得多。
对于一个给定的应用示例,一个风险因素的因果效应的大小是固定的,是预期的比例的方差的风险因素来解释每一个变体。然而,预期风险因素的解释方差的比例取决于选择IV。所需的样本量对于一个给定的功率可以减少(或相当于预期的力量在一个给定的样本大小可以增加),包括更多的遗传变异IV。这可以通过使用多个变量作为独立接受静脉注射,13第四或作为一个单独使用一个等位基因的分数的方法。等位基因的分数,权力可以进一步增加了相关权重变量的使用。10提供重量不是派生从数据分析下,天真的等位基因评分方法避免的一些问题造成的偏差从弱仪器使用许多静脉注射。24的缺点包含第四许多变异的分析,无论是在多个IV或一个等位基因评分模型,是一个或多个变种可能不是一个有效的IV。如果一个变体是风险的“factor-outcome协会,或者通过一个通路与结果不通过利益的风险因素,然后第四与这相关的估计可能有偏见。如果函数和相关性的变量作为静脉注射是不确定的,调查人员将不得不平衡偏见的风险分析与动力不足的风险分析。灵敏度分析可能是一个有价值的工具评估的同质性IV估计使用不同的变体。
如果有缺失的数据,这可能造成负面影响的一个分析。当有多个基因变异,个人零星缺失的基因数据可以包含在分析使用一个归责方法。25这可以最小化丢失数据的影响分析的力量,特别是遗传变异的分布相关连锁不平衡(变异)。
本文的计算做几个假设。IV估计量的分布是近似的正态分布假定为好。这是一个贫穷的近似当IV势单力薄;26然而,如果第四疲弱,那么权力通常会很低。正态分布的标准偏差被认为是接近的一阶项三角洲扩张。这学期只涉及遗传协会的系数的不确定性的结果。遗传协会估计的不确定性风险因素不占。一般来说,这种不确定性将在比较小的基因联系的结果被认为是通过风险因素介导的。如果这种不确定性很大,那么权力的分析通常会很低。如果需要更准确的估计的力量,要么进一步从三角洲的扩张可能被使用,或者可以进行直接模拟方法。logistic-transformed结果事件的概率的模型被认为是线性的危险因素。的权力是非常敏感的平方相关术语时,建议采取保守的估计的参数,或执行一系列的值的敏感性分析。尽管有这些近似,验证仿真表明,估计样本容量和功率的公式在本文将接近现实的真实值范围所涉及的参数值。
比方法在本文中被批评使用二进制结果来估计一个比值比。27,28这是由于non-collapsibility优势比,即参数估计取决于协变量的选择调整。29日这是一个优势比的一般属性,而不是一个特定的特征比值的方法。比率的估计方法接近人口的平均比值比,15和接近一个条件概率比在某些特定的情况下。30.优势比估计的选择不影响空下的估计量的一致性。31日示范效应估计通常是次要的因果效应,参数的精确识别比估计的方法不是特别重要的孟德尔随机化分析,和over-literal孟德尔随机化的解释甚至估计应该避免外部优势比的情况。32
虽然在孟德尔随机化实验所需的样本量通常很大,它并不总是必要的测量所有的参与者的风险因素的研究。仿真表明,在某些情况下,90%的完整的数据分析可以获得的力量只有测量10%的参与者的风险因素。33这意味着获取测量的风险因素,这可能是昂贵的或不切实际的大样本,不应该孟德尔随机化调查的限制性因素。
引用