Proof of Concept (PoC) and Pivotal Research

Proof of Concept (PoC) and Pivotal Research

在新药开发过程中,候选药物最重要的里程碑之一是在早期II期阶段建立概念验证(PoC)。在 PoC 临床试验设计和分析的众多挑战中,当一项 PoC 研究中包含多个剂量或药物时,经常讨论多重比较程序 (MCP) 的应用。在这样的讨论中,应用多重性调整的一个基本问题是应该考虑控制哪种误差以及控制在什么水平。应该是实验误差还是复合误差?本文以PoC研究中的两个案例中的多重性问题为例,讨论不同类型错误的概念以及错误率控制的水平。清楚地了解错误类型和错误率控制

背景

在临床开发中,新药候选者经历临床前和临床开发的各个阶段。在临床开发的II期阶段,最重要的临床试验之一是概念验证(PoC)研究。

在开发除肿瘤治疗以外的慢性疾病药物时,I期临床试验通常会招募健康志愿者,目的是研究药代动力学(PK)和最大耐受剂量。原因是患者群体可能会影响新陈代谢并影响候选药物的安全特性。此外,患者往往会服用其他药物来控制病情。他们服用的药物可能与研究药物相互作用,因此 PK 特性以及不良事件可能会与其他因素混淆。由于无法从健康志愿者身上观察药物疗效,PoC研究是首次评估药物疗效,招募的受试者是目标疾病患者。

PoC 研究旨在帮助药物开发商根据候选药物的功效表现做出“Go/NoGo”决定。如果候选药物证明了疗效,则该概念被认为是经过验证的[ 1 ]。PoC 结果的“Go”决定意味着该候选药物的进一步开发,导致剂量范围从 IIb 期研究到长期和大规模的 III 期研究。PoC 是候选药物 Ting 等人最重要的里程碑之一。[ 2]。挑战之一是在 PoC 研究中暴露大量患者可能不道德。此外,药物开发商不确定该候选药物是否有光明的未来,并且更愿意采取渐进的步骤。基于这两个原因,PoC 研究的样本量有些有限。经典的 PoC 根据 I 期临床试验结果设计了允许的最高剂量,以与安慰剂进行比较。由于对药物开发效率的需求不断增加,传统的 PoC 研究设计已经发展为多剂量研究,或者通过共享相同的安慰剂对照在一项 PoC 研究中评估多种候选药物。

本文的范围将集中于 PoC 研究设计中的多重性问题。PoC研究设计中预先规定了多重性调整程序等统计决策规则,希望能够控制决策的错误率,使决策过程不那么模糊。然而,许多统计决策规则并不清楚控制什么错误,并且经常与不同类型的错误考虑因素纠缠在一起。在频率主义背景下,零假设下的许多不同类型的错误都被归类为第一类错误,需要进一步澄清,以便决策者能够有意识地了解他们正在控制什么错误以及他们对错误的容忍度,即,错误率控制的水平。

药物选择?剂量选择?

本文将介绍两种情况来阐述误差控制的概念:一种是在 PoC 研究中包含两种候选药物,另一种是在 PoC 研究中包含同一候选药物的两个剂量。在这两种情况下,关键问题是控制候选药物的 Go/NoGo 决策错误率。根据 PoC 研究的性质,重点是药物疗效,整篇论文都使用片面假设。以 Bonferroni 校正为例来解释本文想要澄清的概念。

案例1 一项 PoC 研究中包含的不止一种候选药物的一个例子来自肺部治疗领域,其中 β 激动剂和抗胆碱能药物都可以减轻疾病症状的严重程度。药物开发商可能会考虑开发一种β受体激动剂和另一种抗胆碱能药物,希望这两种药物能够同时获得批准和上市。这两种药物随后可能会结合起来开发组合产品。另一个例子是两名候选人已经通过了临床前开发和一期测试。PoC 研究将包括两种候选药物,或许是为了选出领先者并留下另一种作为后备。

在这些示例中,为候选人 A、候选人 B 和安慰剂 P 设计了平行三组研究。对应于每个候选人的两组统计假设可以写为以下形式:

HOA:mA ≤ mp, VS H1A:mA > mp

HOB:mB ≤ mp, VS H1B:mB > mp

其中μA、μB和μP分别表示候选A、B和地点的平均效应。

通过这种研究设计,许多统计学家的第一本能是控制家庭方面或实验方面的 I 类错误。可以考虑多重控制程序,例如 Bonferroni 校正。如果显着性水平控制在单侧α,则每个假设都在α/2水平进行检验。因此,每个候选药物Go/NoGo决策的错误率控制在α/2水平。显着性水平反映了对错误率的接受程度,也代表了决策的置信程度。

然而,如果进行两次单独的试验来检验(1)中描述的相同的两组假设,大多数统计学家不会建议使用多重性调整。因此,每个假设都将在α水平进行检验,这意味着每个候选药物的Go/NoGo决策的错误率被控制在α水平,而不是α/2水平。人们不禁要问,同样的一组假设,为什么会在不同的置信水平下做出决定呢?在这种情况下,I 类错误率到底是多少?

案例2

当 PoC 研究考虑一种候选药物的两种剂量时,平行三组试验包括安慰剂 (P)、低剂量 (L) 和高剂量 (H)。每个剂量对应的两组统计假设可以写成如下:

HOA:mH ≤ mp, VS H1H:mH > mp

HOB:mL ≤ mp, VS H1L:mL > mp

其中 μH、 μL、 μP分别表示高剂量、低剂量和安慰剂的平均效果。

PoC阶段的目标是使用多个剂量来共同确认疗效或初步了解剂量选择的范围,而不是确定药物标签的最佳剂量。PoC 的目标可能不一定是确定 III 期研究中使用的剂量,因为这样的决定通常基于 IIB 期剂量范围试验。然而,由于多种剂量水平,一些统计学家可能觉得有义务使用 MCP。如果再次考虑 Bonferroni 校正,则应在 α/2 水平上检验每个假设。

由于通常使用有限的样本量,PoC 研究所选择的剂量可能无法达到α/2水平的统计显着性。例如,假设α=0.025,则测试每个剂量的显着性水平将为0.0125。如果单侧p值为pL  = 0.060 且pH对于低剂量和高剂量分别=0.026,结果未通过Bonferroni校正。然而,这些证据可能被认为是有希望的,并为围棋决策提供了足够的信心。通过改变剂量水平以及样本量和其他设计特征(例如治疗持续时间),候选人可能会在III期项目中表现出统计显着性。在这种情况下,问题应该是如果药物确实无效的话观察到这样的结果的可能性有多大?应控制哪种错误率才能为Go/NoGo决策提供高置信度?

控制GO/NoGO决策的错误率

错误率

在假设检验中,一个基本原则是控制做出误报决策的概率,即第一类错误率。在上面讨论的两种情况下,实验对两组假设进行了两次成对比较,其中习惯性地应用 MCP。当引入多个假设时,错误率控制在经典统计文献中得到了广泛讨论,以将族错误率(FWER)或实验错误率(EWER)控制在α Hochberg和Tamhane 1987的水平上。然而,EWER或FWER在不同的研究设计和不同的目的中可能具有不同的含义。

为了解决之前提出的问题,引入候选错误率来进行 Go/NoGo 决策可能会有所帮助。这种候选错误率直接控制着各个候选药物的决策错误率。候选者的 I 型和 II 型错误率分别是错误地将无效药物转移到 Go 决策和错误地将有效药物转移到 NoGo 决策的错误率。

案例一

案例1中PoC研究的目标是对每种候选药物A或B或两者做出Go/NoGo决定。实验性零假设包括作为(1)中的两个单独零假设的交集的假设,即H0 : H0A  ∩ H0B。H0意味着这两个候选人都无效。控制EWER的需要是建议一种候选药物的Go决策需要考虑试验中候选药物的数量。如果应用Bonferroni校正,如果EWER控制在α,则每个候选者都应该在α/2的显着性水平上进行测试。如果试验中包含三个候选药物,则每个候选药物的决策错误率需要控制在α/3。这种逻辑与药物开发的常见做法相反。EWER的控制可能会限制有效研究设计的使用,并在决策过程中增加更多混乱。如前所述,如果进行单独的试验来检验相同的两个假设,大多数统计学家不会建议应用多重性调整。一名候选人的Go决定不应受到更严格的标准,因为另一名候选人正在同一试验或单独的试验中接受测试。错误率控制应适合研究目的而不是研究单位。因此,候选错误率应控制在α水平。

设计一项PoC试验来评估两种候选药物的策略可能存在潜在风险。风险之一是安慰剂反应效果不佳。如果较高的组平均值表明反应更好,则“安慰剂反应表现不佳”意味着观察到的安慰剂组平均值低于真实的安慰剂平均值。在这种情况下,观察到的候选A和安慰剂之间以及候选B和安慰剂之间的治疗差异可能都是假阳性。白等人。对这种错误率进行了详细讨论,并根据模拟和数值积分获得的数值结果表明,这种错误率并不重要。

可能出现的另一种情况是,当一次可用的资源有限时,可能会计划一次只推进一种药物。然后,决定在两种候选药物之间选择哪一种可以取决于两种候选药物的相对表现。此外,应通过比较可用的完整功效和安全性来选择两种有效的候选药物。多重性调整与此无关。

因此,建议案例1讨论的实验中的错误率不需要进行MCP调整。(1)中的每个假设都可以在α水平上进行检验。那是为了控制候选药物的错误率,而不是 EWER。

案例2

在案例2中,包含两剂剂量,以强化Go/NoGo决策。它可能无法用于确定个体剂量是否是治疗患者的最佳剂量。如果设计得当,PoC 研究可能会将概念验证和剂量范围这两个目的结合起来。这个主题超出了本手稿的范围。因此,对于案例2,假设检验将集中在候选药物无效的零假设上。该零假设 H0可以写为 (2) 中描述的两个单独零假设的交集,即H0 : H0L  ∩  H0H,以及相应的替代方案H1: H1L U H1H。假阳性意味着在事实上候选人无效、两种剂量都不起作用的情况下做出了决定。在这种情况下,FWER 或 EWER 与复合错误率相同。这个错误率是应该控制的,但是,只需要控制得较弱。弱控制通常对应于称为全局测试的测试。

对于FWER的弱控制,可以考虑单向ANOVA模型中的F检验。其他可能的选择是使用类似于 MCP-MOD Pinheiro 等人的测试部分的趋势测试。如果预期剂量-反应关系是单调的,例如pL = 0.060 且pH = 0.026,则很容易看出观察到这种或更极端结果的概率 (pL ≤0.060和pH≤0.026)在零下很低。也就是说,当候选药物无效时,不太可能观察到这样的结果。

在抗精神病药物治疗领域,人们可能看不到单调增加的剂量-反应关系(正如许多抗精神病药物的标签中所见)。因此,当低剂量和高剂量的单侧p值分别为pL  = 0.015 和pH  = 0.800 时,可以认为该概念已得到证实。可能需要修改对比测试以涵盖剂量反应关系的非增加趋势。关于趋势检验的有用的一般性讨论也可以在 Li 和 Lagakos 的论文中找到。

Bonferroni 调整确实会控制 FWER,甚至会强烈控制 Henning 和 Westfall。然而,这种调整可能被认为是不必要的严格,因为 PoC 试验中研究的剂量可能并不总是能够在 α/2 水平上达到统计显着性。另一方面,即使研究结果满足 Bonferroni 调整,结果也可能无法为围棋决策提供高可信度。可能需要仔细评估全部证据来支持或反对 Go 的决定。一个极端的假设例子可能有助于说明这种担忧:假设在一项临床试验中,针对安慰剂测试了同一种药物的十种活性剂量,其中九种剂量提供了相对较大的p值,例如单侧测试约为 0.5,但只有一个剂量(不是最高剂量)在 α/10 下显着。尽管这样的结果满足邦费罗尼校正,但整体证据可能会导致围棋决策犹豫不决。因此,Bonferroni 校正在此类 PoC 研究中可能也不是明智的方法。

讨论

在药物审批中,FDA和药物开发商都承担着控制错误批准/向市场推出无效药物的错误率的责任。当 Li 和 Huque 推荐两项积极的 III 期研究作为有效性的实质性证据时,错误率控制水平为 0.000625 (= 0.0252)。同样,PoC 可以被视为药物开发关键里程碑的验证性试验。因此,错误率控制是此开发步骤中的一个关键考虑因素。重要的是要理解,本手稿中的建议并不建议放弃错误率保护。重点是了解错误是什么,以便可以应用合理的方法。

复合误差控制的概念也可以应用于包含来自多家公司的多种药物并与对照组进行比较的试验。一个著名的例子是埃博拉研究 Mulangu 的案例,其中测试产品是由不同的制药公司生产的。该研究反对多重调整,指出“当前高死亡率、间歇性疫情爆发以及需要尽快找到有效治疗方法的情况,主张减少严格的统计惩罚……瑞德西韦、MAb114和REGN-EB3与ZMapp以5%的双边I型错误率进行测试,未进行多重性调整……”这项研究实际上控制了候选错误率。

II期临床开发的许多目标可以纳入PoC研究中。除了从多个候选药物中进行药物选择以及后期的剂量/方案选择之外,申办者还需要考虑选择患者群体、治疗持续时间、新疾病适应症的终点以及患者报告结果的工具。一个主要问题是主要终点的选择,因为主要终点在理解治疗效果、样本量考虑、研究实施和数据分析方面发挥着重要作用。此外,第二阶段研究的目标还需要考虑利益/风险状况的初步评估、潜在的营销竞争等。许多目标还将在Co/No/Go决策的决策过程中发挥作用。

PoC是药物开发的重要一步。需要及时做出通过/不通过的决定,以避免开发计划的延误,因为专利独占权的到期始终是药物开发的一个考虑因素。由于PoC结果不明确而导致这一决定的任何延迟都将缩短该候选者的专利寿命。如果做出的决定信心不足,则可能需要在药物开发的后期阶段采取谨慎的步骤。例如前面讨论的中枢神经系统药物的情况,在低剂量附近添加额外剂量并获得客观终点的评估可能会进一步加强药物开发下一步的证据。

本文翻译自 Proof of Concept: Drug Selection? Or Dose Selection? Thoughts on Multiplicity Issues