医疗器械临床试验中的统计学问题
《医疗器械临床试验规定》第十四条要求, 医疗器械临床试验方案应当针对具体受试产品的特性, 确定临床试验例数、持续时间和临床评价标准, 使试验结果具有统计学意义. 因此, 医疗器械临床试验中的统计学问题是至关重要的, 主要体现在以下几个方面:
(一)试验的数据管理
为了保证临床试验的质量, 申办者应指派有经验的监查员对临床试验的全过程进行监控. 监查员在研究者和数据管理员之间起着桥梁作用. 为了保证数据的可溯源性, 应做好以下几点工作:
1、对每一临床试验的所有受试者, 均应建立原始观察记录表(如病历)和一式三联、无碳复写的病例报告表(CRF ).
2、在试验实施过程中的每次随访后, 研究者要及时、准确、完整、无误清晰地填写病例报告表. 试验结束后, 病例报告表的原件应由监查员送交数据管理员, 其余两份复印件分别由研究者和申办者各执一份, 以便在试验监查及数据管理发现错误时对CRF 进行及时、有效的修改和更正.
3、数据管理员应根据病例报告表建立数据库, 并保证数据库运行的正确性.
对于研究时间很长、随访次数很多的临床试验, 为了早日发现临床试验实施及CRF 填写中的问题、缩短数据管理和统计分析的时间, 可以采取每完成一次随访送一次CRF 到数据管理和统计分析机构的做法.
4、数据管理员还应对每一份病例报告表进行初步审核(目视检查). 初步审核通过后, 由两名计算机数据录入人员分别独立地将病例报告表输入数据库中(两遍录入), 并用软件对两遍录入的结果进行比较(两遍核对的原则). 如果两个数据库中数据不一致, 需对照原始病例报告表查出原因, 进行范围和逻辑检查.
只有在试验的全过程进行了严格的质量控制, 才能建立高质量数据库, 完成试验计划并达到最初的目的.
5、临床统计学专家应根据临床试验方案和病历报告表, 采用国内外公认的标准统计方法和统计分析软件对数据进行分析, 并写出统计分析报告, 以便提供给研究者作为撰写临床试验报告的依据.
(二)样本量的计算
临床试验的目的是在目标人群的样本中收集有关医疗器械安全性和有效性的证据, 然后用统计分析将试验结论推广到真实世界中与试验人群具有相同特征的全部人群. 因此, 必须选择有代表性的样本进行临床试验, 才能保证得到科学、有效的结论.
通常, 为了评价试验器械的有效性和安全性, 应分别基于主要疗效评价指标或安全指标计算样本量, 取其大者作为临床试验样本量.
但是, 基于安全性评价指标计算得出的样本量往往很大, 对于目前国内厂家实力, 临床试验难以实施. 因此, 目前国内医疗器械临床试验的样本量计算往往基于主要疗效评价指标. 样本量计算时, 首先应基于研究目的建立研究假设. 研究假设分为零假设(或无效假设)和备择假设. 例如, 如果研究问题是“对于某个疾病, 用试验器械治疗后, 试验器械组疗效优于对照组吗”? 针对该问题的两个假设是:
1、零假设H0. 治疗组疗效不如对照组疗效.
2、备择假设H1. 治疗组疗效优于对照组疗效.
实施者和研究者的目的就是要否定零假设, 接受备择假设, 即治疗组疗优于对照组疗效, 并将从样本得出的结论推断到总体.
在上述统计推断过程中, 可能会犯两类决策错误, 分别是Ⅰ类错误(也称为α错误或假阳性错误)和Ⅱ类错误(也称为β错误或假阴性错误). 我们通常将α叫做显著性水平, 把1-β定义
为检验效能, 或把握度.
一般而言, 临床试验中对Ⅰ类错误和Ⅱ类错误的大小是有明确规定的. 通常情况下,α不得超过5%(0.05),β不应大于20%(把握度不得低于80%).
在用于假设检验的样本量计算中, 不但要用到上述两个错误概率, 还应考虑检验的类型(有效、非劣效或等效), 进行非劣效或等效试验时必须指明有临床意义的治疗组与对照组疗效的差值, 即:由临床专家确定的具有显著临床意义的结果变量间的差别.
总而言之, 样本的大小通常按照受试产品具体的特性、主要疗效评价指标及其参数来确定. 应将样本量及其计算依据写在临床试验方案中. 一般来说, 进行样本量计算时, 统计量应参照对照组已公开发表的国内外文献资料、国际标准、行业标准、部标或待测产品预试验的结果来估算.
(三)偏倚的控制
偏倚又称偏性, 指在临床试验方案设计、实施及统计分析评价结果时, 有关影响因素所致的系统误差, 使得器械疗效或安全性的评价偏离真值. 偏倚干扰得出正确的结论, 在临床试验的全过程中均需防范其发生. 有以下两个重要的控制措施:
1、随机化
多中心临床试验中, 应采用中心随机的方法, 即保证各研究中心内的治疗组与对照组是均衡可比的. 随机分配表应由统计学专业人员使用国内外公用的统计分析软件产生, 且具有可重现性. 随机分配表是用文件形式写出的对受试者的处理安排, 即处理的顺序表.
2、盲法
临床试验的盲法根据设盲的程度不同分为双盲、单盲和非盲(开放). 所需要的设盲程度取决于潜在偏性的强度和严重性. 单盲设计使病人不知道自己进入的是治疗组还是对照组;双盲设计使病人和研究者都不知道那一组是治疗组.
医疗器械临床试验由于伦理、可操作性或器械的特殊性, 经常无法进行盲法试验, 此时可进行非盲的临床试验. 但是, 无论是单盲或非盲的临床试验, 均应制定相应的控制试验偏倚的措施, 使可能的偏倚达到最小.
(四)统计分析方法
临床试验中数据分析所采用的统计分析方法和统计分析软件是国内外公认的, 统计分析应建立在正确、完整的数据基础上, 应根据研究目的、试验方案和观察指标选择正确的统计方法. 一般可概括为以下几个方面:
1、描述性统计:一般多用于人口统计学资料、基线资料和安全性资料, 包括对主要指标和次要指标的统计描述. 如:指出均数、标准差、最大值、最小值、中位数、百分率等.
2、计量资料:采用T 检验、秩和检验等方法进行.
3、计数资料:采用卡方检验、校正卡方检验、Fisher 精确检验等.
(五)统计分析报告
临床试验结束后, 为了给研究者撰写临床试验总结报告提供依据, 应将收集临床试验数据的病例报告表送交专业的数据管理和统计分析机构, 以便对研究结果进行统计分析. 专业的数据管理和统计分析机构除对各分中心数据进行统计分析外(国家药监局5号令要求), 还应将所有各中心的数据合并在一起进行统计分析, 并写出总结统计分析报告. 统计分析报告中主要包括描述统计分析结果的表格和图形.
对器械进行有效性评价时, 应给出每个观察时间点(随访点)的描述性统计分析结果. 列出检验统计量、P 值. 例如, 两治疗组t 检验结果中应包含每组人数、均值、标准差、中位数、最小值、最大值、两组比较的t 值和P 值. 对于多中心临床试验, 疗效评价时应调整中心效应和基线效应(如果基线变量组间不均衡).
器械的安全性评价, 主要以描述性统计分析为主, 包括使用器械情况(使用器械持续时间
等)、不良事件发生率及不良事件的具体描述(包括不良事件的类型、严重程度、发生及持续时间、与试验器械的关系等);试验前后实验室化验值的变化情况, 特别是试验前正常、试验后异常且有临床意义的情况;异常改变及其与试验用器械的关系及随访结果等. 必要时可进行组间差异的显著性检验.
医疗器械临床试验中的统计学问题
《医疗器械临床试验规定》第十四条要求, 医疗器械临床试验方案应当针对具体受试产品的特性, 确定临床试验例数、持续时间和临床评价标准, 使试验结果具有统计学意义. 因此, 医疗器械临床试验中的统计学问题是至关重要的, 主要体现在以下几个方面:
(一)试验的数据管理
为了保证临床试验的质量, 申办者应指派有经验的监查员对临床试验的全过程进行监控. 监查员在研究者和数据管理员之间起着桥梁作用. 为了保证数据的可溯源性, 应做好以下几点工作:
1、对每一临床试验的所有受试者, 均应建立原始观察记录表(如病历)和一式三联、无碳复写的病例报告表(CRF ).
2、在试验实施过程中的每次随访后, 研究者要及时、准确、完整、无误清晰地填写病例报告表. 试验结束后, 病例报告表的原件应由监查员送交数据管理员, 其余两份复印件分别由研究者和申办者各执一份, 以便在试验监查及数据管理发现错误时对CRF 进行及时、有效的修改和更正.
3、数据管理员应根据病例报告表建立数据库, 并保证数据库运行的正确性.
对于研究时间很长、随访次数很多的临床试验, 为了早日发现临床试验实施及CRF 填写中的问题、缩短数据管理和统计分析的时间, 可以采取每完成一次随访送一次CRF 到数据管理和统计分析机构的做法.
4、数据管理员还应对每一份病例报告表进行初步审核(目视检查). 初步审核通过后, 由两名计算机数据录入人员分别独立地将病例报告表输入数据库中(两遍录入), 并用软件对两遍录入的结果进行比较(两遍核对的原则). 如果两个数据库中数据不一致, 需对照原始病例报告表查出原因, 进行范围和逻辑检查.
只有在试验的全过程进行了严格的质量控制, 才能建立高质量数据库, 完成试验计划并达到最初的目的.
5、临床统计学专家应根据临床试验方案和病历报告表, 采用国内外公认的标准统计方法和统计分析软件对数据进行分析, 并写出统计分析报告, 以便提供给研究者作为撰写临床试验报告的依据.
(二)样本量的计算
临床试验的目的是在目标人群的样本中收集有关医疗器械安全性和有效性的证据, 然后用统计分析将试验结论推广到真实世界中与试验人群具有相同特征的全部人群. 因此, 必须选择有代表性的样本进行临床试验, 才能保证得到科学、有效的结论.
通常, 为了评价试验器械的有效性和安全性, 应分别基于主要疗效评价指标或安全指标计算样本量, 取其大者作为临床试验样本量.
但是, 基于安全性评价指标计算得出的样本量往往很大, 对于目前国内厂家实力, 临床试验难以实施. 因此, 目前国内医疗器械临床试验的样本量计算往往基于主要疗效评价指标. 样本量计算时, 首先应基于研究目的建立研究假设. 研究假设分为零假设(或无效假设)和备择假设. 例如, 如果研究问题是“对于某个疾病, 用试验器械治疗后, 试验器械组疗效优于对照组吗”? 针对该问题的两个假设是:
1、零假设H0. 治疗组疗效不如对照组疗效.
2、备择假设H1. 治疗组疗效优于对照组疗效.
实施者和研究者的目的就是要否定零假设, 接受备择假设, 即治疗组疗优于对照组疗效, 并将从样本得出的结论推断到总体.
在上述统计推断过程中, 可能会犯两类决策错误, 分别是Ⅰ类错误(也称为α错误或假阳性错误)和Ⅱ类错误(也称为β错误或假阴性错误). 我们通常将α叫做显著性水平, 把1-β定义
为检验效能, 或把握度.
一般而言, 临床试验中对Ⅰ类错误和Ⅱ类错误的大小是有明确规定的. 通常情况下,α不得超过5%(0.05),β不应大于20%(把握度不得低于80%).
在用于假设检验的样本量计算中, 不但要用到上述两个错误概率, 还应考虑检验的类型(有效、非劣效或等效), 进行非劣效或等效试验时必须指明有临床意义的治疗组与对照组疗效的差值, 即:由临床专家确定的具有显著临床意义的结果变量间的差别.
总而言之, 样本的大小通常按照受试产品具体的特性、主要疗效评价指标及其参数来确定. 应将样本量及其计算依据写在临床试验方案中. 一般来说, 进行样本量计算时, 统计量应参照对照组已公开发表的国内外文献资料、国际标准、行业标准、部标或待测产品预试验的结果来估算.
(三)偏倚的控制
偏倚又称偏性, 指在临床试验方案设计、实施及统计分析评价结果时, 有关影响因素所致的系统误差, 使得器械疗效或安全性的评价偏离真值. 偏倚干扰得出正确的结论, 在临床试验的全过程中均需防范其发生. 有以下两个重要的控制措施:
1、随机化
多中心临床试验中, 应采用中心随机的方法, 即保证各研究中心内的治疗组与对照组是均衡可比的. 随机分配表应由统计学专业人员使用国内外公用的统计分析软件产生, 且具有可重现性. 随机分配表是用文件形式写出的对受试者的处理安排, 即处理的顺序表.
2、盲法
临床试验的盲法根据设盲的程度不同分为双盲、单盲和非盲(开放). 所需要的设盲程度取决于潜在偏性的强度和严重性. 单盲设计使病人不知道自己进入的是治疗组还是对照组;双盲设计使病人和研究者都不知道那一组是治疗组.
医疗器械临床试验由于伦理、可操作性或器械的特殊性, 经常无法进行盲法试验, 此时可进行非盲的临床试验. 但是, 无论是单盲或非盲的临床试验, 均应制定相应的控制试验偏倚的措施, 使可能的偏倚达到最小.
(四)统计分析方法
临床试验中数据分析所采用的统计分析方法和统计分析软件是国内外公认的, 统计分析应建立在正确、完整的数据基础上, 应根据研究目的、试验方案和观察指标选择正确的统计方法. 一般可概括为以下几个方面:
1、描述性统计:一般多用于人口统计学资料、基线资料和安全性资料, 包括对主要指标和次要指标的统计描述. 如:指出均数、标准差、最大值、最小值、中位数、百分率等.
2、计量资料:采用T 检验、秩和检验等方法进行.
3、计数资料:采用卡方检验、校正卡方检验、Fisher 精确检验等.
(五)统计分析报告
临床试验结束后, 为了给研究者撰写临床试验总结报告提供依据, 应将收集临床试验数据的病例报告表送交专业的数据管理和统计分析机构, 以便对研究结果进行统计分析. 专业的数据管理和统计分析机构除对各分中心数据进行统计分析外(国家药监局5号令要求), 还应将所有各中心的数据合并在一起进行统计分析, 并写出总结统计分析报告. 统计分析报告中主要包括描述统计分析结果的表格和图形.
对器械进行有效性评价时, 应给出每个观察时间点(随访点)的描述性统计分析结果. 列出检验统计量、P 值. 例如, 两治疗组t 检验结果中应包含每组人数、均值、标准差、中位数、最小值、最大值、两组比较的t 值和P 值. 对于多中心临床试验, 疗效评价时应调整中心效应和基线效应(如果基线变量组间不均衡).
器械的安全性评价, 主要以描述性统计分析为主, 包括使用器械情况(使用器械持续时间
等)、不良事件发生率及不良事件的具体描述(包括不良事件的类型、严重程度、发生及持续时间、与试验器械的关系等);试验前后实验室化验值的变化情况, 特别是试验前正常、试验后异常且有临床意义的情况;异常改变及其与试验用器械的关系及随访结果等. 必要时可进行组间差异的显著性检验.