人工智能产品的临床验证
目前图像分析类人工智能产品逐渐火热,其主要原因可能是:①图像类人工智能产品所处理的数据相对单一,一般只对图像数据进行处理和分析;②图像类人工智能产品对硬件的要求相对不高,并不需要像手术导航系统一样,需要与专门的硬件进行配合使用;③图像类人工智能产品的算法成熟,它的算法已经很早被应用于人脸识别等日常的图像识别中;④临床诊疗过程中,对图像分析的需求量巨大,CT、MRI、眼底照片、病理切片等都可以进行人工智能图像分析。
鉴于目前图像分析类人工智能产品开始越来越多的进行临床试验,本文就对这类人工智能产品进行分析论述,希望可以引发大家对这类产品临床试验设计的思考。
人工智能产品的本质
常规条件下,医生读片存在一些难以避免的问题。如,①由于人在判断结果时,常常受环境、工作压力、经验等的影响。读片结果不够精确,特别是对于小病灶数量、长度、体积、颜色、性状等;②医生在判断图像时易产生疲劳,随着疲劳的加深,出错的概率也不断增加。这是人工判读相对于人工智能最大的劣势;③熟练的图像判读医生需要长时间的培养,而人工智能由于不存在疲劳,其学习能力是非常强大的。
图像分析主要目的是为医生提供辅助诊断结果,而人工智能图像分析类产品主要就是解决上述问题,为医生提供更好的诊疗服务,保证辅助诊断结果的可靠性。因此,虽然目前人工智能图像分析类产品各种各样,但如果将其各种预期用途简化,其本质就是“诊断产品”。那么临床试验设计思路就需要按诊断试验的方法进行,而诊断试验的主要目的是验证待评价方法与“金标准”或参考方法对某种测量参数判断结果的一致性以及其程度。
设 计 类 型
对于诊断类临床试验,常用的设计类型一般是配对设计、同步盲法比对、横断面研究。
所谓配对设计是指将受试对象按照某些重要特征(如性别等可疑混杂因素)配成对子,再将每对中的两个受试对象随机分配到两处理组。对于诊断试验,其配成的对子是同一受试者的两幅相同的医学图像,这两幅医学图像分别由人工智能与“金标准”或参考方法对其进行分析。
同步盲法比对是指两幅医学图像各自独立的由人工智能与“金标准”或参考方法对其进行分析。由于图像分析存在一定的人为主观性,为避免这种主观性,两者在进行图像分析时互不讨论结果,各自独立的作出最终判断。其主要目的是保证结果的客观独立,这样才能保证结果的可靠。
横断面研究是指通过对特定时点(或期间)和特定范围内人群中的有关变量与疾病或健康的状况关系的描述。由于诊断试验仅仅只是对试验那一刻的情况进行分析,极少存在临床随访的情况,一般而言绝大多数诊断试验是横断面研究。但对于一些全新的诊断项目,由于没有可靠的方法对其诊断准确性进行判断,此时全新的诊断项目的临床价值就需要通过长期的临床随访进行验证,以分析诊断结果与临床结局之间的相关性。当然由于人工智能产品主要的应用场景为:“需要重复学习才能掌握的技术,且诊疗技术已经固定的医疗情景”。这种情况较少出现。
定量还是定性诊断
在进行诊断试验设计前,企业首先要明确的问题的产品属于定量诊断还是定性诊断。
所谓定量诊断就是:产品主要是用于测量图像中靶病灶的相关参数,比如数量、长度、体积等。其特点是:这些指标的数值都是连续性变量、基本上是有单位的。
所谓定性诊断就是:产品主要是根据图像分析结果对疾病、诊断、预后进行分类,如是否有患病、是否需要转诊、是否需要干预等。其特点是:这些指标都是分类变量、基本上没有单位、常常计算其比例。
需要说明的是:在某些条件下,定量指标是可以转换为定性指标。如,以1cm为分界点(cutoff值),当CT图像中发现大于1cm的结节时可认为存在“阳性”结节,当CT图像中发现小于1cm的结节时可认为存在“阴性”结节。此时根据分界点就可以将定量指标转换为定性指标。
由于定量和定性诊断的评价指标并不一样,评价的重点也不一样,特别是对于即可以定量也可以定性诊断的产品。此时,企业需要考虑该产品的侧重点在定量还定性。建议企业根据产品的适应证或适用范围进行取舍,如果产品的适应证或适用范围是以区分是否需要转诊、是否需要干预,而定量诊断只是辅助时,则应以定性诊断试验为主。反之亦然。
适应证或适用范围
适应证或适用范围是指产品所针对的疾病、症状、人群或使用条件。产品的适应证或适用范围如何定位直接关系到临床试验入组人群的选择,也直接影响最终产品说明书的批准。因此,企业在撰写适应证或适用范围应仔细斟酌用词,应结合产品的特点,客观的描述产品的适应证或适用范围,切忌不要为了突出产品特点而有意夸大适应证或适用范围。
根据目前图像分析类产品的的研发规律、所存在的问题以及医学伦理等,建议企业在撰写适应证或适用范围时应选择“辅助诊断”的描述,而谨慎使用“诊断”的描述。因为现阶段的人工智能产品还不能完全替代医生的诊断,或者其临床价值还没有得到真正的认可。
在撰写产品所涉及的疾病或症状时,要区分针对的是某种特定的疾病还是某种特定的症状。如“用于视网膜眼底病变的筛查”还是“用于糖尿病视网膜眼底病变的筛查”。由于导致视网膜病变的疾病主要有糖尿病、青光病、老年黄斑变性、病理性近视等,前一种描述所涵盖的目标人群比后一种要多。又如“用于阳性肺结节的筛查”还是“用于肺癌的筛查”,虽然阳性肺结节是判断肺癌的重要影像类指标,但并不是诊断肺癌的唯一标准。如果产品适用范围写“用于肺癌的筛查”,那么势必超出产品的技术性能,也会超出常规的临床认知。将会导致最终试验结果难以达到预期所设定的目的,也会导致在入选阳性病例时只能选择已经明确诊断为肺癌的患者。
因此,企业在描述产品的适应证或适用范围时,应结合产品的研发数据,判断产品的研发数据是针对于“疾病”还是“症状或体征”,如果研发数据是针对“症状或体征”的判断,那么在适应证或适用范围就不要夸大为针对某种“疾病”。
同时,根据现有的临床诊断标准,目前只有很少的疾病诊断只是单纯依靠影像学数据就可以作出判断,所以企业在撰写适应证或适用范围还应该结合临床常识。
金标准的的选择
诊断试验的主要目的是验证待评价方法与“金标准”或参考方法对某种测量参数判断结果的一致性以及其程度。因此,“金标准”或参考方法选择就至关重要。
所谓“金标准”指的是指在现有条件下,公认的、可靠的、权威的诊断方法。临床上常用的“金标准”有组织病理学检查、影像学检查、病原体分离培养鉴定、长期随访所得的结论及临床常用的其他确认方法等。需要说明的是,受医疗技术条件所限,“金标准”是相对的概念,即便是“金标准”也存在漏诊或误诊的情况。
而参考方法指的是与待评价方法具体可比性的已上市产品。所谓可比性指的是适应证或适用范围、基础算法、使用条件基本相似的同类产品。但由于目前图像分析类人工智能产品的算法各不相同,且已上市的同类产品很少,所以目前图像分析类人工智能产品还是选择“金标准”作对照。
图像分析类人工智能产品主要是对医学图像进行分析,因此这类产品的“金标准”一般都是医生判读结果。但在选择医生判读结果作为“金标准”应注意以下问题:①一般而言,图像数据是相对难以量化的,在结果判断时存在一定的主观影响。如果影像数据的判断标准不统一时,其“金标准”的可靠性是难以让人信服的,所以在进行临床试验前“金标准”的判断标准需统一,最好是采用公认的判断标准。如果是采用量表作为“金标准”,需要保证量表的信度和效度是经过检验的;②在图像数据结果判断时,不同中心间研究者技术水平、临床经验可能存在差别,即便统一“金标准”的判断标准,也可能存在不同中心间的判断结果存在系统性误差。为解决这类系统性误差,图像数据可以采用中心化阅片的方式进行。即所有图像数据都统一交给有资质的第三方机构进行分析,并以第三方机构的判读结果为准;③由于图像数据的判断存在人为主观性,在采用“统一的“金标准”判断标准”和“中心化阅片后”,第三方机构的判读结果也可能存在内部不一致的情况。比如不同时刻、不同研究者对同一图像的判读可能存在不一样的情况。这类问题可采用设置3名图像分析人员的方法来解决。先由前两名研究者对同一图像进行独立的分析,当结果一致时则采纳;当结果不一致时,则由第三名研究者作出判断或三名研究者坐在一起讨论。
目标人群的考虑
对图像分析类人工智能产品的临床价值判断,除了要了解其发现目标疾病的能力,还要了解其排除非目标疾病的能力。因此,在受试者选择时既要包括“阳性”患者,也要包括“阴性”患者;既要包括有阳性体征的患者,也要包括阴性体征患者;既要包括有病情较轻的患者,也要包括病情较重的患者;既要包括有典型的患者,也要包括非典型的患者或易混疾病患者。
总体上,临床试验应有两个组别。其中一个为病例组,该组的受试者应:①全部为“阳性”患者或有相关体征的患者;②这些患者疾病应覆盖疾病各阶段,轻、中、重病人都应该有。另一个为对照组,该组的受试者应:①全部为“阴性”患者或没有相关体征的患者;②阴性病例多选择易于与阳性病例混淆的疾病。此外,对于定量检测,保证一定比例的受试者测量结果在正常参考值范围以外。
受试者的选择直接决定了临床试验的临床价值,如果受试者选择的代表性出现问题,特别是对照组患者选择不当,其临床结果将是不可靠的,结果也难以在一般人群中进行推断。
评价指标选择
根据图像分析类人工智能产品的最终分析结果,其评价指标主要为定性指标和定量指标。定性指标主要有:灵敏度、特异度、符合率和Kappa值。定量指标主要有:离群点检查、回归拟合方程、Pearson相关系数、Bland-Altman图、医学决定水平处偏倚。以往的医疗器械临床试验都会设置主要评价指标,但由于诊断试验的特殊性,上述评价指标对产品的评价都是很重要,而且各自的侧重点常常不一样,所以有时图像分析类人工智能产品很难确定主要评价指标。
灵敏度指的是:实际有病(或存在某物质)而被正确地判为有病(或存在某物质)的百分比。它反映待评价方法发现病人(或存在某物质)的能力。多用于有“金标准”做参比的临床试验,多用于两分类的诊断试验,1-灵敏度=假阴性率,常于“特异度”配合使用。
特异度指的是:实际无病(或不存在某物质)而被正确地判为无病(或不存在某物质)的百分比。它反映待评价方法发现病人(或不存在某物质)的能力,多用于有“金标准”做参比的临床试验,多用于两分类的诊断试验,1-特异度=假阳性率,常与“灵敏度”配合使用。
符合率指的是:待评价方法判定的结果与标准诊断(如同类产品)的结果相同的数占总受检人数的比例。定性诊断临床试验普遍适用,包括总符合率,以及各分类的符合率。
Kappa值为综合分析考虑机遇因素对结果一致性的影响。当k>0.8,待考核试剂和参比试剂的检测结果高度一致;当0.40≤k≤0.8,基本一致;当k<0.40为不一致。定性诊断临床试验普遍适用。
离群点检查用以判断某一个检测结果异常的情况;回归拟合方程依据最小二乘法,以待评价方法检测结果y对“金标准”或同类产品检测结果x拟合直线方程,通过对斜率与截距的计算,考察待评价方法的系统误差;Pearson相关系数分析待评价方法与“金标准”或同类产品是否确有直线相关关系;Bland-Altman图直观判断待评价方法与“金标准”或同类产品的一致性;医学决定水平处偏倚判断在分界点(Cut off)测量的可靠性。
样本量的计算
由于定量诊断可在一定条件下转换为定性诊断,定性诊断为较为固定的样本量估算公式。因此,人工智能样本量一般采用定性诊断样本量计算公式。下文以定性诊断样本量计算公式为例,来讲解样本量计算过程。
根据《医疗器械临床试验方案设计指导原则》后的诊断试验样本量公式,定性的样本量估算需要分阳性受试者和阴性受试者两部分,分别按照诊断试验样本量估算公式(1)进行计算。
Z1-α/2为正态分布分位数,V(θ̂)为方差函数,通常V(θ̂)=θ(1-θ),θ为灵敏度或特异度,为估计误差,可以取参考文献报道的置信区间宽度的1/2以下。
以灵敏度为例,某诊断眼底病变的人工智能软件预期灵敏度为89%,规定双侧α=0.05(Z1-α/2=1.96),灵敏度估计误差为±0.05计算得阳性受试者为151例。考虑合适的脱落率(通常不超过20%)来使样本量达到189例,以保证纳入分析的阳性受试者至少为151例。
然而,根据《医疗器械临床试验方案设计指导原则》后的诊断试验样本量公式算出的阳性病例数和阴性病例数是理论数值,但是实际的诊断试验过程中,由于我们无法提前预知目标人群的阴阳性比例,所以在分组前必须先用“金标准”或其他方法先将患者的阴阳性区分出来,然后再从这些患者中选择阴阳性受试者。由于实际目标人群中的阴阳性比例与理论值的比例不一样,这就导致实际参与筛选的患者要多于理论值,且这个筛选的患者数量与目标人群中的阳性率相关,阳性率越高,需筛患者就越少。
为了有更高的概率获得阳性受试者,可以考虑在眼科专科医院进行试验,假设来该专科医院就诊的病人有50%机会患有眼底病变,则可以通过公式(2)计算阳性受试者和阴性受试者总数Ntotal。
假设Prev=50%,n=189,Z1-β取正态分布曲线下95%对应的界值1.645,计算得至少纳入412例病人。因此,我们可以有95%的把握认为412例病人中至少有189例受试者患眼底病变。
因此,样本量估算时会看到两组数据,一组是阴阳性患者理论值,一组是受试者筛选数量。
预期灵敏度、特异度受核心算法、软件学习所使用的影像资料等各方面因素的影响而不同,故文献资料报道的灵敏度和特异度可能并不适用于各人工智能研发公司的软件。建议各公司将影像资料分为训练数据集、测试数据集两部分。训练数据集用于软件学习,数量占较大的比例。测试数据集用于测试软件的诊断性能,类似于小样本试验。初步测试人工智能软件的灵敏度和特异度,并提供参数给统计师进行样本量估算。
需要注意的是,不建议将训练所用的影像数据作为测试数据集进行性能测试。正如我们记下了几道数学题的解题过程,反过来去解答这几道数学题,这样可能不能真实反映软件的诊断性能。
试 验 流 程
在确定待评价方法为定性还是定量、评价对象是何种情况后,就可以根据下列技术路线设计临床试验。技术路线一般都是同一份影像数据分别用两种方法进行评价,最后判断结果的一致性。对于定性诊断,最为关键的是根据结果绘制四格表,当四格表绘制出来,相关结果也就可以统计出来。对于定量诊断,最为关键是的分别测量出同一参数的结果。
其他注意事项
图像分析类人工智能产品进行临床试验时除了考虑上述问题外,还有一些问题是需要注意的。
1.重复使用受试者数据。由于这类产品只是对患者的图像数据进行分析,有时可能存在重复使用同一名患者不同时期的图像数据。从临床试验质量角度看,这种情况应避免出现,当然如果是有意对测量结果的可重复性进行分析时除外。建议企业在收集图像时应对受试者的个人信息进行标注;
2.受试者知情同意签署。一般来说,这类产品的临床试验都是对患者图像数据进行被动采集,即使用医院已经保存的图像数据进行分析,并不涉及与受试者的直接接触。但由于临床试验不能在受试者不知情的情况下开展,此时受试者知情同意签署将是这类临床试验面试的首要伦理问题。建议企业与研究机构对这个问题进行深入探讨;
3.“金标准”与人工智能算法的一致性。如果“金标准”与人工智能算法天生的存在不一致的情况,特别是产品研发时没有采用“金标准”标注的数据,其算法结果与临床试验结果的差异需要企业认真考虑;
4.高质量图像获取率。图像分析类人工智能产品的计算成功率有赖于图像质量,如何获取高质量的图像可能是临床试验前需要企业关注的一个重点,在必要的时候可能需要对图像拍摄者进行培训;
5.图像采集设备的适配性。由于图像分析类人工智能产品研发一般是基于一些特定的数据格式或者特定的影像设备,在进行临床试验前企业前考虑参研单位硬件条件是否可以满足试验要求;
6.精密度分析。为客观评价产品的性能,企业可能需要对分析结果的测量精密度进行分析,以判断产品测量的稳定性。即,同一个人同一个时期内的多幅照片进行分析时,结果的一致性;
7.“金标准”评价者培训。“金标准”是判断产品临床价值的核心,对于主观性较强的“金标准”,建议参研单位对其进行统一的培训,必要时可以选择一些高年资的医生参与“金标准”判断。
准备好开始了吗?
那就与我们取得联系吧