PD-L1 是肿瘤免疫治疗应用最广的生物标志物。由于不同 PD-1 药物和检测试剂的组合,目前 PD-L1 的检测和判读存在一定的挑战。自从 2019 年以来,已有 22C3, 28-8, SP263, SP142 等多款 PD-L1 检测试剂获批上市,分别伴随不同的 PD-1/PD-L1 治疗药物。这几款获批试剂的检测平台、染色程序、阅片方法、cutoff 值判定存在差异;此外不少医疗机构出于条件所限,选择实验室自己开发(LDT)的方式进行 PD-L1 检测,导至国内各医疗机构 PD-L1 检测质量参差不齐,亟需开展室间质评提升质量。PD-L1 检测的质评工作不限于抗体,而是对检测平台、抗体克隆号、染色程序、封闭/开放检测、阅片方式等整个检测系统的质量进行评估。他山之石可以攻玉,NordiQC(Nordic Quality Control)和NEQS(National External Quality Service)开展的国际多中心室间质评为我们提供了宝贵的经验借鉴。北欧 NordiQC 免疫组化质控中心是国际权威的病理室间质评机构,一直致力于推进免疫组化流程的标准化和实验条件的优化。NordiQC 对 PD-L1 用于非小细胞肺癌(NSCLC)的室间质评已趋于成熟,采用统一的组织芯片(TMA)作为室间质评材料、肿瘤比例评分(TPS)作为统一的阅片方法、统一的染色评价标准。NodiQC 的室间质控能够对 PD-L1 整个检测体系都进行质量评价,受到越来越多实验室的欢迎和参与,参与实验室从第 1 次的 63 家增长到第 4 次的 163 家。NordiQC 用于室间质评的 TMA 由三部分构成,分别是细胞系质控、质控组织、NSCLC组织,详见表 1。考虑到临床样本可能出现的不同状况,待评估NSCLC组织包含了 PD-L1 不同的表达水平,大体分为不表达(<1%)、低表达(1-49%)、高表达(≥50%)。表1. NordiQC 用于 PD-L1 室间质评的 TMA 组成* TPS 评分参考数据由 NordiQC 参考实验室采用 Agilent PD-L1 IHC 22C3 pharmDx 和 Agilent PD-L1 IHC 28-8 pharmDx 检测后确定。NordiQC 按照统一的评估标准,将 PD-L1 染色结果评为优(optimal)、良(Good)、及格(borderline)、差(poor)。以下为具体标准介绍。染色评估为优的评估标准包括:染色在所有纳入的组织中被认为是完美的或接近完美, NSCLC 样本的 TPS 评分与 NordiQC 参考数据一致。染色评估为良的评估标准包括:染色在所有纳入的组织中被认为是可接受的,但可以优化染色方案至最佳染色强度、对比度、形态学和信噪比,NSCLC 样本的 TPS 评分与 NordiQC 参考数据一致。染色评估为及格的评估标准包括:染色被认为是不充分的,例如整体染色太弱,纳入的组织出现假阴性染色或假阳性染色,染色方案需要优化,NSCLC 样本的 TPS 评分与 NordiQC 参考数据不一致。染色评估为差的评估标准包括:染色被认为极其不充分,例如出现大面积假阴性染色或假阳性染色,染色方案亟需优化,NSCLC 样本的 TPS 评分与 NordiQC 参考数据不一致。我们将染色评估为优和良的结果合并为染色通过(sufficient),及格和差的结果合并为染色失败(insufficient),计算获得 4 轮室间质评的通过率。从 C1 到 C3,参加实验室增加了一倍,通过率显著提高。从 C3 到 C4,参加的实验室从 146 增长至 163,通过的实验室数量保持稳定(133 增长至 140),通过率由 91% 微降至 86%。4 轮室间质评通过率的结果详见表 2。从 4 轮室间质评染色失败(insufficient)的情况来看,平均失败率为 22%。我们对这些未能通过的染色结果进行了原因分析,详见图1。染色失败的情况既出现在 PD-L1 结果与参考数据不一致,也出现在染色过程中的技术问题。未能通过的原因可分为:1)假阴性结果,最主要原因,占全部原因 78%;2)假阳性结果,占全部原因 11%;3)其他原因,信噪比太差以及其他染色技术问题,占全部原因 11%。表 2. 参与 4 轮 NordiQC 室间质评的通过率我们又进一步分析了参与 4 轮室间质评国际多中心实验室的检测体系,按照 PD-L1 检测试剂是否为 CE-IVD/FDA 审批试剂,是否完全按照厂家的封闭系统进行操作,分为 CDx 和 LDT 两大类。其中 CDx 需要同时满足 CE-IVD/FDA 审批的 PD-L1 试剂以及完全用于厂家封闭系统,未获批的 PD-L1 试剂或者用于开放系统都属于 LDT。我们发现 CDx 和LDT的通过率存在较大差异。选择 CDx 实验室,PD-L1 质评通过率很高,从 C2 到 C4 稳定保持在 95% 左右,批间差较小;选择 LDT 实验室,其 PD-L1 通过率较低,且上下波动较大(70%~90%),不利于稳定开展。从实验室的选择来看,选择 CDx 的实验室从 C1 到 C4 稳步增加到 97 家,而选择 LDT 的实验室数目从 C2 到 C4 基本维持在 65 家左右,选择 LDT 与 CDx 的实验室差距越来越大。详细结果参见表 3. CDx 与 LDT 的通过率比较。UK NEQAS 也是国际权威的病理质控机构,侧重于免疫组化和原位杂交的外部质量保证(EQA),NEQAS 对常见的 PD-L1 检测试剂(Agilent PD-L1 IHC 22C3 pharmDx,Agilent PD-L1 IHC 28-8 pharmDx, Ventana PD-L1(SP263) Assay, Ventana PD-L1 (SP142) Assay, Abcam PD-L1等)用于非小细胞肺癌(NSCLC)的外部质量保证评价。采用 FF PE 样本进行了三轮 EQA(预实验,A轮和B轮)。待评估的样本包含细胞系、扁桃体组织,NSCLC 组织,以及参与实验室自制的内部质控。样品组包括一系列 PD-L1 抗体表位浓度,包括接近临界值的“关键样本”。由 4 人组成的专家小组在多头显微镜上独立地评估所有返回的载玻片,包括参与实验室的内部质控。除了扁桃体样本被评估为“可接受”或“不可接受”,对于其他样本,PD-L1 染色的肿瘤细胞百分比按预定类别进行评估(<1%、1 至 <5%、5 至 <10%、 10 到 <25%、25 到 <50%、50 到 <80%、80 到 100%)。在预实验和随后的两次运行中,参与实验室的数量分别为 43、69 和 76。NEQAS采用与NordiQC类似的染色评估标准,染色结果按照评估标准分为优良(acceptable),及格(borderline acceptable),差(failure)。优良和及格的结果合并为染色通过(pass)。研究发现三轮 EQA 的通过率逐渐提高,预实验的通过率为67%,A轮通过率增加到 81%,B 轮增加到 82%。常见 PD-L1 检测试剂在 A 轮和 B 轮的 EQA 评估结果,详见表 4 所示。在两轮评估中, Agilent PD-L1 IHC 22C3 pharmDx检测结果的优良率位居第一(A轮79%,B轮88%),排除 2 例 PD-L1 IHC 28-8 和 3 例 PD-L1(SP142) 的特殊情况。同时 Agilent PD-L1 IHC 22C3 LDT 的优良情况也是众多 LDT 中最好的,A 轮出现 3 例优良,B 轮出现 6 例优良。SP263 LDT 结果未出现优良/及格。我们对于 A 轮和 B 轮评估的 PD-L1 试剂属于封闭系统还是开放系统,分成 CDx 和 LDT 两大类,进一步评估它们的优良率和通过率,详见表 5。进一步评估结果显示,CDx 的染色优良率、通过率、稳定性远远好于 LDT。CDx 的优良率和通过率在 A 轮和 B 轮保持稳定,染色优良率达到了 78%,通过率分别为 89%(A轮)和 91%(B轮)。LDT 的优良率和通过率较差,而且波动较大不稳定。LDT 在 A 轮的优良率仅为 18%,通过率为 64%;LDT 在 B 轮的优良率为 45%,通过率为 59%。EQA 质控评估,纳入的样本组包括一系列 PD-L1 抗体表位浓度,包括接近临界值的“关键样本”。细胞系和 NSCLC 组织样本的表位浓度与 PD-L1 的强度关系如图 2A 所示。对于 PD-L1 已确定的强阳性、阴性细胞系(图 2A,B-D)、NSCLC 组织样本(图 2A,E和H) 不同 PD-L1 克隆号的检测试剂和 LDT 之间,以及不同的检测试剂之间未观察到显著差异。样本组中包括了 2 例关键样本,分别是弱阳性 PD-L1 IHC 样本(图 2A,F)和靠近 IHC 强阳性平台期的样品(图 2A, G) 。对于这两例“关键样本”,在 A 轮 和 B 轮评估 中,22C3 IHC 的 PD-L1 表达明显高于 SP263 IHC(p < 0.001),对于其他 6 例样本,22C3 和 SP263 的检测结果都较为接近。上述情况提示我们 SP263 和 22C3 两种检测试剂在表位浓度存在差异,尤其是对临界值样本,SP263 相比于 22C3,需要较高的表位浓度才能显示阳性结果,详见图 2B。