最近,清华大学精仪系欧阳证课题组和化学系瑕瑜教授课题组合作在Analytical Chemsitry上发表论文“LipidOA: a machine-learning and prior-knowledge-based data analysis tool for glycerophospholipid structure annotation”。 第一作者为博士生张东晖,通讯作者为欧阳证教授和瑕瑜教授。该工作开发了一种数据分析软件,LipidOA,对Paternò–Büchi反应与亲水作用液相色谱-串级质谱联用的数据进行分析,实现高通量、准确的甘油磷脂C=C位置鉴定。
图1 LipidOA工作流程示意图
脂质的双键(C=C)个数、位置及构型与脂质物理、化学性质密切相关。已有多个课题组报道,疾病/癌症组织中C=C双键异构体受到异常调节,因此脂质双键水平的结构鉴定和定量十分重要。近年来,衍生化结合串级质谱被应用于基于质谱的脂质双键结构鉴定中。其中,Paternò–Büchi反应(PB)与串级质谱(MS/MS)联用的方法被广泛应用于不同脂质分析流程,但数据处理由人工手动解析,耗时长。因此,有必要发展可适用于双键水平的数据解析工具。在本工作中,作者报道了可对PB与亲水作用液相色谱(HILIC)-MS/MS联用数据分析的软件:LipidOA。此软件包括如下功能模块: 1)数据前处理,2)诊断离子匹配,3)从头鉴定(De novo Annotation)和4)包含机器学习和先验知识的结果评级方法。
在数据前处理中,LipidOA使用低质量谱图监督和峰值聚合的方法用于谱图过滤和谱峰筛选。在诊断离子匹配中,LipidOA根据PB-MS/MS碎裂模式计算中性丢失分子的精确质量,从而匹配诊断离子,并基于同位素过滤算法过滤源于+2Da多一个不饱和度的脂质同位素的干扰。在从头鉴定中,由于缺少足够的标准品而不能建立数据库,LipidOA模仿蛋白从头测序的方法,建立PB-MS/MS双键诊断离子关联,从而可以获得链特异性的双键位置鉴定结果。图2展示了从头鉴定用于PE 17:0_20:4的PB-MS/MS谱图进行解析的结果,可以鉴定出PE 17:0_20:4(Δ5, 8, 11, 14)。
图2 从头鉴定用于PE 17:0_20:4的PB-MS/MS谱图解析,实现PE 17:0_20:4(Δ5, 8, 11, 14)的鉴定
在结构评级中,LipidOA首先基于从头鉴定中诊断离子的强度特征(相对强度和诊断离子对强度比值的平均值、标准差)训练机器学习模型,用于的PB-MS/MS鉴定结果进行打分(SM),并将低于阈值的结果划分为噪声(Tier 3)。之后,利用同类生物样品总脂肪酸(TFA)双键异构体的鉴定结果对甘油磷脂中双键异构体的鉴定进行进一步分级,将鉴定结果在总脂肪酸数据库中划分为准确鉴定(Tier 1),不在数据库中划分为待人工检验(Tier 2)。基于这一流程,实现对甘油磷脂双键鉴定结果的分级(图3A)。
图3 基于机器学习和总脂肪酸库的甘油磷脂双键鉴定结果分级
本工作使用不同条件的PB与HILIC-MS/MS联用方法对牛肝和猪脑脂质提取物中甘油磷脂C=C进行分析,共产生四个数据集。四个数据集由不同PB反应试剂(丙酮、2’,4’,6’-三氟苯乙酮)、不同质量分析器(三重四极杆、飞行时间质谱)和不同数据采集模式(靶向、数据依赖采集)获得。这些数据首先经过专家鉴定,鉴定结果被认为是真正例。之后,LipidOA对四个数据集进行分析,鉴定结果将与专家鉴定的结果进行比较。基于上述流程,LipidOA对四个数据集上百张PB-MSMS谱图进行分析,给出162个Tier1分级的甘油磷脂双键位置鉴定结果,在四个数据集中均获得了超过70%的召回率(recall)和90%的精确度(precision)(图3B)。
综上,本工作建立了基于机器学习和先验知识的数据分析软件,对PB与LC-MS/MS联用的数据进行分析,实现了链特异性的甘油磷脂双键位置鉴定,为脂质组学在生物医学应用中高通量结构解析提供支持。
本文编辑:张东晖
本文审核:瑕瑜 王紫丹
本文链接:https://doi.org/10.1021/acs.analchem.2c03505