目的 数据非依赖性采集( data independent acquisition,DIA) 是目前针对大通量蛋白质组学 分析常用的一种数据采集方式。 在对 DIA 数据无目标的分析方式中,由于无法预测肽段出现在 DIA 数 据中的位置,需要对谱中所有的峰进行分析。 但谱中含有大量的噪声峰,这些峰会严重影响后续蛋白质 定性定量分析的效率与效果,所以在 DIA 数据的无目标分析过程中先进行预处理以去除噪声峰就成了 很重要的 一 步。 为 了 能 充 分 利 用 从 DIA 数 据 中 提 取 出 来 的 肽 段 在 一 级 质 谱 ( first stage of mass spectrometry,MS1) 和二级质谱( second stage of mass spectrometry,MS2) 中的峰信息,提出质谱卷积神经网 络( mass spectrometry convolutional neural network,MSCNN) 模型。 方法 不同于传统的方法,本文首先提 出适用于 MSCNN 网络结构的样本提取流程,然后利用 MSCNN 对样本进行训练和学习,该模型可以最 大限度利用肽在 MS1 和 MS2 中的特征,最后通过观察模型在测试集中的结果来验证模型的效果。 结果 和传统算法相比,在保证真峰处理效果大致相同的情况下,MSCNN 模型过滤噪声峰的数量提高了约 11.2%。 结论 本文提出的 MSCNN 模型可以更有效地去除 DIA 数据中的噪声峰。
|