一种新的机器学习模型将帮助科学家识别小分子,并应用于医学、药物发现和环境化学。该模型由阿尔托大学和卢森堡大学的研究人员开发,经过数十个实验室的数据训练,成为识别小分子最准确的工具之一。

科学家使用机器学习获得小分子的前所未有的视角

数以千计的不同小分子,称为代谢物,在整个人体中传输能量和传递细胞信息。由于它们非常小,因此很难在血液样本分析中将代谢物彼此区分开来——但识别这些分子对于了解运动、营养、饮酒和代谢紊乱如何影响健康非常重要。

代谢物通常通过使用称为液相色谱的分离技术分析其质量和保留时间,然后进行质谱分析来鉴定。该技术首先通过柱子运行样品来分离代谢物,这会导致通过测量设备的不同流速或保留时间。

然后使用质谱法根据代谢物的质量对代谢物进行分类,从而微调识别过程。研究人员还可以使用称为串联质谱法的技术将代谢物分解成更小的部分,以分析它们的成分。

“如果不对候选分子做出一些额外的假设,即使是最好的方法也无法识别样品中超过40%的分子,”阿尔托大学的JuhoRousu教授说。

现在,Rousu的团队开发了一种新的机器学习模型来识别小分子。它最近发表在NatureMachineIntelligence上。

“这种新的开源模型为整个研究界提供了一个丰富的小分子视图。它将有助于研究识别代谢紊乱的方法,例如糖尿病,甚至癌症,”Rousu说。

新方法优雅地回避了传统方法面临的挑战之一。由于分子的保留时间因实验室而异,因此无法在实验室之间比较数据。阿尔托的博士生埃里克·巴赫(EricBach)在攻读博士学位期间想出了一个替代方案。解决问题的研究。

“我们的研究表明,虽然绝对保留时间可能会有所不同,但保留顺序在不同实验室的测量中是稳定的,”巴赫解释道。“这使我们能够有史以来第一次合并所有公开可用的代谢物数据,并将其输入到我们的机器学习模型中。”

通过整合来自全球数十个实验室的数据,机器学习模型足够准确,可以区分镜像分子,即立体化学变体。到目前为止,识别工具还不能区分立体化学变异体,而这种新能力有望在药物设计和其他领域开辟新的途径。

卢森堡大学卢森堡系统生物医学中心(LCSB)副教授EmmaSchymanski说:“使用立体化学提高了鉴定性能这一事实对所有代谢物鉴定方法的开发人员来说都是一个启示。”这种方法也可以用于帮助识别和追踪环境中的微污染物或表征植物细胞中的新代谢物。”