阿尔托大学和卢森堡大学的研究人员报告说,他们开发了一种新的机器学习模型,该模型将有助于识别小分子,并将其应用于医学、药物发现和环境化学。

机器学习放大的小分子

他们的发现“使用液相色谱保留顺序和串联质谱数据对小分子进行联合结构注释”发表在《自然机器智能》杂志上。

研究人员写道:“尽管在过去十年中预测方法和工具取得了快速进展,但生物样本中小分子的结构注释仍然是非靶向代谢组学的关键瓶颈。”“液相色谱-串联质谱法是使用最广泛的分析平台之一,可以检测样品中的数千个分子,即使使用一流的方法,其中绝大多数仍未被识别。在这里,我们介绍了LC-MS2Struct,这是一种机器学习框架,用于对液相色谱-串联质谱(LC-MS2)测量产生的小分子数据进行结构注释。”

“如果不对候选分子做出一些额外的假设,即使是最好的方法也无法识别样品中超过40%的分子,”阿尔托大学计算机科学教授JuhoRousu博士解释说。

这种新方法可能能够识别代谢紊乱,例如糖尿病,甚至癌症。

“我们的研究表明,虽然绝对保留时间可能会有所不同,但保留顺序在不同实验室的测量中是稳定的,”阿尔托大学机器学习和生物信息学博士生EricBach说。“这使我们能够有史以来第一次合并所有公开可用的代谢物数据,并将其输入到我们的机器学习模型中。”

卢森堡大学卢森堡系统生物医学中心(LCSB)副教授EmmaSchymanski博士说:“使用立体化学提高鉴定性能这一事实对所有代谢物鉴定方法的开发人员来说都是一个启示。”“这种方法还可用于帮助识别和追踪环境中的微污染物或表征植物细胞中的新代谢物。”