机器学习模型互相教导识别分子特性

2024-01-21 08:48:34健康专一的悟空

杜克大学的生物医学工程师开发了一种新方法来提高机器学习模型的有效性。通过将两种机器学习模型配对，一种用于收集数据，另一种用于分析数据，研究人员可以在不牺牲准确性的情况下规避技术的局限性。

机器学习模型互相教导识别分子特性

这项新技术可以使研究人员更轻松地使用机器学习算法来识别和表征分子，以用于潜在的新疗法或其他材料。

该研究发表在《生命科学中的人工智能》杂志上。

在传统的机器学习模型中，研究人员将输入数据集，模型将使用该信息进行预测。虽然这通常是有效的，但这些工具的能力受到用于训练它们的数据集的限制，这些数据集通常可能缺乏关键信息或包含过多的一种数据类型，从而在模型中引入偏差。

相反，研究人员开发了一种称为主动机器学习的技术，如果模型感知到数据中存在差距，它就能够提出问题或请求更多信息。这种提问能力使模型比被动模型更加准确和高效。

尽管主动学习对于机器学习模型非常有效，但该技术在应用于更复杂的深度神经网络时遇到了严重的局限性。这些深度学习模型旨在模仿人脑，需要比通常可用的更多的数据和计算能力，从而限制了它们的准确性和有效性。

Reker和他的团队想要确定一种称为“轭学习”的教育概念是否可以应用于机器学习领域以改进这些系统。

在结合学习期间，一名学生将主动学习内容。他们可以提出问题并检查不同的教科书是否缺少信息。然后，第二个学生将负责复习第一个学生认为对理解课程很重要的信息。虽然对轭学习的研究表明，第二个学生常常无法像积极学习的学生一样有效地学习概念和保留知识，但雷克相信该技术在机器学习中大有前途。

“主动机器学习模型知道如何浏览数据集，不仅可以识别重要信息，还可以请求它认为重要的任何缺失信息，”雷克说。“我们想看看是否可以使用主动机器学习模型来‘教导’另一个模型，使用主动学习模型认为重要的数据。”

为了了解结合机器学习与主动机器学习的比较，该团队建立了一个主动学习模型来识别分子化合物的不同特征，这些特征对于其作为治疗药物的成功至关重要，例如分子的潜在毒性和分子的代谢。通过将不同的“教学”机器学习模型与不同的“学生”机器学习模型配对，开发了一个轭系系统，以根据“教学”模型选择的数据识别相同的特征。

该团队发现，虽然在大多数情况下主动机器学习比轭系系统更准确，但轭系模型在某些参数下非常有效。

“我们看到教学模型的表现对于学生模型非常重要，”雷克解释道。“就像在现实生活中一样，效率低下的老师意味着学生无法成功。如果教学模型没有识别出有用的数据，那么学生模型就无法成功地破译它。”

这些结果促使Reker和他的团队以“学生”身份使用深度神经网络模型来测试yoked学习，称为Yoked深度学习(YokedDeepLearning)或YoDeL。与深度神经网络本身负责选择数据的主动深度学习模型不同，YoDeL有另一种主动机器学习算法充当“老师”，主动指导深度神经网络“学生”的数据采集。

在使用各种模型的几项比较研究中，该团队发现他们的YoDeL技术在识别不同分子特征时要么优于主动深度学习系统，要么与主动深度学习系统一样准确。他们还发现YoDeL速度更快，通常只需要几分钟即可完成任务，而深度主动学习则需要数小时甚至数天。

该团队已经为YoDeL技术申请了临时专利，但他们已经计划继续测试和改进模型的参数以及在现实世界中使用它。

“有很多不同的机器学习和深度神经网络模型，因此我们希望确定哪些配对非常适合这种结合学习，”雷克说。“YoDeL能够利用经典机器学习模型的优势来增强深度神经网络的效率，这使得它成为一个不断发展的领域中非常令人兴奋的工具。我们乐观地认为，我们和其他科学家可以在不久的将来使用这个工具帮助发现新药和新的药物输送解决方案。”