来自麻省理工学院的研究团队近来透过机器学习技术,打造利用胺基酸链段预测蛋白质结构的模型,也就是能够理解个别胺基酸链段如何决定蛋白质功能,对于生物相关研究、药物开发、蛋白质设计和测试都是一大进展,未来,该机器学习模型能够让研究人员更专注于修改特定胺基酸片段,改善蛋白质工程。蛋白质是由胺基酸分子线性链结而成,个别胺基酸分子透过肽键连接,根据链结中的物理相互作用和序列,折迭成相当复杂的3D结构,而这些不同的结构决定了蛋白质在生物学上的功能,因此,了解蛋白质的3D结构对于预测蛋白质对特定药物的反应是有价值的。

过去数十年来的研究,主要都是用多种成像技术来研究蛋白质结构,而这些研究只能了解非常小部分的蛋白质结构,近来,研究人员开始用机器学习模型根据胺基酸序列,来预测蛋白质结构,但是,由于胺基酸序列的多元性,会生成非常类似的结构,再者,也没有足够多的结构样本来训练模型。因此,有别于过去直接预测结构的方法,MIT研究团队将预测蛋白结构的数据转译成以数值表示的向量值,为此,团队用已知的蛋白质结构近似度,来监督机器学习模型,让模型学习特定氨基与蛋白质功能的关系,首先,利用3D蛋白质结构当作训练指引,来简单地计算每个胺基酸在蛋白质序列的位置,接着,再透过计算出的位置代表值当作机器学习模型输入数据,根据每个胺基酸链段来预测蛋白质功能。
训练过程总共使用了22,000个来自蛋白质结构数据库SCOP的蛋白质数据,该数据库包含数千个依照相似结构和胺基酸序列分类的蛋白质,团队利用SCOP数据库分类的类别,模型针对每对蛋白质,计算蛋白质结构真实相似分数,因此,每个蛋白质结构的向量会包含与其他序列相似程度的信息,再根据该相似分数预测胺基酸序列的3D结构。最后模型会将比对预测的相似分数和SCOP真实的相似分数的结果,当作回传到编译程序的讯号。同时,模型还会针对每个胺基酸序列向量预测联系地图(contact map),也就是呈现出每个胺基酸在蛋白质预测结构中,与其他胺基酸之间的距离,该模型还会将预测的联系地图与SCOP数据库的联系地图拿来做比较,回馈到模型中,如此一来,能够帮助模型学习胺基酸在蛋白质结构中正确的位置,进一步更新胺基酸功能。