新冠病毒将如何变异?机器学习给你答案

作者: 读芯术 2020-04-19 21:10:11

 本文转载自公众号“读芯术”(ID:AI_Discovery)

病毒和其他微生物一样,为了在地球上存活,不断进化和变异。这对于人类来说就有点儿可怕了,尤其是新冠病毒肆虐全球的今天,它还想整什么幺蛾子?

事实上,变异已经发生了。先来看一段由人类病毒进化而来的蝙蝠病毒的RNA核苷酸序列:

AAAATCAAAGCTTGTGTTGAAGAAGTTACAACAACTCTGGAAGAAACTAAGTT

以及一段新冠病毒的RNA核苷酸序列:

AAAATTAAGGCTTGCATTGATGAGGTTACCACAACACTGGAAGAAACTAAGTT

显然,新冠病毒为了适应新宿主,其原始结构已发生改变。准确来说,已经有20%的原始结构发生变异,但因大部分结构并未改变,所以病毒还未发生变种。

研究者发现新冠病毒已发生重复变异以持续存活。在与新冠病毒的较量中,我们不仅要知道如何消灭病毒,还要了解病毒如何变异以及怎样应对病毒变异。本文将尝试用K-Means和PCA探究这一点。

什么是基因组序列?

如果您对RNA核苷酸序列有所了解,那么可直接略过这部分内容。

基因组序列,通常我们称之为“解码”,是对样本进行DNA分析的重要步骤。一般来说,正常细胞中有23对携带DNA结构的染色体。

新冠病毒将如何变异?机器学习给你答案

DNA为双螺旋结构,解开后呈梯形,构成梯形的是成对出现的碱基。DNA有四种碱基,分别是:腺嘌呤、胸腺嘧啶、鸟嘌呤和胞嘧啶。其中,腺嘌呤只和胸腺嘧啶配对,鸟嘌呤只和胞嘧啶配对。这四种碱基分别用A、T、G、C表示。

这些碱基对通过排列组合可以决定生物体蛋白质的具体结构,也就是从本质上决定病毒如何作用的DNA。

新冠病毒将如何变异?机器学习给你答案

通过使用特殊仪器,比如排序仪器和一些特殊的标记法,可以揭开某特殊片段DNA序列的神秘面纱。而由此获得的信息可以进一步地分析和比较,有助于帮助研究者识别基因变化、疾病和表型相关以及判断药物靶标。

基因组序列,由A、T、G和C组成的长链,是生物体对自然环境的具体表现。生物体的变异是通过改变DNA来完成的。研究基因组序列是分析病毒变异的有效方式。

了解数据

以下数据可在 Kaggle找到:

新冠病毒将如何变异?机器学习给你答案

每一行数据表示蝙蝠病毒发生的一次变异。仅仅几周时间,新冠病毒为提高存活率已经发生了262次变异。

一些重要数据:

  • query acc.ver表示原始病毒的标示符。
  • Mismatches表示变异病毒和原始病毒的不同项的数量
  • subject acc.ver 表示变异病毒的标示符。
  • % identity表示原始病毒和变异病毒的相似程度。
  • alignment length 表示序列中相同或形近数目的具体数量。
  • bit score表示形近度,分数越高,形近度越高。

下图为一些数据每列的统计数值(此数据用Python通过data.describe()便可轻松得出):

新冠病毒将如何变异?机器学习给你答案

通过观察 % identity 列的数据,我们可以发现一个有趣的现象,每次变异的最小比对值大约为77.6%。对于这列数据而言,7%的标准偏差已经算相当大了,而这么大的标准差也就意味着变异范围的扩大。bit score的值也表明标准偏差已经很大了,竟然比均值还大!

关联热图是将数据可视化的好方法。每一单元格都表明了各个特性之间的关联。

新冠病毒将如何变异?机器学习给你答案

许多数据彼此间高度关联,因为大多数数值的变化是相互影响的。这里需要特别注意的是alignment length 和 bit score的高度关联性。

运用K-Means创造变异集群

K-Means是一种应用于机器学习的聚类算法,可发现未来空间内的数据点群。K-Means的目标是发现变异集群,以此来为病毒本质的研究和处理提供依据。

然而,我们仍然需要选择集群k的数量。虽然这和在二维中绘制点一样简单,但在高维中是无法实现的(如果我们想保留大部分信息的话)。运用肘部方法选择k过于主观、不准确,所以我们将使用剪影法。

新冠病毒将如何变异?机器学习给你答案

剪影法是k个聚类的分数,说明聚类对数据的适应程度。Python中的sklearn库令使用K-Means和silouhette方法变得非常简单。

新冠病毒将如何变异?机器学习给你答案

似乎5个集群对数据来说是最好的。现在,我们可以确定集群中心了。这些是每个集群围绕的点,代表了(在本例中)5种主要突变类型的数值评估。

新冠病毒将如何变异?机器学习给你答案

Note: The features have been standardized to put them all on the samescale. Otherwise, columns would not be comparable.

此热图中的每列表示每个群集的属性。因为这些点是按比例缩放的,所以实际的注释值在数量上并没有意义。

但是,可以比较每列中的缩放值。你可以很直观地感受到每个变异集群的相对属性。如果科学家要研发一种疫苗,则应该解决virii的主要病毒群。

下一步是运用PCA将集群可视化。

运用PCA将集群可视化

PCA是一种降维方法,选择多维空间中的正交向量来表示轴,这样一来就保留了大部分信息(方差)。

使用流行的Python库sklearn,可以用两行代码实现PCA。首先,我们可以检查解释的方差比。这是原始数据集中保留的统计信息的百分比。在这种情况下,解释的方差比是0.9838548580740327,这简直是天文数字!

可以确信的是,我们从PCA中得到的任何分析都将是真实的数据。

每个新特征(主成分)都是几个其他列的线性组合。我们可以用热图直观地看到一个列对两个主要组件中的任何一个都很重要。

新冠病毒将如何变异?机器学习给你答案

重要的是要理解第一个组件中的高值意味着什么——在这种情况下,其特征是对齐长度较长,也就是更接近原始病毒,而组件2的特征主要是对齐长度较短,也就是突变后更远离原始值,这也反映在bit score较大的差异上。

新冠病毒将如何变异?机器学习给你答案

很明显,病毒突变有5条主线。我们可以从中得到很多信息。

其中有四个病毒突变位于第一主成分的左侧,一个位于右侧。第一主成分的特征是高对齐长度。这表示第一主成分的较高值对应较高的对齐长度(更接近原始病毒)。

因此,组件1的较低值与原始病毒的基因差距较大。大多数病毒集群与原始病毒有很大不同。因此,试图制造疫苗的科学家应该意识到这种病毒会发生大规模变异。

通过使用K-Means和PCA,我们可以识别出五种主要的新冠病毒变异集群,研制疫苗的科学家可以运用这些集群中心获得的每种集群特征。通过PCA,我们可以在两个维度上看到这些集群中心,并且发现冠状病毒具有非常高的突变率。

这可能就是新冠病毒如此致命的原因。

机器学习 病毒 数据
上一篇:人工智能和自动化在工作场所中的重要性 下一篇:工业增强现实(AR)促进了设备维护、现场服务和员工培训
评论
取消
暂无评论,快去成为第一个评论的人吧

更多资讯推荐

机器学习:物联网成功的诀窍?

通过机器学习,物联网可以完美地运行。全球各地的组织正在竞相利用物联网的能力,但是,其中许多组织都被我们讨论过的一个或多个障碍所困扰。不过,不管您遇到什么问题,都可以通过结合了机器学习技术的方法来解决。

iothome ·  10h前
在网络安全领域应用机器学习的困难和对策

网络安全领域的独特对抗属性给人工智能应用落地带来了重重困难,但我们并不认为这最终会阻碍人工智能成为网络安全利器。

安全狗safedog ·  1天前
5个杰出的商业机器学习用例

现在是仔细研究ML的好时机,看看您如何将其应用到您的业务中。下面是企业将ML应用到产品和服务创新的5种方式。

物联网IoT996 ·  4天前
技术的本质:计算机如何塑造我们的社会?

技术伦理是个永恒的话题。笔者常常思考这样的问题,计算机科学家是如何将伦理内容与价值观编码到机器学习算法中的,机器学习设计师又该怎样更好地了解自己的设计会给社会带来的影响。

读芯术 ·  4天前
5行代码,快速实现图像分割,代码逐行详解,手把手教你处理图像

图像分割,作为计算机视觉的基础,是图像理解的重要组成部分,也是图像处理的难点之一。

金磊 ·  4天前
520快手送“男朋友”GAN生成对抗网络助力单身狗“顺利脱单”

“官宣官宣了,我男朋友帅吧”。昨天是520网络情人节,数万人在快手官宣脱单,这是怎么做到的?原来是快手上线了一款视频特效,让单身的小伙伴们瞬间甜蜜分身,“顺利脱单”。这是快手为用户准备的一系列520特效中的一款,受到用户欢迎。

佚名 ·  4天前
谷歌中国工程师提出颠覆性算法模型,Waymo实测可提高预测精准度

“周围的车辆和行人在接下来数秒中会做什么?”要实现安全的自动驾驶,这是一个必须回答的关键问题,这也就是自动驾驶领域中的行为预测问题。

DeepTech深科技 ·  4天前
如何使用支持向量机学习非线性数据集

什么是支持向量机呢?支持向量机是监督机器学习模型,可对数据进行分类分析。实际上,支持向量机算法是寻找能将实例进行分离的优秀超平面的过程。

不靠谱的猫 ·  2020-05-21 09:02:37
Copyright©2005-2020 51CTO.COM 版权所有 未经许可 请勿转载