把基因组上传到云端,本国互连网集团拥抱基因

2019-12-01 03:33栏目:互联网知识
TAG:

(毛球控/译)Google于今年3月推出了Google Genomics,这一服务可以让科学家把基因组数据存储在云端,并对DNA序列进行研究和共享。最近,Google对其进行了调价,只需25美元/年,就可以把你的基因组存在云端。

国内互联网公司已经是进入如火如荼的入口争夺和资源部署阶段,但是基因行业这个小众市场还是一个神秘的领域。先不论这个领域有着太多高学历人才和高技术含量的科技成果,仅仅是众多基因行业的业务受到国家政策管制和干预的风险,就让许多互联网公司望而却步。互联网公司看上基因行业并不是因为这个小众市场,而是看到了背后生物数据的可挖掘价值,但是什么时候能够进入基因行业,从哪里开始进入,这还是一个未知数。笔者从四个方面来谈谈互联网拥抱基因行业的可能。通过云端技术部署基因行业云端技术已经成为互联网公司的专宠。巨头们通过解决三个问题,逐步地将基因数据资源归入囊中。云端解决的第一个问题:数据存储。最早通过云端技术部署基因行业的互联网巨头,是谷歌和亚马逊。以谷歌为例,早在2013年3月,谷歌已经邀请了基因组学领域的科学家将DNA数据转移到谷歌的服务器上。谷歌将其服务器称为Google Genomics。谷歌通过自身占有的数据库搜索技术优势,将人类的基因数据进行备份和建立索引,同时开发了一系列的应用程序接口API。亚马逊的AWS云服务和基因行业的合作可以一直追溯到NCBI提供的全球范围的基因信息比对搜索引擎。2012年,亚马逊的云服务已经接管了国际千人基因组计划的基因数据存储,当时这是世界上最大的人类遗传学数据库,并且数据是公开和免费的。

其实从18个月前,Google就开始着手Google Genomics的建立了,包括会见科学家,以及搭建界面和应用程序接口。凭借这些,Google可以将DNA数据存储在自己的服务器集群上,并利用这些数据进行实验。其中用到的数据库技术与Google索引和用户追踪技术相同。

图片 1

随着实验室不断引进速度更快的新设备来解码DNA,数据量正在经历一种爆发式的增长。例如马萨诸塞州一家研究所在10月份时,每32分钟就能解析出约等于一个人的基因组的数据,相当于200TB的原始数据。不过,这点数据量和这些互联网公司每天处理的数据相比,还是要小得多——YouTube一天的上传量就相当于该研究所2个月的数据量。

国内互联网公司必须要通过免费占据基因信息入口谷歌和亚马逊针对DNA存储云端化服务在市场上交锋已经一年了,双方直接进行价格战的结果是,谷歌提供每个基因组的年存储费用只需要25美金。目前每个人的基因组原始数据在100G左右,谷歌提供压缩数据服务以后这个数据能压缩到1G以内,也是说每年一个人的基因组数据云存储只需要0.25美金!笔者认为,国内互联网公司必须要通过免费占据基因信息入口。数据的价值在于挖掘和互动,如果这些价值超过了数据本身的产出和存储价值,免费是大势所趋。云端解决的第二个问题:数据运算。云存储的解决会衍生出一批生物信息创业公司。为什么呢?道理很简单,云端技术门槛太高了,老百姓不能直接使用。看看我们手机里面安装的都是APP而不是云端服务器API软件就知道了。这里会衍生出一个很复杂的云计算产业,笔者不会展开这么复杂的结构图来讲解,那样我们就跑题了。云服务提供商将服务器集中起来,不仅提供云端的存储,而且还提供云端的运算和资源的管理等服务。有了这个良好低价的生态环境,众多的互联网公司诞生了。在基因行业,催生了Tute Genomics, DNANexus, OneCodex, Seven BridgesGenomics和NextCode Health等生物信息公司。这些公司里面有使用谷歌的云存储和云计算服务的,也有基于亚马逊的AWS云端服务搭建的生物信息大数据平台。

这些超出任何个人的处理能力的海量数据必须要有一个数据中心。美国国家癌症研究所就表示,将斥资1900万美元,把约2.6PB(1PB=1024TB)的癌症基因组图谱上传至Google Genomics和亚马逊的数据中心。这样做的目的在于打造一个“癌症基因组云数据库”,科学家可以借助这一平台,像使用网页搜索一样快捷便利地分享信息和进行模拟实验。

图片 2

版权声明:本文由奥门新萄京娱乐场发布于互联网知识,转载请注明出处:把基因组上传到云端,本国互连网集团拥抱基因