随着基因测序产生的庞大数据增量让整个生命科技行业面临数据的存、传、算、查各个环节的巨大压力,而且,生物信息个性化分析需求也在不断增多,利用云平台进行自主信息分析的模式已经成为新的发展趋势。2018年5月28日,中科普瑞联合海云基因发布全新表观星云(Epigenetics Cloud,EC)平台,助力十万人甲基化组计划,为国内各科研单位和医疗机构的精准诊断和精准治疗提供甲基化层面的基因数据保证,为全球华人的基因诊断提供更精准的参考。
基因测序作为一种新型的基因检测技术,在生命科学研究中扮演着十分重要的角色,行业的蓬勃发展催生了生物基因数据爆炸式的增长。但是与之对应的测序数据分析手段却仍然停留在初级阶段,如何解决基因大数据分析流程繁琐,计算资源紧缺与医学解读需求的时效性和准确性之间的矛盾,成为行业最大难点。海云基因推出的基因云计算系统(GeneApps)在此提供了一种有效的缓解途径,极大提升人类全基因组分析效率,有效改善基因领域数据分析速度慢、效率低等问题,将数据的分析与挖掘走向云端。GeneApps基于多年分布式计算开发经验,由专业的生物信息团队和IT团队携手开发完成,是目前基因检测市场中领先能同时做到云计算技术、可视化界面、容量级监控、自定义流程和自主算法开发的产品。
继中科普瑞十万人甲基化计划发布后,海云基因以其GeneApps的产品优势与中科普瑞达成合作,定制化搭建全自动化解决方案-表观星云。
海云基因自成立已来,一直致力于基因云计算系统及相关联超融合精准医疗数字化产品的开发,2018年,海云基因GeneApps步入V4.0时代,能够以更成熟更全面更灵活更安全的方式快速响应需求,为企业提供生物医疗大数据整体解决方案。GeneApps具有以下优势:
云计算架构,高效率,低成本
GeneApps云计算解决方案包含统一的计算资源池、统一的网络资源池、统一的存储资源池,并提供了一体化的监控和部署工具进行统一的虚拟化与云业务管理,通过简洁的管理界面,轻松地统一管理数据中心内所有的物理资源和虚拟资源,不仅能提高管理员的管控能力、更可降低IT环境的复杂度和管理成本。
采用基于Hadoop的云计算架构,能够根据分析数据的量弹性配置计算资源。分布式计算方式能极大加快数据处理速度,降低时间成本和人力成本。
使用Hadoop Yarn作为任务的调度框架,其作为Hadoop MR的核心框架,相对其他调度框架,是目前分布式计算的最佳选择。在基础云中,我们的Yarn实现,也严格参考了MR的源码。
极速流程、高效拼接,定制化服务
GeneApps 平台具备全基因组测序分析、全外显子组测序分析、转录组与调控RNA测序分析、微生物宏基因组分析、表观遗传学测序分析工作流等十余条生物信息流程,近百个算法模块,充分满足用户标准和个性化分析。此外,平台提供自由搭建分析流程的功能,所有分析功能被模块化配置,用户能够自由自组合,实现完美的定制化分析流程服务。
GeneApps 平台独特的框架技术可借助一些加速软件及硬件资源力量对一大批分析工具加速,从长期也考虑到利用机器学习的手段,优化各种算法,使其在算法灵敏度及特效性方面具有极佳的表现。
可视化操作界面,简化操作流程
平台提供多项全套分析流程,并提供一站式分析结果。用户不需要掌握繁琐的编程语言,只需上传数据并填好样本信息,即可点击运行并通过可视化平台轻松进行数据分析,真正实现生物信息零代码。通过多级权限,层级配额,满足用户对于云服务的分配和管控能力,同时支持对云资源使用情况进行精细化计量和可视化呈现。
其中,我们的临床序列分析工具能够在序列读取片段水平上及时查看任意候选基因,可视化操作界面让分析结果清晰易懂,直接关联至表型、性状。
基于Docker的自定义模块开发
Docker在其轻量、配置便捷性以及资源利用率方面有明显优势,生物信息开发人员可以自行开发分析模块,将传统分析功能封装在模块中,由此实现分析功能扩展。
数据的安全和高可靠性
采用分布式云存储系统将数据和校验数据分别存放在不同的存储服务器上,并可以同时使用多条高速数据通道,可消除网络层的单点故障,进一步提高系统的高可用性。在这样的情况下,即使出现存储服务器宕机、网络中断、磁盘损坏时,仍然能够保障数据完整性和数据服务的持续运行。相对于传统的RAID技术具备更快的数据重建速度,这也能够有效提升数据的安全性。
系统延伸,数据全程打通
当前,海云基因已经完成了基因云计算产品GeneApps火箭助推——产品化突围,并逐步布局火箭发射——生态杠杆。我们已推出了创新的基因云相关联的超融合新品——医学云(智能化基因诊断决策支持系统)和健康云(健康基因检测风险画像与报告管理系统)的超融合与数据打通,并已经在今年年初正式上市。
海云基因CTO曹春笋表示:“超融合与数据打通就是在基因测序领域实现数字化整体解决方案,形成闭环。数字化整体解决方案的下半场是云计算的软硬一体交付与数据互联,主要包括三大产品特征:支持多云、微服务粒度升级和以产品应用为核心。”
海云基因云计算系统应用之于基因测序服务,就如智能操作系统应用之于手机。在生态布局上,超融合系统上市不到半年时间海云基因已拥有医院、第三方检验机构、测序企业和研究单位数十家生态合作伙伴和超过十余个渠道合作伙伴。我们也将与一些高校合作推出OceanCloud基因云容器技术课程,培育中国生物信息新一代基因云计算人才。
基因牵手云计算,海云基因GeneApps助力生物医学发展
基因测序已进入爆发式的阶段,GeneApps通过海量可弹性调度的计算与存储资源,帮助测序中心、科研与临床用户、SaaS服务提供商便捷地在云端部署基因数据分析乃至整个精准医疗与健康管理数据分析的全流程,从而推动精准医疗知识库的开发和应用,让医学数据分析成为全球协作的事业。此次与中科普瑞发布表观星云,助力十万人甲基化计划,对海云基因具有非常重要的战略意义。
海云基因携手中科普瑞将发挥各自在基因组测序、云计算、测序数据分析、数据处理、隐私安全保护等方面的长处,达成更快速、更灵活的生物医疗大数据处理模式。
关于海云基因(Oceancloud Gene)
海云基因是一家新兴的基因科技公司,以海内外高等院校的专家教授团队为依托,并拥有生物信息学、临床医学及云计算的专业技术人员支持,在云计算技术、大数据开发和生物信息领域有雄厚的基础。通过开发高通量基因测序和生物信息学领域最先进的基因云计算平台GeneApps,打造服务于精准医疗数字化整体解决方案的生态系统。公司致力于医疗信息化、基因云计算平台和疾病知识库的构建互补融合,通过健康大数据来驱动精准诊疗与健康指导。公司同时也面对保险医疗、健康体检、妇幼呵护、儿童成长等多个行业提供基因检测与分析的健康服务。
关于中科普瑞基因科技(Sinotech Genomics)
中科普瑞科技服务平台依托中科普瑞基因科技和上海鲸舟医学检验所平台和技术力量,由国内知名基因中心核心团队人员组建,平台专注于新一代测序(二代+三代测序技术)、基因芯片及相关分子生物学技术在生命科学研究、疾病健康等领域的应用,利用一流的平台设备和专业水平的实验及生物信息团队,为广大科研用户提供从基因组、转录组、表观遗传到代谢组的高通量组学综合解决方案。
中科普瑞十万人甲基化组介绍
表观星图计划(Epigenetics Atlas Project)是国内首个大型甲基化组项目,通过与国内外基因组队列计划联动,以及与Illumina公司的战略合作,建立中国人甲基化基准数据库,为表观遗传领域研究、应用和临床检测等建立基础数据库。该项目计划首期完成十万人甲基化芯片与大数据分析(2018年计划招募首期星盟计划参与课题,免费提供10,000例DNA甲基化芯片用于项目研究),后期逐步扩大范围,通过甲基化基准基因数据库的建立,为科研和临床研究,乃至临床检测等应用提供基础数据库,并建立相关标准,为国内各科研单位和医疗机构的精准诊断和精准治疗提供甲基化层面的基因数据保证,同时为全球华人的精准诊断提供更为精准的参考。