近日,赛陆医疗联合Intel和MemVerge发布《“Intel持久内存+MemVerge大内存软件”助力超分辨空间组学生信分析提效增速》白皮书(以下简称”白皮书“)。白皮书指出,生命科学已进入空间转录组发展阶段。通过对大块组织中的单个细胞的RNA进行测序,不仅能获取遗传信息,还能获得细胞的空间位置信息。基于上述信息可以绘制细胞中RNA的3D分布图,从更高维度揭示细胞网络中细胞间相互作用,全面提升人类对生命的认知和推动疾病重新定义。
赛陆医疗致力于开发自主知识产权的上游测序平台和全球领先的超分辨空间组学平台。今年2月,公司正式发布了基于高密度高分辨率捕获芯片的空间组学方案,联合创始人、首席科学家王谷丰教授予以详细解读。详情请登录赛陆医疗视频号查看。
作为一项前沿技术,空间转录组学的发展面临一个新问题:由于增加了空间和图像信息,使得生信分析运算过程中的计算模型极为庞大,运算高峰时对系统计算内存的容量产生较大压力。同时,当程序处理出现意外中断时,重新运算的时间成本大。因此,如何低成本地提高企业并发程序的数量及保证程序运行的完整是一个重要课题。
针对这一问题,赛陆医疗与Intel、Memverge深度合作,构建了基于内存虚拟化技术的大内存计算平台,探索超分辨空间组学生信分析新方案。《白皮书》对此次合作背景、方案、成果、结论和应用场景等进行了深入解读。以下是《白皮书》内容,文末附有白皮书PDF版本下载链接。
从DNA测序和相关的基因组信息学开始,生命科学已经发展到对大块组织中的RNA进行测序,即转录组学,最近发展到对单个细胞中RNA进行测序,即单细胞RNA测序。由于组织在结构上是三维的,在3D空间的维度了解一块组织的RNA表达,是更好地从细胞水平了解疾病通路的关键。空间转录组学旨在开发新方法,用来绘制细胞中RNA的3D分布图,从而揭示细胞网络中的细胞间相互作用。通过在疾病诊断、药物筛选、物种演化等领域的应用,全面提升人类对生命的认知和推动疾病重新定义。
深圳赛陆医疗科技有限公司(简称“赛陆医疗”)专注于开发顶级、自动化和智能的空间生物学研究工具。赛陆医疗正在开发的高分辨率空间组学技术需要大量的计算能力、存储和内存来进行生信分析。
生信分析是生物医药、基因科学等领域的关键环节。随着前端上游检测技术的发展,样本规模的增加,生信分析对计算能力的要求也出现了新趋势。为了探索新型的大内存技术对生信分析业务的实际价值,英特尔和MemVerge公司基于持久化大内存的创新IT技术,面向生信领域打造了一套软硬件结合的大内存解决方案,帮助赛陆医疗以更低的成本和更快的速度完成空间转录组数据的分析。
挑战:大样本高并发任务下的内存瓶颈
随着一个生物信息分析项目包含的样本量越来越多,原始测序数据规模往往达数百GB。同时,空间组学的数据处理环节多样,涉及多种编程语言编写的工具,例如对内存消耗较高的R语言。在分析过程中需要反复做数据读取和参数调整,导致处理海量细胞样本的分析任务通常要数小时甚至数天才能完成,对算力的消耗量大。
尤其是空间组学相较于单细胞测序技术在普通单细胞表达信息矩阵的维度上又加入了空间及图像信息,使得运算过程中的计算模型极为庞大,运算高峰时对系统计算内存的容量产生了较大的压力。同时,当程序处理出现意外中断时,重新运算的时间成本大。如何低成本地提高企业并发程序的数量及保证程序运行的完整是一个重要课题。
解决方案:基于英特尔傲腾和MemVerge软件的大内存计算解决方案
为了解决生信运算中的内存瓶颈及减少程序因意外中断重复计算的耗时,赛陆医疗引入了英特尔傲腾持久内存硬件和MemVerge Memory Machine大内存软件,专门为空间组学数据处理业务构建了基于内存虚拟化技术的大内存计算平台。
该平台通过API向上层生信应用提供透明的内存访问服务,将主机中的原有DRAM内存和傲腾持久内存融合在一起,组成大内存资源池,向上层生信应用提供无需更改应用程序的大容量内存资源供给。通过大内存软件的高级功能特性,利用内存高可用技术来替换部分磁盘IO读写,消除IO瓶颈,帮助生信业务软件实现内存数据的数据快照、克隆、远程复制和业务迁移能力。
图1:内存方案示意图
关键组件一:英特尔傲腾持久内存
随第二代Intel®Xeon™可扩展处理器Cascade Lake同步上市的Intel®Optane™DC持久内存(DCPMM)提供了一种新的持久化内存的硬件,其单片容量相比于内存(DRAM)容量更大,为128/256/512GB三种规格,并且支持掉电后数据不丢失。这使得基于这种新的硬件的架构可以为大规模数据处理场景提供更大内存容量的解决方案。
关键组件二:MemVerge Memory Machine大内存软件
MemVerge Memory Machine就是基于各类异构的一个内存虚拟化软件平台解决方案。通过MemVergeMemory Machine,应用可运行在带有持久内存资源的服务器或云主机上,并且充分利用持久内存的各种特性,实现真正的应用级内存数据高可用能力。同时,MemVerge Memory Machine软件能够为主机内存中的数据提供丰富的功能特性,如内存数据快照、克隆、远程复制和业务迁移等应用级能力。
表1:测试机器硬件配置
验证:傲腾内存提升任务并发数
经过三方专家和技术团队的不断努力,以及联合的软硬件优化与技术创新,基于英特尔傲腾内存和MemVerge Memory Machine大内存软件的方案在生信业务中的并发性能达到了显著的提升,从原来的单台设备只能并发运行1-2个任务,达到同时运行5-6个并发任务,其中个别的关键IO环节的读写性能也达到20%-50%的提升,整体端到端性能提升效果明显。
表2:STARsolo并发性能测试
表3:Seurat并发性能测试
从上述两个表格中的验证数据可以看出,在Baseline(未使用MemVerge软件将英特尔傲腾内存和DRAM内存进行融合)时,STARsolo/Seurat在单台主机中最多只能支持两个并发,而在使用MemVerge软件将英特尔傲腾内存和DRAM内存进行融合后,则可以支持到5个并发,平均每个并发的时间消耗持续下降。
在实际验证过程中,我们发现在业务并发上升时,内存的消耗量会先于CPU核数成为系统的主要瓶颈,而通过英特尔傲腾和系统内存的融合,可以独立地扩展主机的内存容量,消除系统瓶颈,充分释放算力。
在高并发情况下,STARsolo和Seurat两程序的加速效率逐渐接近。程序运行效率的提升除得益于傲腾内存带来的高并发,还依赖于MemVerge自研的动态分级内存技术。频繁访问的热内存页由DRAM资源供给,访问频率低的冷内存页由傲腾内存资源供给。不同的应用进程不共享DRAM资源,消除抢夺DRAM资源带来的损耗。
验证:Memverge快照技术对程序的保护
空间组学数据处理耗时随着测序深度的增加会从几小时到几天不等,偶发因素导致的中断在长期大批量程序运行中难以杜绝。MemVerge Memory Machine高级版软件具有ZeroIO快照功能,可以对整个进程或进程树进行定时快照保护。快照建立和恢复的过程中没有任何IO消耗,同时使用Copy-On-Write增量快照技术,减少了快照对傲腾内存空间的消耗。实测中快照技术可在20秒内对运行中内存占用64GB的STAR程序进行保存/恢复。
结论:大内存技术是生信业务的内存级业务优化方案
通过上述验证,我们可以看出,在某些高峰计算环节,大量的生物信息类应用会保存生信表达矩阵、临时标签等海量内存数据,属于内存敏感性应用。此类应用往往会出现在计算机各个部件中,导致内存会更容易成为系统的第一瓶颈。因此,通过英特尔傲腾内存和MemVerge大内存软件的结合,能使内存这个部件具备更良好的弹性伸缩,消除瓶颈,实现最优的计算效率。
解决方案对客户的价值以及应用场景
该解决方案能够提高分析性能,降低总体成本,实现高可用性以及促进临床诊疗。
应用场景:将赛陆医疗的空间组学平台和安装有该套分析方案的服务器打包作为一整套空间组学解决方案,为客户解决各种临床、科研等问题。例如,大型三甲医院的肿瘤学、生殖健康和病原体检测等研究;生物制药公司和细胞基因治疗CRO的药物作用机制研究、药效评价、靶向药物开发;合成生物学公司和研究机构的高通量筛选、微生物分析和代谢物分析等。值得注意的是,这些分析的算力需求跟上述描述的相当,甚至更大。
扫码获取白皮书PDF版