中国学者在Nature Methods发表论文,介绍三代测序数据计算方法的突破

下文由研究者团队提供

9月18日,中山大学中山眼科中心谢志、肖传乐、谢尚潜,中山大学数据科学与计算机学院陈颖,湖南农业大学罗峰等学者合作在Nature Methods杂志上发表了三代基因组测序数据计算方法https://www.nature.com/nmeth/journal/vaop/ncurrent/full/nmeth.4432.html此方法解决了该领域的关键技术难题。


本项目负责人谢志教授和主要完成人肖传乐副研究员表示:以PacBio和Oxford Nanopore公司为代表的三代测序技术能够产生远远长于二代测序技术的基因组序列读长,很好的解决复杂基因组的组装及结构变异等难题,为基因测序和精准医学领域带来了全新的机遇。然而三代测序数据的高错误率(12-15%)给数据分析了巨大的挑战,严重影响了三代测序技术的应用。为此我们提出了一种全新的基于全局投票打分的候选序列评估方法,该方法可以大幅降三代序列比对、校正和组装的计算资源消耗,从而极大提高计算效率;并基于此方法成功开发了集序列比对、校正和组装为一体的三代测序分析软件MECAT。与同类软件相比,MECAT在计算速度上表现出了明显的优势,并且首次在单个服务器上实现了中国人的基因组组装工作;为加速三代测序技术在生物和医学的应用提供了重要的支撑。

图1 三代测序数据的基因组组装时间对比

基于三代测序数据的基因组组装中最消耗计算时间的过程是序列局部比对。为了减少进入局部序列比对的候选区域,研究人员提出快速测量两个序列编辑距离的序列差异因子(DDF)和全局种子投票打分的计算理论模型。该模型表现出了两个序列全局种子得分与重叠长度成线性相关的重要特征,这一特征使得两序列重叠区域的长度可以通过种子全局得分进行评估。全局种子得分模型不仅能获取候选局部比对所需要两序列准确起始比对位置,而且首次实现了非局部序列比对的两两序列比对过程,从而大幅节约了三代测序两两比对的计算时间。目前,MECAT在人类基因组数据中的长序列两两(pairwise)比对时间比目前领域的主流软件(MHAP和Daligner)快至少17倍。由于两两比对计算时间随着测序数据量增加成指数增长,因此对于大测序数据集MECAT中两两比对方法的加速比将更加显著。同时,通过优选几个最高得分候选区域大幅降低进入局部序列比对候选区域的数量,也实现了参考基因组比对过程中大幅节约计算时间的效果,在人的参考基因组比对中,MECAT的速度是目前同类软件(BLASR和BWA)的5-20倍。


三代测序错误序列校正是基因组组装另一耗时步骤,MECAT通过优选最高得分的候选匹配序列进行局部序列比对,从而大幅降低进入局部序列比对过程的候选序列数量,因此大幅提高三代测序的序列校正时间。MECAT中序列校正速度是目前软件的7-8倍。基因组组装通常寻找序列重叠长度最长路径作为组装序列延伸路径,因此,根据MECAT全局种子投票得分与两序列重叠长度线性相关这一重要特征,可以通过全局得分对每个序列优选100个候选序列作为该序列候选延伸序列,从而避免了如传统BLAST方法中每个序列寻找所有重叠序列的序列比对计算时间。目前,MECAT在人类基因组的组装速度是同类软件的17-23倍,MECAT能够在单台服务器上用7-8天完成人类基因组组装。


由于MECAT计算资源消耗显著低于目前序列比对、校正和组装软件,同时提高了算法的精度和组装的效果,因此MECAT首次实现了用二代测序相近的时间组装三代测序基因组,为加速最新测序技术的广泛应用提供重要推力。

点击“阅读原文”免费阅读论文

MECAT: fast mapping, error correction, de novo assembly for single-molecule sequencing reads


MECAT系统源代码地址:

https://github.com/xiaochuanle/MECAT