2016年12月,国际学术期刊核酸学习(Nucleic Acids Research)发表了中国科学院北京生命科学学习院计算基因组学实验室赵方庆团队题为The combination of direct and paired link graphs can boost repetitive genome assembly 的最新学习成果。该学习基于序列重叠局部构建了contig的直接连接信息图,并在其配对连接信息的帮助下,解决了由短片段重复序列造成的基因组拼接碎片化问题,在保证准确性的前提下延伸了序列的长度,获得了更完整、间隙更少的基因组序列。 一直以来,重复序列都是基因组拼接的主要限制因素,而富含短片段重复序列区域的组装更是难以跨越的障碍。这局部序列的缺失会导致基因断裂,使某些关键遗传信息在后续的学习分析中被遗漏。此前的序列组装算法仅仅使用配对连接信息,忽视了contig本身的连接关系,不仅使算法难度增加,而且拼接结果也存在间隙序列多、错误连接多等问题。特别是对于短片段重复序列,历来的组装算法都选择直接丢弃,使得短片段重复序列富集区域无法有效拼接。 针对这种情况,赵方庆团队开发了基于直接连接信息的基因组组装算法inGAP-sf。该方法根据德布鲁因图的特征,基于contig的重叠局部构建了直接连接信息图,在配对连接信息的监督下拓扑路径,并对这些路径进行整合,同时引入了贝叶斯模型用于去除错误路径,从而得到高质量的拼接结果。通过在多个模拟数据和真实测序数据上的测试,inGAP-sf的结果与其他方法得到的拼接序列相比,连续性、准确性、完整性都有明显的提高。该学习使用的拼接策略极大程度地完善了已有序列组装算法的缺乏,为序列拼接提供了新的思路。inGAP-sf已发布在http://sourceforge.net/projects/ingap-sf,供相关学习人员使用。 该工作由赵方庆课题组的史文聿和冀培丰共同完成,并得到国家自然科学基金委和科技部重点研发计划的经费支持。 论文链接 inGAP-sf算法流程 来源:北京生命科学学习院 编辑:叶瑞优北京生科院提出基因组重复区域组装新算法 | 责任编辑:虫子 |
公安备案:京公网安备11010802030280号
备案许可证号:京ICP备19032535号-4
跟帖评论自律管理承诺书
优质科研网站 | 优秀信息互联网站
© 2014-2024 晓木虫