摘要: 2月28日,国际学术期刊Briefings in Bioinformatics 发表了中国科学院北京生命科学学习院赵方庆团队题为Circular RNA identification based on multiple seed matching 的最新学习成果。因为目前在环形RNA识别方 ...
2月28日,国际学术期刊Briefings in Bioinformatics 发表了中国科学院北京生命科学学习院赵方庆团队题为Circular RNA identification based on multiple seed matching 的最新学习成果。因为目前在环形RNA识别方面存在着假阳性率高、敏感度不够等问题,该团队学习并提出了全新的多重种子匹配算法及最大似然估计模型,可以精确识别环形RNA接头序列,以显著提升环形RNA的识别效率。 目前已有的环形RNA识别算法均基于对环形RNA接头序列的查找,可分为基于注释的算法以及从头预测的算法。然而,由于真核生物转录的复杂性及环形RNA分子的特殊性,以上两类识别算法均面临着灵敏度低、可靠性差、运算时间长或内存使用高等问题,其应用也因此受到限制。此外,对上述识别算法的评价体系却仍主要依赖模拟数据,难以对相关算法在真实转录数据中的表现进行客观衡量。 针对此现状,赵方庆团队提出基于多重种子匹配策略的算法,针对比对质量较低的基因组区域,按长度降序进行种子序列提取,并将之与前后侧翼基因组区域进行快速匹配。同时,建立了最大似然估计模型,判断该种子序列的真实来源,并排除来自线性转录本或剪接副产物的干扰,从而极大提高了环形RNA分子识别的精度。该学习摒弃了偏差较大的模拟数据评测方法,采用 RNase R降解前后真实转录数据的比对体系,对10种已有算法进行全面的评测比较。结果显示该学习建立的方法在包含灵敏度与可靠性在内的综合表现(F1得分)上具有明显的优势,其并行模式还可进一步提升运算速度及内存使用效率。该算法与此团队开发的CIRI, CIRI-AS等分析工具(Genome Biology, 2015; Nature Communications, 2016)实现无缝衔接,将进一步促进环形RNA组成及功能等方面的学习。 该工作由赵方庆课题组的学习生高远和张金阳完成,得到了国家自然科学基金委和中科院的经费支持。 论文链接