软件简介

CAUSA: 基于密码子-氨基酸联合序列比对的分子进化分析

生物信息学、基因组学(包括功能基因组学和比较基因组学)的主要目的是研究生物基因、蛋白和基因组的结构和功能,并重构生物基因、蛋白和基因组的进化历史。多序列比对(multiple sequence alignment, MSA)是DNA和蛋白质分子进化分析、以及结构与功能研究的基本工具。目前多序列比对已经有很多方法,如ClustalW, MUSCLE, MAFFT, T-Coffee, PRANK,等等。PRANK软件采用了一种系统感知(Phylogeny-aware)算法,构建的进化树较为准确。但序列比对依然容易产生系统性偏差,导致进化分析错误,甚至造成基因、蛋白和基因组结构和功能信息的误读。

一直以来,DNA和蛋白序列比对是分开进行的。学者们认为与蛋白质序列相比,相应的DNA序列中系统发育信号消失的速度更快。因此一般在氨基酸序列水平进行比对和进化分析。近年来,最新研究表明基于密码子的多序列比对(Codon Alignment, CA)能够构建更准确的分子进化树。但CA算法计算复杂度非常大,速度很慢,而且我们分析表明其错误率依然很大。

我们提出了一种新的多序列比对和进化分析算法:密码子-氨基酸联合序列比对(Codon and amino acid unified sequence alignment, CAUSA)算法,将DNA和蛋白质序列组合成为“密码子-氨基酸联合序列”(Codon and amino acid unified sequences),并将其用于序列比对和进化分析。理论分析和实例证明,与通常的仅用核酸或蛋白序列的方法相比,CAUSA算法通过整合和挖掘分别埋藏在DNA和蛋白质序列中的进化信息,提高了多序列比对的准确度,避免了在系统发育分析中普遍发生的错误,而且与基于密码子的比对方法(Codon Alignment)相比,不仅结果更加准确,而且计算速度大大加快。

免费下载使用CAUSA软件:

如果你用CAUSA软件分析的结果发表论文,请引用如下文章预印本:

Wang, Xiaolong, Fu, Yu , Zhao, Yue , Wang, Qi , Pedamallu, Chandra Sekhar , Xu, Shuang-yong , Niu, Yingbo , and Hu, Jingjie. Accurate Reconstruction of Molecular Phylogenies for Proteins Using Codon and Amino Acid Unified Sequence Alignments (CAUSA). Available from Nature Precedings http://hdl.handle.net/10101/npre.2011.6730.1 (2011)

 

Leave a Reply