2010-11-08

phylotools:处理DNA条码（DNA-Barcoding）序列的程序包

DNA条码，是利用聚合酶链式反应（PCR）及测序手段，将每个物种筛选出特定的一个或基因，共同组成的物种鉴定系统。DNA条形码在不同的类群中选取的基因不同，例如植物中常用的DNA条码相关的基因多为叶绿体中的基因，常包括rbcLa, matK, ITS, 5.8S, trnH-psbA等等，各基因的进化速率不同，互相参考，以便于对物种的准确鉴定。如果这一体系建立的比较精准，那么以后只需要对样品的相应基因进行PCR就可以实现对物种的准确鉴别。相比传统的依据物种形态的鉴别手段，应用的范围更加广泛。

然而DNA序列的fasta文件及比对之后的phylip文件处理是较为繁琐。特别是在处理测序后fasta文件中DNA序列的名称，以及后续的建立进化树的步骤中，往往需要名字的替换，并建立相应的矩阵，并以此作为基础推断物种之间的进化关系。在分子生物地理学和进化生态学中，这种需求更为迫切。为了更为方便得分析处理DNA-Barcoding所得的序列，方便得更改名称，处理比对后的各序列拼接成一致性的矩阵等，必须开发相应的软件。

有鉴于此，本人利用开源的R语言开发了phylotools软件包。其中的函数均为笔者在处理DNA-Barcoding数据时用到的函数。现在已经上传到R的CRAN网站。全部源代码及多种平台上的程序包都可以在CRAN上获得。网址为

http://cran.r-project.org/web/packages/phylotools/index.html

下面简要介绍一下各函数的主要功能，供业界的同行参考：

complement() 给出给定DNA序列的反向互补序列，输入格式为字符串。
fasta.split() 给出各名称分组的对照表，将给定的fasta文件分割成几个独立的fasta文件
phy2dat() 将phylip文件转换成相应的数据框，以便进行相应的处理
read.phylip() 读取序列比对好之后的phylip文件
rename.fasta() 为fasta对象中的序列改名。
reverse() 给出该序列的反向序列
seq2fasta() 将seq文件（一般是 SeqMAN生成）转换成fasta文件
sub.tip.label() 给出各名称的对照表，将进化树末端的名称替换。
supermat() 基于指定的phy文件构建多个基因的超级矩阵
uniquefasta() 将fasta文件中名称重复的序列删除。
write.mat() 将建立好的超级矩阵保存在本地硬盘上。

当然，还有很多功能需要进一步实现，如在GenBank上检索并下载DNA序列等等。如您在使用过程中发现程序中的任何错误，欢迎发邮件及时告知。