snpTree - a web-server to identify and construct SNP trees from whole genome sequence data.
snpTree-SNP木を全部のゲノム配列データから同定して、造るウェブサーバ。
2012-12-13
National Food Institute, Building 204, Technical University of Denmark, 2800 Kgs Lyngby, Denmark 4444. pile@food.dtu.dk.
Abstract
BACKGROUND: The advances and decreasing economical cost of whole genome sequencing (WGS), will soon make this technology available for routine infectious disease epidemiology. In epidemiological studies, outbreak isolates have very little diversity and require extensive genomic analysis to differentiate and classify isolates. One of the successfully and broadly used methods is analysis of single nucletide polymorphisms (SNPs). Currently, there are different tools and methods to identify SNPs including various options and cut-off values. Furthermore, all current methods require bioinformatic skills. Thus, we lack a standard and simple automatic tool to determine SNPs and construct phylogenetic tree from WGS data.
RESULTS: Here we introduce snpTree, a server for online-automatic SNPs analysis. This tool is composed of different SNPs analysis suites, perl and python scripts. snpTree can identify SNPs and construct phylogenetic trees from WGS as well as from assembled genomes or contigs. WGS data in fastq format are aligned to reference genomes by BWA while contigs in fasta format are processed by Nucmer. SNPs are concatenated based on position on reference genome and a tree is constructed from concatenated SNPs using FastTree and a perl script. The online server was implemented by HTML, Java and python script.The server was evaluated using four published bacterial WGS data sets (V. cholerae, S. aureus CC398, S. Typhimurium and M. tuberculosis). The evalution results for the first three cases was consistent and concordant for both raw reads and assembled genomes. In the latter case the original publication involved extensive filtering of SNPs, which could not be repeated using snpTree.
CONCLUSIONS: The snpTree server is an easy to use option for rapid standardised and automatic SNP analysis in epidemiological studies also for users with limited bioinformatic experience. The web server is freely accessible at http://www.cbs.dtu.dk/services/snpTree-1.0/.
疫学的研究において、発生分離株にはごくわずかな多様性しかなくて、分化することを広範囲なゲノム分析に要求して、分離株を分類する。
うまく、そして、広く使用された方法の1つは、単一nucletide多型(SNP)の分析である。
現在では、異なるツールと方法が、さまざまなオプションとカットオフ値を含むSNPを確認するためにある。
さらにまた、すべての現法は、生物情報科学技術を必要とする。
このように、我々は、SNPを決定して、WGSデータから系統樹を造るための標準と単純な自動ツールがない。
結果ここでは、我々はsnpTree(オンライン自動SNP分析のためのサーバ)を導入する。
このツールは異なるSNP分析セット、perlとパイソン・スクリプトで冷静である。
snpTreeはSNPを確認することができて、WGSからならびにアセンブルされたゲノムまたはコンティグから系統樹を造ることができる。
fastaフォーマットのコンティグがNucmerによって加工される間、fastqフォーマットのWGSデータはBWAによって参照ゲノムに整列する。
SNPは参照ゲノムの位置に基づいて連結される、そして、木はFastTreeとperlスクリプトを用いた連結されたSNPから造られる。
オンライン・サーバは、HTML、ジャワとパイソン・スクリプトによって実装された。
サーバは、4つの発表された細菌WGSデータセット(コレラ菌、黄色ブドウ球菌CC398、S. TyphimuriumとM.結核)を使用して評価された。
evalutionは、3例がそうであった第1のために起こる整合したおよび荒々しい読み物とアセンブルされたゲノムのために調和性の。
後者の場合、最初の刊行はSNPの広範囲なフィルタリングを必要とした。
そして、それはsnpTreeを使用して繰り返されることができなかった。
結論:snpTreeサーバは、また、限られた生物情報科学経験のある使用者のための疫学的研究の迅速な標準化されたおよび自動SNP分析のための使いやすいオプションである。
ウェブサーバは、http://www.cbs.dtu.dk/services/snpTree-1.0/.で自由に利用できる。