怎樣從UCSC下載基因組的GTF文件

怎樣從UCSC下載基因組的GTF文件,針對這個問題,這篇文章詳細(xì)介紹了相對應(yīng)的分析和解答,希望可以幫助更多想解決這個問題的小伙伴找到更簡單易行的方法。

創(chuàng)新互聯(lián)從2013年創(chuàng)立,先為方山等服務(wù)建站,方山等地企業(yè),進(jìn)行企業(yè)商務(wù)咨詢服務(wù)。為方山企業(yè)網(wǎng)站制作PC+手機(jī)+微官網(wǎng)三網(wǎng)同步一站式服務(wù)解決您的所有建站問題。

從UCSC下載基因組的GTF文件有兩種方式,一種是利用table browser 瀏覽器,另外一種是通過FTP服務(wù)。

1. Table Browser

Table Browser提供了一個檢索和下載的入口,支持多種格式的下載,下載gtf文件只是其中一個功能,網(wǎng)址如下

http://genome.ucsc.edu/cgi-bin/hgTables

怎樣從UCSC下載基因組的GTF文件

第一行的3個標(biāo)簽用于確定確定物種和版本。clade提供了物種分類,包括以下類型

  1. Mammal 哺乳動物

  2. Vertebrate 脊椎動物

  3. Deuterostome 后口動物

  4. Insect 昆蟲

  5. Nematode 線蟲

  6. Viruses 病毒

  7. other 其他

從這里的類別也可以發(fā)現(xiàn),UCSC主要提供了動物的基因組,如果想要下載植物基因組的相關(guān)文件,只能考慮NCBI,Ensembl了。根據(jù)clade的類別,可以快速查找物種。genome選擇對應(yīng)的物種名字,assembly選擇基因組版本。

group用于選擇文件保存信息的類型,提供了以下類型

  1. Mapping and Sequencing

  2. Genes and Gene Predictions

  3. Phenotype and Literature

  4. mRNA and EST

  5. Expression

  6. Regulation

  7. Comparative Genomics

  8. Variation

  9. Repeats

  10. All Tracks

  11. All Tables

GTF文件保存的是基因和轉(zhuǎn)錄本的結(jié)構(gòu)信息,所以選擇2,track選擇對應(yīng)的數(shù)據(jù)庫和版本,通常選擇NCBI RefSeq

table選擇數(shù)據(jù),對于NCBI RefSeq, 提供了如下選擇

  1. RefSeq All

  2. RefSeq Curated

  3. RefSeq Predicted

  4. UCSC RefSeq

RefSeq All代表RefSeq中所有的轉(zhuǎn)錄本信息,RefSeq Curated代表核對過的數(shù)據(jù),可信度較高,以NM, NR, YP開頭,RefSeq Predicted代表預(yù)測的數(shù)據(jù),以XM, XR開頭;UCSC RefSeq 代表所有以NM, NR開頭的轉(zhuǎn)錄本信息。通常選擇UCSC RefSeq即可。

region選擇下載的區(qū)域,是選擇整個基因組,還是只是染色體上的部分區(qū)域。
output format選擇輸出文件格式,常用的有以下兩種

  1. GTF(limited)

  2. BED

output file指定輸出文件的名字,如果不指定,默認(rèn)會顯示在瀏覽器中共,如果下載整個基因組的信息,建議填寫輸出文件的名字,file type returned選擇返回文件的格式,支持返回壓縮文件。

通過簡單的勾選,就可以下載到GTF文件了。但是這種方式下載的GTF文件是有限制的,只包含了轉(zhuǎn)錄本ID, 示例如下

chr1 hg38_refGene exon 11106531 11107500 0.000000 - . gene_id "NM_004958"; transcript_id "NM_004958";

轉(zhuǎn)錄本對應(yīng)的基因名稱時非常重要的信息,如果要解決這個問題,可以通過FTP服務(wù)器進(jìn)行下載。

2. FTP

UCSC的FTP服務(wù)提供了物種的注釋文件供下載,hg38的FTP地址如下

http://hgdownload.soe.ucsc.edu/goldenPath/hg38/database/

但是FTP中并沒有直接提供bed12, gtf 格式的文件,因為這些格式存在冗余信息,文件大小會比較大。為例節(jié)省磁盤空間,UCSC提出來genePred這種格式。這種格式每一行代表一個轉(zhuǎn)錄本信息,冗余信息較少。更多的介紹可以參考官方文檔
https://genome.ucsc.edu/FAQ/FAQformat.html#format9

UCSC RefSeq這種信息對應(yīng)的文件為refGene.txt.gz, 對于該文件,需要借助UCSC官方提供的格式轉(zhuǎn)換工具轉(zhuǎn)換為gtf格式。

其中genePredToGtf就是把genepred格式轉(zhuǎn)換為gtf格式的工具。使用方式如下

wget http://hgdownload.soe.ucsc.edu/goldenPath/hg38/database/refGene.txt.gz
gunzip refGene.txt.gz
cut -f 2- refGene.txt | genePredToGtf file stdin -source=hg38_Ref  hg38.gtf

refGene.txt的第一列信息是多余的,刪除之后,整個文件就是genePred格式了。最終生成的文件如下

chr20   hg19_Ref        exon    63865228        63865384        .       +       .       gene_id "TPD52L2"; transcript_id "NM_003288"; exon_number "1"; exon_id "NM_003288.1"; gene_name "TPD52L2";

可以看到,gene_id的信息是有了。但是還是有點不足之處,相比NCBI和Ensembl, UCSC提供的GTF文件中共缺少了gene_biotype的信息,無法確定基因類型。

關(guān)于怎樣從UCSC下載基因組的GTF文件問題的解答就分享到這里了,希望以上內(nèi)容可以對大家有一定的幫助,如果你還有很多疑惑沒有解開,可以關(guān)注創(chuàng)新互聯(lián)行業(yè)資訊頻道了解更多相關(guān)知識。

當(dāng)前文章:怎樣從UCSC下載基因組的GTF文件
新聞來源:http://bm7419.com/article32/geejpc.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供品牌網(wǎng)站建設(shè)外貿(mào)建站、自適應(yīng)網(wǎng)站云服務(wù)器、搜索引擎優(yōu)化、企業(yè)建站

廣告

聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時需注明來源: 創(chuàng)新互聯(lián)

h5響應(yīng)式網(wǎng)站建設(shè)