核酸信息分析
一、查找基因序列及基因基本信息——GeneBank
在分子生物學(xué)實(shí)驗(yàn)中,當(dāng)確立了感興趣的目的基因或確定了幾個(gè)欲研究的候選基因后,我們首先希望了解這些基因的基本情況,例如它的位置、長(zhǎng)度、種屬、序列、編碼區(qū)、編碼蛋白、表達(dá)特征等。這些信息的獲知就可以通過檢索核酸序列數(shù)據(jù)庫(kù)。
目前國(guó)際上有三大主要的核酸序列數(shù)據(jù)庫(kù),它們是EMBL、GeneBank和DDBJ。EMBL是在1980年由歐洲分子生物學(xué)實(shí)驗(yàn)室(European molecular biology laboratory,EMBL)創(chuàng)建的,目前由歐洲生物信息學(xué)研究所負(fù)責(zé)管理。DDBJ是日本DNA數(shù)據(jù)庫(kù)(DNA data base of Japan)的簡(jiǎn)稱,1986年創(chuàng)建,目前由日本國(guó)家遺傳學(xué)研究所負(fù)責(zé)管理。GeneBank是美國(guó)國(guó)立衛(wèi)生研究院(national institute of health,NIH)于20世紀(jì)80年代初委托洛斯阿拉莫斯(Los Alamos)國(guó)家實(shí)驗(yàn)室建立的,后移交給國(guó)立生物技術(shù)信息中心(national center for biotechnology information,NCBI),隸屬于NIH下設(shè)的國(guó)家醫(yī)學(xué)圖書館(national library of medicine,NLM)。在1987年,EMBL、GeneBank 與DDBJ正式建立合作關(guān)系,共同成立了國(guó)際核酸序列聯(lián)合數(shù)據(jù)庫(kù)中心。這3個(gè)數(shù)據(jù)中心各自搜集世界各國(guó)有關(guān)實(shí)驗(yàn)室和測(cè)序機(jī)構(gòu)所發(fā)布的序列數(shù)據(jù),并通過計(jì)算機(jī)網(wǎng)絡(luò)每天將新發(fā)現(xiàn)或更新過的數(shù)據(jù)進(jìn)行交換,以保證這3個(gè)數(shù)據(jù)庫(kù)序列信息的完整性和一致性。
GeneBank核酸序列數(shù)據(jù)庫(kù)是廣泛使用的核酸序列數(shù)據(jù)庫(kù)之一。據(jù)Nucleic Acids Research 2006數(shù)據(jù)庫(kù)??y(tǒng)計(jì),GeneBank中收錄的核酸序列超過4 600條,超過510億個(gè)堿基,多達(dá)205 000個(gè)物種,而且堿基總數(shù)平均每18個(gè)月就翻一番,物種數(shù)平均每個(gè)月增加3 000個(gè)。如此龐大和豐富的數(shù)據(jù)庫(kù)內(nèi)容為我們進(jìn)行基因基本信息的查找提供了極大的便利。
在利用數(shù)據(jù)庫(kù)進(jìn)行查詢和檢索之前,首先我們必須簡(jiǎn)單了解一下生物數(shù)據(jù)庫(kù)的查詢系統(tǒng)。
一般,查詢多采用字符匹配查詢,其基本過程可簡(jiǎn)單描述為:輸入特定的查詢字符后,數(shù)據(jù)庫(kù)中的注釋信息若含有與輸入字符相匹配的記錄,則運(yùn)行查詢程序?qū)⒑羞@類記錄的數(shù)據(jù)列出。一般的數(shù)據(jù)庫(kù)都具有相應(yīng)的查詢程序。SRS和Entrez是兩個(gè)功能強(qiáng)大且應(yīng)用廣泛的生物信息數(shù)據(jù)庫(kù)查詢系統(tǒng)。
SRS(sequence retrieval system)查詢系統(tǒng)是20世紀(jì)90年代初由EMBL的Thure Etzold博士帶領(lǐng)的課題組創(chuàng)建的,是一個(gè)功能強(qiáng)大的數(shù)據(jù)庫(kù)整合平臺(tái),可進(jìn)行數(shù)據(jù)庫(kù)集成、序列查詢、序列處理等工作。目前,歐洲的EMBL-Bank和日本的DDBJ數(shù)據(jù)庫(kù)都采用SRS查詢系統(tǒng)。除此之外,世界各地多個(gè)研究機(jī)構(gòu)或高校的相關(guān)網(wǎng)站,包括中國(guó)的微生物信息網(wǎng)、北京大學(xué)生物信息研究中心、上海生命科學(xué)研究院生物信息中心網(wǎng)站都使用SRS查詢系統(tǒng)。
Entrez是NCBI網(wǎng)站的數(shù)據(jù)庫(kù)查詢系統(tǒng),它集成了文獻(xiàn)數(shù)據(jù)庫(kù)、核酸序列數(shù)據(jù)庫(kù)、結(jié)構(gòu)數(shù)據(jù)庫(kù)、基因圖譜數(shù)據(jù)庫(kù),是有效利用NCBI數(shù)據(jù)庫(kù)資源的工具。與SRS相比,Entrez是單一數(shù)據(jù)庫(kù)查詢,不能同時(shí)跨庫(kù)檢索,并且限制查詢范圍的條件比SRS少,但Entrez的查詢速度較快,且有多個(gè)鏈接,可方便地鏈接到其他的數(shù)據(jù)庫(kù),其網(wǎng)上版本的更新也很快。
舉例:在NCBI中用Entrez系統(tǒng)在GeneBank數(shù)據(jù)庫(kù)中查詢?nèi)说?-磷酸甘油醛脫氫酶(glyceraldehyde-3-phosphate dehydrogenase,GAPDH)的核酸序列。
登陸NCBI網(wǎng)站(http://www.ncbi.nlm.nih.gov),如圖5-1所示。
在“Popular Resources”中直接選擇“Nucleotide”,在檢索框中輸入“GAPDH AND Homo sapiens”,即可得到檢索結(jié)果。
瀏覽檢索結(jié)果,從中查找與Homo sapiens glyceraldehyde-3-phosphate dehydrogenase(GAPDH)相關(guān)的檢索結(jié)果。根據(jù)實(shí)驗(yàn)?zāi)康?,選擇mRNA(實(shí)驗(yàn)中欲得到該基因的編碼序列)或whole genome(全基因組,實(shí)驗(yàn)中欲得到該基因的全部DNA序列)序列。在此,我們以mRNA序列為例。如圖5-2所示,第28個(gè)檢索結(jié)果為我們期望的結(jié)果。
點(diǎn)擊相應(yīng)的檢索結(jié)果,則可顯示GAPDH的有關(guān)信息(圖5-3)。圖5-3中有關(guān)術(shù)語(yǔ)的意義,在表5-1中說明。
圖5-1 NCBI網(wǎng)站主頁(yè)
圖5-2 GAPDH的第28個(gè)檢索結(jié)果
圖5-3 GAPDH的詳細(xì)信息
表5-1 GAPDH查詢結(jié)果中關(guān)于術(shù)語(yǔ)的意義說明
需要注意的是,雖然我們檢索到的是mRNA的序列,但在Origin給出序列時(shí),RNA中的U被T代替,表面上它給出的是DNA序列,實(shí)際上仍是mRNA的序列。但我們?cè)趯?shí)驗(yàn)中擴(kuò)增該基因時(shí),一般的過程是提取RNA后,反轉(zhuǎn)錄(逆轉(zhuǎn)錄)為cDNA雙鏈或單鏈,反轉(zhuǎn)錄后的序列即與給出的序列互補(bǔ)(cDNA第一鏈)或一致(cDNA第二鏈)了。所以在擴(kuò)增該基因時(shí),可以直接以此序列來設(shè)計(jì)引物。
二、引物設(shè)計(jì)——Primer Premier
搜索到感興趣目的基因的基本信息,包括表達(dá)種屬、高表達(dá)的組織細(xì)胞部位、核酸序列后,下一步可能我們需要將它從表達(dá)該基因的組織細(xì)胞中提取出來。在已知核酸序列的情況下,獲得目的基因最簡(jiǎn)單的方法莫過于PCR擴(kuò)增了。PCR技術(shù)是分子生物學(xué)實(shí)驗(yàn)中廣泛使用的基本技術(shù)。在進(jìn)行PCR實(shí)驗(yàn)時(shí),設(shè)計(jì)合適的PCR引物是實(shí)驗(yàn)成功的重要一環(huán)。因此,PCR引物設(shè)計(jì)也是分子生物學(xué)實(shí)驗(yàn)的基本技能之一。PCR引物設(shè)計(jì)是非常成熟的分子生物學(xué)技術(shù)之一,需要遵守一套非常嚴(yán)謹(jǐn)和實(shí)用的引物設(shè)計(jì)規(guī)則。根據(jù)這一規(guī)則開發(fā)了許多引物設(shè)計(jì)軟件,只需根據(jù)引物設(shè)計(jì)規(guī)則進(jìn)行選擇,就可得到理想的PCR擴(kuò)增引物。但在自己動(dòng)手設(shè)計(jì)PCR引物前,強(qiáng)烈建議首先查閱相關(guān)文獻(xiàn),采用正式發(fā)表文獻(xiàn)中報(bào)道的目的基因的擴(kuò)增引物,也可參考一些生物信息學(xué)網(wǎng)站提供的目的基因PCR引物,但無(wú)論是自己設(shè)計(jì)、相關(guān)技術(shù)網(wǎng)站推薦,還是采用文獻(xiàn)中報(bào)道的引物,在正式提交引物序列進(jìn)行合成之前,一定要先進(jìn)行BLAST分析,以確定該引物擴(kuò)增的是你感興趣的目的基因,以及確實(shí)擴(kuò)增到你下一步實(shí)驗(yàn)需要的序列區(qū)域。另外,提交引物序列進(jìn)行合成時(shí),一定要注意引物序列的方向性,無(wú)論上下游引物,在不標(biāo)注5'、3'末端時(shí),將序列從左到右默認(rèn)為是從5'-3'。
目前可用的PCR引物設(shè)計(jì)軟件很多,包括Primer Premier、Oligo 6.0、Vector NTI Suit、Dnasis、Dnastar、Primer3等,應(yīng)用廣泛且深受歡迎的主要是Primer Premier 5。使用的基本過程簡(jiǎn)述如下。
舉例:利用Primer Premier 5軟件設(shè)計(jì)GAPDH基因的擴(kuò)增引物。
方法和步驟:
1.從NCBI的數(shù)據(jù)庫(kù)查出GAPDH的基因序列并存為plain text記事本格式。
2.下載并安裝Primer Premier 5。
3.運(yùn)行Primer Premier 5,打開GAPDH的基因序列,顯示雙鏈格式。
4.進(jìn)行primer search,根據(jù)引物設(shè)計(jì)基本要求及實(shí)驗(yàn)的具體情況,設(shè)置包括引物擴(kuò)增范圍、長(zhǎng)度、GC含量、退火溫度范圍等相應(yīng)參數(shù),找出引物的“正義鏈”(sense)和“反義鏈”(antisense)及最合適的引物對(duì)(pairs)。
5.下載并安裝Oligo 6.0,評(píng)價(jià)設(shè)計(jì)的引物。
6.選出的primer序列針對(duì)人的全基因組進(jìn)行BLAST同源比對(duì)搜索,以剔除非特異結(jié)合的引物序列。
另外,在Internet上還有許多很不錯(cuò)的引物在線設(shè)計(jì)網(wǎng)站,如斯坦福大學(xué)的http:// seq.yeastgenome.org/cgi-bin/web-primer,只需將欲設(shè)計(jì)的目的基因的代碼或序列輸入查詢框,提交(submit)后選擇合適的PCR引物參數(shù)即可,如圖5-5所示。
圖5-4 利用primer_BLAST進(jìn)行PCR引物設(shè)計(jì)
圖5-5 斯坦福大學(xué)開發(fā)的在線PCR引物設(shè)計(jì)
三、序列比對(duì)——BLAST
BLAST(basic local alignment search tool) 是基于Altschul等人在J. Mol. Biol上發(fā)表的方法[J. Mol. Biol, 215:403-410(1990)]開發(fā)的一套在蛋白質(zhì)數(shù)據(jù)庫(kù)或核酸數(shù)據(jù)庫(kù)中進(jìn)行相似性比較的分析工具,可以對(duì)一條或多條序列(可以是任何形式的序列)在一個(gè)或多個(gè)核酸或蛋白序列庫(kù)中進(jìn)行比對(duì),還能發(fā)現(xiàn)具有缺口的能比對(duì)上的序列。它能迅速與公開數(shù)據(jù)庫(kù)進(jìn)行相似性序列比較,以得分大小對(duì)相似性的程度進(jìn)行統(tǒng)計(jì)說明。
我們可以用Blast工具來進(jìn)行序列比對(duì),以確認(rèn)欲研究的目的基因經(jīng)克隆、擴(kuò)增、質(zhì)粒提取和測(cè)序后,得到的是否是感興趣的基因序列,有無(wú)序列錯(cuò)誤,尤其在后續(xù)需進(jìn)行基因表達(dá)時(shí)更是如此。此外,還可用BLAST工具來檢驗(yàn)PCR引物的特異性。
BLAST工具包含了5種基本的序列比對(duì)功能。
(1)BLASTP:是蛋白序列到蛋白庫(kù)中的一種查詢。庫(kù)中存在的每條已知序列將逐一地同每條所查序列作一對(duì)一的序列比對(duì)。
(2)BLASTX:是核酸序列到蛋白庫(kù)中的一種查詢。先將核酸序列翻譯成蛋白序列(1條核酸序列會(huì)被翻譯成可能的6條蛋白),再對(duì)每一條作一對(duì)一的蛋白序列比對(duì)。
(3)BLASTN:是核酸序列到核酸庫(kù)中的一種查詢。庫(kù)中存在的每條已知序列都將同所查序列作一對(duì)一的核酸序列比對(duì)。
(4)TBLASTN:是蛋白序列到核酸庫(kù)中的一種查詢。與BLASTX相反,它是將庫(kù)中的核酸序列翻譯成蛋白序列,再與所查序列作蛋白與蛋白的比對(duì)。
(5)TBLASTX:是核酸序列到核酸庫(kù)中的一種查詢。此種查詢將庫(kù)中的核酸序列和所查的核酸序列都翻譯成蛋白(每條核酸序列會(huì)產(chǎn)生6條可能的蛋白序列),這樣每次比對(duì)會(huì)產(chǎn)生36種比對(duì)陣列。
通常根據(jù)查詢序列的類型(蛋白或核酸)來決定選用何種BLAST。假如是作核酸-核酸查詢,通常默認(rèn)為BLASTN。
我們以上述GeneBank中查詢到的GAPDH序列為例,利用NCBI中Blast來進(jìn)行序列比對(duì)、檢驗(yàn)引物特異性。具體操作如下。
1.登錄http://www.ncbi.nlm.nih.gov/BLAST/,打開BLAST 頁(yè)面(圖5-6)。
從圖5-6可以看出,頁(yè)面主體包括了3部分:BLAST Assembled Genomes、Basic BLAST、Specialized BLAST,可以認(rèn)為這是3種序列比對(duì)的方法,或者說是BLAST的3條途徑。
(1)BLAST Assembled Genomes:選擇要比對(duì)的物種,點(diǎn)擊相應(yīng)物種之后即可進(jìn)入比對(duì)頁(yè)面。
(2)Basic BLAST:包含了5 個(gè)常用的BLAST,選擇要進(jìn)行比對(duì)的數(shù)據(jù)庫(kù)后即可進(jìn)入比對(duì)頁(yè)面。
(3)Specialized BLAST:是一些有特殊目的的BLAST,如Primer-BLAST、gene expression profiles(GEO)、SNPs(snp)、immunoglobulins(IgBLAST)、conserved domains等,可以根據(jù)目的進(jìn)行查詢。
圖5-6 BLAST的檢索頁(yè)面
下面以最基本的核酸序列比對(duì)來介紹一下BLAST 的使用。
2.點(diǎn)擊Basic BLAST 部分的nucleotide BLAST,檢索頁(yè)面如圖5-7所示。
在一項(xiàng)中輸入欲比對(duì)的序列,可以直接把序列粘貼進(jìn)去,也可以上傳序列,還可以選擇要比對(duì)的序列的范圍(“Query subrange”選項(xiàng),留空就表示要比對(duì)輸入的整個(gè)序列)。在Job Title 部分還可以為本次比對(duì)命一個(gè)名字。之后選擇物種(Choose Search Set)或序列種類(genome DNA、mRNA 等)。在網(wǎng)頁(yè)的最下面還有一個(gè)“Algorithm parameters”(參數(shù)設(shè)置)選項(xiàng),一般用戶使用不到此項(xiàng),所以它比較隱蔽,建議非專業(yè)人員不要更改,直接默認(rèn)即可。最后點(diǎn)擊網(wǎng)頁(yè)最下面的BLAST 按鈕即可出現(xiàn)結(jié)果頁(yè)面 (圖5-8)。
圖5-7 nucleotide BLAST的檢索頁(yè)面
圖5-8 Blast 的檢索結(jié)果頁(yè)面
Blast檢索結(jié)果頁(yè)面的信息含量非常大,大體上包括4個(gè)部分。
1.所詢問和比對(duì)序列的簡(jiǎn)單信息
(1)詢問序列的簡(jiǎn)單信息——名稱、描述、分子類型、序列長(zhǎng)度。
(2)所比對(duì)數(shù)據(jù)庫(kù)的名稱、描述和所用程序。
2.Graphic Summary——blast結(jié)果圖形顯示 相似度顏色圖:以黑、藍(lán)、綠、粉紅、紅各個(gè)顏色表示比對(duì)的相似度(黑、藍(lán)、綠、粉紅、紅,相似度由低到高)。將鼠標(biāo)移至某一個(gè)具體的區(qū)域,會(huì)顯示出該區(qū)域所代表的比對(duì)結(jié)果(序列相似的基因)。
3.Descriptions——blast結(jié)果描述區(qū)
(1)與其他數(shù)據(jù)庫(kù)的鏈接。
(2)描述以表格的形式呈現(xiàn)(以匹配分值從大到小排序),表頭的意義如表5-2所示。
表5-2 Blast 檢索結(jié)果的說明
4.Alignments——各序列blast的詳細(xì)比對(duì)結(jié)果 數(shù)據(jù)庫(kù)中不同序列比對(duì)的詳細(xì)結(jié)果,每一個(gè)結(jié)果大體上包括3部分。
(1)所比對(duì)序列的名稱、簡(jiǎn)單描述、長(zhǎng)度,到其他數(shù)據(jù)庫(kù)的鏈接。
(2)比對(duì)結(jié)果的5個(gè)數(shù)值,意義如表5-3所示。
表5-3 Blast檢索結(jié)果的詳細(xì)說明
(3)輸入序列和庫(kù)中對(duì)比到的序列每個(gè)堿基的詳細(xì)對(duì)比。
根據(jù)Blast檢索結(jié)果所提供的信息,我們即可以對(duì)查詢序列的基本性質(zhì)、種屬、登錄號(hào)等有一個(gè)詳細(xì)和確切的認(rèn)識(shí),可以利用這些信息來確認(rèn)查詢序列是否是欲研究的序列;得到的查詢序列的完整性和準(zhǔn)確性如何;若是進(jìn)行PCR引物特異性分析,則可根據(jù)Blast結(jié)果,判斷該P(yáng)CR引物擴(kuò)增序列的特異性。
免責(zé)聲明:以上內(nèi)容源自網(wǎng)絡(luò),版權(quán)歸原作者所有,如有侵犯您的原創(chuàng)版權(quán)請(qǐng)告知,我們將盡快刪除相關(guān)內(nèi)容。