在基因組研究中的應(yīng)用
運(yùn)用電子信息技術(shù)處理數(shù)量巨大生物信息的一般思路有特定用途和專利價值。近十年來,科學(xué)家們通過基因組計劃的研究,獲得了大量有關(guān)生物分子信息的數(shù)據(jù),另外計算機(jī)的發(fā)展也給科學(xué)家們提供了前所未有的分析工具,從而為基因和蛋白信息的產(chǎn)業(yè)化提供了強(qiáng)有力的手段。生物信息產(chǎn)業(yè)化歸根到底就是通過數(shù)學(xué)和計算機(jī)的分析手段將生命的數(shù)據(jù)(基因和蛋白)變?yōu)榭缮虡I(yè)化的信息,從而大大縮短藥物及其他生物技術(shù)產(chǎn)品開發(fā)的時間。表2-2清楚地闡述了數(shù)據(jù)與信息的本質(zhì)區(qū)別。
表2-2 數(shù)據(jù)與信息的區(qū)別
注:數(shù)據(jù)和信息之間的比較表明信息知識具有潛在的巨大商業(yè)價值(一個類比是:木材[:數(shù)據(jù)]和家具[:信息])
(一)我國應(yīng)用現(xiàn)狀
在我國,生物信息學(xué)的研究是近年才從國外引入和發(fā)展的,現(xiàn)在日益受到各方面的重視,包括政府、高校和研究機(jī)構(gòu)。但是,我國在生物信息學(xué)方面的研究起步晚、投資少,無論從硬件還是軟件上講,都還比較落后。然而,要在生物醫(yī)藥研究方面趕超世界先進(jìn)水平,就必須發(fā)展生物信息學(xué)。新的藥物及治療方法可以解除病人的痛苦,提高國民的健康狀況,減少醫(yī)療費用,為政府分憂,其社會效益與經(jīng)濟(jì)效益一樣是巨大的。專利和知識產(chǎn)權(quán)受到法律保護(hù),通過對功能基因組和蛋白的生物信息學(xué)研究,發(fā)現(xiàn)新的疾病相關(guān)基因及候選藥物基因,能為新藥的進(jìn)一步研究和開發(fā)打下良好的基礎(chǔ),從而產(chǎn)生巨大的經(jīng)濟(jì)效益。在國際生物醫(yī)藥行業(yè)里,一個與制藥有關(guān)的技術(shù)和產(chǎn)品通常來說,最少值300萬美元。近年來許多例證表明,一些重要專利的價值將遠(yuǎn)遠(yuǎn)高于這個數(shù)字。例如美國安進(jìn)(Amgen)公司花費2000萬美元買下一個與人體肥胖相關(guān)基因?qū)@?;格蘭素-威康(Glaxo-Wellcome)用5億美元收購Affymax公司,也就是看中其擁有新藥快速篩選中的一個專利技術(shù)。
通過對人的基因組進(jìn)行研究,并由此篩選出許多具有特定序列的新基因,然后再對這些新基因進(jìn)行功能研究。從這些新基因的特殊生物功能來探尋它們成為新藥的可能性,或探尋這些新基因成為新藥篩選與設(shè)計的靶子的可能性,從而達(dá)到篩選新藥的目的。與傳統(tǒng)實驗室篩選新基因的方法相比,生物信息學(xué)研究可以減少前期研究和開發(fā)的盲目性,節(jié)約科研經(jīng)費和人力投入,縮短新藥開發(fā)周期,它的作用是非常巨大的。
(二)人類基因組等研究
20世紀(jì)90年代以來,人類基因組和其他模式生物基因組計劃全面實施。許多生物包括古細(xì)菌、真細(xì)菌、真核生物的全基因組序列測定已經(jīng)完成,此外,一大批病毒、類病毒、噬菌體、線粒體、葉綠體、質(zhì)粒的全序列測定也已經(jīng)完成。已經(jīng)完成的細(xì)菌基因組和病毒基因組中,不少與人類疾病相關(guān),人類基因組30億個堿基對的草圖序列也于2001年2月分別在Science和Nature雜志發(fā)表,小鼠、河豚、擬南芥、水稻、玉米等其他模式生物基因組的全序列測定,正在加速進(jìn)行或有的已經(jīng)完成?;蚪M模式生物數(shù)據(jù)庫紛紛上網(wǎng),如人類基因組GDB、小鼠基因組MGD、果蠅基因組Flybase、線蟲基因組ACeDB、水稻基因組RiceGenes、酵母基因組Yeast和大腸桿菌基因組ECDC等。
隨著基因組計劃的實施,核酸和蛋白質(zhì)一級結(jié)構(gòu)序列數(shù)據(jù)及與此相關(guān)的分子生物醫(yī)學(xué)文獻(xiàn)摘要數(shù)據(jù)迅速增長。這些數(shù)據(jù)庫分別由國際著名的生物信息中心負(fù)責(zé)管理、維護(hù)和運(yùn)行,如核酸序列數(shù)據(jù)庫GenBank和文獻(xiàn)摘要數(shù)據(jù)庫MedLine由美國的國家生物技術(shù)信息中心(National Center for Biotechnology Information,NCBI)管理,核酸序列數(shù)據(jù)庫EMBL由英國劍橋的歐洲生物信息學(xué)研究所(European Bioinformatics Institute,EBI)管理,核酸序列數(shù)據(jù)庫DDBJ由日本國家遺傳學(xué)研究院(National Institute of Genetics,NIG)管理,蛋白序列數(shù)據(jù)庫SwissProt由瑞士生物信息研究所(Swiss Institute of Bioinformatics,SIB)管理,蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)庫PDB原由美國Brookhaven國家實驗室管理,1998年10月移交給美國結(jié)構(gòu)生物信息學(xué)合作研究機(jī)構(gòu)(Research Collaboration for Structural Bioinformatics)管理。
(三)應(yīng)用前景
計算機(jī)網(wǎng)絡(luò)的發(fā)展,互聯(lián)網(wǎng)在全球的普及,為分子生物信息數(shù)據(jù)庫的利用開辟了廣闊前景。由測序中心所得到的數(shù)據(jù),通過計算機(jī)網(wǎng)絡(luò)直接送往國際核酸序列數(shù)據(jù)中心。此外,生物學(xué)家也可以通過SeqIn、WebIn等基于互聯(lián)網(wǎng)的序列遞交程序,直接向數(shù)據(jù)中心遞交數(shù)據(jù)。由于數(shù)據(jù)庫容量的急速增長,利用磁盤、磁帶、光盤等介質(zhì)向生物學(xué)家發(fā)布數(shù)據(jù)庫已經(jīng)變得相當(dāng)困難,而計算機(jī)網(wǎng)絡(luò)傳輸速度的不斷增加,為數(shù)據(jù)傳輸提供了極好的手段。NCBI、EBI、NIG均有免費的數(shù)據(jù)下載服務(wù)。1999年10月,北京大學(xué)生物信息中心的FTP服務(wù)器開始為國內(nèi)外用戶免費提供數(shù)據(jù)庫下載服務(wù),包括核酸序列數(shù)據(jù)庫GenBank和EMBL、蛋白質(zhì)序列數(shù)據(jù)庫SwissProt和PIR、蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)庫PDB等,其中EMBL、SwissProt和PDB已經(jīng)做到與國際數(shù)據(jù)中心同步更新。分子生物信息數(shù)據(jù)庫種類繁多。歸納起來,大體可以分為4個大類,即基因組數(shù)據(jù)庫、核酸和蛋白質(zhì)一級結(jié)構(gòu)序列數(shù)據(jù)庫、生物大分子(主要是蛋白質(zhì))三維空間結(jié)構(gòu)數(shù)據(jù)庫及以上述3類數(shù)據(jù)庫和文獻(xiàn)資料為基礎(chǔ)構(gòu)建的二次數(shù)據(jù)庫?;蚪M數(shù)據(jù)庫來自基因組作圖,序列數(shù)據(jù)庫來自序列測定,結(jié)構(gòu)數(shù)據(jù)庫來自X-衍射和核磁共振結(jié)構(gòu)測定。這些數(shù)據(jù)庫是分子生物信息學(xué)的基本數(shù)據(jù)資源,通常稱為基本數(shù)據(jù)庫、初始數(shù)據(jù)庫,也稱一次數(shù)據(jù)庫。根據(jù)生命科學(xué)不同研究領(lǐng)域的實際需要,對基因組圖譜、核酸和蛋白質(zhì)序列、蛋白質(zhì)結(jié)構(gòu)以及文獻(xiàn)等數(shù)據(jù)進(jìn)行分析、整理、歸納、注釋,構(gòu)建具有特殊生物學(xué)意義和專門用途的二次數(shù)據(jù)庫,是數(shù)據(jù)庫開發(fā)的有效途徑。近年來,世界各國的生物學(xué)家和計算機(jī)科學(xué)家合作,已經(jīng)開發(fā)了幾百個二次數(shù)據(jù)庫和復(fù)合數(shù)據(jù)庫,也稱專門數(shù)據(jù)庫、專業(yè)數(shù)據(jù)庫或?qū)S脭?shù)據(jù)庫。
免責(zé)聲明:以上內(nèi)容源自網(wǎng)絡(luò),版權(quán)歸原作者所有,如有侵犯您的原創(chuàng)版權(quán)請告知,我們將盡快刪除相關(guān)內(nèi)容。