精品欧美无遮挡一区二区三区在线观看,中文字幕一区二区日韩欧美,久久久久国色αv免费观看,亚洲熟女乱综合一区二区三区

        ? 首頁(yè) ? 理論教育 ?數(shù)據(jù)庫(kù)的類型和結(jié)構(gòu)的分析介紹

        數(shù)據(jù)庫(kù)的類型和結(jié)構(gòu)的分析介紹

        時(shí)間:2023-10-31 理論教育 版權(quán)反饋
        【摘要】:書目型數(shù)據(jù)庫(kù)和全文數(shù)據(jù)庫(kù)不僅在內(nèi)容上有差異,結(jié)構(gòu)上也有不同。書目數(shù)據(jù)庫(kù)的每條記錄通常由若干個(gè)描述文獻(xiàn)特征的字段構(gòu)成,在字段之間、記錄之間還存在某種聯(lián)系,它們構(gòu)成文獻(xiàn)的邏輯結(jié)構(gòu)。數(shù)值型數(shù)據(jù)庫(kù)根據(jù)其內(nèi)容的不同可有單元形式和表冊(cè)形式兩種數(shù)據(jù)結(jié)構(gòu)。

        3.3 數(shù)據(jù)庫(kù)的類型和結(jié)構(gòu)

        數(shù)據(jù)庫(kù)(database)是計(jì)算機(jī)技術(shù)和文獻(xiàn)信息檢索技術(shù)相結(jié)合的產(chǎn)物,同時(shí)它又反作用于信息檢索,它是文獻(xiàn)信息檢索系統(tǒng)必不可少的組成部分,是計(jì)算機(jī)信息檢索系統(tǒng)的信息源和核心,也是現(xiàn)代信息資源管理的重要工具。那么到底什么是數(shù)據(jù)庫(kù)?數(shù)據(jù)庫(kù)是為了滿足某方面用戶信息需求而被收集在一起的一組有組織(或有序)的信息單元。每個(gè)信息單元由若干個(gè)獨(dú)立的結(jié)構(gòu)單元組成,數(shù)據(jù)元存儲(chǔ)在字段中,每個(gè)數(shù)據(jù)元描述一個(gè)特殊屬性。

        3.3.1 數(shù)據(jù)庫(kù)的類型

        數(shù)據(jù)庫(kù)的類型有許多種,人們可以從不同的角度對(duì)其進(jìn)行分類,如按存儲(chǔ)介質(zhì)分,按數(shù)據(jù)庫(kù)的性質(zhì)分等。目前在信息檢索領(lǐng)域比較流行的分類是根據(jù)數(shù)據(jù)庫(kù)所含信息內(nèi)容作為基本的分類標(biāo)準(zhǔn),根據(jù)這個(gè)標(biāo)準(zhǔn),可以將數(shù)據(jù)庫(kù)分為以下幾類。

        1.文獻(xiàn)型數(shù)據(jù)庫(kù)

        文獻(xiàn)型數(shù)據(jù)庫(kù),根據(jù)其存儲(chǔ)的數(shù)據(jù)是文獻(xiàn)題錄或文摘還是全文又可分為書目數(shù)據(jù)庫(kù)和全文數(shù)據(jù)庫(kù)。書目型數(shù)據(jù)庫(kù)是存儲(chǔ)文獻(xiàn)的題錄或文摘等二次文獻(xiàn)的數(shù)據(jù)庫(kù)。它們是文獻(xiàn)的外表特征和內(nèi)容特征的描述與記載。書目型數(shù)據(jù)庫(kù)只提供文獻(xiàn)信息線索的查尋,而不提供原始文獻(xiàn)的檢索,其信息來(lái)源于公開發(fā)行的圖書、期刊、報(bào)紙、科技報(bào)告等。如《中國(guó)科技期刊數(shù)據(jù)庫(kù)》、《中國(guó)學(xué)術(shù)期刊文摘數(shù)據(jù)庫(kù)》、《中國(guó)專利(CNPTA)文摘》、《CNPTA/圖文》等均屬于書目型數(shù)據(jù)庫(kù)。

        全文數(shù)據(jù)庫(kù),存儲(chǔ)的是文獻(xiàn)全文或文獻(xiàn)的主要內(nèi)容,如報(bào)刊文章、新聞稿、法律條文等,根據(jù)其存儲(chǔ)內(nèi)容的形式可分為直接原文型和摘錄型。直接原文型直接存儲(chǔ)全文,有的還包括正文外的信息,如著者、出處、關(guān)鍵詞等。摘錄型則是將原文經(jīng)壓縮提煉形成若干篇可以說(shuō)明文獻(xiàn)內(nèi)容的文獻(xiàn)摘錄或原文片段。對(duì)全文數(shù)據(jù)庫(kù)進(jìn)行檢索均無(wú)需經(jīng)過二次檢索,可直接得到檢索原文或能解決問題的文獻(xiàn)摘錄。這也是全文數(shù)據(jù)庫(kù)優(yōu)于書目數(shù)據(jù)庫(kù)之處,但它需要更大的存儲(chǔ)空間。全文型數(shù)據(jù)庫(kù)最早出現(xiàn)于法律領(lǐng)域,隨后在文學(xué)、經(jīng)濟(jì)、新聞等其他領(lǐng)域也相繼出現(xiàn)。如《中文科技期刊全文數(shù)據(jù)庫(kù)》、《中國(guó)學(xué)術(shù)期刊全文數(shù)據(jù)庫(kù)》、《法律法規(guī)全文數(shù)據(jù)庫(kù)》、《中國(guó)日?qǐng)?bào)全文數(shù)據(jù)庫(kù)》等均屬于這一類型數(shù)據(jù)庫(kù)。

        書目型數(shù)據(jù)庫(kù)和全文數(shù)據(jù)庫(kù)不僅在內(nèi)容上有差異,結(jié)構(gòu)上也有不同。書目數(shù)據(jù)庫(kù)的每條記錄通常由若干個(gè)描述文獻(xiàn)特征的字段構(gòu)成,在字段之間、記錄之間還存在某種聯(lián)系,它們構(gòu)成文獻(xiàn)的邏輯結(jié)構(gòu)。這種結(jié)構(gòu)通常根據(jù)文檔的組織不同分為線性結(jié)構(gòu)和樹形結(jié)構(gòu)兩種。而全文型數(shù)據(jù)庫(kù)在結(jié)構(gòu)上也有其自己的組織方式,如有的數(shù)據(jù)庫(kù)它由若干個(gè)文庫(kù)組成,每個(gè)文庫(kù)分為若干文檔,文檔又由若干文獻(xiàn)組成,文獻(xiàn)再往下分成若干個(gè)小片段,還有的數(shù)據(jù)庫(kù)由若干數(shù)據(jù)庫(kù)構(gòu)成,數(shù)據(jù)庫(kù)下不設(shè)文檔,直接把文獻(xiàn)分若干字段存儲(chǔ)。

        2.數(shù)值型數(shù)據(jù)庫(kù)

        數(shù)值型數(shù)據(jù)庫(kù)是存儲(chǔ)各種數(shù)值的數(shù)據(jù)庫(kù),其內(nèi)容是機(jī)讀型數(shù)據(jù)的集合。這一類型數(shù)據(jù)庫(kù)數(shù)據(jù)是從文獻(xiàn)中分析提取出來(lái),或是經(jīng)實(shí)驗(yàn)、統(tǒng)計(jì)、觀測(cè)直接得到,經(jīng)核實(shí)、檢驗(yàn)、整理而成,內(nèi)容涉及市場(chǎng)行情、經(jīng)濟(jì)信息、人口分析、天氣預(yù)報(bào)、投資與股票等方面的數(shù)據(jù)。

        數(shù)值型數(shù)據(jù)庫(kù)根據(jù)其內(nèi)容的不同可有單元形式和表冊(cè)形式兩種數(shù)據(jù)結(jié)構(gòu)。單元形式數(shù)據(jù)結(jié)構(gòu)是對(duì)原始數(shù)據(jù)的模擬,表冊(cè)形式則是對(duì)統(tǒng)計(jì)數(shù)據(jù)的機(jī)讀模擬。以單元形式存儲(chǔ)的數(shù)據(jù)主要是一些相對(duì)獨(dú)立的數(shù)據(jù),如電話號(hào)碼、化學(xué)分子式等。而表冊(cè)形式存儲(chǔ)的數(shù)據(jù)則是一些聚集式的數(shù)據(jù),如股市行情、科學(xué)實(shí)驗(yàn)數(shù)據(jù)、氣象數(shù)據(jù)等,它通常以多維矩陣或表格形式存儲(chǔ)。

        3.事實(shí)型數(shù)據(jù)庫(kù)

        事實(shí)型數(shù)據(jù)庫(kù)也有人稱其為字典型數(shù)據(jù)庫(kù),它是存儲(chǔ)某些客觀事物的指示性描述的數(shù)據(jù)庫(kù)。它可提供人們查尋人物、機(jī)構(gòu)、成果、產(chǎn)品或商品等的有關(guān)信息。因此根據(jù)其存儲(chǔ)的內(nèi)容又可分為人物傳記數(shù)據(jù)庫(kù)、機(jī)構(gòu)名錄數(shù)據(jù)庫(kù)、成果數(shù)據(jù)庫(kù)、產(chǎn)品數(shù)據(jù)庫(kù)、基金數(shù)據(jù)庫(kù)、旅游指南數(shù)據(jù)庫(kù)等許多種。如中國(guó)信息所萬(wàn)方公司的《中國(guó)科學(xué)技術(shù)成果數(shù)據(jù)庫(kù)》就屬成果數(shù)據(jù)庫(kù)一類,中國(guó)科技信息所的《中國(guó)企業(yè)、公司及產(chǎn)品數(shù)據(jù)庫(kù)》則屬產(chǎn)品指南庫(kù)。

        事實(shí)型數(shù)據(jù)庫(kù)涉及的內(nèi)容復(fù)雜,各字段內(nèi)容長(zhǎng)短不一,因此其結(jié)構(gòu)也不可同日而語(yǔ)。對(duì)于主題領(lǐng)域較多、各主題綜合型較強(qiáng)的數(shù)據(jù)庫(kù)一般采用多子數(shù)據(jù)庫(kù)和多文檔形式存儲(chǔ),而對(duì)于單一主題、內(nèi)容較專的事實(shí)型數(shù)據(jù)庫(kù)則通常用單一主文檔,不定長(zhǎng)多字段的記錄格式存儲(chǔ)。

        4.圖像型數(shù)據(jù)庫(kù)

        圖像型數(shù)據(jù)庫(kù)是用于存儲(chǔ)圖像數(shù)據(jù)以及其說(shuō)明文字等的數(shù)據(jù)庫(kù)。這種數(shù)據(jù)庫(kù)最初還只是作為文獻(xiàn)型數(shù)據(jù)庫(kù)和數(shù)值型數(shù)據(jù)庫(kù)的輔助檢索工具出現(xiàn),文獻(xiàn)型數(shù)據(jù)庫(kù)一般只提供圖形或圖片的線索,而數(shù)值型數(shù)據(jù)庫(kù)也只是存儲(chǔ)一些簡(jiǎn)單的圖形或圖片數(shù)據(jù)。近年來(lái),由于光盤技術(shù)的發(fā)展及廣泛應(yīng)用,出現(xiàn)了純粹存儲(chǔ)圖片、圖形的光盤數(shù)據(jù)庫(kù),這種圖像型數(shù)據(jù)庫(kù)主要存儲(chǔ)建筑裝飾、家具、燈具、生物資源等方面的圖片。

        除了以上所述的四種數(shù)據(jù)庫(kù)外,近幾年來(lái),多媒體技術(shù)迅速發(fā)展,又出現(xiàn)了將文本文件、圖像和聲音等綜合在一起的數(shù)據(jù)庫(kù)——多媒體數(shù)據(jù)庫(kù)。這種數(shù)據(jù)庫(kù)與前面幾種的不同之處在于它處理的數(shù)據(jù)對(duì)象發(fā)生了重大的變化。用戶可以輸入并查詢的信息已不限于文本和格式化數(shù)據(jù),而且能將聲音加入并允許用戶修改視頻和圖像等。這種數(shù)據(jù)庫(kù)特別適合于醫(yī)療保健和保險(xiǎn)工作等主要依靠視覺信息的行業(yè),目前,X光透視和其他醫(yī)療高科技的有關(guān)多媒體數(shù)據(jù)庫(kù)已有應(yīng)用。

        3.3.2 數(shù)據(jù)庫(kù)的結(jié)構(gòu)

        不同類型、不同內(nèi)容的數(shù)據(jù)庫(kù),由于數(shù)據(jù)內(nèi)容及標(biāo)引人員的不同,其文獻(xiàn)記錄標(biāo)引方式、結(jié)構(gòu)必然存在一定的差異,因而會(huì)提供不同的檢索方法,因此對(duì)數(shù)據(jù)庫(kù)結(jié)構(gòu)的了解極其重要。下面就主要以書目型數(shù)據(jù)庫(kù)為例具體介紹數(shù)據(jù)庫(kù)的結(jié)構(gòu)。

        文獻(xiàn)數(shù)據(jù)庫(kù)大多是書目式的數(shù)據(jù)庫(kù),這種數(shù)據(jù)庫(kù)里存儲(chǔ)的并非是原始文獻(xiàn),而是經(jīng)過加工的二次文獻(xiàn),即文獻(xiàn)的題錄、文摘以及索引字段。其結(jié)構(gòu)類似于印刷型的檢索工具。數(shù)據(jù)庫(kù)是一個(gè)包含大量反映文獻(xiàn)外表特征和內(nèi)容特征的著錄款目的集合。一個(gè)數(shù)據(jù)庫(kù)主要由字段、記錄和文檔3個(gè)層次構(gòu)成。

        1.記錄與字段

        數(shù)據(jù)庫(kù)通常由文檔組成,而文檔則由若干條記錄構(gòu)成。記錄是數(shù)據(jù)庫(kù)文檔的基本組成單位,它在文檔中是描述某一實(shí)體屬性的數(shù)據(jù)集合,在書目型數(shù)據(jù)庫(kù)中就是描述各文獻(xiàn)的外部特征和內(nèi)容特征的數(shù)據(jù)集合,如文獻(xiàn)名稱、著者姓名、發(fā)行日期、分類號(hào)、關(guān)鍵字等。

        在數(shù)據(jù)庫(kù)中,從內(nèi)容上討論,文獻(xiàn)特征稱為實(shí)體屬性,如果從結(jié)構(gòu)上說(shuō),則可稱其為字段值或字段內(nèi)容。字段是構(gòu)成數(shù)據(jù)庫(kù)的最小單位。對(duì)應(yīng)于任一實(shí)體的某一屬性有一字段值,因此在書目數(shù)據(jù)庫(kù)中則有文獻(xiàn)名稱字段、著者姓名字段、發(fā)行日期字段、分類號(hào)字段、關(guān)鍵詞字段等。

        不同類型、不同內(nèi)容的數(shù)據(jù)庫(kù),其文獻(xiàn)記錄標(biāo)引內(nèi)容與形式會(huì)有很大不同,但是每條文獻(xiàn)記錄基本上都有三個(gè)組成部分:存取號(hào)、基本索引字段、輔助索引字段。存取號(hào)是計(jì)算機(jī)按文獻(xiàn)存取先后自動(dòng)給予每條記錄的一種順序號(hào);基本索引字段是用來(lái)描述文獻(xiàn)內(nèi)容特征的字段,它主要包括題名字段、文摘字段、敘詞字段、自由標(biāo)引詞字段等;輔助索引字段則主要用來(lái)描述文獻(xiàn)外部特征的字段,如文摘號(hào)字段、著者字段、語(yǔ)種字段等。

        2.文檔

        文檔(file)是由眾多記錄按一定方式組織在一起形成的,按記錄組成形式的不同,文檔可分為順排文檔和倒排文檔,一個(gè)數(shù)據(jù)庫(kù)至少包含一個(gè)順排文檔和一個(gè)倒排文檔。

        (1)順排文檔(linear file) 順排文檔就是將文獻(xiàn)記錄按存取號(hào)的順序一個(gè)接一個(gè)存放起來(lái)形成的文檔,是完整的順序信息記錄,它是一種順序存儲(chǔ)結(jié)構(gòu),存取號(hào)愈大的記錄愈新。在順排文檔中存儲(chǔ)了數(shù)據(jù)庫(kù)中所有的記錄,并且存儲(chǔ)了每篇文獻(xiàn)的最完整的信息,因此又稱為主文檔。由于順排文檔的這種存儲(chǔ)結(jié)構(gòu)特性也決定了對(duì)其進(jìn)行檢索時(shí),只能順序逐條讀取其中的記錄,要查找其中某一條記錄,只有掃描完整個(gè)文檔才能算結(jié)束,因此比較費(fèi)時(shí)。

        (2)倒排文檔(inverted file) 倒排文檔則是將主文檔中的可檢屬性抽出重排而派生出的數(shù)據(jù)記錄。在查找時(shí)必須讀取每一條記錄,因此我們有必要尋找另外的文獻(xiàn)排列方式來(lái)解決這個(gè)問題,方便檢索,節(jié)省時(shí)間。于是,我們想到像手工檢索工具一樣編制一種索引,對(duì)順排文檔(相當(dāng)于檢索工具的正文)再一次進(jìn)行濃縮,倒排文檔就是這樣一種相當(dāng)于索引的文檔。它是抽取文獻(xiàn)記錄中一切可檢字段按某種順序排列而成的文檔。不同的字段可以組成不同的倒排文檔。例如,我們可以按文獻(xiàn)出版年構(gòu)成出版年倒排文檔,還可有著者倒排文檔,題名倒排文檔等。另外,還可以將幾個(gè)字段混合排序組成混合倒排文檔,這也相當(dāng)于索引中的復(fù)合索引。

        下面可舉一例來(lái)說(shuō)明順排文檔與倒排文檔的聯(lián)系。

        現(xiàn)假設(shè)有一個(gè)包含5篇文獻(xiàn)的文獻(xiàn)集合,分別為:

        001向“電子圖書館”挑戰(zhàn):西方發(fā)達(dá)國(guó)家國(guó)立圖書館的現(xiàn)狀與發(fā)展趨向(標(biāo)引詞:電子圖書館/圖書館/計(jì)算機(jī))

        002電子圖書館的終端讀者管理(標(biāo)引詞:電子圖書館/讀者管理/圖書館)

        003臺(tái)灣的圖書館自動(dòng)化和數(shù)字圖書館建設(shè)(標(biāo)引詞:數(shù)字圖書館/電子圖書館/圖書館)

        004數(shù)字化圖書館的研究及其關(guān)鍵技術(shù)(標(biāo)引詞:數(shù)字化圖書館/電子圖書館/檢索)

        005電子圖書館的信息資源管理模式(標(biāo)引詞:電子圖書館/信息資源管理/檢索)

        以上5個(gè)簡(jiǎn)化文獻(xiàn)記錄的順排文檔的形式為:

        001向“電子圖書館”挑戰(zhàn):西方發(fā)達(dá)國(guó)家國(guó)立圖書館的現(xiàn)狀與發(fā)展趨向002電子圖書館的終端讀者管理 003臺(tái)灣的圖書館自動(dòng)化和數(shù)字圖書館建設(shè) 004數(shù)字化圖書館的研究及其關(guān)鍵技術(shù) 005電子圖書館的信息資源管理模式

        相對(duì)應(yīng)的主題詞倒排文檔的形式為:

        數(shù)字圖書館003,004

        電子圖書館001,002,003,004,005

        計(jì)算機(jī)001

        讀者管理002

        圖書館002,003

        檢索004,005

        信息資源管理005

        習(xí)題:

        1.何謂計(jì)算機(jī)信息檢索?并簡(jiǎn)述計(jì)算機(jī)信息檢索原理。

        2.計(jì)算機(jī)信息檢索系統(tǒng)由幾部分組成?有哪些類型?

        3.信息檢索用數(shù)據(jù)庫(kù)一般包括哪兩種文檔?

        4.按照內(nèi)容來(lái)劃分,數(shù)據(jù)庫(kù)可分為哪幾種?

        免責(zé)聲明:以上內(nèi)容源自網(wǎng)絡(luò),版權(quán)歸原作者所有,如有侵犯您的原創(chuàng)版權(quán)請(qǐng)告知,我們將盡快刪除相關(guān)內(nèi)容。

        我要反饋