源數(shù)據(jù)格式轉(zhuǎn)換
2.2.2 源數(shù)據(jù)格式轉(zhuǎn)換
通過上述操作,各詞表中有關(guān)的詞匯已錄入計(jì)算機(jī)系統(tǒng),每個(gè)詞匯及其有關(guān)參照項(xiàng)組成一條記錄。通常情況下,人們習(xí)慣用這種方式存貯詞表,以盡可能與原表保持一致,符合用戶使用印刷版的習(xí)慣。在集成詞表中,這樣的存儲(chǔ)格式既不便于詞表的動(dòng)態(tài)維護(hù),也不便用戶方便、快捷地查尋詞匯,降低詞表的轉(zhuǎn)換效率。如果要查尋一個(gè)詞匯,必須先查到該詞在兩個(gè)數(shù)據(jù)庫的記錄,然后才能進(jìn)行操作。因此,必須將原數(shù)據(jù)格式利用程序進(jìn)行轉(zhuǎn)換,生成TF和RF兩種格式(見表2-2)。
表2-2 源詞表的數(shù)據(jù)結(jié)構(gòu)
續(xù)表 2-2
TF和RF有以下優(yōu)點(diǎn):使詞表中的每個(gè)詞只出現(xiàn)一次,既能節(jié)約大量的存儲(chǔ)空間,又能提高查尋效率,同時(shí)便于對(duì)每個(gè)源詞表進(jìn)行動(dòng)態(tài)維護(hù);把參照項(xiàng)轉(zhuǎn)換為字段值,而不是字段;整個(gè)系統(tǒng)并不受源詞表多少的影響,需要集成的詞匯表隨時(shí)可以補(bǔ)充進(jìn)來,而不需要對(duì)已生成集成詞表的數(shù)據(jù)進(jìn)行更新。
通過這種方法生成的集成詞表要占用大量的存儲(chǔ)空間,因?yàn)楸仨毚_保每個(gè)源詞表的詞匯及其參照都包括進(jìn)來。如果兩個(gè)源詞表的某一詞匯及其參照關(guān)系完全相同,但由于來自兩個(gè)不同的詞表,仍以兩條記錄形式在集成詞表中出現(xiàn)。
《漢表》、《社科表》和《經(jīng)管表》TF和RF格式的記錄數(shù)量參見表2-3。
表2-3 三種敘詞表的記錄數(shù)量
免責(zé)聲明:以上內(nèi)容源自網(wǎng)絡(luò),版權(quán)歸原作者所有,如有侵犯您的原創(chuàng)版權(quán)請告知,我們將盡快刪除相關(guān)內(nèi)容。