轉(zhuǎn)換模型和算法
3.4 轉(zhuǎn)換模型和算法
分類表的兼容轉(zhuǎn)換同樣具有方向性。也就說,兩個分類表A和B,A向B轉(zhuǎn)換與B向A轉(zhuǎn)換是兩次完全不同的操作。在A向B的轉(zhuǎn)換中,A是主體,B是參照系統(tǒng)。為了描述方便,A和B分別稱作“對比體系”和“基準體系”,A和B中的類別分別稱作“對比類別”和“基準類別”,A和B中的分類代碼分別稱作“對比代碼”和“基準代碼”。采用線分類法的分類表,其等級體系結(jié)構(gòu)可表示為一棵倒掛的樹,每個結(jié)點代表一個類別,結(jié)點之間的路徑距離,可以反映類別之間的語義關(guān)聯(lián)程度,比如下位類與其上位類的距離最短,二者的語義關(guān)聯(lián)程度也就最高[5]。
分類表的兼容轉(zhuǎn)換是一項重要而又具有很大難度的工作。漢語、英語和德語等語言都普遍存在字面相似度原理,即大多數(shù)字面相似的詞(字符串),特別是專業(yè)術(shù)語,往往表達相同(或者相近)的語義。本章主要探討一種基于字面相似度的分類表兼容轉(zhuǎn)換方法。分類表中的類名一般采用比較簡潔的文字描述。特別是一些下位類,常常省略與其上位類相同的文字部分,從而導(dǎo)致類名的語義模糊程度增加。如果直接根據(jù)類名的字面相似度來判斷類別語義相似度,準確性會受到較大影響。
根據(jù)Resnik理論、分類表中類名的文字描述特點和重心后移規(guī)律匹配法,本文提出一種類別轉(zhuǎn)換模型(String Similarity Based Conversion Model,簡稱“SSC”模型)。為了提高類別轉(zhuǎn)換的準確率,需要充分利用重構(gòu)后的類名來計算類別之間的語義相似度。所謂重構(gòu)類名,是指將每個類別的類名與其上位類的類名進行合并,以使重構(gòu)后的類名能夠更加完整地描述類別的語義內(nèi)容。從理論上講,為了確保重構(gòu)類名的語義完整性,可采用多級重構(gòu)的方式,即重構(gòu)類名=類名+上位類+上上位類……以此類推。作者認為,絕大多數(shù)一級重構(gòu)類名基本上能夠完整地表達該類別的語義內(nèi)容。因此,大多數(shù)應(yīng)用情況下,采用一級重構(gòu)類名基本上可以滿足要求。表3-1以《國土基礎(chǔ)信息數(shù)據(jù)分類與代碼》[6]為例,進一步闡述重構(gòu)類名的方法。
表3-1 GB/T13923—92中的部分類別
續(xù)表 3-1
假設(shè)A和B分別表示對比體系和基準體系,SA和SB分別表示一個對比類別和一個基準類別,NA和NB分別表示SA和SB的類名,UA和UB分別表示SA和SB的重構(gòu)類名。SA與SB的轉(zhuǎn)換模型定義如下:
其中,M1,M2,M3和M4分別代表四個不同的轉(zhuǎn)換級別,其優(yōu)先次序為M1>M2=M3>M4;δ(<0≤δ≤1)稱作“轉(zhuǎn)換級別系數(shù)”,用于使不同級別的語義相似度值具有可比性。δ值可以控制類別轉(zhuǎn)換關(guān)系的準確性和數(shù)量。δ值越大,類別轉(zhuǎn)換關(guān)系的準確性越高,但是轉(zhuǎn)換關(guān)系數(shù)量會減少;反之亦然。因此,可以根據(jù)實際應(yīng)用的不同要求,調(diào)整δ值的大小。實驗表明,δ為0.1時可以獲得比較滿意的轉(zhuǎn)換結(jié)果。
基于SSC模型的分類表轉(zhuǎn)換算法包括以下基本步驟:①依次將每個對比類別與所有基準類別之間建立候選類別轉(zhuǎn)換關(guān)系;②應(yīng)用SSC模型計算候選轉(zhuǎn)換關(guān)系的語義相似度;③根據(jù)篩選規(guī)則選擇類別轉(zhuǎn)換關(guān)系;④輸出最終轉(zhuǎn)換結(jié)果,即類別轉(zhuǎn)換關(guān)系表。為了控制轉(zhuǎn)換的準確性,一個對比類別盡可能只與一個基準類別建立轉(zhuǎn)換關(guān)系。具體轉(zhuǎn)換算法如下:
輸入:對比體系A(chǔ)(類別SA1,SA2,S6,…,SAi…SAm)
基準體系B(類別SB1,SB2,SB3,…,SBj…SBn)
輸出:類別轉(zhuǎn)換關(guān)系表(表T)
T=Φ
For i=1to m
SA=SAi
For j=1to n
Q=Φ
SB=SBj
將SA和SB構(gòu)成的轉(zhuǎn)換關(guān)系加入到表Q中
計算SA和SB的M1、M2、M3、M4值
Sim(SA,SB)=max(M1,M2,M3,M4)
j=j(luò)+1
End for
將表Q中符合條件“Sim(SA,SB)=max(Sim(SA,*))
and Sim(SA,SB)>θand轉(zhuǎn)換級別最大”的記錄添加到表
T中
i=i+1
End for
Return表T
以GB/T 13923—92和《1∶500 1∶1 000 1∶2 000地形圖要素分類與代碼》[7]為例的部分轉(zhuǎn)換結(jié)果如表3-2所示。
表3-2 分類表轉(zhuǎn)換結(jié)果樣例
續(xù)表 3-2
類別轉(zhuǎn)換關(guān)系的相似度計算可以概括為以下幾種情況:
(1)對比類名和基準類名相同,而且其上位類類名也相同。例如,表3-2中第1~7條記錄。在這種情況下,兩個類別的相似度值等于1,對照級別為M1。
(2)對比類名和基準類名相同,但是其上位類類名不相同。例如,表3-2中第29條記錄,NA=“GPS點”,NB=“GPS點”,UA=“GPS點測量控制點”,UB=“GPS點其他控制點”。
其中,Sim(SA,SB)1,Sim(SA,SB)2和Sim(SA,SB)3都不符合SSC算法中的篩選標準,所以Sim(SA,SB)的值應(yīng)等于Sim(SA,SB)4的值,即0.80,對照級別為M4。
(3)對比類名和基準類名不相同,但是其上位類類名相同。例如,表3-2中第8條記錄,NA=“土堆上的三角點”,NB=“三角點”,UA=“土堆上的三角點平面控制點”,UB=“三角點平面控制點”。
Sim(SA,SB)2,Sim(SA,SB)3和Sim(SA,SB)4都不符合SSC算法中的篩選標準,所以Sim(SA,SB)應(yīng)等于Sim(SA,SB)1的值,即0.62,對照級別為M1。
(4)對比類名和基準類名不相同,而且其上位類類名也不相同。例如,表3-2中第21條記錄,NA=“不埋石圖根點”,NB=“埋石圖根點”,UA=“不埋石圖根點平面控制點”,UB=“埋石圖根點其他基礎(chǔ)控制點”。Sim(SA,SB)的值為0.70,對照級別為M4。
免責聲明:以上內(nèi)容源自網(wǎng)絡(luò),版權(quán)歸原作者所有,如有侵犯您的原創(chuàng)版權(quán)請告知,我們將盡快刪除相關(guān)內(nèi)容。