敘詞本體中的概念詞
7.1 敘詞本體中的概念詞
7.1.1 概念詞的定義
知識(shí)中的概念是用詞語(yǔ)表示的,概念是沒有歧義的,它能夠唯一地、準(zhǔn)確地指向現(xiàn)實(shí)世界中的實(shí)體或?qū)ο?。概念獲取其實(shí)就是從詞匯到概念的映射過程,本質(zhì)上是能代表概念的詞匯的獲取,尤其是新詞語(yǔ)和未釋義詞的獲取。
同時(shí),概念詞和術(shù)語(yǔ)、新詞語(yǔ)等是既有區(qū)別又有聯(lián)系的。術(shù)語(yǔ)是在特定的專業(yè)領(lǐng)域中使用的,是一種具有很強(qiáng)的領(lǐng)域特征的詞語(yǔ),因而術(shù)語(yǔ)抽取的處理對(duì)象是大量的領(lǐng)域文本,而概念獲取并不限定某個(gè)具體的領(lǐng)域,所以概念獲取的處理對(duì)象是開放的文本語(yǔ)料;新詞語(yǔ)識(shí)別的目標(biāo)是那些沒有收錄在詞典中的新詞,包括專有名稱、復(fù)合詞、派生詞和數(shù)字型的復(fù)合詞,對(duì)詞典包含的已知詞并不十分關(guān)注。而概念詞既包括已知詞,也包括一部分諸如命名實(shí)體之類的未知詞,但不處理諸如時(shí)間、貨幣、數(shù)量等數(shù)字型的復(fù)合詞。
7.1.2 概念詞的模式特征
概念獲取從本質(zhì)上來說是能承載概念的詞匯的獲取,對(duì)于中文概念詞而言,由于漢語(yǔ)的特殊性,其獲取的困難在于:對(duì)于一些在語(yǔ)料庫(kù)中出現(xiàn)頻度低的概念詞,很難識(shí)別;由于要獲取的概念詞不是某個(gè)專業(yè)領(lǐng)域的,也不是屬于某個(gè)類型的新詞語(yǔ)(如地名等),因此概念詞邊界很難確定;某些詞或短語(yǔ)本身具有多種含義,要在一定的上下文中才能判斷它所代表的含義。
因此,國(guó)內(nèi)外學(xué)者普遍認(rèn)為,為了更加準(zhǔn)確地獲取中文概念詞,我們要綜合利用概念詞的3個(gè)模式上的特征:
(1)上下文模式特征
利用上下文模式,在第一次句型匹配得到的候選串的基礎(chǔ)上,抽取里面含有的多個(gè)候選概念詞,或者剝離概念詞兩邊的附著成分。此外,候選串的上下文特征也可以用于概念詞驗(yàn)證。
(2)詞形-句法模式特征
利用概念的詞形-句法模式特征(概念詞構(gòu)成規(guī)則),可以提取出概念詞并給出一定意義上的概念詞可信度。
(3)概念詞構(gòu)件統(tǒng)計(jì)特征
概念詞內(nèi)部存在著一些概念詞構(gòu)件,在大語(yǔ)料中它表現(xiàn)了一種比較好的統(tǒng)計(jì)特征,我們利用統(tǒng)計(jì)的方法獲取了這些類似新詞語(yǔ)的成分,然后利用詞典里已有的詞和這些概念詞構(gòu)件來進(jìn)行概念詞抽取。
免責(zé)聲明:以上內(nèi)容源自網(wǎng)絡(luò),版權(quán)歸原作者所有,如有侵犯您的原創(chuàng)版權(quán)請(qǐng)告知,我們將盡快刪除相關(guān)內(nèi)容。