古農(nóng)學(xué)本體自動(dòng)構(gòu)建的困難
4.1 古農(nóng)學(xué)本體自動(dòng)構(gòu)建的困難
本體構(gòu)建目前面臨的困難和過去20多年里知識(shí)工程師定義知識(shí)庫以及研究知識(shí)獲取的方法論中所面臨的問題非常相似。知識(shí)工程師把知識(shí)獲取和機(jī)器學(xué)習(xí)技術(shù)相結(jié)合,給知識(shí)獲取帶來了極大的便利,這給本體的構(gòu)建提供了很大的啟發(fā)和借鑒[1][2][3]。利用人工智能領(lǐng)域所取得的成果,自動(dòng)或半自動(dòng)的構(gòu)建本體,可以有效加快構(gòu)建進(jìn)程,節(jié)省人力和時(shí)間。
關(guān)于本體的自動(dòng)構(gòu)建尚處于不斷摸索研究中[4][5][6][7][8],目前還沒有一套可行的方法。而領(lǐng)域本體的自動(dòng)構(gòu)建還與其所在的學(xué)科領(lǐng)域有關(guān)。例如,概念關(guān)系明確的理工科類,如生物技術(shù)、計(jì)算機(jī)技術(shù)[9]等,由于其概念關(guān)系明確、嚴(yán)格,等級(jí)關(guān)系以及領(lǐng)域概念關(guān)系的獲取會(huì)相對(duì)易處理。農(nóng)史是一門綜合了農(nóng)學(xué)、歷史學(xué)、經(jīng)濟(jì)學(xué)等多個(gè)領(lǐng)域的交叉學(xué)科,學(xué)科交叉性較大,概念的分類和界定存在很大的困難。
綜合來看,農(nóng)學(xué)本體的半自動(dòng)構(gòu)建過程中主要的困難有兩方面,一是來源于本體半自動(dòng)構(gòu)建中的技術(shù)困難,如概念關(guān)系的計(jì)算,句法的分析等;二是來源于農(nóng)史論文的撰寫文風(fēng),如論文中語言的靈活性以及有些農(nóng)史論文半文言半現(xiàn)代文的寫作風(fēng)格。
(1)自然語言的復(fù)雜性
人類經(jīng)過長期的發(fā)展形成了自己的語言,其句型結(jié)構(gòu)復(fù)雜、不規(guī)則,上下文關(guān)系復(fù)雜,這給機(jī)器自然語言理解帶來了很大的困難。同樣一句話,可以采用多種不同的句法進(jìn)行表達(dá),漢語的極其靈活的語法特點(diǎn),給自然語言的處理帶來了巨大的挑戰(zhàn),這也是目前所有自動(dòng)知識(shí)獲取工具研究中的最大困難
(2)需要建立大量的規(guī)則知識(shí)庫,且規(guī)則的匹配并不是完全正確
目前很多的知識(shí)獲取工具以規(guī)則和句型匹配為基本獲取方法,但在實(shí)際的農(nóng)學(xué)領(lǐng)域知識(shí)獲取中,研究發(fā)現(xiàn),自然文本其句型不僅數(shù)量可觀而且十分復(fù)雜,與之完全對(duì)應(yīng)就需要建立大量規(guī)則從而形成龐大的規(guī)則庫,但在實(shí)際應(yīng)用中相當(dāng)一部分規(guī)則的使用效率很低。
在農(nóng)史知識(shí)領(lǐng)域,因其極強(qiáng)的交叉學(xué)科特點(diǎn)帶來的復(fù)雜性,使得基于規(guī)則匹配在不同的子領(lǐng)域中效果也有所不同,甚至出現(xiàn)不一致的情況,即使在同一個(gè)子領(lǐng)域,由于計(jì)算機(jī)不能理解上下文的關(guān)系,同樣可能造成錯(cuò)誤匹配。
(3)存在有爭議的知識(shí)難于描述和界定
史料記載和不斷的考古發(fā)現(xiàn)是進(jìn)行歷史研究的基礎(chǔ),由于諸多的原因,使得很多的史料保留和記載的并不十分明確,造成了許多歷史問題尚處于不確定狀態(tài),例如:某些作物起源的爭論,《南方草木狀》的作者之爭等等。此外,隨著新的考古發(fā)現(xiàn),仍可能推翻前人的歷史定論。本文中農(nóng)學(xué)本體的構(gòu)建是建立在機(jī)器統(tǒng)計(jì)學(xué)習(xí)的基礎(chǔ)上,其基本思想離不開頻次的統(tǒng)計(jì),也就是對(duì)于尚處于有爭議的歷史問題,我們采取的原則是以大多數(shù)論文認(rèn)定的情況為依據(jù)。因此,這部分有爭議的歷史問題,其準(zhǔn)確性和邏輯性還難于界定和描述。
(4)農(nóng)史學(xué)科研究論文的寫作風(fēng)格
農(nóng)史研究需要依賴大量的農(nóng)業(yè)史料作為基石,因此在農(nóng)史研究論文的撰寫中,需要引用大量的農(nóng)業(yè)史料中的文字來說明問題。在研究過程中,我們發(fā)現(xiàn)大量的論文中有至少含有1/3的古漢語句子。此外,還有些論文屬于半古文半現(xiàn)代文的撰寫風(fēng)格。目前的自然語言處理技術(shù)以及機(jī)器統(tǒng)計(jì)學(xué)習(xí)技術(shù)都是針對(duì)現(xiàn)代文進(jìn)行的,對(duì)古漢語的語言處理研究尚處于探索狀態(tài),因此在農(nóng)學(xué)本體的構(gòu)建過程中,農(nóng)史學(xué)科的這種論文撰寫風(fēng)格和特點(diǎn),使得農(nóng)學(xué)領(lǐng)域知識(shí)的獲取和處理變得尤其困難。
(5)不能很好的處理過程性知識(shí)
過程性知識(shí)在知識(shí)領(lǐng)域中較為特殊,因?yàn)槠浒舜罅康纳舷挛年P(guān)系,并且廣泛的出現(xiàn)在各個(gè)領(lǐng)域中,在相關(guān)自然語言理解技術(shù)不成熟的情況下,讓計(jì)算機(jī)去代替知識(shí)工程師理解上下文關(guān)系就顯得不太現(xiàn)實(shí),因而在過程性知識(shí)的處理上,是目前的一個(gè)難點(diǎn)。
免責(zé)聲明:以上內(nèi)容源自網(wǎng)絡(luò),版權(quán)歸原作者所有,如有侵犯您的原創(chuàng)版權(quán)請(qǐng)告知,我們將盡快刪除相關(guān)內(nèi)容。