關(guān)鍵詞標(biāo)記的邏輯分析
(一)關(guān)聯(lián)標(biāo)簽(Folksonomy+本體)的晶格模式(基于概念格的關(guān)聯(lián)標(biāo)簽)
針對Folksonomy知識組織模式中新展露的關(guān)聯(lián)標(biāo)簽輔助導(dǎo)航現(xiàn)象,以BibSonomy.org真實數(shù)據(jù)為研究對象,從BibSonomy.org的標(biāo)簽云導(dǎo)航頁面中選擇了“ontology”標(biāo)簽(包括其復(fù)數(shù)形式“ontologies”),獲得另一個梯次的關(guān)聯(lián)標(biāo)簽,然后通過形式概念分析(FCA)的方法構(gòu)建關(guān)聯(lián)標(biāo)簽概念格,并基于概念格對關(guān)聯(lián)標(biāo)簽進(jìn)行聚類分析和關(guān)聯(lián)規(guī)則挖掘,以此揭示出關(guān)聯(lián)標(biāo)簽間隱含的概念間關(guān)系和潛在的語義關(guān)聯(lián),分析了Folksonomy知識組織模式中隱含的結(jié)構(gòu)特征,豐富和完善了Folksonomy知識組織模式的標(biāo)簽導(dǎo)航體系(見圖6-15[14])。
圖6-15 基于概念格的關(guān)聯(lián)標(biāo)簽結(jié)構(gòu)分析
首先,采用概念格對關(guān)聯(lián)標(biāo)簽進(jìn)行聚類分析,突破了傳統(tǒng)分類口徑的桎梏。以往的研究中,對知識概念的聚類往往基于學(xué)科類目的劃分,人們在聚類過程中總是潛意識地將知識概念按照所屬學(xué)科或分支加以聚集和歸類,不利于對潛在模式和規(guī)則的挖掘與發(fā)現(xiàn)。將概念格的理論與技術(shù)引入關(guān)聯(lián)標(biāo)簽研究,通過“對象一屬性”的偏序關(guān)系,提取了隱含在數(shù)據(jù)中的最大頻繁項集,使得聚類結(jié)果突出了關(guān)聯(lián)標(biāo)簽最為本質(zhì)的知識特征。并通過概念間的多重繼承關(guān)系以可視化的方式保留和展示了關(guān)聯(lián)標(biāo)簽間的關(guān)聯(lián)關(guān)系(見圖6-16[15])。
圖6-16 基于概念格的“Knoeledge”關(guān)聯(lián)標(biāo)簽細(xì)粒度分析
其次,采用概念格對關(guān)聯(lián)標(biāo)簽進(jìn)行關(guān)聯(lián)規(guī)則挖掘,可以動態(tài)調(diào)整挖掘粒度,有助于細(xì)節(jié)信息的呈現(xiàn)與揭示。以往的挖掘方法大多需要在挖掘工作開展之前事先確定支持度、置信度等相關(guān)閾值,以此來消減冗余規(guī)則、提高挖掘效率。這種狀態(tài)下一旦需要調(diào)整相關(guān)閾值,則必須展開新一輪的挖掘工作,而在關(guān)聯(lián)規(guī)則挖掘中對閾值的調(diào)整恰恰又是有效規(guī)則提取的必要手段。基于概念格的關(guān)聯(lián)規(guī)則挖掘中,一旦建格工作完成,所有的數(shù)據(jù)細(xì)節(jié)均被保留,可以根據(jù)任務(wù)需要對閾值進(jìn)行調(diào)整而不會影響概念格結(jié)構(gòu),閾值調(diào)整僅僅關(guān)系到規(guī)則的篩選,而無須重新展開挖掘,提高了挖掘的效率。
最后,通過基于概念格的關(guān)聯(lián)標(biāo)簽聚類分析與關(guān)聯(lián)規(guī)則挖掘,對關(guān)聯(lián)標(biāo)簽的結(jié)構(gòu)特征進(jìn)行了細(xì)致刻畫與深度分析。Folkson-omy從其誕生之日起,就被許多學(xué)者冠以“平層型”結(jié)構(gòu)的印象,也正是因為這一原因,學(xué)術(shù)界探尋Folksonomy內(nèi)部結(jié)構(gòu)特征的努力一直沒有間斷過。通過基于概念格的關(guān)聯(lián)標(biāo)簽語義關(guān)聯(lián)的分析,證實了同一梯次關(guān)聯(lián)標(biāo)簽間存在的“語義關(guān)聯(lián)詞(Semantic Synonym)”結(jié)構(gòu),以及第二梯次關(guān)聯(lián)標(biāo)簽相對于第一梯次關(guān)聯(lián)標(biāo)簽的“語義下位詞(Semantic Hyponym)”關(guān)系。對于完善Folksonomy知識組織模式的標(biāo)簽導(dǎo)航體系做出了有益的探索。
(二)開放存取期刊(OAJ)的晶格模式(基于概念格的開放存?。?/p>
1.開放存取期刊的關(guān)鍵詞分析
近年來,隨著關(guān)鍵詞標(biāo)引在各類網(wǎng)絡(luò)數(shù)字圖書館的興起,尤其是開放存取期刊領(lǐng)域,學(xué)術(shù)界對于這種介于受控詞表與自然語言之間的標(biāo)引模式產(chǎn)生了濃厚的興趣。如何通過這種具有較強自主性的非受控標(biāo)引模式呈現(xiàn)領(lǐng)域內(nèi)學(xué)科和主題的結(jié)構(gòu)與關(guān)聯(lián),對領(lǐng)域知識加以有效組織,揭示領(lǐng)域研究熱點與發(fā)展脈絡(luò),成為圖書情報學(xué)界普遍關(guān)心的熱點問題。在此期間,針對文獻(xiàn)關(guān)鍵詞的詞頻分析、共現(xiàn)分析、耦合分析、聚類分析、社會網(wǎng)絡(luò)分析等一系列新穎的分析方法紛紛涌現(xiàn),并以不同的視角和目的豐富了文獻(xiàn)關(guān)鍵詞分析的方法與手段。
上述分析方法各有優(yōu)勢,但是在面對網(wǎng)絡(luò)環(huán)境下海量數(shù)據(jù)、開放存取、自主標(biāo)引等新問題時也顯露出其諸多不足。詞頻分析主要通過詞頻分布與詞頻增長等指標(biāo)反映學(xué)科主題的熱點及變化,但在揭示主題關(guān)聯(lián)性等方面力量薄弱;共現(xiàn)分析以文獻(xiàn)集合內(nèi)“關(guān)鍵詞對”為分析對象,其基于組合統(tǒng)計的“詞對”提取需要浩大繁重的計算工作;耦合分析可以通過關(guān)鍵詞之間的耦合強度在一定程度上揭示學(xué)科領(lǐng)域的發(fā)展現(xiàn)狀與變化趨勢,但其缺少強有力的理論支撐;聚類分析雖然在呈現(xiàn)文獻(xiàn)內(nèi)聚度方面具有較大的優(yōu)勢,但在類間關(guān)系的說明上仍顯不足;社會網(wǎng)絡(luò)分析有利于呈現(xiàn)領(lǐng)域內(nèi)文獻(xiàn)的整體架構(gòu),但往往對關(guān)鍵詞元數(shù)據(jù)結(jié)構(gòu)具有特殊的規(guī)范要求。直至本世紀(jì)初,隨著概念格理論的逐漸成熟,開始有學(xué)者采用形式概念分析(FCA)的方法進(jìn)行學(xué)科領(lǐng)域的文獻(xiàn)關(guān)鍵詞分析。
2.開放存取期刊的晶格模式(關(guān)鍵詞粒度概念格)
該研究選擇世界著名的DOAJ(Directory of Open Access Journals)開放存取資源平臺作為研究對象。DOAJ是瑞典Lund大學(xué)圖書館與2003年創(chuàng)建的開放存取資源檢索平臺,截至2011年5月28日已收錄6568種學(xué)術(shù)期刊,其中2917種期刊可以獲取文章內(nèi)容,收錄論文總量達(dá)574023篇。研究中以“Title=ontology”為檢索式,初步獲得“本體”文獻(xiàn)339篇。經(jīng)過單復(fù)數(shù)、同義詞、近義詞、密切相關(guān)詞等原則對關(guān)鍵詞進(jìn)行篩選后,最后獲得6類高頻關(guān)鍵詞共159個,涉及文獻(xiàn)58篇。
針對開放存?。∣A)資源區(qū)別于傳統(tǒng)館藏資源的特點,該研究在形式概念分析(FCA)的基礎(chǔ)上提出了“粒度概念分析(Granularity Concept Analysis,GCA)”的方法(見圖6-17[16])。
圖6-17 顆粒度概念分析GCA
如果說關(guān)聯(lián)概念分析(RCA)是在形式概念分析的基礎(chǔ)上著重于在概念橫向關(guān)聯(lián)方面的延伸,那么粒度概念分析(GCA)則強調(diào)在概念縱向細(xì)節(jié)方面的拓展。
這個細(xì)粒度概念格Hasse圖(見圖6-18[17])是在粗粒度概念格分析得到的核心關(guān)鍵詞之一“本體工程領(lǐng)域”的基礎(chǔ)上進(jìn)一步細(xì)分的結(jié)果,從這個Hasse圖可以得到:在本體工程領(lǐng)域14篇核心文獻(xiàn)的49個關(guān)鍵詞當(dāng)中,概念格自動形成了6個聚類,該聚類呈現(xiàn)出“本體匹配”、“語義Web”、“本體對應(yīng)”、“本體”、“本體工程”、“知識共享”這6個關(guān)鍵詞在本體工程領(lǐng)域的統(tǒng)馭地位。這一聚類結(jié)果客觀地反映了國際學(xué)術(shù)界本體工程相關(guān)研究的發(fā)展現(xiàn)狀,也在數(shù)字圖書館知識組織中極大地發(fā)揮了OA資源快速發(fā)布、交流與共享知識的優(yōu)勢。
圖6-18 細(xì)粒度概念格(Hassle圖)
該研究以概念格理論為基礎(chǔ),在形式概念分析(FCA)的基礎(chǔ)上,提出了粒度概念分析(GCA)的方法,再以此方法從DOAJ(Directory of Open Access Journals)開放存取資源平臺抽取文獻(xiàn)數(shù)據(jù),構(gòu)建了不同粒度概念格。通過基于粗細(xì)不同粒度概念格的挖掘,對Ontology領(lǐng)域的相關(guān)文獻(xiàn)進(jìn)行了關(guān)鍵詞分析,從而呈現(xiàn)和揭示了Ontology領(lǐng)域相關(guān)知識的結(jié)構(gòu)和內(nèi)在關(guān)聯(lián)。這種方法的最終目的也是為了探索一種基于文獻(xiàn)關(guān)鍵詞分析的OAJ資源知識組織的新途徑。
免責(zé)聲明:以上內(nèi)容源自網(wǎng)絡(luò),版權(quán)歸原作者所有,如有侵犯您的原創(chuàng)版權(quán)請告知,我們將盡快刪除相關(guān)內(nèi)容。