實(shí)體檢索研究綜述
實(shí)體檢索研究綜述(1)
陸 偉1 張曉娟1 姜捷璞 2鞠 源1
(1.武漢大學(xué)信息資源研究中心;2.匹茲堡大學(xué)信息科學(xué)學(xué)院)
【摘 要】自INEX 2007設(shè)立XML Entity Ranking(INEXXER)任務(wù)以來,學(xué)術(shù)界對實(shí)體檢索的探討逐步由特定類型的實(shí)體上升到通用實(shí)體。其中,INEX 2007—2008設(shè)立的XER和TREC 2009設(shè)立的實(shí)體任務(wù),分別為通用實(shí)體檢索的方法和模型提供了經(jīng)驗(yàn)性評價(jià)平臺(tái),促進(jìn)了實(shí)體檢索研究的發(fā)展。本文也將以這兩大任務(wù)為主要線索,對實(shí)體檢索研究的現(xiàn)狀和進(jìn)展進(jìn)行系統(tǒng)的總結(jié)。論文分別從特定類型的實(shí)體檢索研究、INEX中的實(shí)體檢索任務(wù)、TREC中的實(shí)體檢索任務(wù)、實(shí)體檢索模型這四個(gè)方面對實(shí)體檢索的相關(guān)研究進(jìn)行了總結(jié)和評述。
【關(guān)鍵詞】實(shí)體 實(shí)體檢索 維基百科 INEX TREC
Review of Research on Entity Retrieval
Lu Wei1 Zhang Xiaojuan1 Jiang Jipu2 Ju Yuan1
(1.Center for Studies of Information Resources,Wuhan University; 2.School of Information Sciences,University of Pittsburgh)
【Abstract】Since INEX 2007 established XML Entity Rankingtrack(INEX-XER),the focus of research on Entity Retrieval has gradually been raised to the level of general entity from the level of special type of entity.Two common platforms have been provided for researchers to empirically assess methods and techniques devised for general entity retrieval by XER on INEX 2007—2008 and Entity Track on TREC 2009 respectively,which facilitated the development of the general Entity Retrieval.This paper systematically summarizes the progress and current situation of research on Entity Retrieval based on the two tracks.The paper introduces and observes the research related to Entity Retrieval from the following four aspects:the research on the retrieval of specific types of entity,Entity Track established by INEX,Entity Track established by TREC and Entity Retrieval model.
【Keywords】entity entity retrieval wikipedia INEX TREC
1 引言
傳統(tǒng)的信息檢索是基于文檔級(jí)別的,即根據(jù)用戶的查詢返回與查詢相關(guān)的文檔。而Brode等[1]的研究表明,用戶從搜索引擎中檢索文檔的目的往往是從文檔中得到更為具體的信息,而不是文檔本身。作為一種信息組織的單元,文檔的粒度過大,而用戶的信息需求是精細(xì)的,其感興趣的可能是某實(shí)體,也就是說,實(shí)體作為一種廣泛存在事物的統(tǒng)稱,如人名、地名、組織名或者產(chǎn)品名等,可能是用戶的檢索目標(biāo)。
實(shí)體檢索(Entity Retrieval,Entity Search、Entity Finding或ObjectRetrieval,本文統(tǒng)稱為實(shí)體檢索),即根據(jù)用戶的查詢表達(dá)式在信息源中檢索出相關(guān)類型的實(shí)體(人物、機(jī)構(gòu)、地名、產(chǎn)品等)或?qū)嶓w屬性。該問題是目前檢索界探討的熱點(diǎn)話題,也是目前信息檢索國際會(huì)議TREC、INEX等關(guān)注的焦點(diǎn)之一。
以2007年INEX(The Initiative for Evaluation of XML Retrieval)設(shè)立XML Entity Ranking(INEX-XER)任務(wù)作為時(shí)間分界,在此之前,研究者對實(shí)體檢索的研究主要局限在特定類型的實(shí)體,如時(shí)刻檢索[2]和TREC 2005設(shè)立的專家檢索等;而在此后,學(xué)界對實(shí)體檢索的探討逐漸上升到通用實(shí)體的高度。
INEX XER基于維基百科數(shù)據(jù)集探討了實(shí)體檢索問題,并將其任務(wù)分為實(shí)體排序(EntityRanking)和列表補(bǔ)全(ListCompletion)兩個(gè)子任務(wù)。TREC(TextREtrieval Conferences)于2009年設(shè)立實(shí)體任務(wù)(Entity Track),這是TREC 2008收尾的專家檢索子任務(wù)的一種繼續(xù),其將實(shí)體的類型由人擴(kuò)展到各種類型的實(shí)體,且在互聯(lián)網(wǎng)中查找相關(guān)實(shí)體,并將實(shí)體關(guān)系引入對實(shí)體檢索問題的探討中。這兩個(gè)會(huì)議針對實(shí)體檢索問題分別為參與者提供了不同的查詢和數(shù)據(jù)集,并對參與者返回的實(shí)驗(yàn)結(jié)果進(jìn)行評測,促進(jìn)了實(shí)體檢索研究的發(fā)展。
本文探討的是通用實(shí)體的檢索問題。文章組織如下,先介紹特定類型的實(shí)體檢索研究,再介紹INEX中的實(shí)體檢索任務(wù),接著介紹TREC中的實(shí)體檢索任務(wù),然后介紹實(shí)體檢索模型,最后進(jìn)行總結(jié)。
2 特定類型的實(shí)體檢索研究
在20世紀(jì)90年代之前,信息檢索領(lǐng)域主要探討的是基于文檔級(jí)別的檢索,而在90年代中后期,人們對信息檢索的興趣已不再停留在文檔級(jí)別。如TREC 1999設(shè)立問答系統(tǒng)(QA)任務(wù),即通過分析用戶提問,查找與之匹配的答案。其返回的可能是該問題的精確答案或者包含該答案的片段,而其精確答案可能就是相應(yīng)的實(shí)體名。TREC 2003將問答系統(tǒng)的主要問題分為事實(shí)問題(Fact Question),列舉問題(List Question)和定義問題(Definition Question),其中事實(shí)問題和列舉問題分別關(guān)注的是這樣的問題:“誰是美國現(xiàn)任總統(tǒng)”和“列舉武漢地區(qū)的985高?!?,對類似這樣問題的回答采用了基于自然語言處理工具的實(shí)體排序方法[3],這可看作是實(shí)體檢索中的特定例子。
另外,在早期,一些學(xué)者將實(shí)體表示為<屬性,值>,并從數(shù)據(jù)庫的角度探討了實(shí)體檢索的問題。如在2004年,F(xiàn)ang等[4]基于結(jié)構(gòu)化數(shù)據(jù),對實(shí)體檢索進(jìn)行了研究。同年,Sayyadian等[5]在結(jié)構(gòu)化文本數(shù)據(jù)上對實(shí)體檢索進(jìn)行了研究,即結(jié)合關(guān)系數(shù)據(jù)庫和文本檢索兩個(gè)領(lǐng)域來探討實(shí)體檢索問題。2005年,Nie等[6]探討了一種基于對象級(jí)別來進(jìn)行網(wǎng)絡(luò)檢索的新范式,即通過構(gòu)建網(wǎng)絡(luò)對象(如產(chǎn)品、組織、人、文章)圖來給對象進(jìn)行排序。基于前期的研究,Nie等[7][8]于2007年建立了面向?qū)ο蟮腖ibra學(xué)術(shù)檢索系統(tǒng)[9]和Windows Live產(chǎn)品查詢系統(tǒng)[10]。Libra能根據(jù)用戶查詢返回相關(guān)的對象(實(shí)體)如會(huì)議、論文或者作者。Windows Live產(chǎn)品查詢系統(tǒng)能根據(jù)查詢產(chǎn)品返回對象(實(shí)體)如該產(chǎn)品的出售商或者制造商。這兩個(gè)系統(tǒng)分別實(shí)現(xiàn)了特定領(lǐng)域特定類型的實(shí)體檢索。在2007年設(shè)立INEX XER之前,也曾有冠名為“實(shí)體檢索”的文章。如Hu等[11]以專家檢索和時(shí)間檢索為例,探討了一種基于監(jiān)督式學(xué)習(xí)的實(shí)體排序方法。Petkova等[12]以專家檢索為例來為文檔中命名實(shí)體和查詢詞之間的依存性進(jìn)行建模。Rode等[13][14][15]以專家檢索為例采用基于圖的相關(guān)性傳遞法對專家實(shí)體排序。但這些文章探討的內(nèi)容基本上還是特定類型的實(shí)體,并沒有擴(kuò)展到通用實(shí)體的高度。
專家檢索是學(xué)術(shù)界探討得最多的特定類型實(shí)體檢索問題。專家檢索是實(shí)體檢索的一種特例,它要求返回的實(shí)體類型是具有特定專長的專家。在TREC 2005設(shè)立專家檢索任務(wù)之前,雖已有對專家檢索的探討[16][17][18][19][20][21],但沒引起檢索界更多的關(guān)注。2005年TREC在企業(yè)任務(wù)中增設(shè)了專家檢索子任務(wù),其任務(wù)可以描述為:給定文檔集,查詢主題集和專家列表,并從這些專家列表中為每個(gè)查詢主題查找相關(guān)專家。TREC 2005設(shè)立專家檢索子任務(wù)后,為專家檢索的技術(shù)和方法提供了一個(gè)經(jīng)驗(yàn)性評價(jià)平臺(tái),吸引了來自國際數(shù)十個(gè)研究團(tuán)體的關(guān)注和參與。近幾年來,分別對專家檢索算法、模型和評價(jià)進(jìn)行了探討,促進(jìn)了專家檢索領(lǐng)域的發(fā)展。專家檢索的模型和方法為實(shí)體檢索提供了良好的基礎(chǔ),如[22][23][24]利用專家檢索中的語言模型來對維基百科中的實(shí)體進(jìn)行排序,Santos等[25]將專家檢索中的投票算法運(yùn)用到了實(shí)體檢索中。
3 INEX中的實(shí)體檢索任務(wù)
2007年,INEX設(shè)立了XML Entity Ranking Track(INEX XER)任務(wù)[26],任務(wù)的主要目的是利用XML格式的維基百科文檔為實(shí)體檢索提供測試數(shù)據(jù)集,并要求參與者根據(jù)查詢主題(見圖1)返回與之相關(guān)的實(shí)體而非文檔。該任務(wù)的目標(biāo)是使通用實(shí)體檢索的評價(jià)過程標(biāo)準(zhǔn)化,其基于這樣的假設(shè),實(shí)體相當(dāng)于維基百科條目,即將實(shí)體的維基百科條目視為對實(shí)體的描述。INEX XER 2007—2008為參與者提供的數(shù)據(jù)集是經(jīng)XML標(biāo)簽標(biāo)注的維基百科網(wǎng)頁[27]?;诰S基百科數(shù)據(jù)集來探討實(shí)體檢索問題可以得到如下啟示:①可以通過對實(shí)體對應(yīng)的維基百科條目排序來獲得對實(shí)體的排序;②維基百科中的錨文本可視為實(shí)體,可不借用命名實(shí)體識(shí)別工具就能獲得文本中的命名實(shí)體;③維基百科自身的結(jié)構(gòu)特點(diǎn)(如類目結(jié)構(gòu)和鏈接結(jié)構(gòu))可以為實(shí)體排序、實(shí)體關(guān)系抽取、實(shí)體消歧提供一定的依據(jù)。
INEX為實(shí)體檢索提供了相應(yīng)的查詢主題。如表1表示的是翻譯后的INEX 2007實(shí)體排序中的一個(gè)查詢,其中<title>字段中包含了查詢詞,<description>字段中包含了基于自然語言描述的用戶信息需求,<narrative>字段對相關(guān)的實(shí)體答案做了詳細(xì)的解釋,<entities>字段中提供了與查詢主題相關(guān)的實(shí)體,<categories>字段中提供了待查找實(shí)體的類別。該查詢主題可以用于INEX-XER的兩個(gè)子任務(wù)中。根據(jù)對查詢中<categories>和<entities>兩個(gè)字段的不同選擇,如前所述,INEX的實(shí)體檢索任務(wù)分為實(shí)體排序和列表補(bǔ)全。在實(shí)體排序任務(wù)的查詢中有<categories>字段沒有<entities>字段,而后者則反之。
表1 INEX 2007實(shí)體排序查詢主題例子
3.1 實(shí)體排序任務(wù)
在實(shí)體排序中,其查詢可以表示為<query,category>(query表示的是用自然語言描述的用戶信息需求,Category表示的是目標(biāo)實(shí)體所屬類別)二元組,即給定查詢主題和目標(biāo)實(shí)體類別,查找出與查詢主題相關(guān)且屬于給定實(shí)體類別的實(shí)體。如“國家”作為實(shí)體類別,查詢主題為“能夠支付歐元的歐洲國家”,則需返回的實(shí)體為:德國、法國等。該任務(wù)中指明了實(shí)體類別,其意義在于不需像問答系統(tǒng)一樣,首先還需對問題進(jìn)行分析,識(shí)別出該問題的類型(即需要返回的答案類型)。相對未給定實(shí)體類別的查詢來說,返回的是特定類型的實(shí)體,這樣可以減少返回的實(shí)體數(shù)目,使其查找更加精確。
而該任務(wù)中需關(guān)注的兩大問題是:如何利用維基百科對實(shí)體進(jìn)行排序;如何計(jì)算實(shí)體類別之間的相似性。
(1)基于維基百科的實(shí)體排序
INEX中對實(shí)體排序任務(wù)的探討是基于維基百科數(shù)據(jù)集的,實(shí)體相當(dāng)于維基百科條目,因此可利用傳統(tǒng)的信息檢索方法來判斷維基百科與查詢主題的相關(guān)性來獲得對實(shí)體的排序。但另外的一些方法除利用維基百科條目還利用到了維基百科的鏈接結(jié)構(gòu)或者類目結(jié)構(gòu)實(shí)現(xiàn)對實(shí)體的排序。如Tsikrika等[28]利用相關(guān)性傳遞來對實(shí)體進(jìn)行排序,基于這樣的假設(shè),即在某實(shí)體的維基百科條目中出現(xiàn)的其他實(shí)體是與該實(shí)體相關(guān)的。該方法的主要思想首先返回與查詢相關(guān)的最初維基條目(實(shí)體),再以實(shí)體為節(jié)點(diǎn),條目之間的鏈接關(guān)系為邊構(gòu)建實(shí)體圖,在該圖中進(jìn)行相關(guān)性傳遞,最后通過查詢中的實(shí)體類別或者該類別的子類別來篩選實(shí)體。該方法在INEX XER 2007測評中取得了最好的實(shí)驗(yàn)結(jié)果[29],但是該方法只考慮了與查詢相關(guān)的最初實(shí)體集合,而沒考慮最初集合之外的其他實(shí)體。Pehcevski等[30]基于這樣的假設(shè),即一個(gè)質(zhì)量較好的實(shí)體網(wǎng)頁應(yīng)該有一些與該實(shí)體相關(guān)的網(wǎng)頁鏈向了它,首先選擇與查詢主題相關(guān)的排名靠前的網(wǎng)頁,再利用PageRank或者H its算法來分析這些網(wǎng)頁與實(shí)體網(wǎng)頁之間的鏈接情況,從而為實(shí)體進(jìn)行排序。Cai等[31]利用了最普遍的鏈接排序算法,在該算法中,將每個(gè)網(wǎng)頁當(dāng)作一個(gè)單個(gè)節(jié)點(diǎn),即使這個(gè)網(wǎng)頁可能包含多個(gè)語義塊。Demartini等[32]基于維基百科條目中的信息抽取該實(shí)體的<屬性,值>,由于用戶查找的實(shí)體也可用該實(shí)體的<屬性,值>來表示,最后基于這二者的匹配關(guān)系來對實(shí)體進(jìn)行排序。Kazama和Torisawa[33]利用了維基百科的外部知識(shí)來提高命名實(shí)體識(shí)別的準(zhǔn)確度,即維基百科網(wǎng)頁的首句表明了與該網(wǎng)頁相關(guān)實(shí)體的類別,這些類別可作為實(shí)體類別標(biāo)注的特征。Balog等[34]提出了基于實(shí)體類別和基于查詢詞建模的實(shí)體排序方法,最后根據(jù)返回的檢索結(jié)果分別通過類別和查詢詞進(jìn)行查詢擴(kuò)展,該實(shí)驗(yàn)表明基于類別的查詢擴(kuò)展取得的實(shí)驗(yàn)效果要好些。J-msen等[35]利用維基百科的類目結(jié)構(gòu)對查詢中給定的類別和候選實(shí)體的類別進(jìn)行擴(kuò)展。Pehcevski等[36]認(rèn)為在實(shí)體附近的鏈接比其他位置的鏈接更與該實(shí)體相關(guān)。INEX XER 2007—2008測試結(jié)果表明,利用數(shù)據(jù)集的一些結(jié)構(gòu)(類目結(jié)構(gòu)、鏈接結(jié)構(gòu)等)要比僅利用維基百科條目取得的實(shí)驗(yàn)結(jié)果好[37]。為了提高實(shí)驗(yàn)結(jié)果的性能,一些研究者還將語義和自然語言處理方法運(yùn)用到實(shí)體排序中,如Demartini等[38][39]。
(2)類別相似性
該任務(wù)中,查找的實(shí)體除與查詢主題相關(guān)外,且屬于查詢中給定的實(shí)體類別,則需采用一定的方法對實(shí)體類別相似性進(jìn)行判斷。Vercoustre等[40][41][42]提出了一種基于集合的計(jì)算類目之間相似性的方法如公式1,該方法基于這樣的事實(shí),即每個(gè)實(shí)體的維基百科網(wǎng)頁給定了該維基百科條目的所屬類別。
cat(t)表示檢索到的目標(biāo)實(shí)體的維基百科網(wǎng)頁中所包含的類別集合,而cat(C)表示的是給定的類別集合,|cat(t)∩cat(C)|表示的是兩集合交集中的元素個(gè)數(shù)。由于目標(biāo)實(shí)體類別(即查詢中給定的實(shí)體類別)一般范圍比較寬泛,利用類別相似計(jì)算公式,被檢索到的實(shí)體可能不屬于該類別。Vercoustre等[43]針對該問題,基于維基百科的類目結(jié)構(gòu)進(jìn)行了類目擴(kuò)展。Demartini等[44]利用YAGO來擴(kuò)展類目集合,從而提供實(shí)體類型匹配的準(zhǔn)確度。Tsikrika等[45]利用其子類目進(jìn)行了類目擴(kuò)展。
另外一種方法通過類別字面形式上的相似性來計(jì)算類別之間的相似性[46]。如“歐洲國家”與“國家”兩個(gè)類別相似,因二者都包含了“國家”一詞。則可以通過先對所有的實(shí)體類別名建立索引,再以類別名作為查詢,利用信息檢索方法來查找出與之相似的實(shí)體類別。
3.2 列表補(bǔ)全任務(wù)
在列表補(bǔ)全任務(wù)中,查詢可以表示為<query,entities>二元組,其中query表示自然語言描述的用戶信息需求,entities表示給定的與查詢主題相關(guān)的實(shí)體例子。即給定查詢主題和1至3個(gè)實(shí)體例子,要求返回與實(shí)體例子相似且與查詢主題相關(guān)的實(shí)體,使得與查詢主題相關(guān)的實(shí)體例子完備化。例如:給定查詢主題“能夠支付歐元的歐洲國家”和與查詢主題相關(guān)的實(shí)體例子“德國、法國”,要求返回其他相關(guān)實(shí)體如荷蘭、西班牙等。
上文中談道,TREC 2003問答檢索的主要問題分為事實(shí)問題、列舉問題和定義問題,其中列舉問題就是列舉滿足信息需求的不同答案例子,如列舉出武漢地區(qū)的985高校;Rose等[47]指出列表補(bǔ)全是網(wǎng)絡(luò)查詢中一種較普遍的形式,如在搜索引擎中給定一些查詢的例子,便于系統(tǒng)理解自己的檢索目標(biāo);Ghahramani和Heller[48]提出了一種基于機(jī)器學(xué)習(xí)的列表補(bǔ)全方法;Google公司研發(fā)的一種小工具Google sets,根據(jù)用戶輸入的關(guān)鍵詞,可把相關(guān)的關(guān)鍵字列出來,但列表補(bǔ)全任務(wù)與之不同的是除考慮了實(shí)體與實(shí)體之間的相似性外,還考慮實(shí)體與查詢主題之間的相關(guān)性。
列表補(bǔ)全任務(wù)的意義在于:通過給定實(shí)體例子而非實(shí)體類別,對待返回實(shí)體進(jìn)行限制,進(jìn)而減少返回實(shí)體數(shù)目,提高檢索的準(zhǔn)確度。而該任務(wù)的難點(diǎn)就是如何計(jì)算實(shí)體例子與待返回實(shí)體之間的相似性以此來識(shí)別出符合條件的實(shí)體。目前常用的是基于共現(xiàn)和類別相似性的方法。
(1)基于共現(xiàn)的方法
Razmara等[49]在參加TREC的問答系統(tǒng)任務(wù)時(shí)指出列舉問題中的答案與例子之間存在特定的關(guān)系,除了它們屬于相同的實(shí)體類型外,還可能在句子中共現(xiàn),或者共現(xiàn)在具有相同詞匯或語法的不同句子中。Ahn等[50]和Kor等[51]通過分析識(shí)別兩個(gè)或多個(gè)候選答案所出現(xiàn)的共同文本,并利用該共同文本來擴(kuò)展候選答案例子列表。Google sets計(jì)算關(guān)鍵詞之間的相關(guān)度時(shí),也采用了基于共現(xiàn)的方法,即關(guān)鍵詞在同一個(gè)網(wǎng)頁中同時(shí)出現(xiàn)的概率。
基于具有相同屬性或者類別的實(shí)體將會(huì)出現(xiàn)在同一個(gè)網(wǎng)頁[52]或者相同網(wǎng)頁的同一個(gè)列表或表格中的假設(shè),在INEX實(shí)體檢索會(huì)議中有參與者利用了維基百科的“List of”網(wǎng)頁來獲取候選實(shí)體[53]。
(2)基于類目相似性的方法
該方法基于這樣的假設(shè),越是相似的實(shí)體其所屬類別越相似,如公式2所示:
其中cat(t)表示的是目標(biāo)實(shí)體的維基百科網(wǎng)頁中的類別集合,cat(E)表示的是所有實(shí)體例子的維基百科網(wǎng)頁中類別集合的并集,|cat(E)|表示集合cat(E)的元素個(gè)數(shù)。|cat(t)∩cat(E)|表示兩集合交集的個(gè)數(shù)(即目標(biāo)實(shí)體維基百科網(wǎng)頁與實(shí)體例子維基百科網(wǎng)頁中相同類別的個(gè)數(shù))。Sc(t)的值越大,則目標(biāo)實(shí)體與實(shí)體例子之間的相似性越大。
4 TREC中的實(shí)體任務(wù)
2009年TREC設(shè)立了實(shí)體任務(wù),它是TREC 2008收尾的專家檢索任務(wù)的一種繼續(xù)。TREC實(shí)體任務(wù)的主要目的是在互聯(lián)網(wǎng)中查找相關(guān)實(shí)體。其主要任務(wù)可以描述為:給定源實(shí)體(實(shí)體名和實(shí)體主頁)、目標(biāo)實(shí)體的類別和目標(biāo)實(shí)體與源實(shí)體之間的關(guān)系,識(shí)別出與源實(shí)體具有特定關(guān)系且屬于目標(biāo)實(shí)體類別的實(shí)體,并返回該實(shí)體的主頁[54]。TREC實(shí)體檢索為參與者提供的數(shù)據(jù)集為ClubWeb 09(包括10億個(gè)網(wǎng)頁,10種語言)[55]的B類數(shù)據(jù)集,該數(shù)據(jù)集包含5000萬個(gè)英文網(wǎng)頁。相對于TREC專家檢索任務(wù)的數(shù)據(jù)集來說,其范圍從企業(yè)內(nèi)部擴(kuò)展到了互聯(lián)網(wǎng)。而相對于INEX實(shí)體檢索任務(wù)的數(shù)據(jù)集來說,一方面其數(shù)據(jù)集范圍擴(kuò)大,維基百科只是其數(shù)據(jù)集的一部分,對實(shí)體檢索的探討由維基百科擴(kuò)展到互聯(lián)網(wǎng),且檢索的實(shí)體不一定都有維基百科條目。另一方面,由于該數(shù)據(jù)集是未經(jīng)標(biāo)注的,則在任務(wù)中,參與者需采用一定的方法從中識(shí)別出實(shí)體。
TREC 2009實(shí)體任務(wù)為參與者提供了查詢主題,其格式如表2所示。其中<entity_name>字段表示源實(shí)體名,<target_entity>表示目標(biāo)實(shí)體類別,<narrative>用自然語言表示了源實(shí)體與目標(biāo)實(shí)體之間的關(guān)系。
表2 TREC 2009實(shí)體任務(wù)的查詢例子
總結(jié)TREC 2009的實(shí)體任務(wù),參與者主要關(guān)注以下三個(gè)方面:實(shí)體識(shí)別,實(shí)體相關(guān)性判斷,實(shí)體主頁查找。
(1)實(shí)體識(shí)別
由于TREC的實(shí)體任務(wù)提供的是未經(jīng)標(biāo)注的文本,則參與者需從數(shù)據(jù)集中識(shí)別出實(shí)體。其中一些參與者采用命名實(shí)體識(shí)別工具(如斯坦福的命名實(shí)體識(shí)別工具)[56][57][58]識(shí)別實(shí)體,另一些參與者沒采用命名實(shí)體識(shí)別方法,如Serdyukov等[59]利用維基百科識(shí)別出相應(yīng)實(shí)體,再利用DBPedia,infoboxes,Yago和Wordnet對實(shí)體類型進(jìn)行篩選。Kaptein等[60]和Bron等[61]在命名實(shí)體識(shí)別和實(shí)體類型篩選時(shí),利用維基百科的結(jié)構(gòu)。Fang等[62]利用問答系統(tǒng)中的表面文本模式定義源實(shí)體與目標(biāo)實(shí)體之間的關(guān)系模板,依據(jù)模板來抽取實(shí)體。McCreadie等[63]采用了一種基于詞典的命名實(shí)體識(shí)別方法,利用DBPedia建立命名實(shí)體詞典。Fang等[64]認(rèn)為網(wǎng)頁中出現(xiàn)在網(wǎng)頁同一列表或者表格中的實(shí)體可能具有相同的屬性,則在進(jìn)行實(shí)體抽取時(shí)考慮到了網(wǎng)頁中的結(jié)構(gòu)化信息如列表和表格。
(2)實(shí)體相關(guān)性判斷
由于TREC 2009實(shí)體任務(wù)中的可能目標(biāo)實(shí)體并不都具有維基百科主頁,從而缺乏一種對實(shí)體進(jìn)行有效描述的方法?;谥С中畔⒌姆椒▌t是一種有效地建立實(shí)體與查詢主題之間關(guān)系的方法。其主要思想是:首先利用查詢主題檢索出與之相關(guān)的文檔或者文檔片斷,然后在這些支持信息中基于目標(biāo)實(shí)體與查詢主題,源實(shí)體或者目標(biāo)實(shí)體與源實(shí)體之間的共現(xiàn)來判斷實(shí)體與查詢主題之間的相關(guān)性。Wang等[65]受專家檢索方法的啟發(fā),采用兩步檢索模型,首先利用檢索模型檢索出與查詢相關(guān)的文檔,計(jì)算出文檔與查詢主題的相似性分?jǐn)?shù);其次,從第一步中返回的排序靠前的文檔中識(shí)別出相關(guān)實(shí)體,然后計(jì)算實(shí)體與文檔之間的相似性,綜合這兩步的相似性分?jǐn)?shù)獲得最后的實(shí)體排序。而在該方法中沒考慮到實(shí)體關(guān)系和最后的實(shí)體消歧。Fang等[66]在對實(shí)體進(jìn)行排序時(shí),主要考慮到了三個(gè)層次的相關(guān)性,查詢主題與支持文檔之間的相關(guān)性,查詢主題與支持文檔中支持段落之間的相關(guān)性,分別從支持文檔、支持文檔段落、支持文檔中的實(shí)體來對實(shí)體進(jìn)行排序。該方法在TREC 2009實(shí)體任務(wù)的測評中取得了最好的實(shí)驗(yàn)結(jié)果。Zhai等[67]不但考慮源實(shí)體,目標(biāo)實(shí)體和查詢主題詞之間的共現(xiàn),還考慮到了目標(biāo)實(shí)體,源實(shí)體以及目標(biāo)實(shí)體與源實(shí)體之間關(guān)系的共現(xiàn)。Zheng等[68]指出支持信息不能過長也不能過短,過短則可能不會(huì)包含目標(biāo)實(shí)體與原實(shí)體以及二者之間的關(guān)系,而過長則會(huì)包含一些與查詢無關(guān)的噪音實(shí)體。Chen等[69]提出了EntityRank算法,該算法在實(shí)體檢索中利用局部共現(xiàn)和全局可獲得的信息來對實(shí)體進(jìn)行排序,類似于專家檢索中的兩步查找方法。
判斷實(shí)體與查詢主題相關(guān)性的其他方法還有:Liu等[70]提出了相關(guān)實(shí)體查找的一個(gè)框架,該框架首先根據(jù)查詢主題利用BM25模型檢索出前5000個(gè)文檔,然后從這些文檔中抽取出錨文本和Title作為候選實(shí)體字符串,并為這些候選字符串建立描述文檔,進(jìn)而通過描述文檔與查詢主題的相關(guān)性來對實(shí)體進(jìn)行排序; McCreadie等[71]在利用投票算法為實(shí)體進(jìn)行排序時(shí),首先查找出于實(shí)體相關(guān)的文檔,這些文檔類似于為實(shí)體建立的檔案;此外,Vydiswaran等[72]在對實(shí)體排序時(shí),還考慮到了實(shí)體關(guān)系。
(3)實(shí)體主頁查找
TREC 2009實(shí)體任務(wù)最后還需返回實(shí)體的主頁。Serdyukov等[73]利用維基百科的外部鏈接來獲得該實(shí)體的主頁。Fang等[74]對維基百科之外的主頁,采用回歸的方法進(jìn)行查找。Bron等[75]只是將維基百科網(wǎng)頁作為實(shí)體,這樣可以避免命名實(shí)體識(shí)別和主頁查找的缺陷。在進(jìn)行主頁查找時(shí),利用實(shí)體名作為查詢,以此獲得一些文檔,最后根據(jù)文檔URL與實(shí)體名之間的距離值,將分?jǐn)?shù)高的文檔作為實(shí)體的主頁。Zheng等[76]將實(shí)體作為關(guān)鍵詞,利用Dirichlet優(yōu)化方法來對返回的網(wǎng)頁進(jìn)行排序,并將獲得相關(guān)分?jǐn)?shù)最高的網(wǎng)頁作為該實(shí)體的主頁。
5 實(shí)體檢索模型
目前,實(shí)體檢索任務(wù)中,還沒有一種通用的排序模型??偨Y(jié)INEX 2007—2008與TREC 2009實(shí)體檢索任務(wù)中所采用到的排序方法,可以分為基于語言模型的方法和基于非語言模型的方法。
5.1 基于語言模型的方法
語言模型早期用于特定類型的實(shí)檢索(專家檢索)中。專家檢索問題的實(shí)質(zhì)是:根據(jù)用戶的查詢q,返回與q相關(guān)的專家并排序返回給用戶。依據(jù)查詢似然的思想,專家排序可以看作是:用戶在檢索中提出的查詢表達(dá)式q是針對某個(gè)特定的專家e生成的,而檢索系統(tǒng)觀察(接受)到用戶提出的查詢q后,其任務(wù)是預(yù)測可能生成q的專家并將其根據(jù)可能性大小排序返回給用戶,即將專家按照p(e|q)排序,如公式3所示。
由于p(e)與p(q)對最后的排序無關(guān),則p(e|q)正比于p(q|e),如公式4所示。
Cao[77]和Azzopardi[78]等最先在TREC 2005采用語言模型對專家檢索進(jìn)行建模,Balog[79]以此為基礎(chǔ)提出以專家為中心的模型(如公式5)和以文檔為中心的模型(如公式6),并使這兩個(gè)模型成為當(dāng)前專家檢索領(lǐng)域的權(quán)威模型。它們?yōu)榛诖说臄U(kuò)展和新方法的產(chǎn)生提供了理論基礎(chǔ)。[80]
專家檢索的模型和方法對實(shí)體檢索具有重大的啟發(fā)意義,可將專家檢索模型運(yùn)用到實(shí)體檢索中。如Tsikrikia[81]將維基百科條目當(dāng)作對實(shí)體的描述,并運(yùn)用公式6來對實(shí)體進(jìn)行排序。但實(shí)體檢索與專家檢索的不同之處在于,專家檢索的實(shí)體類別是確定的,而實(shí)體檢索的類別是不確定的。相對專家檢索來說,在進(jìn)行實(shí)體排序時(shí)需考慮到實(shí)體類別以及實(shí)體之間的關(guān)系等因素。公式7在實(shí)體排序中考慮到了實(shí)體類別:
根據(jù)給定查詢q和實(shí)體類別C對實(shí)體集合進(jìn)行排序,即通過計(jì)算p(e|q,C)來對實(shí)體進(jìn)行排序。假設(shè)q和C是條件獨(dú)立的,且類目集合中的c是相互獨(dú)立的,則在已知實(shí)體類別時(shí),p(q|e)的計(jì)算方法類似于公式4,如公式8所示。
其中,n(t,q)表示查詢詞t出現(xiàn)在查詢q中的次數(shù)。p(t|θe)表示實(shí)體e生成查詢詞的概率,一般可通過查詢詞與實(shí)體名之間的共現(xiàn)來計(jì)算。p(e|C)可用公式1計(jì)算。另外Jiang等[82]將專家檢索模型運(yùn)用到實(shí)體檢索中,其考慮了INEX查詢中的類別字段。Balog等[83]和Adafre等[84]在對實(shí)體排序時(shí),也采用了類似以上的思想。
基于語言模型對實(shí)體排序考慮到了實(shí)體例子(或者說實(shí)體與實(shí)體之間的關(guān)系),如公式9所示。
其中p(e|q,C)的計(jì)算方法如公式8,而p(e|e')的計(jì)算方法采用了公式3。
公式8和公式9分別考慮了實(shí)體類別和實(shí)體關(guān)系來對實(shí)體排序,但這兩種排序方法都是基于維基百科數(shù)據(jù)集的。也有一些研究者通過非維基百科數(shù)據(jù)集,基于語言模型且考慮實(shí)體類別、實(shí)體關(guān)系等因素來對實(shí)體進(jìn)行排序。
Fang等[85]將問答系統(tǒng)中的層次相關(guān)模型運(yùn)用到了實(shí)體檢索中,如公式10所示。其中q表示的查詢主題,d表示的支持文檔,s表示的是支持文檔段落,t表示的是識(shí)別類別。p(q|d)表示的查詢主題與文檔之間的相關(guān)性,p(q|s,d)表示的是查詢主題與文檔支持段落之間的相關(guān)性,p(e|q,t,s,d)表示的是在給定文檔、文檔段落、查詢主題和實(shí)體類別的情況下,e是相關(guān)實(shí)體的概率。
Bron等[88]在對實(shí)體排序時(shí)不但考慮了實(shí)體類別且考慮了實(shí)體與實(shí)體之間的關(guān)系,如公式11所示。
其中,p(e|E)利用源實(shí)體E與目標(biāo)實(shí)體e之間的共現(xiàn)來計(jì)算。p(T|e)表示的是目標(biāo)實(shí)體e屬于實(shí)體類別T的概率。p(R|E,e)表示的是目標(biāo)實(shí)體e與源實(shí)體E之間符合關(guān)系R的概率。Wang等[86]提出了兩步檢索模型。Liu等[87]認(rèn)為p(e|q)的條件分布正比于P(e,q)的共同分布,且該概率分?jǐn)?shù)最后由兩種相關(guān)性現(xiàn)象來計(jì)算,一是源實(shí)體、目標(biāo)實(shí)體和查詢主題的共現(xiàn);另外是源實(shí)體、目標(biāo)實(shí)體和源實(shí)體與目標(biāo)實(shí)體之間關(guān)系的共現(xiàn)。
5.2 非語言模型的方法
(1)基于支持文檔建模
TREC中采用最多的是以支持文檔或者支持文檔片段來建立查詢主題與實(shí)體之間的關(guān)系。如Wang等[74]提出公式12。
在該公式中Sim(q,di)表示文檔與查詢主題之間的相似性,可以利用傳統(tǒng)的檢索模型獲得。Sim(di,ej)表示的實(shí)體與文檔之間的相似性,即通過實(shí)體名為檢索詞,在與查詢主題相關(guān)的文檔中進(jìn)行檢索,從而獲得實(shí)體與文檔之間的相似。但是該方法沒考慮到實(shí)體與實(shí)體之間的關(guān)系。
(2)投票算法(Voting Model)
Macdonal等[88]提出了一種基于文檔模型的投票算法,該算法把實(shí)體檢索看成是一個(gè)投票過程,當(dāng)檢索出一個(gè)與查詢主題相關(guān),且與候選實(shí)體相關(guān)的文檔時(shí),則認(rèn)為該文檔為該實(shí)體進(jìn)行投票,最后依據(jù)每個(gè)候選實(shí)體所得票數(shù)之和進(jìn)行排序。Macdonal等[89]最初將12種投票方法運(yùn)用到了專家排序中,實(shí)驗(yàn)結(jié)果顯示,expCombMNZ是最好的投票方法。在TREC 2009的實(shí)體任務(wù)中,其也采用了該投票算法,如公式13所示。
其中,R(Q)表示的是與查詢Q相關(guān)且排序后的文檔集,SoreexpCombMNZ(e,Q)表示的是給定查詢Q和實(shí)體e的相關(guān)性分?jǐn)?shù)。Profile(e)表示含有實(shí)體e的文檔集,Score(d,Q)表示實(shí)體在文檔集R(Q)中的相關(guān)性分?jǐn)?shù)。|R(Q)∩profile(e)|表示同時(shí)存在于實(shí)體檔案和R(Q)中的文檔數(shù)。
6 總結(jié)
本文詳細(xì)介紹了特定類型的實(shí)體檢索、INEX中的實(shí)體檢索任務(wù)、TREC中的實(shí)體檢索任務(wù)和實(shí)體檢索模型。從上文可以看出,近年來實(shí)體檢索在檢索方法和檢索模型等方面取得了進(jìn)展。但總體來說,目前學(xué)界尤其是國內(nèi)對通用情況下的實(shí)體檢索研究還處于起步階段,相關(guān)研究成果還不是很多,如在中國期刊網(wǎng)內(nèi)以“實(shí)體檢索”為題名查詢詞的文獻(xiàn)為零,十分相關(guān)的中文專家檢索文獻(xiàn)[90][91][92][93][94]也很少。
盡管前期專家檢索的相關(guān)研究成果為實(shí)體檢索打下了良好的基礎(chǔ),提供了可供借鑒的研究成果,但在關(guān)聯(lián)實(shí)體和屬性的識(shí)別,尤其是通用實(shí)體相關(guān)性建模中如何集成類目識(shí)別模型都有待于進(jìn)一步的深入研究,當(dāng)前在這一方面的解決方案大多是經(jīng)驗(yàn)性的,沒有對其建模。此外,由于INEX實(shí)體檢索數(shù)據(jù)集和TREC數(shù)據(jù)集對Wikipedia的特殊依賴性,使得當(dāng)前對實(shí)體檢索的研究距離真實(shí)和通用的環(huán)境尚有距離。則今后的實(shí)體檢索研究的發(fā)展方向:①由維基百科擴(kuò)展到通用環(huán)境中。②對實(shí)體類別和實(shí)體關(guān)系等建模進(jìn)行研究。③更多地結(jié)合其他領(lǐng)域如問答系統(tǒng)、信息抽取、語義網(wǎng)等已有的技術(shù)和方法。
【注釋】
[1]Broder,A..A Taxonomy of Web Search[J].SIGIR Forum,2002,36(2):3-10.
[2][11]Hu,G.,Liu,J.,Li,H.,Cao,H.,Nie,J.,Gao,J..A Supervised Learning Approach to Entity Search[C].Proceedings of the 3rd Asia Information Retrieval Symposium(AIRS 2006),Singapore,2006:54-66.
[3][13]Rode,H..From Document to Entity Retrieval:Improving Precision and Performance ofFocused TextSearch[D].PhD Thesis,Niversity of Twente Publications,2008.
[4]Fang,H.,Sinha,R.,Wu,W.,Doan,A.,Zhai,C..Entity RetrievalOver Structured Data[N].TechnicalReport,University of Illinois atUrbana-Champaign,Department of Computer Science,Jan.2004.
[5]Sayyadian,M.,Shakery,A.,Doan,A.,Zhai,C..Toward Enti-ty Retrieval over Structured and Text Data[C].Proceedings of the Joint Workshops on XML,IR,and DB,Sheffield,United Kingdom,2004:47-54.
[6]Nie,Z.,Zhang,Y.,Wen,JR.,Ma,WY..Object-Level Ranking:Bringing Order to Web Objects[C].Proceedings of the 16th International Conference on World Wide Web,2005.
[7]Nie,Z.,Zhang,Y.,Wen,JR.,Ma,WY..Object-levelVertical Search[C].Proceeding of3rd Biennial Conference on Innovative Data Systems Research(CIDR),2007.
[8]Nie,Z.,Zhang,Y.,Wen,JR.,Ma,WY..Web Object Retrieva[C]Proceedings of the 18th International Conference on World Wide Web,2007.
[9]http://libra.msra.cn[EB/OL].
[10]http://products.live.com[EB/OL].
[12]Petkova,D.,Croft,W.B..Proximity-based Document Representation for Named Entity Retrieval[C].Proceedings of the 16th ACM Conference on Conference on Information and Knowledge Management(CIKM'07),Lisbon,Portugal,2007:731-740.
[14]Rode,H.,Serdyukov,P.,H iemstra,D.,Zaragoza,H..Entity Ranking on Graphs:Studies on Expert Finding[J].2007
[15]Zaragoza,H..Ranking Very Many Typed Entities on Wikipedia[C].Proceedings of the Sixteenth ACM Conference on Conference on Information and Knowledge Management,2007:1015-1018.
[16]Streeter,L.A.,Lochbaum,K.E..An Expert/Expert Locating System Based on Automatic Representation of Semantic Structure[C].Proceedings of the 4th IEEE Conference on Artificial Intelligence Applications,San Diego,California,USA,1988:345-349.
[17]Campbell,C.S,Maglio,P.P.,Cozz,A.,Dom,B..ExpertiseIdentification Using E-mail Communications[C],CILM'03,2003.
[18]Deerwester,S.,Dumais,S.T.,F(xiàn)umas,G.W.,Landauer,T.K.,Harshman,R..Indexing by Latent Structure Analysis[J].Journal of the American Society fo Information Sciences,1990:391-407.
[19]Dom,B.,Eiron,I.,Cozzi,A.,Yi,Z..Graph-Based Ranking Algorithms for E-mail Expertise Analysis[C].Proc.of the 8th ACM SIGMOD Workshop on Research Issues in Data Mining and Knowledge Discovery,2003.
[20]McDonald,D.W..Evaluating Expertise Recommendations[C].Proc.of the ACM 2001 International Conference on Supporting Group Work(GROUP'01),Boulder,CO,2001.
[21]Mattox,D.,Maybury,M.,Morey,D..Enterprise Expert and Knowledge Discovery[C].Proceedings of the HCI International'99.
[22][82]Jiang,J.,Lu,W.,Rong,X.,Gao,Y..Adapting Language Modeling Methods for Expert Search to Rank Wikipedia Entities[J].Springer,2009:264-272.
[23][28][45][81]Tsikrika,T.,Serdyukov,P.,Rode,H.,Westerveld,T..Structured Document Retrieval,Mutlimedia Retrieval,and Entity Ranking Using PF/Tijah[J].Springer,2008:306-320.
[24][34][83]Balog,K.,Bron,M.,Rijke,M.De.Categorybased Query Modeling for Entity Search[J].Springer Berlin/Heidelberg,2010:319-331.
[25][88]RLT Santos,Macdonald,C.,Ounis,I..Voting for Related Entities[C].Proceedings of the Eighteenth Text R Etrieval Conference(TREC 2009),Gaithersburg,MD,2009.
[27]Demartini,G.,A.de V ries,Iofciu,T.,Zhu,J..Overview of the INEX 2008 Entity Ranking Track[J].Springer,2008:243-252.[29][37][26]A.de V ries,Vercoustre,A.M.,Thom,J.,Craswell,N..Overview of the INEX 2007 Entity Ranking Track[J].Springer,2008:245-251.
[30]Pehcevski,J.,Vercoustre,A.-M.,Thom,J.A..Exploiting Locality ofWikipedia Links in Entity Ranking[J]//Macdonald,C.,Ounis,I.,Plachouras,V.,Ruthven,I.,White,R.W.,eds..ECIR 2008.Springer,Heidelberg,2008(4956):258-269.
[31]Cai,D.,He,X.,Wen,JR.,Ma,WY..Block-level Link Analysis[C].Proceedings of the 27th ACM International Conference on Research and Development in Information Retrieval,Sheffield,UK,2004:440-447.
[32]Demartini,G.,F(xiàn)iran,CS.,Iofciu,T.,K restel,R.,Nejdl,W..A Model forRanking Entities and Its Application to Wikipedia[C].Proceedings of The Latin-American Web Conference(LA-WEB 2008)(2008)
[33]Kazama,J.,Torisawa,K..Exploiting Wikipedia as External Knowledge for Named Entity Recognition[C].Proceedings of the 2007 Joint Conference on EMNLP and CoNLL,Prague,The Czech Republic,2007:698-707.
[35]Zhu,J.,Vries,A.P.,Demartini,G..Evaluating Relation Retrieval for Entities and Experts[C].Proceedings of SIGIR 2008,2008.
[36][52]Pehcevski,J.,Vercoustre,AM.,Thom,J..Exploiting Locality of Wikipedia Links in Entity Ranking[J].Springer-Verlag Berlin,2008:258-269.
[38][44][53]Demartini,G.,F(xiàn)iran,C.,Iofciu,T.,Nejdl,W..Semantically Enhanced Entity Ranking[J]//Bailey,J.,Maier,D.,Schewe,K.-D.,Thalheim,B.,Wang,X.S.,eds..W ISE 2008.LNCS,Springer,Heidelberg,2008(5175):176-188.
[39]Demartini,G.,F(xiàn)iran,C.S.,Iofciu,T.,Krestel,R.,Nejdl,W..A Model forRanking Entities and ItsApplication toWikipedia[J].Web Congress,Latin American,2008:29-38.
[40][43][46]Vercoustre,AM.,Pehcevski,J.,Thom,J.A.. Using Wikipedia Categories and Links in Entity Ranking[J].Springer Berlin/Heidelberg,2008:321-335.
[41]Vercoustre,A.,Thom,J.A.,Pehcevski,J..Entity Ranking in Wikipedia[C].Proceedings of the 2008 ACM Symposium on Applied Computing(SAC 2008),F(xiàn)ortaleza,Ceara,Brazil,2008.
[42]Weerkamp,W.,He,J.,Balog,K.,Meij,E..A Generative Language Modeling Approach for Ranking Entities[C].In Geva et al.,2008:292-299.
[47]Rose,D.E.,Levinson,D..Understanding User Goals in Web Search[J].InWWW'04,2004:13-19.
[48]Ghahramani,Z.,Heller,K.A..Bayesian sets[J].NIPS 2005.
[49]Razmara,M.,Kosseim,L..Answering List Questions Using Cooccurrence and Clustering[C].Proceedings of the Sixth Text REtrieval Conference(TREC 2007),2007.
[50]Ahn,K.,Bos,J.,Curran,J.R.,Kor,D.,Nissim,M.,Webber,B..Question Answering with QED at TREC-2005[C].Proceedings of the 14th Text Retrieval Conference(TREC-14),Gaithersburg,USA,November.NIST.
[51]Kor,K.W..Improving Answer Precision and Recall of List Questions[D].Master's Thesis,School of Informatics,Universityof Edinburgh,2005.
[54]http://ilps.science.uva.nl/trec-entity/[EB/OL].
[55]http://boston.lti.cs.cmu.edu/Data/clueweb09/[EB/OL].
[56][65][86]Guo,J.,Chen,G.,Xu,W.,Wang,Z.,Liu,D..BUPT at TREC 2009:Entity Track[C].Proceedings of the Eighteenth Text REtrieval Conference(TREC 2009),Gaithers-burg,MD,2009.
[57][68][76]Zheng,W.,Gottipati,S.,Jiang,J.,F(xiàn)ang,H.. UDEL/SMU at TREC 2009 Entity Track[C].Proceedings of the Eighteenth Text REtrieval Conference(TREC 2009),Gaithersburg,MD,2009.
[58][72]Vinod Vydiswaran,VG.,Ganesan,K.,Lv,Y.,He,J.,Zhai,CX..Finding Related Entities by Retrieving Relations:UIUC atTREC 2009 Entity Track[C].Proceedings of the Eighteenth Text REtrieval Conference(TREC 2009),Gaithersburg,MD,2009.
[59][73]Serdyukov,P.,A de Vries.Delft University at the TREC 2009 Entity Track:Ranking Wikipedia Entities[C].Proceedings of the Eighteenth TextREtrievalConference(TREC 2009),Gaithersburg,MD,2009.
[60]Kaptein,R.,Koolen,M.,Kamps,J..Experiments with Result Diversity and Entity Ranking:Text,Anchors,Links,and Wikipedia[C].Proceedings of the Eighteenth Text REtrieval Conference(TREC 2009),Gaithersburg,MD,2009.
[61][75]Bron,M.,Balog,K.,Rijke,M..Related Entity Finding Based on Co-Occurrence[C].Proceedings of the Eighteenth Text REtrieval Conference(TREC 2009),Gaithersburg,MD,2009.
[62][64][66][74][85]Fang,Y.,Si,L.,Yu,Z.,Xian,Y.,Xu,Y..Entity Retrieval by Hierarchical Relevance Model,Exploiting the Structure of Tables and Learning Homepage Classifiers[C].Proceedings of the Eighteenth Text REtrieval Conference(TREC 2009),Gaithersburg,MD,2009.
[63][71]McCreadie,R.,MacDonald,C.,Ounis,I.,Peng,J.,Santos,RL..University ofGlasgow at TREC 2009:Experiments with Terrier[C].Proceedings of the Eighteenth Text REtrieval Conference(TREC 2009),Gaithersburg,MD,2009.
[67][70][87]Liu,Y.,Xu,H.,Cheng,X.,Zhai,H.,Guo,J..A Novel Framework for Related Entities Finding:ICTNET at TREC 2009 Entity Track.[C].Proceedings of the Eighteenth Text REtrieval Conference(TREC 2009),Gaithersburg,MD,2009.
[69]Cheng,T.,Yan,X.,Chang,K.,-C..Entity Rank:Searching Entities Directly and Holistically[C].Proc.of VLDB,2007: 387-398.
[77]Cao,Y.,Liu,J.,Bao,S.,Li,H..Research on Expert Search at Enterprise Track of TREC 2005[C].Proceedings of TREC,2005.
[78]Azzopardi,L.,Balog,K.,M.de Rijke..Rijke,M.de..Language Modeling Approaches for Enterprise Tasks[C].Proceedings of TREC 2005.
[79]Balog,K.,M.de Rijke..Associating People and Documents[C].Proceedings of ECIR 2008,Glasgow,Scotland,2008: 296-308.
[80]Balog,K.,Azzopardi,L.,M.de Rijke.Formal Models for Expert Finding in Enterprise Corpora[C].Proceeding of the 29th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval(SIGIR 2006),Seattle,Washington,USA,2006:43-50.
[84]Adafre,S.F.,M.de Rijke,Sang,ETK..Entity retrieval[C].Proceedings ofRANLP,2007.
[89]Macdonald,C.,Ounis,I..Voting for Candidates:The Voting Model for Expert Search[C].Proceedings of the 15th ACM International Conference on Information and Knowledge Management,2006:387-396.
[90]劉萍.我國專家信息資源檢索現(xiàn)狀研究[J].情報(bào)理論與實(shí)踐,2007(5):311-313.
[91]陸偉,韓曙光.組織專家的檢索系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[J].情報(bào)學(xué)報(bào),2008(5),38-42.
[92]陸偉,陳武,韓曙光.專家檢索及熱點(diǎn)探測系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[J].情報(bào)雜志,2009(12):113-117.
[93]陸偉,趙浩鎮(zhèn).基于文檔權(quán)重歸并法的企業(yè)專家檢索[J].現(xiàn)代圖書情報(bào)技術(shù),2008(7):38-42.
[94]李晨.網(wǎng)絡(luò)搜索引擎與專家檢索系統(tǒng)框架和模型研究[D].北京:北京郵電大學(xué)碩士論文,2009.
【作者簡介】
陸偉,男,1974年生,教授,博士生導(dǎo)師,研究方向?yàn)樾畔z索、數(shù)據(jù)挖掘和知識(shí)管理,近年先后在國內(nèi)外發(fā)表論文50余篇,其中SSCI/SCI索引論文5篇。
張曉娟,女,2009級(jí)情報(bào)學(xué)在讀碩士研究生,研究方向?yàn)樾畔z索。
姜捷璞,男,1986年生,匹茲堡大學(xué)在讀博士生,研究方向?yàn)樾畔z索,已發(fā)表論文7篇。
鞠源,男,1988年生,在讀碩士研究生,研究方向?yàn)樾畔z索。
【注釋】
(1)本文為教育部人文社會(huì)科學(xué)規(guī)劃項(xiàng)目“專家專長智能識(shí)別與檢索系統(tǒng)實(shí)現(xiàn)研究”(項(xiàng)目編號(hào):09yja870021)成果之一。
免責(zé)聲明:以上內(nèi)容源自網(wǎng)絡(luò),版權(quán)歸原作者所有,如有侵犯您的原創(chuàng)版權(quán)請告知,我們將盡快刪除相關(guān)內(nèi)容。