搜索引擎都是哪些分類
(一)三者特點及應用概述[8]
1.全文式搜索引擎的概念、特點及應用
全文式搜索引擎是指因特網(wǎng)上專門提供信息查詢服務的一類網(wǎng)站,這些網(wǎng)站通過網(wǎng)絡搜索軟件。它的特點是:
(1)簡潔實用的界面
一般搜索引擎的主頁都做得極為簡潔,鏈接數(shù)都很少。這樣有兩個好處:第一,由于打開網(wǎng)站的負擔輕,用戶能迅速登錄;第二,網(wǎng)頁頁面簡潔,不會給用戶眼花繚亂的感覺。能讓用戶在最短的時間里找到檢索人口。
(2)數(shù)據(jù)庫
一般搜索引擎都由強大的數(shù)據(jù)庫支撐。據(jù)最新資料,google所收網(wǎng)頁已達42.8億,收藏10億個網(wǎng)址,在同行中首屈一指。而百度則號稱收有五億個中文網(wǎng)頁,并以每秒2.3個網(wǎng)頁的速度增長,它的數(shù)據(jù)更新周期已達一周一次。
(3)基于全文的關鍵詞自動檢索
大多數(shù)搜索引擎都提供關鍵詞檢索人口。搜索引擎并不真正搜索互聯(lián)網(wǎng),它搜索的實際上是預先整理好的網(wǎng)頁索引數(shù)據(jù)庫。當用戶輸入關鍵詞搜索后,由搜索系統(tǒng)程序從網(wǎng)頁索引數(shù)據(jù)庫中找到符合該關鍵詞的所有相關網(wǎng)頁。最后,由頁面生成系統(tǒng)將搜索結(jié)果的鏈接地址和頁面內(nèi)容摘要等內(nèi)容組織起來返回給用戶。
搜索引擎在網(wǎng)絡信息檢索系統(tǒng)中得到了最廣泛的應用。典型應用有:AltaVista,Google,百度、搜狐等。從應用角度可以將搜索引擎區(qū)分為綜合性搜索引擎和專業(yè)搜索引擎。
2.目錄式搜索引擎的概念、特點及應用
目錄式搜索引擎是通過人工方式進行網(wǎng)絡信息資源搜集,且采取人工方式來進行網(wǎng)站描述,并采用寬泛的主題領域建立類目體系,用戶以此進行籠統(tǒng)或較為籠統(tǒng)的主題瀏覽和檢索。它的特點是:
(1)層級目錄式信息導航。目錄式搜索引擎提供一種可檢索和查詢的等級式主題目錄,以超文本鏈接方式把資源按不同類型劃分成不同的目錄,各類目錄下面引出屬于這一類別的網(wǎng)站名稱和網(wǎng)址鏈接以及每個網(wǎng)站的內(nèi)容簡介。
(2)人工分檢。通過有專業(yè)知識的網(wǎng)頁編輯人員對網(wǎng)上的網(wǎng)頁進行精選,然后對選中站點作適當?shù)拿枋?,并根?jù)站點的內(nèi)容和性質(zhì)將其歸為一個預先分好的類別,把站點的URL和描述放在該類別中,即建立一個索引目錄,來給用戶提供服務。
(3)主題瀏覽式信息檢索。當用戶在查詢信息時,只需按分類目錄逐層查找,目錄式搜索引擎就會將找到的相關網(wǎng)站名稱、網(wǎng)址及內(nèi)容簡介顯示在屏幕上,用戶單擊網(wǎng)站名稱即可進人相應的網(wǎng)站。
目錄式搜索引擎在網(wǎng)絡信息檢索系統(tǒng)中的應用范圍也比較廣,但近些年呈下降趨勢。原因在于這種信息組織模式被一些有影響力的商業(yè)網(wǎng)站拋棄。其典型應用有雅虎分類目錄、新浪分類目錄等。
3.大眾分類的概念、特點及應用
大眾分類法是指用戶在社會化的信息空間中使用標簽(tag)對信息資源進行標注的一種信息組織模式。大眾分類法與傳統(tǒng)網(wǎng)絡信息分類法最大的不同之處在于,它并不采用嚴格的分類標準,其分類全部由用戶直接提交,分類的形成過程是自發(fā)的。它的特點是:
(1)簡潔靈活的界面?;诖蟊姺诸惙ǖ男畔z索系統(tǒng)在界面設計、用戶使用上都相當簡潔,用戶不需要專門的培訓,使用方便。通常以標簽云或知識地圖的形式呈現(xiàn)。
(2)是一個由下而上的分類過程。大眾分類是由用戶首先對自己的信息自發(fā)地進行定義,這個標簽定義不受任何限制,并且每個人可以使用不同的標簽然后由網(wǎng)絡系統(tǒng)對同一內(nèi)容的信息所使用的不同標簽進行統(tǒng)計,使用頻率最高的那個標簽就作為對該內(nèi)容的分類。
(3)標簽分類是公開共享的。標簽在網(wǎng)絡中都是公共的,可以被所有人看到。用戶可以自己建立一個標簽來標引自己的信息文本,也可以使用別人提供或定義的標簽進行標引。在網(wǎng)絡上,用戶可以看到其他人的標簽,點擊這些標簽,進而看到更多使用這個標簽的信息內(nèi)容,或是與此相近的內(nèi)容。
(4)平面非等級的類目結(jié)構(gòu)。大眾分類法的類目是非等級的,用戶不必從根目錄開始經(jīng)過幾級類目再找到所需要的信息。這種顯示類目的優(yōu)點是重要的信息都直接顯示在頁面上。并且描述最熱門的信息在頁面上被突出顯示。
(5)標簽瀏覽式信息檢索。由于大眾分類是一個平面非等級的類目結(jié)構(gòu)。在檢索過程中人們不必嚴格按照一般的等級分類法的層次逐級查找。并且,每一個信息文件通常都由多個標簽標引,增加了檢索人口。在檢索過程(spider)或網(wǎng)站登錄等方式,將因特網(wǎng)上大量網(wǎng)站的頁面收集到本地,經(jīng)過加工處理而建庫,從而能夠?qū)τ脩籼岢龅母鞣N查詢作出響應,提供用戶所需的信息。
大眾分類在網(wǎng)絡信息檢索系統(tǒng)中的應用不多,但呈上升趨勢。典型應用有:delicious,F(xiàn)lickr、豆瓣網(wǎng)、博客大巴等。根據(jù)標簽的共享范圍,大眾分類法有寬窄之分。
(二)三者的比較分析[9]
1.出現(xiàn)時間
目錄式搜索引擎是最早出現(xiàn)的網(wǎng)絡信息分類體系,但由于網(wǎng)絡信息的劇增,單靠人工方式無法完成對網(wǎng)絡信息的組織整序,導致了搜索引擎的飛速發(fā)展。谷歌就是因為被雅虎選為搜索引擎后才一飛沖天的,百度最早也是為搜狐、新浪提供搜索服務。而大眾分類出現(xiàn)在2004年,時間最晚。這也就解釋了前面闡述的為什么大眾分類在網(wǎng)絡信息檢索系統(tǒng)中的應用呈上升趨勢而目錄式搜索引擎呈下降趨勢。
2.資源數(shù)量
一般搜索引擎的資源數(shù)據(jù)庫巨大,尤其綜合性搜索引擎搜錄網(wǎng)頁都以億計,它對網(wǎng)絡信息的搜集比較全面。目錄式搜索引擎搜錄的網(wǎng)頁也達到百萬級,注重于組織信息的知識性。而大眾分類由于出現(xiàn)時間較晚,其資源數(shù)據(jù)庫偏小,往往在百萬級以下。它側(cè)重于對專門信息的組織。比如:delieious是書簽分享網(wǎng)站,而Flickr是圖片分享網(wǎng)站。對于網(wǎng)絡信息檢索系統(tǒng)而言,數(shù)據(jù)資源是其核心競爭力,往往在其服務中起著關鍵性作用。這正是目前搜索引擎如日中天的原因之一。
3.分類理念
三者的分類理念大相徑庭。目錄式搜索引擎的層級目錄從傳統(tǒng)的等級體系分類中得到借鑒,意在人工構(gòu)造“信息之樹”。搜索引擎則相反,更多地依賴先進技術(shù)和復雜算法實現(xiàn)信息海洋中的大海撈針。而大眾分類作為Web2.0的典型應用體現(xiàn)的正是Web2.0的核心理念:自由、創(chuàng)造、分享,它依靠的是大眾智慧。國外有學者將大眾分類比喻成“信息之樹”下“散落的樹葉”,筆者以為可以把搜索引擎比喻成埋于土里的“樹根”。
4.應用領域
搜索引擎技術(shù)被廣泛地應用于因特網(wǎng)的各個角落,同時你會在許多主頁甚至Web瀏覽器中找到嵌入其中的搜索引擎。目錄式搜索引擎多應用于一些門戶網(wǎng)站中。大眾分類總是依附于特定的社會性網(wǎng)絡系統(tǒng)。由此可見,搜索引擎在網(wǎng)絡信息檢索系統(tǒng)中占主導地位,占有較大市場份額,另外兩者處于輔助地位。
5.相互融合
雖然對網(wǎng)絡信息的分類組織可以區(qū)分為三種方式,但是在實際的網(wǎng)絡應用中它們往往并不孤立的存在。許多網(wǎng)站同時選取幾種方式,將其融合于統(tǒng)一的網(wǎng)站之中。比如:著名搜索引擎谷歌也提供目錄瀏覽服務。雅虎作為目錄式搜索引擎門戶網(wǎng)站的代表,同時提供關鍵詞搜索功能。國內(nèi)的豆瓣網(wǎng)同時提供標簽云和標簽搜索兩種檢索途徑。可見從網(wǎng)絡信息組織的角度,三種方式并不存在誰優(yōu)誰劣,它們相互借鑒、相互融合。存在的只是不斷的自我改進、完善,以提高其在信息網(wǎng)絡中的實用性和適應性。搜索引擎的主導地位就是在長期的網(wǎng)絡競爭中不斷改進和完善的結(jié)果。
從分類組織的角度,我們可以把因特網(wǎng)上的信息檢索系統(tǒng)劃分為三種類型,三者都具有各自的特點和應用于不同的領域。在劇烈的商業(yè)競爭中,搜索引擎獨具優(yōu)勢,兩極分化現(xiàn)象明顯。盡管我們可以樂觀地看待大眾分類的發(fā)展趨勢,但目錄指南的發(fā)展前景卻不容樂觀。同時,三種類型的系統(tǒng)分別適應于不同的資源類型和網(wǎng)絡用戶類型,因而三者宜取長補短,相互借鑒。三者相互融合、協(xié)調(diào)發(fā)展、長期并存是未來網(wǎng)絡信息分類組織的發(fā)展趨勢。在應對網(wǎng)絡信息的組織整序中,我們并不缺少理論、方案,缺少的只是信任、分工和協(xié)作。元數(shù)據(jù)經(jīng)過十幾年的發(fā)展還局限于圖書館領域的應用,以本體為基礎的語義網(wǎng)構(gòu)建可能面臨同樣的問題。IT精英、信息專家和網(wǎng)絡用戶分工合作可能成為未來信息網(wǎng)絡的發(fā)展方向。
免責聲明:以上內(nèi)容源自網(wǎng)絡,版權(quán)歸原作者所有,如有侵犯您的原創(chuàng)版權(quán)請告知,我們將盡快刪除相關內(nèi)容。