今年度過(guò)15歲生日的Google早已成了“互聯(lián)網(wǎng)搜索引擎”的代名詞,但是互聯(lián)網(wǎng)搜索引擎并非Google首創(chuàng)——早在20年前,英國(guó)年輕人喬納森•弗萊徹(Jonathon Fletcher)就在一所大學(xué)的計(jì)算機(jī)實(shí)驗(yàn)室里做出了世界上第一個(gè)使用爬蟲技術(shù)的搜索引擎,而這項(xiàng)技術(shù)是當(dāng)今Google、必應(yīng)、雅虎和其他各大搜索工具的基礎(chǔ)。
弗萊徹多年來(lái)一直默默無(wú)聞,就連他自己也沒(méi)有意識(shí)到自己就是“互聯(lián)網(wǎng)搜索引擎之父”,直到幾年前有研究人員發(fā)現(xiàn)了他的成就。BB C日前對(duì)他進(jìn)行了專門報(bào)道,以下為文章主要內(nèi)容:
首次觸網(wǎng)
在1993年,互聯(lián)網(wǎng)剛剛對(duì)公眾開放,第一款大受歡迎的Web瀏覽器Mosaic也剛剛問(wèn)世——它的界面與我們?nèi)缃袷褂玫母鞣N瀏覽器非常相似。在當(dāng)時(shí),全球總共只有數(shù)以千計(jì)的網(wǎng)頁(yè),如何在Web上查找信息是個(gè)有待解決的問(wèn)題。
Mosaic有個(gè)“What’s New”(新鮮事)頁(yè)面能對(duì)新建的網(wǎng)站加以索引,但網(wǎng)站創(chuàng)建者要想讓Mosaic的開發(fā)者注意到自己的網(wǎng)站,就必須給Mosaic開發(fā)團(tuán)隊(duì)所在的伊利諾伊大學(xué)香檳分校(University of Illinois Urbana-Champaign)的美國(guó)國(guó)家超級(jí)計(jì)算機(jī)應(yīng)用中心(NCSA)寫信。
那時(shí)候,喬納森•弗萊徹是斯特靈大學(xué)(University of Stirling)的一名研究生,正準(zhǔn)備去格拉斯哥大學(xué)(University of Glasgow)攻讀博士學(xué)位,前途一片光明。
但是,弗萊徹還沒(méi)去格拉斯哥大學(xué),那邊的科研項(xiàng)目經(jīng)費(fèi)就被砍了,于是他一下子無(wú)事可做了。迫于生計(jì),他回到斯特靈大學(xué)找了一份技術(shù)類工作——正是這份工作,讓他首次接觸萬(wàn)維網(wǎng)和Mosaic的“What’s New”頁(yè)面。
改進(jìn)索引
在為斯特靈大學(xué)構(gòu)建一臺(tái)Web服務(wù)器時(shí),弗萊徹意識(shí)到“What’s New”頁(yè)面存在重大缺陷——網(wǎng)站都是人工添加至列表的,因此網(wǎng)站內(nèi)容變化是無(wú)法追蹤的,于是很多鏈接會(huì)很快過(guò)時(shí)或者被加上錯(cuò)誤的標(biāo)簽。如果想知道網(wǎng)站內(nèi)容有何變化,就只能回到網(wǎng)站上查看一番。
弗萊徹覺(jué)得一定有更好的方法,于是他決定發(fā)揮計(jì)算機(jī)專業(yè)科班出身的特長(zhǎng)、寫點(diǎn)能幫自己查找信息的東西——這個(gè)東西,其實(shí)就是世界上第一個(gè)Web爬蟲軟件。
弗萊徹給自己的發(fā)明取名“JumpStation”。他匯總出一個(gè)能被Web爬蟲軟件搜索的網(wǎng)頁(yè)索引,而爬蟲會(huì)訪問(wèn)它遇到的每一個(gè)網(wǎng)頁(yè)上的每一個(gè)連接并對(duì)它們建立索引——整個(gè)流程自動(dòng)進(jìn)行,直到爬蟲沒(méi)有東西可訪問(wèn)為止。
10天之后,也就是在1993年12月21日,JumpStation沒(méi)有東西可以訪問(wèn)了。此時(shí),它已經(jīng)對(duì)2.5萬(wàn)個(gè)網(wǎng)頁(yè)建立了索引。
而今天,谷歌已經(jīng)對(duì)超過(guò)1萬(wàn)億個(gè)頁(yè)面建立了索引。
引擎問(wèn)世
弗萊徹很快為網(wǎng)頁(yè)索引建立了一個(gè)容易操作的搜索工具,然后把自己的網(wǎng)站放在了Mosaic的“What’s New”頁(yè)面上——世界上第一個(gè)現(xiàn)代化的搜索引擎就這樣運(yùn)行起來(lái)了。
澳大利亞皇家墨爾本理工大學(xué)(RMIT)的馬克•桑德森(Mark Sanderson)教授是一位研究信息檢索歷史的學(xué)者,他認(rèn)為弗萊徹是“Web搜索引擎之父”。桑德森指出,雖然電腦上的搜索技術(shù)早已有之,但弗萊徹是創(chuàng)造現(xiàn)代搜索引擎雛形的第一人。
但是,谷歌創(chuàng)始人謝爾蓋•布林(Sergey Brin)和拉里•佩奇(Larry Page)的名字早已家喻戶曉,如今生活在香港的弗萊徹卻默默無(wú)聞,沒(méi)什么人知道他對(duì)互聯(lián)網(wǎng)發(fā)展的貢獻(xiàn)。
JumpStation越做越大,需要的投資也越來(lái)越多——后來(lái)斯特靈大學(xué)就不愿繼續(xù)為它提供資金了。“它在一臺(tái)共用服務(wù)器上運(yùn)行,磁盤空間并不充裕,而且那時(shí)候的磁盤又小又貴。”弗萊徹解釋道。
無(wú)奈放棄
到了1994年6月,JumpStation已經(jīng)對(duì)27.5個(gè)網(wǎng)頁(yè)建立了索引。迫于空間限制,弗萊徹只能給網(wǎng)頁(yè)標(biāo)題和導(dǎo)語(yǔ)建立索引,而無(wú)法顧及全部網(wǎng)頁(yè)內(nèi)容,但是盡管如此,JumpStation還是不堪重負(fù)。
不堪重負(fù)的還有弗萊徹——畢竟,他的本職工作是維護(hù)實(shí)驗(yàn)室、管理系統(tǒng)和處理技術(shù)方面的瑣事,不是運(yùn)作JumpStation。
后來(lái),他有了一個(gè)去東京工作的好機(jī)會(huì),而斯特靈大學(xué)也沒(méi)有對(duì)他和他的JumpStation多做挽留。“我顯然沒(méi)能成功說(shuō)服他們相信它的潛力。”弗萊徹說(shuō)道,“在當(dāng)時(shí),我做了我認(rèn)為正確的事情;但是這20年來(lái),我也曾多次回想起昔日時(shí)光。”
斯特靈大學(xué)計(jì)算機(jī)科學(xué)與數(shù)學(xué)學(xué)院的院長(zhǎng)萊斯利•史密斯(Leslie Smith)教授向BBC表示,他記得弗萊徹和“超前問(wèn)世”的JumpStation。他還表示,斯特靈大學(xué)的同事們對(duì)弗萊徹的成就開始被世人所知深感欣慰。
展望未來(lái)
弗萊徹雖然并不如意,但是他開創(chuàng)的技術(shù)為后來(lái)所有的Web搜索引擎奠定了基礎(chǔ)。
桑德森教授指出,JumpStation在1993年到1994年的互聯(lián)網(wǎng)圈子里無(wú)人不知,而谷歌直到1998年才問(wèn)世。
幾周前,弗萊徹在都柏林的一次會(huì)議上引起了關(guān)注——作為特邀嘉賓,他與來(lái)自微軟、雅虎和谷歌的代表同臺(tái)發(fā)言。但是,他在演講中談到了未來(lái)。
“我認(rèn)為,Web不會(huì)永久存在,但是查找信息的問(wèn)題不會(huì)消失,人們搜索內(nèi)容和查找信息的欲望與媒介無(wú)關(guān)。”他向聽眾們?nèi)缡钦f(shuō)道。
他的后繼者如今已經(jīng)賺得盆滿缽滿,但是他并不后悔。“我的父母為我自豪,我的妻子為我自豪,我的孩子們也為我自豪——這對(duì)我來(lái)說(shuō)相當(dāng)珍貴,所以我很幸福。”