中國(guó)第一批搜索引擎往事丨CERNET30周年

來(lái)源:中國(guó)教育和科研計(jì)算機(jī)網(wǎng) 時(shí)間:2024-10-14

  三大搜索引擎成功實(shí)現(xiàn)了他們的初衷——研究關(guān)鍵應(yīng)用,積累搜索引擎技術(shù),并在此基礎(chǔ)上培養(yǎng)了大批互聯(lián)網(wǎng)人才,他們走出實(shí)驗(yàn)室,成為了中國(guó)互聯(lián)網(wǎng)發(fā)展的重要力量。

  1991年,蒂姆·伯納斯·李發(fā)明的WWW席卷了全球,規(guī)模每年翻一番的互聯(lián)網(wǎng)開(kāi)始每三個(gè)月翻一番。

  但總的來(lái)說(shuō),全球互聯(lián)網(wǎng)還是一片待開(kāi)墾的土地:人們找不著北,不知道去哪里尋找自己想要的內(nèi)容。雖然互聯(lián)網(wǎng)將計(jì)算機(jī)連接了起來(lái),卻沒(méi)有把人和互聯(lián)網(wǎng)連起來(lái)。在沒(méi)有搜索引擎的日子里,人們只能按圖索驥,點(diǎn)開(kāi)一個(gè)又一個(gè)網(wǎng)站,逐個(gè)尋找自己需要的信息。

  1994年,美國(guó)斯坦福大學(xué)的研究生楊志遠(yuǎn)(Jerry Yang)和大衛(wèi)·費(fèi)羅(David Filo)用人工分類(lèi)目錄的方式制作了一個(gè)網(wǎng)站指南,這是由許多網(wǎng)站的鏈接組成的列表,取名為Yahoo。Yahoo一經(jīng)推出就吸引了一大批需求者。

  但這種“喂到嘴邊”的目錄分類(lèi)列表沒(méi)能真正滿足用戶的核心需求——讓信息蹦到眼前。

  搜索,作為互聯(lián)網(wǎng)最基本的信息服務(wù),仍然沒(méi)有出現(xiàn)最優(yōu)解,也因此成為全球互聯(lián)網(wǎng)研究人員傾注熱情的課題。

  CERNET三大搜索引擎啟航

  1995年,全球互聯(lián)網(wǎng)的用戶數(shù)量達(dá)到了1600萬(wàn)。隨后的幾年里,風(fēng)險(xiǎn)投資家們忙得不可開(kāi)交。《華爾街日?qǐng)?bào)》說(shuō),幾乎每隔15秒就有一家以“.com”命名的新公司上市,互聯(lián)網(wǎng)走向了商業(yè)化。

  在網(wǎng)絡(luò)經(jīng)濟(jì)破繭而出的前夕,中國(guó)全功能接入了國(guó)際互聯(lián)網(wǎng)。1994年4月20日,通過(guò)美國(guó)Sprint公司的64K專(zhuān)線,中關(guān)村地區(qū)教育與科研示范網(wǎng)絡(luò)NCFC接入國(guó)際互聯(lián)網(wǎng)。也在這一年,中國(guó)第一個(gè)覆蓋全國(guó)的互聯(lián)網(wǎng)主干網(wǎng)——中國(guó)教育和科研計(jì)算機(jī)網(wǎng)CERNET誕生了。

  從接入國(guó)際互聯(lián)網(wǎng)那一刻開(kāi)始,中國(guó)就用互聯(lián)網(wǎng)連接并奮力追趕著世界。

  1996年,“九五”攻關(guān)啟動(dòng),旨在集中力量攻克產(chǎn)業(yè)升級(jí)和社會(huì)持續(xù)發(fā)展亟需解決的關(guān)鍵技術(shù)和共性技術(shù)。信息技術(shù)是其中一個(gè)重點(diǎn)領(lǐng)域。CERNET領(lǐng)到的任務(wù)是“計(jì)算機(jī)信息網(wǎng)絡(luò)及其應(yīng)用關(guān)鍵技術(shù)研究”,即基于建成的CERNET示范工程,對(duì)計(jì)算機(jī)信息網(wǎng)絡(luò)及其應(yīng)用關(guān)鍵技術(shù)展開(kāi)研究。

  也就是說(shuō),一是要研究互聯(lián)網(wǎng)關(guān)鍵核心技術(shù),二是要開(kāi)展互聯(lián)網(wǎng)關(guān)鍵應(yīng)用,從而構(gòu)建一個(gè)完整的國(guó)內(nèi)互聯(lián)網(wǎng)生態(tài)系統(tǒng)。項(xiàng)目提出了六大重要任務(wù):網(wǎng)絡(luò)管理與運(yùn)行技術(shù)、網(wǎng)絡(luò)及信息安全技術(shù)、網(wǎng)絡(luò)互連和路由技術(shù)、網(wǎng)絡(luò)設(shè)計(jì)和測(cè)試技術(shù)、網(wǎng)絡(luò)信息發(fā)現(xiàn)技術(shù)、典型網(wǎng)絡(luò)應(yīng)用技術(shù)。而搜索引擎既屬于網(wǎng)絡(luò)信息發(fā)現(xiàn)技術(shù),又屬于非常關(guān)鍵的互聯(lián)網(wǎng)應(yīng)用。

  今天回過(guò)頭看,“九五”攻關(guān)的項(xiàng)目立項(xiàng)得非常及時(shí),極具戰(zhàn)略眼光,富有遠(yuǎn)見(jiàn)地抓住了互聯(lián)網(wǎng)發(fā)展的根本關(guān)鍵問(wèn)題。

  搜索引擎研究課題采用的方式也非常有趣,并不是由一家單位來(lái)完成,而是選擇了三所高校來(lái)實(shí)施——清華大學(xué)、北京大學(xué)和華南理工大學(xué)。由此,在三所高校的網(wǎng)絡(luò)實(shí)驗(yàn)室里,開(kāi)啟了中國(guó)最早的搜索引擎技術(shù)研究。

  清華大學(xué)網(wǎng)絡(luò)指南針

501

網(wǎng)絡(luò)指南針?biāo)阉饕嬷黜?yè)

  清華大學(xué)網(wǎng)絡(luò)指南針?biāo)阉饕娴难邪l(fā)由清華大學(xué)教授、CERNET網(wǎng)絡(luò)中心副主任李星主持。

  網(wǎng)絡(luò)指南針(Net Compass)的名字就是李星取的。早前,他從清華大學(xué)電子工程系本科畢業(yè)后赴美留學(xué),1991年留學(xué)歸來(lái)后,他很不適應(yīng)沒(méi)有網(wǎng)絡(luò)的生活,于是四處呼吁建設(shè)中國(guó)的互聯(lián)網(wǎng)。1994年,CERNET示范工程啟動(dòng),李星就被吸收進(jìn)入了項(xiàng)目,所以他總說(shuō)自己是“票友下海”。

  1996年,李星帶領(lǐng)他的學(xué)生們張俐、楊文峰、解沖鋒、李粵、許靜芳和崔偉東等開(kāi)始了對(duì)搜索技術(shù)的探索。

  網(wǎng)絡(luò)指南針主要研究中文搜索引擎的技術(shù)實(shí)現(xiàn)。比起英文的字詞搜索,中文更難。因?yàn)橛⑽牡淖峙c字之間有空格,能很自然地切分詞匯,而中文不是。因此,團(tuán)隊(duì)面臨的第一個(gè)關(guān)鍵問(wèn)題就是:如何切分中文的關(guān)鍵詞來(lái)進(jìn)行搜索?字與字之間應(yīng)該如何切詞?如果基于一個(gè)一個(gè)字來(lái)切,計(jì)算量巨大;如果基于詞來(lái)切,那么沒(méi)有實(shí)質(zhì)含義的詞組要不要切?

  在充分考慮了中國(guó)文化背景和漢語(yǔ)的使用習(xí)慣后,網(wǎng)絡(luò)指南針對(duì)切詞的方式進(jìn)行了調(diào)整。像《紅樓夢(mèng)》里的語(yǔ)句:“雨村領(lǐng)其意,作別至館中,忙尋邸報(bào)看真確了?!薄佰?bào)看真”這樣的詞條,雖不是成語(yǔ),也不是常用詞,但能在指南針上搜出鏈接。

  除了提供網(wǎng)站列表之外,網(wǎng)絡(luò)指南針還提供了一些關(guān)于鏈接的模糊信息,由一個(gè)詞可以衍伸至另一個(gè)相關(guān)的詞。

  這種做法一是給用戶提供了更多選擇,二是提升了用戶搜索體驗(yàn)的趣味感。當(dāng)用戶注意到一個(gè)突出顯示的文字或短語(yǔ)時(shí),就會(huì)進(jìn)行點(diǎn)擊以了解更多信息,鏈接就將他們帶到另一個(gè)頁(yè)面。比如搜索“cisco”,就會(huì)自動(dòng)出現(xiàn)“路由器”的鏈接,用戶就能順藤摸瓜瀏覽其他網(wǎng)頁(yè)。

  1997年10月,網(wǎng)絡(luò)指南針開(kāi)始向用戶提供中英文信息查詢服務(wù),它收錄有20多萬(wàn)網(wǎng)頁(yè),收集了CERNET、ChinaNet、中國(guó)科技網(wǎng)和中國(guó)金橋網(wǎng)等信息資源。1998年7月《軟件世界》雜志上刊登的一篇名為《中文搜索網(wǎng)站介紹與比較》的文章評(píng)論說(shuō):“網(wǎng)絡(luò)指南針的特色在于查詢方法的多種多樣。其系統(tǒng)穩(wěn)定性、查找速度均為中上之選?!?/p>

  從1999年12月到2000年8月,有10萬(wàn)多名用戶對(duì)指南針進(jìn)行了80多萬(wàn)次的查詢,指南針成為教科網(wǎng)內(nèi)知名的搜索引擎。

  “還是有遺憾的,”李星談起網(wǎng)絡(luò)指南針時(shí)表示,“第一個(gè)遺憾是依賴于集中式的技術(shù),未能像谷歌那樣發(fā)明Map-Reduce技術(shù),從而走到分布式。第二個(gè)遺憾是缺乏相應(yīng)的機(jī)制,將網(wǎng)絡(luò)指南針商業(yè)化。”

  對(duì)于前者,網(wǎng)絡(luò)指南針當(dāng)時(shí)的體系結(jié)構(gòu)是集中式,隨著Web的發(fā)展,對(duì)于搜索引擎的可擴(kuò)展性提出了挑戰(zhàn)。在互聯(lián)網(wǎng)發(fā)展初期信息量還沒(méi)有那么大的時(shí)候,集中式的技術(shù)確實(shí)可以滿足用戶的需求,而當(dāng)互聯(lián)網(wǎng)飛速發(fā)展以后,這種模式就逐漸跟不上急速擴(kuò)張的互聯(lián)網(wǎng)資源了。對(duì)于后者而言,商業(yè)化涉及時(shí)代理念和環(huán)境,更是難。

  對(duì)于搜索引擎而言,1998年是具有劃時(shí)代意義的一年。這年,斯坦福大學(xué)的博士生拉里·佩奇(Lawrence Edward Page)由科研文獻(xiàn)被引用率與其價(jià)值成正比想到,網(wǎng)頁(yè)鏈接也如此——不是所有鏈接都平等,一個(gè)鏈接被連接得越多,它就越重要。在此基礎(chǔ)上,拉里·佩奇和謝爾蓋·布林(Sergey Brin)發(fā)明了Page Rank(佩奇排名)算法。正是這個(gè)基于網(wǎng)頁(yè)鏈接分析的算法,使得搜索技術(shù)具有了和以往完全不同的使用效果,Google一舉成名。

  幾年后,Google發(fā)明了面向大規(guī)模數(shù)據(jù)處理的并行計(jì)算模型和方法——Map-Reduce技術(shù),并將其廣泛應(yīng)用于大規(guī)模的數(shù)據(jù)處理。技術(shù)上的不斷開(kāi)拓,伴以成熟的風(fēng)險(xiǎn)投資機(jī)制,Google飛速壯大。

  然而,對(duì)于改革開(kāi)放才20多個(gè)年頭、商業(yè)環(huán)境不夠成熟、還在迷霧中摸索互聯(lián)網(wǎng)技術(shù)的中國(guó),一切都是Hard模式。和其他一些90年代的搜索引擎一樣,在缺乏商業(yè)化機(jī)制的情況下,網(wǎng)絡(luò)指南針沒(méi)能走到最后。二十世紀(jì)末的最后幾年,國(guó)內(nèi)上網(wǎng)用戶的規(guī)模還很小,搜索引擎商業(yè)化的前景并不被看好。雖然在今天,在線廣告是互聯(lián)網(wǎng)最主流的變現(xiàn)模式,但在90年代,在報(bào)刊上登一次廣告的反饋率,比在網(wǎng)上登兩個(gè)月廣告的反饋率還要多一倍。

  網(wǎng)絡(luò)指南針(Net Compass)的名字還引發(fā)了一段小插曲。2024年,在中國(guó)互聯(lián)網(wǎng)協(xié)會(huì)舉辦的“中國(guó)互聯(lián)網(wǎng)30年紀(jì)念”座談上,搜狐的張朝陽(yáng)回憶起1998年創(chuàng)立網(wǎng)站前夕,他靈光一閃,想出一個(gè)非常滿意的名字——指南針。他回到清華計(jì)算機(jī)系,興奮地和吳建平老師聊,吳建平說(shuō),清華的搜索引擎就叫指南針,還申請(qǐng)了域名。于是張朝陽(yáng)把他的網(wǎng)站名改成了搜狐?!斑z憾的是,后來(lái)我們的域名沒(méi)有連續(xù)交費(fèi),現(xiàn)在已經(jīng)不在了,要是留著也挺好的?!崩钚腔貞浀?。

  北大天網(wǎng)搜索引擎

502

天網(wǎng)搜索引擎主頁(yè)

  Google創(chuàng)立后的第二年,北京大學(xué)信息管理學(xué)院畢業(yè)的李彥宏結(jié)束了在美國(guó)的職業(yè)生涯,回國(guó)創(chuàng)業(yè),劍指搜索引擎。他的首要任務(wù)是招兵買(mǎi)馬,傳說(shuō)中“百度七劍客”中的兩位——?jiǎng)⒔▏?guó)和雷鳴——就來(lái)自北大天網(wǎng)搜索引擎。

  天網(wǎng)搜索引擎取意“天網(wǎng)恢恢,疏而不漏”,用在信息搜索上十分貼切。

  1996年,北京大學(xué)網(wǎng)絡(luò)實(shí)驗(yàn)室陳葆玨教授帶著劉建國(guó)、周利民和雷鳴等人開(kāi)始了對(duì)天網(wǎng)搜索的研發(fā)。劉建國(guó)是北大教師,其他人都是研究生。

  團(tuán)隊(duì)認(rèn)為,搜索引擎是系統(tǒng)層面的新事物。它本質(zhì)上是一種信息服務(wù),核心問(wèn)題有兩個(gè):如何返回用戶想要的信息,如何讓用戶快速訪問(wèn)。也就是一要準(zhǔn),二要快。要從幾千萬(wàn)甚至上億個(gè)網(wǎng)頁(yè)中找出信息并在1秒內(nèi)返回,難如大海撈針,而團(tuán)隊(duì)成功實(shí)現(xiàn)了從零到一的突破,并取得了階段性的成果。

  1997年10月29日,北大天網(wǎng)開(kāi)始在CERNET上向用戶提供服務(wù)。到了1998年9月,訪問(wèn)者已經(jīng)超過(guò)了10萬(wàn)。1999年《中國(guó)信息導(dǎo)報(bào)》發(fā)布了一篇名為《中文搜索引擎發(fā)展的現(xiàn)狀、問(wèn)題及對(duì)策》的文章,對(duì)天網(wǎng)搜索引擎做出了如下評(píng)價(jià):“北京大學(xué)‘天網(wǎng)’的關(guān)鍵詞查詢方式有簡(jiǎn)單查詢和復(fù)雜查詢,查詢界面友好且功能性較強(qiáng),相比而言,查準(zhǔn)率較高,因而深受廣大網(wǎng)上用戶的青睞?!?/p>

  其實(shí),劉建國(guó)很早就開(kāi)始思考如何讓搜索引擎在巨大的市場(chǎng)競(jìng)爭(zhēng)中逆流而上。在1998年的一次采訪中,他提到,就像以前的操作系統(tǒng)、字處理軟件最后被許多國(guó)外軟件占了上風(fēng)一樣,搜索引擎也面臨同樣的問(wèn)題。技術(shù)的深入、資本的投入和商業(yè)化可能才是做大做強(qiáng)的必經(jīng)之路。

  1999年對(duì)于天網(wǎng)搜索而言是很特別的一年。那一年,李彥宏回國(guó)創(chuàng)業(yè)?;貋?lái)前夕,他按照天網(wǎng)上的Email地址給劉建國(guó)發(fā)了一封郵件,邀請(qǐng)劉建國(guó)一起在中國(guó)開(kāi)發(fā)一款搜索引擎。幾經(jīng)思索后,劉建國(guó)辭掉了北大教師的職務(wù),成為百度的第一名員工,負(fù)責(zé)技術(shù)研發(fā)。在劉建國(guó)的推薦下,北大天網(wǎng)的其他主力開(kāi)發(fā)人員周利民、雷鳴也加入了百度。

  同年,陳葆玨教授退休,李曉明接任了北大天網(wǎng)研發(fā)負(fù)責(zé)人的職位。“在天網(wǎng)搜索引擎發(fā)展的第一階段,陳葆玨老師給我們打了一個(gè)很好的底子。從2000年開(kāi)始,我們成立了新課題組,進(jìn)入了北大天網(wǎng)第二階段的發(fā)展。新課題組的主要成員有王建勇、閆宏飛、彭波、謝欣和陳華等人?!崩顣悦髡f(shuō)。

  彼時(shí),互聯(lián)網(wǎng)上的網(wǎng)頁(yè)數(shù)量已達(dá)千萬(wàn)級(jí),閆宏飛和彭波開(kāi)發(fā)了一套技術(shù),以實(shí)現(xiàn)系統(tǒng)的并行化。陳華從雷鳴手里接下了當(dāng)時(shí)并不受重視的FTP搜索任務(wù),他還真做了出來(lái),2002年,北大天網(wǎng)FTP搜索成為國(guó)內(nèi)最著名的FTP搜索。北大網(wǎng)絡(luò)實(shí)驗(yàn)室還運(yùn)用了Google的新技術(shù)提升了系統(tǒng)的能力,推出了天網(wǎng)Maze。

  之后,北大天網(wǎng)迎來(lái)了它的第三個(gè)發(fā)展階段:留存中國(guó)互聯(lián)網(wǎng)的記憶?;ヂ?lián)網(wǎng)上信息紛繁龐雜,在缺乏維護(hù)的情況下,大多數(shù)網(wǎng)頁(yè)只是“縣花一現(xiàn)”,隨著時(shí)間的流逝而湮滅。2002年,北大網(wǎng)絡(luò)實(shí)驗(yàn)室開(kāi)發(fā)建設(shè)了“中國(guó)Web信息博物館”,到2015年,博物館收藏了70多億網(wǎng)頁(yè)文本數(shù)據(jù),容量超200TB。2016年,實(shí)驗(yàn)室將其捐贈(zèng)給了中國(guó)計(jì)算機(jī)學(xué)會(huì),向公眾開(kāi)放。

  這一項(xiàng)目的意義最近越來(lái)越得到凸顯:2024年,一篇名為《中文互聯(lián)網(wǎng)正在加速崩塌》的文章在網(wǎng)上流傳,文章指出,中文互聯(lián)網(wǎng)上的許多歷史信息崩塌式消失,就像歷史中斷掉的鏈條一般。這篇文章讓許多人開(kāi)始關(guān)注北大的Web信息博物館。這一項(xiàng)目的意義還不止于此——伴隨著近兩年生成式人工智能的發(fā)展,Web信息博物館里收集的近20年的數(shù)據(jù)成為了各大科研機(jī)構(gòu)訓(xùn)練大模型的寶貴語(yǔ)料,已經(jīng)被30多家機(jī)構(gòu)采用。當(dāng)然,這是后話了。

  華南理工木棉搜索引擎

503

木棉搜索引擎主頁(yè)

  每年秋天,木棉花盛開(kāi)時(shí),華南理工大學(xué)的校園中好似有無(wú)數(shù)歡快的火苗在跳躍,滿樹(shù)粉黛亦如云如霞,而木棉搜索引擎這一美好的名字就由此而來(lái)。

  1996年,木棉搜索引擎的研發(fā)在華南理工大學(xué)信息網(wǎng)絡(luò)工程研究中心正式啟動(dòng)。網(wǎng)絡(luò)實(shí)驗(yàn)室的負(fù)責(zé)人是華南理工大學(xué)教授張凌,他同時(shí)也是CERNET專(zhuān)家委員會(huì)的副主任。那年,他和實(shí)驗(yàn)室的董守斌教授一起帶著學(xué)生們研發(fā)木棉檢索。

  1998年12月,木棉正式向互聯(lián)網(wǎng)用戶提供服務(wù),支持Web檢索、FTP檢索和信息采編。主要提供兩類(lèi)信息檢索服務(wù),一是面向?qū)W校、大型企業(yè)的企業(yè)級(jí)搜索引擎,如華南理工大學(xué)校內(nèi)搜索、廣州科技網(wǎng)檢索系統(tǒng)等。二是面向教育網(wǎng)資源的全網(wǎng)專(zhuān)題檢索,這一系統(tǒng)面向中國(guó)教育和科研計(jì)算機(jī)網(wǎng)CERNET,整合了全國(guó)各類(lèi)教育資源,為教育網(wǎng)用戶提供良好的信息檢索平臺(tái)。

  木棉檢索團(tuán)隊(duì)在技術(shù)上做了很多探索。他們與清華大學(xué)聯(lián)合承擔(dān)國(guó)際聯(lián)網(wǎng)安全研究項(xiàng)目——“信息自動(dòng)查詢與識(shí)別技術(shù)”,通過(guò)網(wǎng)絡(luò)信息抓取并實(shí)現(xiàn)敏感詞匯的過(guò)濾,這也是第一代帶關(guān)鍵詞過(guò)濾的爬蟲(chóng)系統(tǒng)。

  他們還與Sun公司合作,建立了大陸第一個(gè)大型FTP開(kāi)源文件下載中心(SunSite),并重點(diǎn)攻關(guān)FTP檢索,收集了百萬(wàn)條FTP文件信息,支持對(duì)文件名、文件目錄和文件URL的模糊查詢和文件屬性的結(jié)構(gòu)查詢,對(duì)大批量數(shù)據(jù)有較快的響應(yīng)時(shí)間,是當(dāng)時(shí)國(guó)內(nèi)信息量較大和服務(wù)功能較完善的FTP檢索。

  進(jìn)入二十一世紀(jì)后,互聯(lián)網(wǎng)技術(shù)得以快速發(fā)展。木棉搜索引擎也經(jīng)歷了許多發(fā)展變化,其系統(tǒng)由集中式搜索改為分布式搜索,這是一個(gè)很大的調(diào)整。同時(shí),盡可能選擇搜索領(lǐng)域的開(kāi)源系統(tǒng)——如早期出現(xiàn)的Lucene——進(jìn)行二次開(kāi)發(fā)。

  2002年,北京大學(xué)主辦了第一屆全國(guó)搜索引擎和網(wǎng)上信息挖掘?qū)W術(shù)(SEWM)研討會(huì)。華南理工大學(xué)、清華大學(xué)緊隨后,主辦了第二屆和第三屆研討會(huì)。該會(huì)議當(dāng)時(shí)是搜索引擎領(lǐng)域的旗艦會(huì)議,其主要特色是舉辦中文搜索引擎競(jìng)賽測(cè)評(píng)。木棉搜索團(tuán)隊(duì)多次在該會(huì)組織的測(cè)評(píng)中名列前茅。會(huì)議后改名為全國(guó)信息檢索學(xué)術(shù)會(huì)議(CCIR),舉辦至今年,剛好是第三十屆。

  2005年,董守斌和一起參與項(xiàng)目的袁華開(kāi)設(shè)了“網(wǎng)絡(luò)信息檢索”本科課程。課程起初是作為網(wǎng)絡(luò)工程專(zhuān)業(yè)的特色課程,后發(fā)展為面向計(jì)算機(jī)學(xué)院的選修課,這也是國(guó)內(nèi)首個(gè)講述信息檢索技術(shù)和搜索引擎原理的本科生課程。在多年研究與教學(xué)的基礎(chǔ)上,兩位老師撰寫(xiě)了本科教材《網(wǎng)絡(luò)信息檢索》,獲評(píng)“十三五”高等教育本科國(guó)家級(jí)規(guī)劃教材。

  2009年,在發(fā)改委下一代互聯(lián)網(wǎng)項(xiàng)目的支持下,四所高?!A中科技大學(xué)、華南理工大學(xué)、北京大學(xué)、清華大學(xué)聯(lián)合開(kāi)發(fā)了IPv6分布式搜索引擎,建設(shè)了下一代互聯(lián)網(wǎng)分布式搜索引擎平臺(tái),促進(jìn)了我國(guó)IPv6下一代互聯(lián)網(wǎng)應(yīng)用的繁榮。

  互聯(lián)網(wǎng)人才培養(yǎng)基地

  2000年之后,國(guó)內(nèi)掀起了互聯(lián)網(wǎng)商業(yè)化的浪潮,擁有商業(yè)資源的應(yīng)用在資本的加持下一路前行,早期僅僅出于研究目的的搜索引擎逐漸退出了江湖。

  然而,不可否認(rèn)的是,90年代末、00年代初,以網(wǎng)絡(luò)指南針為代表的三大高校的積極探索,為商業(yè)搜索引擎的飛速發(fā)展掃清了障礙——不僅積累了中文處理的優(yōu)勢(shì),更在此過(guò)程中培養(yǎng)了一大批技術(shù)人才,他們成為日后中國(guó)搜索引擎領(lǐng)域的骨干。

  在清華,團(tuán)隊(duì)的學(xué)生們后來(lái)在互聯(lián)網(wǎng)領(lǐng)域大放異彩:張俐,后來(lái)任職IBM研究院;解沖鋒,現(xiàn)為中國(guó)電信北京研究院IPv6首席專(zhuān)家;李粵,博士畢業(yè),現(xiàn)任華南理工大學(xué)副教授,繼續(xù)研究搜索引擎;許靜芳,現(xiàn)為微信搜索應(yīng)用部副總經(jīng)理,微信搜一搜業(yè)務(wù)負(fù)責(zé)人,在此之前,她是搜狗的高級(jí)副總裁。

  在北大,天網(wǎng)搜索引擎在整個(gè)發(fā)展中培養(yǎng)了諸多人們熟知的互聯(lián)網(wǎng)人才。搜狗的王小川用“黃埔軍校”來(lái)比喻,很可能是因?yàn)檫@里是新興互聯(lián)網(wǎng)技術(shù)公司的孵化器,也可能是因?yàn)閺倪@里走出了許多成功的互聯(lián)網(wǎng)創(chuàng)業(yè)者。從天網(wǎng)搜索第一個(gè)發(fā)展階段的劉建國(guó)、雷鳴等人,到第二、三階段的陳華、謝欣等人,許多互聯(lián)網(wǎng)創(chuàng)業(yè)人從這里走出。謝欣現(xiàn)為字節(jié)跳動(dòng)副總裁,陳華是酷訊網(wǎng)、唱吧的創(chuàng)始人,姚叢磊是百煉智能的聯(lián)合創(chuàng)始人,張志剛、陳靜是脈訊在線的聯(lián)合創(chuàng)始人,歐高炎創(chuàng)辦了博雅數(shù)智,陳日閃則在美國(guó)創(chuàng)辦了AutoBizLine,等等?!皬倪@個(gè)實(shí)驗(yàn)室出來(lái)的學(xué)生,創(chuàng)業(yè)密度特別大。”一家媒體說(shuō)。

  華南理工大學(xué)的團(tuán)隊(duì)也在數(shù)十年的研究與教學(xué)中培養(yǎng)了許多專(zhuān)業(yè)搜索技術(shù)人才,這些學(xué)生畢業(yè)之后活躍于騰訊、百度、搜狗、字節(jié)跳動(dòng)、網(wǎng)易、中國(guó)電信、中國(guó)移動(dòng)等公司的搜索相關(guān)部門(mén),業(yè)已成為技術(shù)帶頭人及骨干成員。

  在這個(gè)意義上,三大搜索引擎已成功實(shí)現(xiàn)了他們的初衷——研究最關(guān)鍵的應(yīng)用,積累搜索引擎技術(shù),并在此基礎(chǔ)上培養(yǎng)了大批互聯(lián)網(wǎng)骨干人才,他們走出實(shí)驗(yàn)室,成為了后來(lái)中國(guó)互聯(lián)網(wǎng)發(fā)展的重要力量。

  背景資料:“計(jì)算機(jī)信息網(wǎng)絡(luò)及其應(yīng)用關(guān)鍵技術(shù)研究”項(xiàng)目

  1996年,由教育部主持,清華大學(xué)等14所高等院校和科研單位承擔(dān)的國(guó)家“九五”重點(diǎn)科技項(xiàng)目(攻關(guān))計(jì)劃——“計(jì)算機(jī)信息網(wǎng)絡(luò)及其應(yīng)用關(guān)鍵技術(shù)研究”經(jīng)國(guó)家計(jì)委批復(fù)立項(xiàng)。1998年,該項(xiàng)目通過(guò)國(guó)家鑒定驗(yàn)收,這也是我國(guó)第一個(gè)互聯(lián)網(wǎng)領(lǐng)域的國(guó)家重大科研項(xiàng)目通過(guò)驗(yàn)收。項(xiàng)目涉及網(wǎng)絡(luò)互連、管理和安全方面的六大核心技術(shù)攻關(guān)。

  項(xiàng)目基于CERNET示范工程,圍繞網(wǎng)絡(luò)管理與運(yùn)行技術(shù)、網(wǎng)絡(luò)及信息安全技術(shù)、網(wǎng)絡(luò)互連和路由技術(shù)、網(wǎng)絡(luò)設(shè)計(jì)和測(cè)試技術(shù)、網(wǎng)絡(luò)信息發(fā)現(xiàn)技術(shù)、典型網(wǎng)絡(luò)應(yīng)用技術(shù)六大互聯(lián)網(wǎng)領(lǐng)域的關(guān)鍵技術(shù)和裝備進(jìn)行攻關(guān),在網(wǎng)絡(luò)管理系統(tǒng)、路由引擎、防火墻、搜索引擎等方面填補(bǔ)了國(guó)內(nèi)空白。