了解GOOGLE搜索引擎中的Google Dance工具
...
無(wú)論是參加貿(mào)易展銷,開研討會(huì),還是在座談會(huì)上發(fā)言,都會(huì)有人問(wèn)我這樣一個(gè)問(wèn)題:“Google dance是什么東東?”我也聽到過(guò)若干不同版本的“Google dance”論,不過(guò)只有一種說(shuō)法是對(duì)的:Google Dance其實(shí)就是指Google重新安排它的搜索結(jié)果的排名的過(guò)程。在Google Dance時(shí)期(三到五天內(nèi)),你可以發(fā)現(xiàn)Google的搜索結(jié)果會(huì)有大幅度的波動(dòng)。 Google多長(zhǎng)時(shí)間更新一次?
Google Dance這個(gè)名字通常用于描述Google搜索引擎對(duì)其主要的索引結(jié)果進(jìn)行更新的過(guò)程。每隔36天(一年10次),Google會(huì)對(duì)其主要的索引結(jié)果進(jìn)行一次更新。不過(guò)在今年的5月,Google提前對(duì)其搜索結(jié)果進(jìn)行了更新,而且是一次大的更新。
Google的更新過(guò)程可以很容易地通過(guò)搜索結(jié)果的顯著變化來(lái)識(shí)別,通過(guò)Google對(duì)所有索引頁(yè)面的網(wǎng)頁(yè)快照的更新也能夠看出來(lái)。你可以發(fā)現(xiàn),每一分鐘都會(huì)有明顯的變化。不過(guò)Google的更新過(guò)程并不是象開關(guān)切換那樣,從一個(gè)索引列表瞬間就可以切換到另外一個(gè)索引列表。實(shí)際上,Google需要幾天的時(shí)間來(lái)完成對(duì)主要搜索結(jié)果的更新。
由于Google也和其它搜索引擎一樣,以其隨時(shí)向其訪問(wèn)者提供權(quán)威而可靠的搜索結(jié)果來(lái)贏得客戶。這樣Google的更新過(guò)程就變成一個(gè)比較嚴(yán)重的問(wèn)題。在更新過(guò)程中,Google不可能關(guān)閉服務(wù)器來(lái)進(jìn)行維護(hù),即使是只有一分鐘的掉線也會(huì)給Google帶來(lái)不可想象的損失。所以就有了我們現(xiàn)在看到的這個(gè)術(shù)語(yǔ)--Google Dance。
其實(shí)每個(gè)搜索引擎都會(huì)定期的對(duì)其數(shù)據(jù)庫(kù)進(jìn)行更新,以保證提供最新的搜索結(jié)果。只是它們的更新周期各有不同而已。但是由于Google作為搜索引擎的龍頭,有著巨大的影響力,因此我們對(duì)它的更新倍加注意。
在Google的更新過(guò)程中,其索引始終在變化,所以它的搜索結(jié)果也會(huì)有很大的變動(dòng)。頁(yè)面等級(jí)(PageRank)和返回鏈接的更新也是在這個(gè)時(shí)期完成的。 是不是只有搜索結(jié)果得到更新?
事實(shí)上并不是這樣。任何一個(gè)更新過(guò)程完成之后,Google搜索結(jié)果的頁(yè)面位置都會(huì)有一些變化。一方面這是由于Google的網(wǎng)絡(luò)蜘蛛(spider)一直在活動(dòng)并不斷發(fā)現(xiàn)新站點(diǎn);另一方面是由于一旦網(wǎng)絡(luò)蜘蛛檢測(cè)到那些失效的“死”站點(diǎn),便會(huì)將這些站點(diǎn)從其索引列表中刪除。而在Google Dance過(guò)程中,Google的Robot會(huì)對(duì)每個(gè)已被收錄的站點(diǎn)重新進(jìn)行遍歷,計(jì)算其鏈入和鏈出數(shù),并對(duì)這些鏈接的價(jià)值進(jìn)行評(píng)估。然后根據(jù)其PageRank系統(tǒng)來(lái)計(jì)算每個(gè)頁(yè)面的PageRank值,再依據(jù)這個(gè)數(shù)字來(lái)重新安排各個(gè)站點(diǎn)在列表中的位置。
因?yàn)镚oogle總是在遍歷和更新其挑選的頁(yè)面,因此其搜索結(jié)果在這一個(gè)月內(nèi)也會(huì)有稍微的變化。不過(guò)只有在Google Dance期間,其搜索結(jié)果才會(huì)有幅度較大的變化。你要考慮到Google有8個(gè)數(shù)據(jù)中心,共享著超過(guò)一萬(wàn)臺(tái)的服務(wù)器。
由于某種原因,Google索引列表的更新雖然在幾天之內(nèi)完成,但整個(gè)搜索結(jié)果的更新會(huì)持續(xù)一個(gè)月。無(wú)論是對(duì)Google還是其它搜索引擎,搜索列表的更新工作自始至終都是必不可少的。這些在進(jìn)行中所增加的更新,在任一時(shí)間內(nèi),只會(huì)影響索引的一部分而不是全部。
如何檢查Google Dance?
Google有8臺(tái)主要的WWW網(wǎng)絡(luò)服務(wù)器在線,它們分別是:
1. www-ex.google.com - (就是我們平常所用的www.google.com);
2. www-sj.google.com - (亦可通過(guò)www2.google.com進(jìn)入) ;
3. www-va.google.com - (亦可通過(guò)www3.google.com進(jìn)入) ;
4. www-dc.google.com ;
5. www-ab.google.com ;
6. www-in.google.com ;
7. www-zu.google.com;
8. www-cw.google.com
在Google Dance過(guò)程中,你可以檢查上頁(yè)所列的這8個(gè)Google網(wǎng)絡(luò)服務(wù)器。某段時(shí)間內(nèi)它們顯示的結(jié)果會(huì)有較大的不同,就好象在跳舞一樣。正因如此,它們的更新過(guò)程就被稱作“Dancing/跳舞”,所以就有了Google Dance這個(gè)名字。
想要查看Google Dance是否在進(jìn)行中,最簡(jiǎn)單直接的辦法就是到www.google.com去做一個(gè)查詢。在Google搜索結(jié)果頁(yè)面上方的藍(lán)條中,會(huì)顯示這樣的信息:“共有626,000項(xiàng)查詢結(jié)果,這是第1-10項(xiàng)。搜索用時(shí)0.48秒?!比缓竽阍俚絯ww2.google.com和www3.google.com上做相同條件的查詢,如果相同的查詢得出的搜索結(jié)果數(shù)量不同,那就表明Google正在更新中。
當(dāng)然了,你也可以查看所有上面列出的8個(gè)網(wǎng)址。www2其實(shí)就是www-sj,www3 是www-va。需要注意的是,在URL一欄要求輸入完整的地址www-擴(kuò)展名.google.com才能得到正確的測(cè)試結(jié)果。也有一些網(wǎng)站提供了這樣的工具,允許你對(duì)這8個(gè)數(shù)據(jù)中心的搜索結(jié)果同時(shí)進(jìn)行檢查,并比較查詢結(jié)果。如果在上述8個(gè)網(wǎng)址下的搜索結(jié)果數(shù)量和排名順序都相同的話,就表明Google的更新過(guò)程已經(jīng)完成了。
Google Dance的重要性:
對(duì)大多數(shù)人來(lái)說(shuō),Google的更新過(guò)程對(duì)他們來(lái)說(shuō)并不重要。然而對(duì)于任何一個(gè)身處搜索引擎優(yōu)化行業(yè)的人來(lái)說(shuō),這卻是一個(gè)值得注意的時(shí)期。首先,在Google Dance時(shí)期,我們總會(huì)接到很多客戶的電話,說(shuō)他們?cè)贕oogle上找不到自己的網(wǎng)頁(yè)了。其實(shí)這都是暫時(shí)的。但有時(shí)候這種狀況可以持續(xù)一天, 所以便引起了人們的恐慌。當(dāng)這些網(wǎng)頁(yè)在Google上再度出現(xiàn)時(shí),它們的排名已經(jīng)較原來(lái)更靠前了。這樣才平息了人們的恐慌??吹竭@個(gè)搜索引擎具有如此的重要性,不能不說(shuō)是一件非常有趣的事情。
Google Dance的技術(shù)背景:
Google的搜索結(jié)果來(lái)源于上萬(wàn)個(gè)網(wǎng)絡(luò)服務(wù)器。這就意味著當(dāng)你在Google中鍵入一個(gè)問(wèn)題或查詢時(shí),由這上萬(wàn)個(gè)服務(wù)器中的一個(gè)來(lái)處理你的查詢請(qǐng)求。而且它必須在遠(yuǎn)小于一秒的時(shí)間內(nèi)響應(yīng)你的查詢(給你想要的查詢結(jié)果)。試想一下吧,這就好象我們把國(guó)家圖書館里所有的書籍都平放到一個(gè)飛機(jī)場(chǎng)的地上,然后尋找“孫子兵法”,目標(biāo)是希望在一眨眼的時(shí)間內(nèi)就能找到正確的結(jié)果?!獛缀醪豢上胂?,是不是?可是別忘了,我們每天都是這樣在搜索引擎上搜索我們想要的東西的。
Google使用的是Linux服務(wù)器。在Google對(duì)其索引的更新過(guò)程中,它的8個(gè)數(shù)據(jù)中心的上萬(wàn)個(gè)服務(wù)器都會(huì)被更新。當(dāng)然,從一個(gè)索引到下一個(gè)索引總會(huì)有一些變化。這只不過(guò)是由于總是有新的頁(yè)面被添加進(jìn)來(lái),同時(shí)一些網(wǎng)站內(nèi)容的變化也會(huì)使它們?cè)谒阉鹘Y(jié)果上的排名發(fā)生變化。不過(guò)在Google Dance過(guò)程中,這些變化是極具戲劇性的。新的索引會(huì)分割后傳送給這些服務(wù)器,依次對(duì)這些服務(wù)器進(jìn)行更新,直到最終這些服務(wù)器全部更新為一個(gè)全新的索引數(shù)據(jù)庫(kù)。
Google Dance和DNS(域名服務(wù)器):Google的索引結(jié)果由8個(gè)不同的數(shù)據(jù)中心所提供。在這8個(gè)數(shù)據(jù)中心中包括了上萬(wàn)個(gè)網(wǎng)絡(luò)服務(wù)器,這些數(shù)據(jù)中心主要被安放在美國(guó)。Google 使用多種數(shù)據(jù)中心以更快地對(duì)終端用戶的搜索請(qǐng)求給予響應(yīng)。如果你試圖進(jìn)入一個(gè)物理上向你關(guān)閉的數(shù)據(jù)中心,那么從理論上來(lái)說(shuō)你的鏈接需要更少的跳點(diǎn),或你需要經(jīng)歷更少的內(nèi)部節(jié)點(diǎn)來(lái)進(jìn)入數(shù)據(jù)中心和返回你自己的地址。每個(gè)數(shù)據(jù)中心都有它自己的IP地址(Internet上的數(shù)字地址),并由DNS(域名服務(wù)器)對(duì)這些IP地址的訪問(wèn)路徑進(jìn)行管理。DNS系統(tǒng)可立即將你的請(qǐng)求路由給距離你最近或負(fù)荷較輕的那個(gè)數(shù)據(jù)中心。然后再經(jīng)由那個(gè)數(shù)據(jù)中心將你的訪問(wèn)輕松路由給一個(gè)閑置服務(wù)器。通過(guò)這種方式,Google通過(guò)使用DNS列表,采用分兩步走的方式,達(dá)到了傳輸負(fù)載的均衡。并使訪問(wèn)量的管理內(nèi)在化,從而縮短了數(shù)據(jù)傳輸?shù)木嚯x,并提高了對(duì)搜索請(qǐng)求的響應(yīng)速度。
在Google Dance過(guò)程中,并不是8個(gè)數(shù)據(jù)中心的所有服務(wù)器都能夠同時(shí)接受新的索引。事實(shí)上新的索引只能被分割傳送給每個(gè)數(shù)據(jù)中心,分割后的每個(gè)部分又被依次傳送給每個(gè)數(shù)據(jù)中心。不同的分割段在不同的時(shí)間內(nèi)被上傳給每個(gè)服務(wù)器群,這樣也會(huì)影響到搜索結(jié)果。
在Google Dance過(guò)程中,倘若用戶在Google上進(jìn)行查詢,他們可能在這一分鐘得到的查詢結(jié)果來(lái)自一個(gè)其全部或部分?jǐn)?shù)據(jù)尚未得到更新的數(shù)據(jù)中心,而在幾分鐘后又會(huì)從另外一個(gè)數(shù)據(jù)中心得到更新后的數(shù)據(jù)。但從用戶的角度來(lái)看,這個(gè)變化發(fā)生在不到一分鐘內(nèi)。
搜索引擎大約每個(gè)月都進(jìn)行一次全新的索引,但因此也導(dǎo)致其產(chǎn)生了很多的問(wèn)題。畢竟搜索引擎要對(duì)成千上億的文檔進(jìn)行遍歷和索引,然后把其編譯的結(jié)果數(shù)據(jù)處理成一個(gè)連貫的單元,這可不是一個(gè)小工程。即使過(guò)了Google Dance,在搜索結(jié)果上可能還會(huì)有一些較小的波動(dòng)。這是由于在不同數(shù)據(jù)中心上的索引不相同所至。新網(wǎng)站的加入,廢站點(diǎn)的刪除,等等。據(jù)估計(jì)每天至少會(huì)有八百萬(wàn)個(gè)新網(wǎng)頁(yè)生成,其中有一些被加入搜索引擎,從而影響了搜索結(jié)果。
現(xiàn)在,如果你想看看Google對(duì)其Google Dance所下的定義,可訪問(wèn)其相關(guān)頁(yè)面www.google.com/googledance2002。非常有意思,值得一看哦!
上一條:關(guān)于搜索引擎優(yōu)化要注意的事項(xiàng)
下一條:ASP字符串函數(shù)大全