高中生被C到爽哭视频,gogo人体国模大胆私拍,让您享受流畅的视觉体验!

搜索引擎關(guān)鍵詞排名的鏈接原理

2013.09.14
0
分享

類型 : 網(wǎng)站知識(shí)

在Google誕生之前，傳統(tǒng)搜索引擎主要依靠頁(yè)面內(nèi)容中的關(guān)鍵詞匹配搜索詞進(jìn)行排名。這中排名方式的短處現(xiàn)在看來(lái)是顯而易見(jiàn)，那就是很容易被刻意操縱。黑帽SEO在頁(yè)面上堆積關(guān)鍵詞?；蚣尤肱c主題無(wú)關(guān)的熱門關(guān)鍵詞，都能提高排名，使搜索引擎排名結(jié)果質(zhì)量大為下降。現(xiàn)在的搜索引擎都使用鏈接分析技術(shù)減少垃圾，提高用戶體驗(yàn)。本節(jié)就簡(jiǎn)要探討鏈接在搜索引擎排名中的應(yīng)用原理。

在排名中計(jì)入鏈接因素，不僅有助于減少垃圾，提高結(jié)果相關(guān)性，也使傳統(tǒng)關(guān)鍵詞匹配無(wú)法排名的文件能夠被處理。比如圖片、視頻文件無(wú)法進(jìn)行關(guān)鍵詞匹配，但是卻可能有外部鏈接，通過(guò)鏈接信息，搜索引擎就可以了解圖片和食品的內(nèi)容從而排名。

鏈接因素現(xiàn)在已經(jīng)超過(guò)頁(yè)面內(nèi)容的重要性。不過(guò)理解鏈接關(guān)系比較抽象。頁(yè)面上的因素對(duì)排名的影響能看得到：關(guān)鍵詞在標(biāo)題標(biāo)簽中出現(xiàn)有什么影響，出現(xiàn)在最前面又有什么影響，有技術(shù)資源的還可以大規(guī)模地統(tǒng)計(jì)，技術(shù)出關(guān)鍵詞出現(xiàn)在標(biāo)題標(biāo)簽中不同位置與排名之間的關(guān)系。雖然這種關(guān)系不一定是因果關(guān)系，但至少是統(tǒng)計(jì)上的聯(lián)系，使SEO人員大致了解如何優(yōu)化。

李彥宏超鏈分析

百度創(chuàng)始人李彥宏在回國(guó)之前就是美國(guó)頂級(jí)的搜索引擎工程師之一。據(jù)說(shuō)李彥宏在尋找風(fēng)險(xiǎn)投資時(shí)，投資人詢問(wèn)其他三個(gè)搜索引擎業(yè)界的技術(shù)高人一個(gè)問(wèn)題：要了解搜索引擎技術(shù)應(yīng)該問(wèn)誰(shuí)。這三個(gè)被問(wèn)到的高人中有兩個(gè)人回答：搜索引擎的事就問(wèn)李彥宏。由此投資人斷定李彥宏是最了解搜索引擎的人之一。

這事實(shí)就是在現(xiàn)實(shí)生活中類似于鏈接關(guān)系的應(yīng)用。要判斷哪個(gè)頁(yè)面最具權(quán)威性，不能光看頁(yè)面自己怎么說(shuō)，還要看其他頁(yè)面怎么評(píng)價(jià)。

李彥宏1997年就提交了一份名為“鏈接文件檢索系統(tǒng)和方法”的專利，這比Google傳說(shuō)人發(fā)明PR要早得多，不得不說(shuō)這是非常具有前瞻性的研究工作。在這份專利中，李彥宏提出了與傳統(tǒng)信息檢索系統(tǒng)不同的基于鏈接的排名方法。

這個(gè)系統(tǒng)除了索引頁(yè)面之外，還建立一個(gè)鏈接詞庫(kù)，記錄鏈接錨文字的一些相關(guān)信息，如錨文字中包含哪些關(guān)鍵詞，發(fā)出鏈接的頁(yè)面索引，包含特定錨文字的鏈接總數(shù)，包含特定關(guān)鍵詞的鏈接都指向哪些頁(yè)面。詞庫(kù)不僅包含關(guān)鍵詞原型，也包含同一個(gè)詞干的其他衍生關(guān)鍵詞。

根據(jù)這些鏈接數(shù)據(jù)，尤其是錨文字，計(jì)算出基于鏈接的文件相關(guān)性。在用戶搜索時(shí)，將得到的基于鏈接的相關(guān)性與基于關(guān)鍵詞匹配的傳統(tǒng)相關(guān)性綜合使用，得到更準(zhǔn)確的排名。

在今天看到，這種基于鏈接的相關(guān)性計(jì)算是搜索引擎的常態(tài)，每個(gè)SEO人員都知道。但是在十幾年前，這無(wú)疑是非常創(chuàng)新的概念，當(dāng)然現(xiàn)在的搜索引擎算法對(duì)鏈接的考慮，已經(jīng)不僅僅是錨文字，實(shí)際上要復(fù)雜的多。

HITS算法

HITS是英文Hyperlink-Induced Topic Search 的縮寫,意譯為“超鏈誘導(dǎo)主題搜索” 。

按照HITS算法，用戶輸入關(guān)鍵詞后，計(jì)算對(duì)返回的匹配頁(yè)面技術(shù)兩種值，一種是樞紐值，另一種是權(quán)威值，這兩個(gè)值是相互依存、相互影響的。所謂樞紐值，指的是頁(yè)面上所有導(dǎo)出鏈接指向頁(yè)面的權(quán)威值之和。權(quán)威值指的是所有導(dǎo)入鏈接所在頁(yè)面的樞紐值之和。

上面的定義比較拗口，我們可以簡(jiǎn)單的說(shuō)，HITS算法會(huì)提煉出兩種比較重要的頁(yè)面。也就是樞紐頁(yè)面和權(quán)威頁(yè)面。樞紐頁(yè)面本身可能沒(méi)有多少導(dǎo)入鏈接，但是有很多導(dǎo)出鏈接指向權(quán)威頁(yè)面。權(quán)威頁(yè)面本身可能導(dǎo)出鏈接不多，但是有很多來(lái)自樞紐頁(yè)面的導(dǎo)入鏈接。

典型的樞紐頁(yè)面就是如雅虎目錄，開(kāi)放目錄或好123這樣的網(wǎng)站目錄。這種高質(zhì)量的網(wǎng)站目錄作用就在于指向其他權(quán)威網(wǎng)站，所有稱為樞紐，而權(quán)威頁(yè)面有很多導(dǎo)入鏈接。其中包含很多來(lái)自樞紐頁(yè)面的鏈接。權(quán)威頁(yè)面通常是提供真正相關(guān)內(nèi)容的頁(yè)面。

HITS算法是針對(duì)特定查詢?cè)~的，所以稱為主題搜索。

HITS算法的最大缺點(diǎn)是，它在查詢階段進(jìn)行計(jì)算，而不是在抓取或預(yù)處理階段。所以HITS算法是以犧牲查詢排名相應(yīng)為代價(jià)的。也正因?yàn)槿绱?。原始HITS算法在搜索引擎中并不常用。不過(guò)HITS算法的思想很可能融入到搜索引擎的索引階段，也就是根據(jù)鏈接關(guān)系找出具有樞紐特征或權(quán)威特征的頁(yè)面。

稱為權(quán)威頁(yè)面的第一優(yōu)先，不過(guò)難度比較大，唯一的辦法就是獲得高質(zhì)量的鏈接，當(dāng)你的網(wǎng)站不能成為權(quán)威頁(yè)面時(shí)，就讓它成為樞紐頁(yè)面。所以導(dǎo)出鏈接也是當(dāng)前搜索引擎排名的因素之一。絕不鏈接到其他網(wǎng)站的做法，并不是好的SEO辦法。

TrustRank算法

TrustRank是近年來(lái)比較受關(guān)注的基于鏈接關(guān)系的排名算法。TrustRank可以翻譯為“信任指數(shù)”。

TrustRank算法最初來(lái)自于2004年斯坦福大學(xué)和雅虎的一項(xiàng)聯(lián)合研究，用來(lái)檢測(cè)垃圾網(wǎng)站，并且于2006年申請(qǐng)專利。TrustRank算法發(fā)明人還發(fā)表了一份專門的PDF文件，說(shuō)明TrustRank算法的應(yīng)用。

TrustRank算法并不是有Google提出的，不過(guò)哦由于Google所占市場(chǎng)份額最大，而且TrustRank在Google排名中也是一個(gè)非常重要的因素，所以有些人誤認(rèn)為TrustRank是Google提出的。更讓人糊涂的是，Google曾經(jīng)把TrustRank申請(qǐng)為商標(biāo)，但是TrustRank商標(biāo)中的TrustRank指的是Google檢測(cè)含有惡意代碼網(wǎng)站的方法，而不是指排名算法中的信任指數(shù)。

TrustRank算法基于一個(gè)基本假設(shè)：好的網(wǎng)站很少會(huì)鏈接到壞的網(wǎng)站，反之則不成立，也就是說(shuō)，壞的網(wǎng)站很少鏈接到好的網(wǎng)站這句話不成立。正相反，很多垃圾網(wǎng)站會(huì)鏈接到高權(quán)威、高信任指數(shù)的網(wǎng)站，試圖提高自己的信任指數(shù)。

基于這個(gè)假設(shè)，如果能挑選出可以百分之百信任的網(wǎng)站，這些網(wǎng)站的Trustrank評(píng)為最高，這些TrustRank最高的網(wǎng)站所鏈接的網(wǎng)站信任網(wǎng)站稍微降低，但也會(huì)提高。與此類似，第二層被信任的網(wǎng)站鏈接出去的第三層網(wǎng)站，信任度繼續(xù)下降。由于種種原因，好的網(wǎng)站也不可避免的會(huì)鏈接到一些垃圾網(wǎng)站，不過(guò)離第一層網(wǎng)站點(diǎn)擊距離越近，所傳遞的信任指數(shù)越高，離第一級(jí)網(wǎng)站點(diǎn)擊距離越遠(yuǎn)，信任指數(shù)將以此下降，這樣，通過(guò)TrustRank算法，就能給所有網(wǎng)站計(jì)算出相應(yīng)的信任指數(shù)，離第一層網(wǎng)站越遠(yuǎn)，成為垃圾網(wǎng)站的可能性越大。

計(jì)算TrustRank值首先要選擇一批種子網(wǎng)站，然后人工查看網(wǎng)站，設(shè)定一個(gè)初始TrustRank值，挑選種子網(wǎng)站的兩種方式，一種是選擇導(dǎo)出鏈接最多的網(wǎng)站，因?yàn)門rustRank算法就是計(jì)算指數(shù)隨著導(dǎo)出鏈接的衰減。導(dǎo)出鏈接多的網(wǎng)站，在某種意義上可以理解為“逆向PR值”比較高。

另一種挑選種子網(wǎng)站的方法是選PR值高的網(wǎng)站，因?yàn)镻R值越高，在搜索結(jié)果頁(yè)面出現(xiàn)的概率越大。這些網(wǎng)站才正是TrustRank算法最關(guān)注的、需要調(diào)整排名的網(wǎng)站，那些PR值很低的頁(yè)面，在沒(méi)有TrustRank算法時(shí)排名也很靠后，計(jì)算TrustRank意義就不大了。

根據(jù)測(cè)算，挑選出兩百個(gè)左右網(wǎng)站作為種子，就可以比較準(zhǔn)確地計(jì)算出所有網(wǎng)站的TrustRank值。

計(jì)算TrustRank隨鏈接關(guān)系減少的公式有兩種形式。一種是隨著鏈接次數(shù)衰減，也就是說(shuō)如果第一層頁(yè)面TrustRank指數(shù)為100，第二層頁(yè)面衰減為90，第三層衰減為80.第二種計(jì)算辦法是按導(dǎo)出鏈接數(shù)目分配TrustRank值，也就是說(shuō)，如果一個(gè)頁(yè)面的TrustRank值為100，頁(yè)面上有5個(gè)導(dǎo)出鏈接，那個(gè)鏈接將傳遞20%的TrustRank值，衰減和分配這兩種計(jì)算方法通常綜合使用，整體效果都是隨著鏈接層次的增加，TrustRank值逐步降低。

得出網(wǎng)站和頁(yè)面的TrustRank值后，可以通過(guò)兩種方式影響排名。一種是把傳統(tǒng)排名算法挑選出的多個(gè)頁(yè)面，根據(jù)TrustRank值比較，重新做排名調(diào)整。另一種是設(shè)定一個(gè)最低的TrustRank值門檻，只有超過(guò)這個(gè)門檻的頁(yè)面，才被認(rèn)為有足夠的質(zhì)量進(jìn)入排名，低于這個(gè)門檻的頁(yè)面將被認(rèn)為是垃圾頁(yè)面，從搜索結(jié)果中過(guò)濾出去。

雖然TrustRank算法最初是作為檢測(cè)垃圾的辦法，但在現(xiàn)在的搜索引擎排名算法中，TrustRank概念使用更為廣泛，常常影響大部分網(wǎng)站的整體排名，TrustRank算法最初針對(duì)的是頁(yè)面級(jí)別，現(xiàn)在在搜索引擎算法中，TrustRank值也通常表現(xiàn)在域名級(jí)別，整個(gè)域名的信任指數(shù)越高，整體排名能力就越強(qiáng)。

Google PR

PR是PageRank的縮寫。Google PR理論是所有基于鏈接的搜索引擎理論中最有名的。PR是Google創(chuàng)始人之一拉里佩奇發(fā)明的，用于表示頁(yè)面重要性的概念。用最簡(jiǎn)單的話說(shuō)就是，反向鏈接越多的頁(yè)面就是越重要的頁(yè)面，因此PR值也就越高。Google PR有點(diǎn)類似于科技文獻(xiàn)中互相應(yīng)用的概念，被其他文獻(xiàn)引用較多的文獻(xiàn)，很可能是比較重要的文獻(xiàn)。

PR的概念和計(jì)算

我們可以把互聯(lián)網(wǎng)歷程成由結(jié)點(diǎn)和鏈接組成的有向圖，頁(yè)面就是一個(gè)個(gè)結(jié)點(diǎn)，頁(yè)面之間的有向鏈接傳遞著頁(yè)面的重要性。一個(gè)鏈接傳遞的PR值決定于導(dǎo)入鏈接所在頁(yè)面的PR值，發(fā)出鏈接的頁(yè)面本身PR值越高，所能傳遞出去的PR值也越高。傳遞的PR數(shù)值也取決于頁(yè)面上的導(dǎo)出鏈接數(shù)目。對(duì)于給定PR值的頁(yè)面來(lái)說(shuō)，假設(shè)能傳遞到下級(jí)頁(yè)面100份的PR，頁(yè)面上有10個(gè)導(dǎo)出鏈接，每個(gè)鏈接能傳遞10份PR，頁(yè)面上有20個(gè)導(dǎo)出鏈接的話，每個(gè)鏈接只能傳遞5份PR。所以一個(gè)頁(yè)面的PR值取決于導(dǎo)入鏈接總數(shù)，發(fā)出鏈接頁(yè)面的PR值，以及發(fā)出鏈接頁(yè)面上的導(dǎo)出鏈接數(shù)目。

PR的兩個(gè)比喻模型

關(guān)于PR有兩個(gè)著名的比喻。一個(gè)比喻是投票。鏈接就像民主投票一樣，A頁(yè)面鏈接到B頁(yè)面，就意味著A頁(yè)面對(duì)B頁(yè)面投了一票，使得B頁(yè)面的重要性提高。同時(shí)A頁(yè)面本身的PR值決定了A所能投出去的投票力，PR值越高的頁(yè)面，投出的票也更重要。在這個(gè)意義上，傳統(tǒng)基于關(guān)鍵詞匹配的算法是看頁(yè)面直接說(shuō)頁(yè)面內(nèi)容是什么，基于鏈接的PR則是看別人怎么評(píng)價(jià)這個(gè)頁(yè)面。

第二個(gè)比喻是隨機(jī)沖浪比喻。假設(shè)一個(gè)訪問(wèn)者從一個(gè)頁(yè)面開(kāi)始，不停地隨機(jī)點(diǎn)擊鏈接，訪問(wèn)下一個(gè)頁(yè)面，有時(shí)候這個(gè)用戶感到無(wú)聊了，就再點(diǎn)擊鏈接，就隨機(jī)跳到另一個(gè)網(wǎng)址，再次開(kāi)始不停地向下點(diǎn)擊。所謂PR值，也就是一個(gè)頁(yè)面在這種隨機(jī)沖浪訪問(wèn)中被訪問(wèn)到的概率。一個(gè)頁(yè)面導(dǎo)入鏈接越多，被訪問(wèn)的概率也越高，因此PR值也越高。

上一篇：湖州網(wǎng)站優(yōu)化：網(wǎng)站關(guān)鍵詞選擇策略
上一篇：建網(wǎng)站企業(yè)應(yīng)該怎么準(zhǔn)備資料

新聞中心

搜索引擎關(guān)鍵詞排名的鏈接原理