百度搜索引擎頁面質量白皮書完整版
發表時間:2023-06-01 來源:明輝站整理相關軟件相關文章人氣:
[摘要]百度搜索引擎網頁質量白皮書完整版內容如下:1 引言網頁質量是一個網頁滿足用戶需求能力的衡量,是搜索引擎確定結果排序的重要依據。 在網頁資源內容與用戶需求有相關性的基礎上,內容是否完整、頁面是否美觀...
百度搜索引擎網頁質量白皮書完整版內容如下:
1 引言
網頁質量是一個網頁滿足用戶需求能力的衡量,是搜索引擎確定結果排序的重要依據。 在網頁資源內容與用戶需求有相關性的基礎上,內容是否完整、頁面是否美觀、對用戶是否 友好、來源是否權威專業等因素,共同決定著網頁質量的高低。
對于搜索引擎來說,給用戶呈現的網頁質量直接影響了最終的搜索效果和用戶的需求滿 足;而對于廣大的站長來說,整體網頁質量的提高有助于在搜索引擎中獲得良好的排序和展 現,從而吸引更多用戶,獲得更多流量。
百度搜索綜合用戶對不同網頁的實際感受,制定了一套評判網頁質量的標準,基于這個 標準,在百度搜索的收錄、排序、展現環境進行調整,給高質量的網頁更多的收錄、展現機 會,同時對一些影響用戶體驗、欺騙搜索引擎的惡劣低質網頁進行打壓。
目前互聯網上的網頁,僅有 7%可以達到高質量標準,百度作為最大的中文搜索引擎, 希望從互聯網生態角度出發,跟站長們一起努力建立良好的互聯網生態圈,更好地為網民服 務,也讓內容優質的網站得到更好的發展。
此外,搜索引擎之前相對封閉,一直以來,站長需要通過不斷的摸索發現搜索引擎對網
頁的判斷標準,指導站點內容的建設。此次推出《網頁質量白皮書》,目的是開放百度在網 頁質量方面的判斷標準,給站長提供參考,希望有更多、更優質的內容產生,滿足搜索引擎 用戶的需求,同時為站長帶來流量,實現共贏。
2 衡量網頁質量的維度
百度搜索引擎在衡量網頁質量時,會從以下三個維度綜合考慮給出一個質量打分。下面 會一一介紹這些影響網頁質量判斷的維度特征:
內容質量
瀏覽體驗
可訪問性
一個訪問流暢,內容質量高且瀏覽體驗好的網頁具有較高的質量;反之,任何一個維度 出現問題,都會影響網頁的整體質量。下面我們具體介紹下這三個維度。
2.1 衡量網頁質量的維度——內容質量
網頁主體內容是網頁的價值所在,是滿足用戶需求的前提基礎。百度搜索引擎評價網頁 內容質量主要看其主體內容的好壞,以及主體內容是否可以讓用戶滿意。
不同類型網頁的主體內容不同,百度搜索引擎判斷不同網頁的內容價值時,需要關注的 點也有區別,如:
首頁:導航鏈接和推薦內容是否清晰、有效。
1、 文章頁:能否提供清晰完整的內容,圖文并茂更佳。
2、 商品頁:是否提供了完整真實的商品信息和有效的購買入口。
3、 問答頁:是否提供了有參考價值的答案。
4、 下載頁:是否提供下載入口,是否有權限限制,資源是否有效。
5、 文檔頁:是否可供用戶閱讀,是否有權限限制。
6、 搜索結果頁:搜索出來的結果是否與標題相關。
百度搜索引擎考量網頁內容質量的維度非常多,最為重要的是:成本;內容完整;信息 真實有效以及安全。下面我們通過舉例來感受一下百度搜索引擎是如何對網頁的內容質量進 行分類的,請站長對比自己站點的頁面,站在搜索引擎和用戶的角度為自己打分:
1、內容質量好:
百度搜索引擎認為內容質量好的網頁,花費了較多時間和精力編輯,傾注了編者的經驗和專業知識;內容清晰、完整且豐富;資源有效且優質;信息真實有效;安全無毒;不含任何作弊行為和意圖,對用戶有較強的正收益。對這部分網頁,百度搜索引擎會提高其展現在用戶面前的機率。例如:
專業醫療機構發布的內容豐富的醫療專題頁面;
資深工程師發布的完整解決某個技術問題的專業文章;
專業視頻網站上,播放清晰流暢的正版電影或影視全集頁面;
知名 B2C 網站上,一個完整有效的商品購買頁;
權威新聞站原創或經過編輯整理的熱點新聞報道;
經過網友認真編輯,內容豐富的詞條;
問答網站內,回答的內容可以完美解決提問者的問題。
2、內容質量中:
內容質量中等的網頁往往能滿足用戶需求,但未花費較多時間和精力進行制作編輯,不 能體現出編者的經驗和專業知識;內容完整但并不豐富;資源有效但質量欠佳;信息雖真實 有效但屬采集得來;安全無毒;不含作弊行為和意圖。在互聯網中,中等質量網頁其實是一 個比較大的數量集合,種類面貌也繁雜多樣,百度搜索引擎在評價這類網頁時往往還要考慮 其它非常多因素。在這里,我們僅部分舉例來讓各位感受一下:
論壇類網站里一個普通的帖子;
一個普通的問答網頁;
沒有進行任何編輯,直接轉載其它網站的新聞;
無版權信息的普通電影播放頁
采集知名小說網站的盜版小說頁。
3、內容質量差:
百度搜索引擎認為主體內容信息量較少,或無有效信息、信息失效過期的都屬于內容質 量差網頁,對用戶沒有什么實質性的幫助,應該減少其展現的機會。同時,如果一個網站內 該類網頁的占比過大,也會影響百度搜索引擎對站點的評級,尤其是 UGC 網站、電商網站、 黃頁網站要尤其重視對過期、失效網頁的管理。例如:
已下架的商品頁,或已過期的團購頁;
已過有效期的招聘、交易頁面;
資源已失效,如視頻已刪除、軟件下載后無法使用等。
4、沒有內容質量可言:
沒有內容質量可言的網頁指那些制作成本很低,粗制濫造;從別處采集來的內容未經最 起碼的編輯整理即放置線上;掛木馬等病毒;含有作弊行為或意圖;完全不能滿足用戶需求, 甚至含有欺騙內容的網頁。例如:
內容空短,有很少量的內容,卻不能支撐頁面的主要意圖;
問答頁有問無答,或回答完全不能解決問題;
站內搜索結果頁,但沒有給出相關信息
除上述網頁外,欺騙用戶和搜索引擎的網頁在無內容質量可言集合里占很高比例。百度搜索引擎對作弊網頁的定義是:不以滿足用戶需求為目的,通過不正當手段欺騙用戶和搜索引擎從而獲利的網頁。目前互聯網上這部分網頁還屬少數,但作弊網頁的價值是負向的,對 用戶的傷害非常大,對這類網頁,搜索引擎持堅決打擊態度。
2.2 衡量網頁質量的維度——瀏覽體驗
不同質量的網頁帶給用戶的瀏覽體驗會有很大差距,一個優質的網頁給用戶的瀏覽體驗應該是正向的。用戶希望看到干凈、易閱讀的網頁,排版混亂、廣告過多會影響用戶對網頁主體內容的獲取。在百度搜索引擎網頁質量體系中,用戶對網頁主體內容的獲取成本與瀏覽體驗呈反比,即獲取成本越高,瀏覽體驗越低。面對內容質量相近的網頁,瀏覽體驗佳者更容易獲得更高的排位,而對于瀏覽體驗差的網頁,百度搜索引擎會視情況降低其展現的機率甚至拒絕收錄。
影響用戶瀏覽體驗好壞的因素很多,目前百度搜索引擎主要從內容排版、廣告影響兩方面對網頁進行考量。
內容排版
用戶進入網頁第一眼看到的就是內容排版,排版決定了用戶對網頁的第一印象,也 決定了用戶對內容獲取的成本。
廣告影響
百度搜索引擎理解網站的生存發展需要資金支持,對網頁上放置正當廣告持支持態 度。網頁應該以滿足用戶需求為主旨,最佳狀態即“主體內容與廣告一起滿足用戶 需求,內容為主,廣告為輔”,而不應讓廣告成為網頁主體。
下面我們通過舉例來感受一下百度搜索引擎是如何對網頁的瀏覽體驗進行分類的,站長 可以據此對比檢驗自己站點的瀏覽體驗如何:
1、瀏覽體驗好:
頁面布局合理,用戶獲取主體內容成本低,一般具有以下特征:
排版合理,版式美觀,易于閱讀和瀏覽;
用戶需要的內容占據網頁最重要位置;
能夠通過頁面標簽或頁面布局十分清楚地區分出哪些是廣告;
廣告不搶占主體內容位置,不阻礙用戶對主要內容的獲取;
2、瀏覽體驗差:
頁面布局和廣告放置影響了用戶對主體內容的獲取,提高了用戶獲取信息的成本,令用 戶反感。包括但不僅限于以下情況:
正文內容不換行或不分段,用戶閱讀困難;
字體和背景顏色相近,內容辨別困難;
頁面布局不合理,網頁首屏看不到任何有價值的主體內容;
廣告遮擋主體內容;或者在通用分辨率下,首屏都是廣告,看不到主體內容;
彈窗廣告過多;
影響閱讀的浮動廣告過多
點擊鏈接時,出現預期之外的彈窗;
廣告與內容混淆,不易區分;
2.3 衡量網頁質量的維度——可訪問性
用戶希望快速地從搜索引擎獲取到需要的信息,百度搜索引擎盡可能為用戶提供能一次 性直接獲取所有信息的網頁結果。百度搜索引擎認為不能直接獲取到主體內容的網頁對用戶 是不友好的,會視情況調整其展現機率。
百度搜索引擎會從正常打開、權限限制、有效性三方面判斷網頁的可訪問性,對于可以 正常訪問的網頁,可以參與正常排序;對于有權限限制的網頁,再通過其它維度對其進行觀 察;對于失效網頁,會降權其展現機制甚至從數據庫中刪除。
1、可正常訪問的網頁
無權限限制,能直接訪問所有主體內容的網頁。
2、有權限限制的網頁
此類網頁分為兩種:打開權限和資源獲取權限
1)打開權限
指打開網頁都需要登錄權限,沒有權限完全無法看到具體內容,普通用戶無法獲取或獲取成本很高,百度搜索引擎會降低其展現機率。不包括以登錄為主要功能的網頁。
2)資源獲取權限
指獲取網頁主要內容,如文檔、軟件、視頻等,需要權限或者需要安裝插件才能獲得完 整內容。此時會分三種情況:
提供優質、正版內容的網站,由于內容建設成本很高,盡管查看全文或下載時需要權限或安裝插件,但屬于用戶預期之內,百度搜索引擎也不認為權限行為對用戶造成傷害,給予與正常可訪問頁面相同的對待。
對于一些非優質、非正版的資源,來自于用戶轉載甚至機器采集,本身成本較低,內容也不獨特,用戶獲取資源還有權限限制——需要用戶注冊登錄或者付費查看,百度搜索引擎會根據具體情況決定是否調整其展現。
還有一些視頻、下載資源頁,也許自身資源質量并不差,但需要安裝非常冷門的插件才能正常訪問,比如要求安裝“xx 大片播放器”,百度搜索引擎會懷疑其有惡意傾向。
3、失效網頁
往往指死鏈和主體資源失效的網頁。百度搜索引擎認為這部分網頁無法提供有價值信息, 如果站點中此類網頁過多,也會影響百度搜索引擎對其的收錄和評級。建議站長對此類網頁 進行相應設置,并及時登錄百度站長平臺,使用死鏈提交工具告知百度搜索引擎。
失效網頁包括但不僅限于:
404、403、503 等網頁;
程序代碼報錯網頁;
打開后提示內容被刪除,或因內容已不存在跳轉到首頁的網頁;
被刪除內容的論壇帖子,被刪除的視頻頁面(多出現在 UGC 站點)
3 互聯網網頁資源現狀
CNNIC2014 年年初發布的《中國互聯網絡發展狀況統計報告》中稱:截至 2013 年 12 月,中國網頁數據為 1500 億,相比 2012 年同期增長了 22.2%。2013 年中國單個網站的 平均網頁數和單個網頁的平均字節數均維持增長,顯示出中國互聯網上的內容更為豐富:平 均網站的網頁數達到 4.69 萬個,較去年同期增長 2.3%。
為了保證搜索質量、提高用戶使用滿意度,百度搜索引擎每周都會進行網頁質量抽樣評 估。然而從近一年的評估數據中我們發現,優質網頁的絕對數量非常少,且幾乎沒有增長; 普通網頁的占比在下降,相應的,質差網頁的比例卻有明顯上漲。截至 2014 年 5 月,統計 數據顯示,在百度網頁搜索發現的海量網頁中,優質網頁僅占 7.4%,質差網頁高達 21%, 其余普通網頁為 71.6%。
百度網頁搜索通過一系列篩選、識別、分析、賦權等工作,努力將更多優質網頁呈現在 用戶面前,每天約打擊上萬質量差網站,涉及網頁達百萬量級,盡可能減少質量差網頁給用 戶帶來的干擾。從下圖 2014 年 5 月的網頁展現分析數據顯示,目前展現在用戶面前的網頁 質量分布中,優質網頁占比為 40%,質量差網頁降為 11%——雖然這個變化已經非常明顯, 但百度網頁搜索還是希望能和廣大站長一起努力,將質量差占比降到更低。
上述質量差網頁包括低質網頁和垃圾網頁兩部分,低質網頁問題分布如下圖所示:
從上圖我們看出,目前低質網頁中最嚴重的問題即因廣告過多、占據網頁主要位置以及 超預期彈窗帶來的瀏覽體驗差,內容空短、網頁需要權限才能獲取資源和過期信息也是低質 網頁的重要組成部分。
質量差網頁中除了低質網頁外,無任何質量可言的垃圾頁面的問題分布如下圖所示:
死鏈對用戶、網站和搜索引擎來說都已沒有存在的意義,垃圾網頁中占比最大。其次是 對用戶和搜索引擎傷害巨大的作弊網頁,資源無效、有問無答和不相關搜索結果頁這些極大 浪費用戶時間的網頁也是搜索引擎不希望呈現給用戶的。
4 百度搜索引擎給站長的建議
上面介紹了百度搜索引擎對網頁質量的判定標準,與這些標準相應的,站長在實際工作 中應該遵循幾項原則:
設計網頁時主要考慮的是用戶,而非搜索引擎
永遠將用戶體驗放在首位
根據用戶需求制作內容
多考慮如何讓自己的網站具有獨特價值
將目光放長遠,濫放廣告弊大于利
及時刪除低質內容
不要企圖用任何方式欺騙用戶和搜索引擎
搜索引擎優化在國外發展迅速,國內也有眾多的優化愛好者。通過了解各類搜索引擎抓取互聯網頁面、進行索引以及確定其對特定關鍵詞搜索結果排名等技術,來對網頁進行相關的優化,使其提高搜索引擎排名。