2014年6月9日星期一

百度原創星火計劃 搜索引擎如何識別重復內容

百度原創星火計劃 搜索引擎如何識別重復內容

百度原創星火計劃 搜索引擎如何識別重復內容


edm

  百度搜索引擎為瞭整頓互聯網的信息內容,大尺度推出百度原創星火計劃,為瞭此計劃能高力度執行web design,建立瞭相應的專題頁,更是邀請高質量的站點加入星火計劃。我們現在面對的正是一個充斥著重復內容、大量垃圾內容的時代,星火計劃中搜索引擎又是如何識別重復內容的?

  搜索引擎為給用戶提供高質量的內容,在用戶搜索相關內容時,會通過一些過濾機制過濾掉重復的內容,而不是展示出大量重復相同的結果,如果網站存在大量重復內容,在搜索引擎過濾過程中可能會給網站帶來影響。

  搜索引擎來站點抓取內容之前,已經有爬行頁面預計,如果網站存在大量的重復頁面,蜘蛛會對這些頁面進行一一檢索,雖然在返回的結果被過濾,但是卻浪費瞭蜘蛛對站點頁面抓取的預算,減少瞭蜘蛛抓取其他高質量頁面的機會,重復頁面一樣的也會分散網站的整體權重,這樣並導致蜘蛛中能獲取到的有意義的頁面減少。

  站長無法判斷搜索蜘蛛會抓取重復頁面中那個版本,搜索引擎自己也無法清除說明,用戶不同的搜索,蜘蛛返回的頁面可能是不同的,存在的重復頁面可能也有不同的偏向,用戶搜索時返回的頁面是否是你最喜歡返回的頁面,是否能給你帶來最高的流量轉化率?這些都是不得而知的,要想減少重復頁面的權重分散,可以在robots文件中屏蔽收錄,或者添加canonical標簽轉移權重。

  像上面分析到的情況,重復內容會影響蜘蛛的抓取。同時,搜素引擎為瞭互聯網生態公平健康發展及優質原創網站的集體利益,減少原創價值被采集站所得,會對重復、裝載、垃圾信息站點進行懲罰。搜素引擎提出這樣的申明,它又是怎麼去識別重復內容的呢?

  重復內容可以發生在不同的站點,也可伺服器租用以發生在同一個網站上,非優化的SEO優化CMS系統,導致網站存在多個URL地址可訪問同一個頁面,這樣的情況也是重復內容,蜘蛛遇到這樣的情況時會判斷哪個頁面才是重要的頁面,會先從robots文件中檢測,是否有禁止抓取的地址,如果有則停止對重復頁面地址的抓取,如果沒有就會繼續抓取內容,在抓取時於遇到meta標簽,註明noindex這些頁面並不是為蜘蛛準備的,這種情況蜘蛛也同樣不會繼續抓取重復,減少蜘蛛的抓取網上宣傳難度,即使是重復的內容,蜘蛛也隻會抓取有價值的那個版本。

  百度的星火計劃邀請站長參與原創站點,如果您的網站是本網站首創,非抄襲模仿的、內容和形式都具有獨特個性的資源;且具有社會共識價值的資源,符合國傢相關規定;不在第二次裝載及偽原創之內;您並可提交您的站點到百度原創星火計劃站點。這種方法可減少因為站點權重不高,網站內容在被高權重網站轉載後,蜘蛛會認為轉載的站點是原創的內容,你的站反而是轉載采集站點。

  搜索引擎到底如何判斷網站內容是否原創,重復內容頁面中到底哪個頁面才是原創頁面seo網站寄存優化,這是任何一個搜索引擎都未曾公佈的算法。但婁底人才網()從百度官方的數據瞭解到,具有原創標簽的網站,原創星火計劃上線前後的同期流量對比顯示,原創url流量增長明顯。同時,原創星火計劃上線後一段時間內原創url流量增長明顯並逐漸趨於平穩,可見如果網站能加入百度原創計劃,網站在流量提升方面還是有很大幫助的。



没有评论:

发表评论