在蘇州 如(rú)何保證網站長期的SEO健康度4月底的北京移動化培訓後,我們認識了藝龍SEO負責人(rén)劉明,他(tā)認爲很多SEOer是隻看(kàn)整體(tǐ)數據判斷網站是否有問(wèn)題,而站點應該做的是每周出具一份詳細科(kē)學的體(tǐ)檢報告,能最早從(cóng)很多細節指标上發現問(wèn)題——學院感覺這個内容非常有價值,于是請(qǐng)劉明做了分(fēn)享:
本篇文章(zhāng)的意義之一,很多站長對自(zì)己網站健康狀況沒有頭緒: 在百度舉辦的活動上,有不少的站長會向百度工(gōng)作(zuò)人(rén)員(yuán)提出一些根本無法回答的問(wèn)題:收錄掉了,怎麽辦?抓取掉了,怎麽辦?流量掉了,怎麽辦?排名掉了,怎麽辦?收錄不及時,怎麽辦? 這些問(wèn)題太籠統了,即使把百度所有後台數據完全開放(fàng),也無法解答。提問(wèn)的人(rén)肯定是連網站的基本結構都(dōu)沒有清晰的認識。好的問(wèn)題是怎樣的?耐心看(kàn)完就(jiù)有答案了。
本篇文章(zhāng)的意義之二,産品改版對SEO造成毀滅性打擊 SEO最嚴重的問(wèn)題,往往不是SEO問(wèn)題,而是産品問(wèn)題,或技術(shù)問(wèn)題。有些大(dà)型網站每次大(dà)改版都(dōu)是這樣的: 1,會更換一套URL pattern。 2,由于數據的不兼容,舊版本pattern無法301到最新版。 3,即使數據兼容,也忘了做301。 我問(wèn)過一個産品經理(lǐ),這個産品的URL換過多少pattern, 答案是3到4個。但(dàn)是我從(cóng)web.archive.org上看(kàn),最少8個。平均每年(nián)換一個。稍微有一點搜索引擎基本常識的人(rén)應該能意識到,這種網站是典型的no zuo no die。
本篇文章(zhāng)的意義之三,長期的叠代開發流程中,SEO的需求可(kě)能被逐步改錯 在産品,技術(shù)和測試的思維中,往往是沒有URL的清晰定義的,隻要頁面能訪問(wèn),内容是對的就(jiù)合格了.以下幾種URL都(dōu)是被認爲沒問(wèn)題的,更不要提SEO的其他(tā)基本規範了。也就(jiù)是說(shuō),事(shì)實上除了SEO沒有人(rén)關心這些東西,每個開發環節都(dōu)可(kě)能遺漏或者搞錯一些東西: 1,http://www.a.com/product(category)/ 2,http://www.a.com/product.html/ 3,http://www.a.com/product/?channel=123&category=abc&brand=def&tracking=other_website 曾經有一個産品,本來(lái)谷歌收錄量達到了3000萬,百度收錄2000萬,流量也不錯,精力挪到别的産品上去(qù)了。 過了1個月發現流量有所下滑,以爲是季節因素,沒有在意,又過了2個月,流量下降非常多。仔細檢查了一下發現一個驚人(rén)的變化。 1,本來(lái)收錄的地址是http://www.a.com/product/item100.html 2,在沒有被告知的情況下,被技術(shù)同事(shì)加了一個301跳(tiào)轉,到http://www.a.com/search/?product=a&item=100 3,其中/search/目錄在robots.txt中是Disallow的 4,在随後的2周内,收錄量最低降到了300萬左右。 我希望能有個系統自(zì)動的幫我梳理(lǐ)這些問(wèn)題,讓我不再每天擔憂SEO的需求又不知道被誰弄掉了,如(rú)果有問(wèn)題,能讓開發測試的同事(shì)馬上就(jiù)收到警報,讓“擦屁股”的事(shì)情不再占用我太多時間。
内容思維導圖,元信息,頁面單元測試,蜘蛛日(rì)志監控
鑒于前邊幾點,我的解決方案是: • 内容思維導圖 • 元信息 • 頁面單元測試 • 蜘蛛日(rì)志監控 這些方案5年(nián)前就(jiù)構思好了,并且小規模試用,但(dàn)是由于複雜度和開發成本較高,到過很多坑。直到最近兩年(nián)才逐步啓用。絕對不适用于小公司,請(qǐng)廣大(dà)SEO從(cóng)業者慎重決策。
• 内容思維導圖 從(cóng)産品的角度看(kàn)是這樣由各類功能組成的,有合理(lǐ)流程關系的(流程不展開討(tǎo)論),符合用戶體(tǐ)驗的,但(dàn)可(kě)能不符合搜索引擎體(tǐ)驗:
 從(cóng)SEO的角度看(kàn),網站的結構是這樣由各類用戶搜索需求組成的,也是有合理(lǐ)層級關系的:
 不同的網站會有截然不同的思維導圖,因爲他(tā)可(kě)能基本取決于技術(shù)架構。因此建議(yì)SEO從(cóng)業者深入了解網站的技術(shù)架構之後再來(lái)繪制導圖。具體(tǐ)的細節暫不展開。但(dàn)是最起碼自(zì)己要保證這幾點: 1,網站有哪些内容節點 2,哪些命中了用戶的需求 3,哪些是毫無檢索意義的 4,缺少哪些節點 5,應該如(rú)何部署層級關系 思維導圖絕對不是一勞永逸的,每當産品有新的pattern上線,或者舊的pattern下線,需要及時更新。每當你(nǐ)發現新的用戶搜索習慣,也應該更新,并且推送給産品同事(shì)知道。
• 元信息 我這裡(lǐ)說(shuō)的不是, 而是一切SEO相(xiàng)關的,有規律的(最好是可(kě)以用正則表達的),可(kě)量化的信息。包括:标題,關鍵詞,描述,H1,等等。 從(cóng)SEO的角度看(kàn),某網站的URL是這樣的,符合“思維導圖”層次的: 首頁: www.example.com/ 首頁-頻道1: www.example.com/channel/ 首頁-頻道1-維度1: www.example.com/channel/abc/ 首頁-頻道1-維度1-維度2: www.example.com/channel/abc/xyz/ 首頁-頻道1-詳細頁: www.example.com/channel/item12345/ 從(cóng)産品,開發,測試的角度看(kàn)URL可(kě)能是這樣無序的: • www.example.com/channel/?category=abc&brand=xyz&tracking=other_website • www.example.com/channel/?item=12345 如(rú)果下一版改成這樣也沒問(wèn)題的: www.example.com/?channel=123&category=abc&brand=def&tracking=other_website 如(rú)果沒有清晰的規則定義,幾乎是無法知道現在的網站還(hái)是不是你(nǐ)優化過的那個樣子的。 根據SEO内容思維導圖,我們得(de)到如(rú)下的元信息表格(僅列出幾個字段給大(dà)家參考):

• 頁面單元測試 這個“單元測試”是借用了一個研發的術(shù)語,原本是測試某一個函數或類的。我是用來(lái)測試SEO的一個具體(tǐ)的細節定義。工(gōng)具也是借用了“Rspec”來(lái)二次開發的。這個模塊可(kě)以分(fēn)爲兩個環境來(lái)運行,production和testing。 其中production的測試,我們叫“回歸測試”,目的是保證之前已經上線的SEO需求,依然好好的呆在那裡(lǐ),如(rú)果報警需要及時修複。 testing環境中,是爲了給研發人(rén)員(yuán)做類似TDD(測試驅動開發)用的。它包含了production的回歸測試也包含了testing中新的需求,可(kě)以被當做是需求文檔。隻要研發人(rén)員(yuán)把這個測試都(dōu)跑通,就(jiù)說(shuō)明你(nǐ)的需求完成了。當這些需求上線後,把測試合并到production一起做回歸測試,這樣就(jiù)圓滿了。 測試的内容可(kě)以涵蓋:元信息中的所有細節,已知鏈接的錨文本, 站内URL, 站外URL, 面包屑, alt, 響應時間, 頁面尺寸,等等。
• 蜘蛛日(rì)志監控 有了“元信息”的定義。做蜘蛛日(rì)志監控易如(rú)反掌。親身(shēn)經曆的一些現象: 1,全站85%的訪問(wèn),response code都(dōu)是301。 2,蜘蛛抓取量的50%都(dōu)是抓異步請(qǐng)求(ajax,iframe)的URL。 3,某些類别的頁面平均響應時間超過10秒/次。 4,response code 200的訪問(wèn)中60%的請(qǐng)求都(dōu)不是SEO需要的URL。
附圖僅展示一些字段給大(dà)家做參考:
 針對本文開頭的問(wèn)題,比較靠譜的提問(wèn)方式是, “我的某某pattern頁面每天抓取量多少,其中response200的有多少,平均響應時間是多少,主要的内容,SEO元素都(dōu)正常,沒有作(zuò)弊的行爲,但(dàn)是這個pattern最近抓取掉了,收錄掉了”。 其實能問(wèn)這種問(wèn)題的人(rén),也基本不用提這類問(wèn)題了。大(dà)多數的問(wèn)題隻要足夠細化,就(jiù)已經迎刃而解了。 各位同學還(hái)有什麽問(wèn)題問(wèn)劉明的麽?歡迎來(lái)到【學院同學彙】討(tǎo)論專帖進行留言討(tǎo)論。
|