搜索引擎優化的基本原理 – 週五白板

SEO 抓取基礎知識 – 週五白板

週五白板 | SEO基礎知識

作者的觀點完全是他或她自己的(不包括不太可能發生的催眠事件)並且可能並不總是反映觀點Moz.

在本週的 Whiteboard 劇集中星期五,主持人 Jes Scholz 深入探討了搜索引擎抓取的基礎。 她將向您展示為什麼沒有索引問題並不一定意味著根本沒有問題,以及在爬行方面質量如何比數量更重要。

點擊上面的白板圖片在新標籤頁中打開高分辨率版本!

視頻轉錄

Moz 粉絲們,美好的一天,歡迎收看另一版 Whiteboard Friday。 我叫 Jes Scholz,今天我們將討論所有爬行的東西。 重要的是要了解抓取對於每個網站都是必不可少的,因為如果您的內容沒有被抓取,那麼您就沒有機會在 Google 搜索中獲得任何真正的可見性。

所以仔細想想,抓取是最基本的,而這一切都是基於Googlebot有點善變的關注。 很多時候人們會說,如果您遇到爬行問題,這真的很容易理解。 您登錄到 Google Search Console,轉到排除報告,然後查看是否已發現狀態,目前未編入索引。

如果你這樣做,你就有爬行問題,如果你不這樣做,你就沒有。 在某種程度上,這是對的,但並沒有那麼簡單,因為這告訴您的是,如果您的新內容存在爬網問題。 但這不僅僅是讓您的新內容被抓取。 您還希望確保您的內容在更新後被抓取,而這不是您在 Google Search Console 中看到的內容。

但是如果你刷新了一篇文章或者你做了一個重要的技術搜索引擎優化更新,你只會在之後看到這些優化的好處Google 已抓取並處理該頁面。 或者另一方面,如果您進行了重大的技術優化但沒有被抓取並且您實際上已經損害了您的網站,那麼在 Google 抓取您的網站之前您不會看到這種損害。

因此,從本質上講,如果 Googlebot 爬行緩慢,您就無法快速失敗。 所以現在我們需要討論以一種真正有意義的方式衡量抓取,因為再次登錄 Google Search Console 時,您現在會進入抓取統計報告。 您會看到爬網總數。

我對任何說你需要最大化爬行量的人都非常不滿,因為爬行總數絕對不過是一個虛榮指標。 如果我有 10 倍的爬行量,那並不一定意味著我有 10 倍多的我關心的內容索引。

所有它相關的是我的服務器上的更多重量,這會花費你更多的錢。 所以這與爬行的數量無關。 這是關於爬行的質量。 這就是我們需要開始衡量抓取的方式,因為我們需要做的是查看創建或更新內容與 Googlebot 抓取該內容所需的時間之間的時間。

創建或更新與第一次 Googlebot 抓取之間的時間差,我稱之為抓取效率。 所以衡量爬行效率應該是比較簡單的。 您轉到您的數據庫並導出創建時間或更新時間,然後進入您的日誌文件並進行下一次 Googlebot 抓取,然後計算時間差異。

但讓我們面對現實吧。 對我們很多人來說,訪問日誌文件和數據庫並不是最簡單的事情。 所以你可以有一個代理。 你可以做的是,你可以從你的 XML 站點地圖中查看你從 SEO 角度關心的 URL 的最後修改日期時間,這是唯一應該出現在你的 XML 站點地圖中的,你可以去從 URL 檢查 API 查看上次抓取時間。

我真正喜歡 URL 檢查 API 的地方在於,如果對於您主動查詢的 URL,您還可以在它出現時獲取索引狀態變化。 因此,有了這些信息,您實際上也可以開始計算索引功效分數。

所以看看你什麼時候完成重新發布或者什麼時候完成第一次發布,谷歌需要多長時間才能將該頁面編入索引? 因為,真的,沒有相應索引的爬行是沒有真正價值的。 因此,當我們開始查看此內容併計算實時時間時,您可能會在幾分鐘內看到它,可能是幾小時,可能是幾天,可能是從您創建或更新 URL 到 Googlebot 抓取它的時間.

如果這是一個很長的時間段,我們實際上能做些什麼呢? 好吧,搜索引擎及其合作夥伴在過去幾年中一直在談論他們如何幫助我們作為 SEO 更有效地抓取網絡。 畢竟,這符合他們的最大利益。 從搜索引擎的角度來看,當他們更有效地抓取我們時,他們會更快地獲得我們有價值的內容,並且他們能夠將這些內容展示給他們的受眾,即搜索者。

這也是他們可以講一個好故事的地方,因為爬行會給我們和我們的環境帶來很大的壓力。 它會產生大量的溫室氣體。 因此,通過提高爬行效率,他們實際上也在幫助地球。 這是您也應該關心這一點的另一個動機。 所以他們在發布API方面下了很大的功夫。

我們有兩個 API。 我們有 Google Indexing API 和 IndexNow。 Google Indexing API,谷歌多次表示,“實際上只有在網站上發布招聘信息或廣播結構化數據時才能使用它。” 很多很多人已經測試過這個,很多很多人已經證明這是錯誤的。

您可以使用 Google Indexing API 抓取任何類型的內容。 但這正是這種抓取預算和最大化抓取量的想法本身存在問題的地方,因為儘管您可以使用 Google Indexing API 抓取這些 URL,但如果它們在頁面上沒有結構化數據,則不會產生任何影響在索引上。

因此,您在服務器上施加的所有爬行重量以及您投入與 Google Indexing API 集成的所有時間都被浪費了。 那是您本可以放在其他地方的 SEO 努力。 長話短說,Google Indexing API、職位發布、實時視頻非常好。

其他一切,不值得你花時間。 好的。 讓我們繼續 IndexNow。 IndexNow 的最大挑戰是 Google 不使用此 API。 顯然,他們有自己的。 所以這並不意味著忽視它。

Bing 使用它,Yandex 使用它,還有很多 SEO 工具、CRM 和 CDN 也使用它。 所以,一般來說,如果你在其中一個平台上看到,哦,有一個索引 API,很可能它會被提供動力並進入 IndexNow。 所有這些集成的好處在於它可以像打開開關一樣簡單,您就可以集成了。

這可能看起來非常誘人,非常令人興奮,很好,很容易贏得 SEO,但要謹慎,原因有以下三個。 第一個原因是您的目標受眾。 如果你只是打開那個開關,你就會告訴像 Yandex 這樣的搜索引擎,俄羅斯的大型搜索引擎,關於你的所有 URL。

現在,如果您的網站位於俄羅斯,那真是太好了。 如果您的站點位於其他地方,則可能不是一件好事。 您將為所有在您的服務器上爬行但並未真正接觸到您的目標受眾的 Yandex 機器人付費。 我們作為 SEO 的工作不是最大化服務器上的爬行量和權重。

我們的工作是接觸、吸引和轉化我們的目標受眾。 因此,如果您的目標受眾不使用 Bing,他們也不使用 Yandex,請認真考慮這是否適合您的業務。 第二個原因是實施,尤其是在您使用工具的情況下。 您依靠該工具通過索引 API 完成了正確的實現。

因此,例如,完成此集成的 CDN 之一不會在創建、更新或刪除某些內容時發送事件。 他們寧願在每次請求 URL 時發送事件。 這意味著他們正在向 IndexNow API 發送大量被 robots.txt 專門阻止的 URL。

或者也許他們正在向索引 API 發送一大堆與 SEO 無關的 URL,您不希望搜索引擎知道這些 URL關於,他們無法通過抓取您網站上的鏈接找到,但是突然間,因為您剛剛打開它,他們現在知道這些 URL 存在,他們將去索引它們,這可以開始影響諸如您的域權限之類的東西。

這會給您的服務器帶來不必要的負擔。 最後一個原因是它是否真的提高了效率,如果您覺得這很適合您的目標受眾,則必須對自己的網站進行測試。 但是從我自己在我的網站上進行的測試中,我了解到當我打開它並且當我用重要的 KPI、抓取效率、索引效率來衡量影響時,它實際上並沒有幫助我抓取那些不會有的 URL自然地被抓取和索引。

因此,雖然它確實會觸發爬網,但無論 IndexNow 是否觸發它,爬網都會以相同的速度發生。 因此,所有用於集成該 API 或測試它是否確實按照您希望它與這些工具一起工作的方式工作的所有努力都是浪費的機會成本。 搜索引擎實際支持我們抓取的最後一個區域是在 Google Search Console 中手動提交。

這實際上是一個真正有用的工具。 它通常會在大約一個小時內觸發抓取,並且在大多數情況下,抓取確實會產生積極影響,但不是全部,而是大多數。 但是,當然,這是一個挑戰,手動提交的挑戰是您在 24 小時內只能使用 10 個 URL。

現在,不要僅僅因為這個原因而忽視它。 如果您有 10 個非常有價值的 URL,並且您正在努力讓這些 URL 被抓取,那麼進入並進行提交絕對是值得的。 您還可以編寫一個簡單的腳本,您只需單擊一個按鈕,它就會每天為您在該搜索控制台中提交 10 個 URL。

但它確實有其局限性。 所以,實際上,搜索引擎正在盡最大努力,但他們不會為我們解決這個問題。 所以我們真的必須自助。 您可以做的三件事是什麼,它們將真正對您的抓取效率和索引效率產生有意義的影響?

您應該關注的第一個領域是 XML 站點地圖,確保它們得到優化。 當我談論優化的 XML 站點地圖時,我指的是具有最後修改日期時間的站點地圖,它的更新盡可能接近數據庫中的創建或更新時間。 許多開發團隊自然而然地會做的事情,因為這對他們來說很有意義,那就是使用 cron 作業來運行它,並且他們將每天運行一次該 cron。

所以也許你在上午 8:00 重新發布你的文章,他們在晚上 11:00 運行 cron 作業,所以你已經得到了所有這段時間谷歌或其他搜索引擎機器人實際上不知道您已經更新了該內容,因為您沒有用 XML 站點地圖告訴他們。 因此,將 XML 站點地圖中的實際事件和報告事件放在一起非常非常重要。

您可以做的第二件事是您的內部鏈接。 所以在這裡我談論的是你所有與 SEO 相關的內部鏈接。 查看您的全站鏈接。 在您的移動設備上放置麵包屑。 它不僅適用於桌面。 確保您的 SEO 相關過濾器是可抓取的。 確保你有相關的內容鏈接來建立這些孤島。

這是什麼東西 在你必須進入你的手機,關閉你的 JavaScript,然後確保你實際上可以在沒有 JavaScript 的情況下導航這些鏈接,因為如果你不能,Googlebot 就無法進行第一波索引,如果 Googlebot不能在第一波索引中,這會對您的索引功效分數產生負面影響。

那麼你最不想做的就是減少參數的數量,尤其是跟踪參數。 現在,我非常理解你需要像 UTM 標籤參數這樣的東西,這樣你就可以看到你的電子郵件流量來自哪裡,你可以看到你的社交流量來自哪裡,你可以看到你的推送通知流量來自哪裡,但是沒有理由要求 Googlebot 可以抓取這些跟踪 URL。

如果 Googlebot 確實抓取它們,它們實際上會傷害您,尤其是如果您沒有對它們進行正確的索引指令。 所以你能做的第一件事就是讓它們不可抓取。 不要使用問號來開始你的 UTM 參數字符串,而是使用散列。 它仍然可以在 Google Analytics 中進行完美跟踪,但無法被 Google 或任何其他搜索引擎抓取。

如果您想深入了解並繼續學習有關爬行的更多信息,請在 Twitter 上聯繫我。 我的用戶名是@jes_scholz。 祝您度過美好的一天。

Speechpad.com 的視頻轉錄

關於傑斯舒爾茨 —

作為澳大利亞出生的德國人作為在非洲和亞洲實地工作的居民,我對國際營銷的挑戰並不陌生。 來自初創公司的世界,我堅信數據驅動的營銷和敏捷方法。

Facebook Comments Box

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。