首頁>網站建設>百度蜘蛛抓取/*&%5E%25$和/*&^%$造成404錯誤的應急臨時解決方案
2019
04-23

百度蜘蛛抓取/*&%5E%25$和/*&^%$造成404錯誤的應急臨時解決方案

路由器刷機交流Q群

百度蜘蛛抓取/*&%5E%25$和/*&^%$造成404錯誤的應急臨時解決方案

本站使用的是程 序:Z-BlogPHP 1.5.2 Zero 正式版

最近查看蜘蛛抓取記錄發一個問題,如下圖

百度蜘蛛抓取/*&%5E%25$和/*&^%$造成404錯誤的應急臨時解決方案

就像上面這樣,蜘蛛抓取的時候會在正常地址後面加上*&%5E%25$導緻提示500狀态碼錯誤,抓取不成功。

自動在URL後添加參數/*&%5E%25$,轉碼後/*&^%$的造成抓取404。

但模拟百度蜘蛛UA抓取并不會出現該問題。

該問題導緻網站收錄量下降,影響網站流量。而網站流量是網站運營的命根。

在網上找到了下面這個說法,我感覺可能性比較大。

可能引起的原因

這不是百度蜘蛛,這是模拟的假的user-agent,我之前也被這樣玩過,這是編碼過的中文,發的廣告,就是靠你網站的動态頁面增加這個關鍵詞的流量,甚至有的人直接在後面寫鍊接

IP是百度蜘蛛的,可以通過ipip.net确認。

模拟百度蜘蛛抓取,不會出現此錯誤。

此問題大約升級到寶塔6.3後出現

可能寶塔防火牆有關系?存疑

此問題在百度站長論壇有多個帖子反饋,他們也是用的寶塔

此問題有比較大的概率和寶塔面闆有關系,建議寶塔的管理員能檢測一下。

我也沒有找到出現此問題的根源,隻能從百度方面來解決,解決辦法是在robots.txt做了抓取屏蔽 Disallow: /*%5E%25*

Disallow: /*&* 然後在百度資源平台更新robots.txt,大約3天左右停止了抓取。

這是百度的蜘蛛。*&%5E%25$也不是編碼過的中文,轉碼後是*&^%$,按住SHIFT,然後輸入87654,就是這些符号。

就這幾天,我的M站百度收錄從600多頁斷崖式降到100多頁(百度站長工具看的索引量)

你可以在百度站長工具Robots功能中檢查一下Disallow: /*.html/*是否可以防止/*&%5E%25$和/*&^%$,以及是否影響了正常網頁的抓取。因為我臨時處理後

Disallow: /*%5E%25*

Disallow: /*&* 

收錄沒受影響,可以抓取正常的網頁,隻是不在抓取/*&%5E%25$和/*&^%$了。

臨時解決方法

應急方案:

将錯誤的URL寫入robots.txt(這個方法不太好,禁止訪問後,蜘蛛雖然不爬取,但是我們會因此忽略錯誤的存在)

301重定向,設置僞靜态規則:rewrite ^/([0-9]+)/([0-9]+).html/(.*) /$1/$2.html permanent;(NGINX規則)APCHE規則:RedirectMatch 301 ^/(\d+)/(\d+)\.html/(.*)$ /$1/$2.html

特别提醒

上述僞靜态規則僅針對/([0-9]+)/([0-9]+).html/*&%5E%25$的錯誤有效。

對于根目錄下的/*&%5E%25$或二級目錄下的/A/*&%5E%25$錯誤,需另寫僞靜态規則。

因為包含了特殊字符,我也不知道如何匹配寫法,希望看到的大神幫個忙,在此表示感謝!

免費支持本站

支付寶打賞支付寶打賞微信打賞微信打賞