亚洲黄色视频

分析IIS蜘蛛爬行日志,看看谷歌百度是否喜歡你的網站內容

2011-10-18 10:43:40  來源:蜘蛛爬行日志  字號:【亞洲黃色視頻:  亞洲黃色視頻:  亞洲黃色視頻:】  瀏覽:970

如果你是租用服務(wu)器(qi)或者有自己(ji)的(de)服務(wu)器(qi)來(lai)做網站的(de),那么要記錄(lu)蜘(zhi)蛛訪(fang)問日志是很簡單(dan)和事,但是大部分(fen)站長購(gou)買自己(ji)的(de)服務(wu)器(qi)是不(bu)太(tai)可能的(de)。這里我教你一種方(fang)法,可以(yi)很輕松的(de)記錄(lu)蜘(zhi)蛛訪(fang)問日志,從而分(fen)析日志,看百度等(deng)搜索引擎(qing)是否喜歡(huan)你的(de)網站。

深度分析百度蜘蛛代碼,合理優化網站

研究百度蜘蛛的爬行規律對于網站優化意義重大,特別是對百度蜘蛛Baiduspider的研究。本文解釋一下百度蜘蛛爬行后返回代碼代表的具體含義:
2xx 成功
200 正常;請求已完成。
201 正常;緊接 POST 命令。
202 正常;已接受用于處理,但處理尚未完成。
203 正常;部分信息 — 返回的信息只是一部分。
204 正常;無響應 — 已接收請求,但不存在要回送的信息。
3xx 重定向
301 已移動 — 請求的數據具有新的位置且更改是永久的。
302 已找到 — 請求的數據臨時具有不同 URI。
303 請參閱其它 — 可在另一 URI 下找到對請求的響應,且應使用 GET 方法檢索此響應。
304 未修改 — 未按預期修改文檔。
305 使用代理 — 必須通過位置字段中提供的代理來訪問請求的資源。
306 未使用 — 不再使用;保留此代碼以便將來使用。
4xx 客戶機中出現的錯誤
400 錯誤請求 — 請求中有語法問題,或不能滿足請求。
401 未授權 — 未授權客戶機訪問數據。
402 需要付款 — 表示計費系統已有效。
403 禁止 — 即使有授權也不需要訪問。
404 找不到 — 服務器找不到給定的資源;文檔不存在。
407 代理認證請求 — 客戶機首先必須使用代理認證自身。
410 請求的網頁不存在(永久);
415 介質類型不受支持 — 服務器拒絕服務請求,因為不支持請求實體的格式。
5xx 服務器中出現的錯誤
500 內部錯誤 — 因為意外情況,服務器不能完成請求。
501 未執行 — 服務器不支持請求的工具。
502 錯誤網關 — 服務器接收到來自上游服務器的無效響應。
503 無法獲得服務 — 由于臨時過載或維護,服務器無法處理請求。

比如說:
2011-10-11 08:05:54 e3SVC1662187803 110.60.152.106 GET /index.php - 80 - 61.135.168.47 Baiduspider+(+//www.baidu.com/search/spider.htm) 200 0 0

1、110.60.152.106這個就是你的網站的 IP。
2、61.135.168.47這個是爬行你網站的蜘蛛IP。
2、 Baiduspider代表代表百度蜘蛛,我們通常以此確定是哪個搜索引擎蜘蛛。
3、/index.php 就代表百度蜘蛛訪問的網頁
4、2011-10-11 08:05:54是百度蜘蛛爬行的日期與時間
5、代碼中的200就代表百度蜘蛛爬行后返回HTTP狀態代碼,代碼中可以了解蜘蛛爬行后的反映。
6、e3SVC1662187803這個我們不用管。
7、80代表WEB服務器的端口。
如果你的網站是亞洲黃色視頻://zgyzgj.com這就意味著百度蜘蛛在2011-10-11 08:05:54 爬過亞洲黃色視頻://zgyzgj.com/index.php這一(yi)頁,200代表(biao)了正常;請(qing)求已完成。對于日志(zhi)中的內容(rong),我們(men)之需(xu)(xu)要關心(xin)的是(shi)3和5項(xiang),3代表(biao)的是(shi)網(wang)頁,不(bu)需(xu)(xu)要在說明,下(xia)面重點說一(yi)下(xia)第五項(xiang),我們(men)要根據第五項(xiang)來即(ji)使調整(zheng)網(wang)站(zhan)。

通過下面(mian)的程(cheng)序你(ni)就(jiu)可以記錄(lu)蜘蛛訪(fang)問日志,使用時你(ni)只要在你(ni)的php頁面(mian)里調用以下這個文件就(jiu)可以了

function get_naps_bot()
{
$useragent strtolower($_SERVER[\\\'HTTP_USER_AGENT\\\'
]);

if (
strpos($useragent\\\'googlebot\\\') !== false
){
return 
\\\'Googlebot\\\'
;
}

if (
strpos($useragent\\\'msnbot\\\') !== false
){
return 
\\\'MSNbot\\\'
;
}

if (
strpos($useragent\\\'slurp\\\') !== false
){
return 
\\\'Yahoobot\\\'
;
}

if (
strpos($useragent\\\'baiduspider\\\') !== false
){
return 
\\\'Baiduspider\\\'
;
}

if (
strpos($useragent\\\'sohu-search\\\') !== false
){
return 
\\\'Sohubot\\\'
;
}

if (
strpos($useragent\\\'lycos\\\') !== false
){
return 
\\\'Lycos\\\'
;
}

if (
strpos($useragent\\\'robozilla\\\') !== false
){
return 
\\\'Robozilla\\\'
;

return 
false
;
}


function 
nowtime
(){
$date=date("Y-m-d.G:i:s"
);
return 
$date
;
}

$searchbot get_naps_bot
();

if (
$searchbot
) {
$tlc_thispage addslashes($_SERVER[\\\'HTTP_USER_AGENT\\\'
]);
$url=$_SERVER[\\\'HTTP_REFERER\\\'
];
$file="log"
;
$time=nowtime
();
$data=fopen($file,"a"
);
fwrite($data,"Time:$time        robot:$searchbot        URL:
$tlc_thispage\n");
fclose($data
);
}

?>

返回的http狀態諸如200 0 64分析說明

在百度研究院的論壇里看到一位版主有這樣的一段解釋:
蜘蛛在IIS里的行為200 0 64 的解釋:
根據我前段時間到(dao)現在(zai)(zai)的(de)觀察,雖然(ran)沒(mei)有足夠的(de)證(zheng)據,但是基本(ben)上可以肯定在(zai)(zai)IIS中(zhong),如(ru)果蜘(zhi)蛛后面的(de)號碼(ma)出(chu)現200 0 64,那么網(wang)站中(zhong)的(de)這(zhe)個單頁(ye)面就(jiu)(jiu)會(hui)在(zai)(zai)搜索(suo)引(yin)擎中(zhong)消失了(le).我被K的(de)頁(ye)面后面都寫著(zhu)200 0 64 ,不知(zhi)道大家是否認同,還有其(qi)他看法(fa),當(dang)然(ran),我說這(zhe)個不夠絕(jue)對(dui),因為我也有一個頁(ye)面后面顯示著(zhu)200 0 64 但是在(zai)(zai)搜索(suo)引(yin)擎中(zhong)依舊可以找(zhao)到(dao).這(zhe)也說明(ming)著(zhu)問題(ti),但大多200 0 64行為的(de)網(wang)頁(ye)就(jiu)(jiu)已經沒(mei)有了(le).

所以我覺得蜘蛛的200 0 64行為可以被解釋為清除數據。

這(zhe)個(ge)解釋(shi),目(mu)前看 上去還是(shi)(shi)有(you)可信度的(de)(de)(de)。我認為(wei),抓(zhua)(zhua)(zhua)取(qu)狀態成200 0 64是(shi)(shi)不(bu)(bu)正常(chang)的(de)(de)(de)抓(zhua)(zhua)(zhua)取(qu),正常(chang)的(de)(de)(de)抓(zhua)(zhua)(zhua)取(qu)是(shi)(shi)成功標志200 0 0,當變(bian)成了(le)200 0 64的(de)(de)(de)狀態時說(shuo)明搜(sou)索引(yin)擎在抓(zhua)(zhua)(zhua)取(qu)這(zhe)個(ge)頁(ye)面的(de)(de)(de)時候(hou)出現了(le)錯誤,沒(mei)(mei)有(you)正常(chang)的(de)(de)(de)進行常(chang)規(gui)(gui)抓(zhua)(zhua)(zhua)取(qu);對(dui)于百度來說(shuo),百度很可能是(shi)(shi)已經不(bu)(bu)再把(ba)這(zhe)些(xie)頁(ye)面抓(zhua)(zhua)(zhua)進主索引(yin)庫(ku),而是(shi)(shi)放進了(le)“百度沙(sha)盒”里(li)進行考察,考察多久,就看你如(ru)何改進,也許,你看不(bu)(bu)到(dao)百度把(ba)這(zhe)些(xie)被(bei)K的(de)(de)(de)網站(zhan)釋(shi)放出來的(de)(de)(de)時候(hou),人是(shi)(shi)沒(mei)(mei)有(you)規(gui)(gui)律的(de)(de)(de)。

對于已經被百度拔毛的網站來說,如果你還在乎百度,那就趕緊改正網站上的一切作弊的地方消除過度優化消除惡意鏈接,等待百度再次光臨,一般來說,這需要2-3個月的時間,認(ren)真做站,發現問(wen)題(ti),解決問(wen)題(ti),才是(shi)網站最(zui)終獲得成功的關鍵。

下面給出一個分析案例

http狀態碼 200

2011-05-14 15:52:03  W3SVC1  112.124.232.185   GET /category-8-b0-min1100-max2200.html - 80 - 220.181.7.74 Baiduspider+(+baidu/search/spider.htm) 200 0 0

   分析下 200 0 0組成部分    sc-status(協議(yi)狀(zhuang)態(tai)(tai)(tai)) sc-substatus(協議(yi)子狀(zhuang)態(tai)(tai)(tai)) sc-win32-status(Win32狀(zhuang)態(tai)(tai)(tai)碼)

   sc-status(協議狀(zhuang)態): 200 連接成(cheng)功

   sc-substatus(協議(yi)子狀態) :0 成功

   sc-win32-status(Win32狀態碼):0 代表抓取成功并帶回數據庫 ; 64 指定的網(wang)絡名不再可用

   1: 在這個訪問記錄里面112.124.232.185是你服務器的IP地址,220.181.7.74  是bd蜘(zhi)蛛的IP,/category-8-b0-min1100-max2200.html 為蜘蛛訪問你的頁面 80是端口 GET是打開方式 W3SVC1是記錄的文件夾,這里說明,bd蜘蛛已經訪問了你的category-8-b0-min1100-max2200.html 這個頁面,那么最重要的是最后面的這個參數200 0 0

   2、200 0 0 成功訪問該頁面,0代表抓取成功并帶回數據庫。這個時候你就放心了,這個頁面已經被bd收錄,但是還沒有釋放出來,bd更新時就可能釋放出來。

   3:200 0 64 網絡上流傳著這么三種解釋第一:64為K站的前兆。第二64的出現只是64位操作系統。第三:網絡不可達,由于某種原因無法完全打開頁面,或者網絡不穩定這些原因,導致蜘蛛無法帶回頁面或者說不抓取該頁面,所以200 0 64的解釋也應該為:訪問了該頁面,但并沒有任何抓取也沒有帶回數據庫。這種原因多為空間不(bu)穩定、服務(wu)器不(bu)穩定。

   4:304 0 0這(zhe)(zhe)個返回碼代表蜘蛛訪問的(de)(de)頁面沒(mei)有(you)更新,和(he)他(ta)之前來(lai)的(de)(de)時候是一樣的(de)(de),所(suo)以看到這(zhe)(zhe)個不要擔心,蜘蛛來(lai)過,只(zhi)不過你沒(mei)有(you)更新,所(suo)以他(ta)也不愿意帶走這(zhe)(zhe)個頁面。

   5:404 0 0這個是代表404頁面,但是有個很嚴重的問題,這個返回碼告訴我們,蜘蛛來到了404頁面并把他帶走了,崩潰~~~~,塞是這樣的話基本上你要倒霉了,塞你有太多的404,那么蜘蛛就會不斷是抓取,不斷的帶走,這樣會造成無數的重復頁面,最終導致K站或者降權,正確的返回罵是404 0 64 這就代表蜘蛛沒有抓取你這個頁面。

   6:500錯(cuo)誤(wu)(wu)500錯(cuo)誤(wu)(wu)是(shi)(shi)服(fu)務器內(nei)部錯(cuo)誤(wu)(wu),是(shi)(shi)由(you)程序(xu)(xu)的(de)(de)錯(cuo)誤(wu)(wu)造成(cheng)的(de)(de),我不懂程序(xu)(xu),但是(shi)(shi)500錯(cuo)誤(wu)(wu)是(shi)(shi)會給(gei)你減分的(de)(de),這(zhe)點基(ji)本的(de)(de)邏(luo)輯都可以想的(de)(de)到,塞發現500錯(cuo)誤(wu)(wu),馬上(shang)查(cha)看是(shi)(shi)哪(na)個頁(ye)面(mian)的(de)(de),然后(hou)去修正以下錯(cuo)誤(wu)(wu)吧!

   7:302塞在日志中發現(xian)302的返(fan)回碼也是(shi)需要注意的,302為臨時重(zhong)定向(xiang),塞(sai)(sai)你是(shi)長期的將(jiang)這(zhe)個頁(ye)面(mian)重(zhong)定向(xiang)到(dao)另一個頁(ye)面(mian),麻(ma)煩你使用301永久重(zhong)定向(xiang),塞(sai)(sai)是(shi)302的話bd蜘蛛(zhu)下次來還會訪問這(zhe)個頁(ye)面(mian),這(zhe)樣又會造成復制大量頁(ye)面(mian)的問題(ti),結果肯(ken)定是(shi)K,所以(yi),抽(chou)空檢(jian)查以(yi)下。

首頁  |  服務  |  產品  |  案例  |  關于  |  聯系  |  地圖

北京適普(pu)益康健(jian)身器材(cai)有(you)限公司 Copyright © 2003-2020. zgyzgj.com. All Rights Reserved}