亚洲黄色视频

分析IIS蜘蛛爬行日志,看看谷歌百度是否喜歡你的網站內容

2011-10-18 10:43:40  來源:蜘蛛爬行日志  字號:【亞洲黃色視頻:  亞洲黃色視頻:  亞洲黃色視頻:】  瀏覽:63

如果你(ni)是(shi)租用服(fu)務器或者(zhe)有自(zi)己(ji)的(de)服(fu)務器來做網(wang)站的(de),那(nei)么要(yao)記錄蜘蛛訪(fang)問(wen)日(ri)志(zhi)是(shi)很簡(jian)單和事,但(dan)是(shi)大部分站長(chang)購(gou)買(mai)自(zi)己(ji)的(de)服(fu)務器是(shi)不太可(ke)能(neng)的(de)。這里我教(jiao)你(ni)一種方法,可(ke)以很輕松的(de)記錄蜘蛛訪(fang)問(wen)日(ri)志(zhi),從(cong)而分析日(ri)志(zhi),看百度等搜索引擎是(shi)否喜歡你(ni)的(de)網(wang)站。

深度分析百度蜘蛛代碼,合理優化網站

研究百度蜘蛛的爬行規律對于網站優化意義重大,特別是對百度蜘蛛Baiduspider的研究。本文解釋一下百度蜘蛛爬行后返回代碼代表的具體含義:
2xx 成功
200 正常;請求已完成。
201 正常;緊接 POST 命令。
202 正常;已接受用于處理,但處理尚未完成。
203 正常;部分信息 — 返回的信息只是一部分。
204 正常;無響應 — 已接收請求,但不存在要回送的信息。
3xx 重定向
301 已移動 — 請求的數據具有新的位置且更改是永久的。
302 已找到 — 請求的數據臨時具有不同 URI。
303 請參閱其它 — 可在另一 URI 下找到對請求的響應,且應使用 GET 方法檢索此響應。
304 未修改 — 未按預期修改文檔。
305 使用代理 — 必須通過位置字段中提供的代理來訪問請求的資源。
306 未使用 — 不再使用;保留此代碼以便將來使用。
4xx 客戶機中出現的錯誤
400 錯誤請求 — 請求中有語法問題,或不能滿足請求。
401 未授權 — 未授權客戶機訪問數據。
402 需要付款 — 表示計費系統已有效。
403 禁止 — 即使有授權也不需要訪問。
404 找不到 — 服務器找不到給定的資源;文檔不存在。
407 代理認證請求 — 客戶機首先必須使用代理認證自身。
410 請求的網頁不存在(永久);
415 介質類型不受支持 — 服務器拒絕服務請求,因為不支持請求實體的格式。
5xx 服務器中出現的錯誤
500 內部錯誤 — 因為意外情況,服務器不能完成請求。
501 未執行 — 服務器不支持請求的工具。
502 錯誤網關 — 服務器接收到來自上游服務器的無效響應。
503 無法獲得服務 — 由于臨時過載或維護,服務器無法處理請求。

比如說:
2011-10-11 08:05:54 e3SVC1662187803 110.60.152.106 GET /index.php - 80 - 61.135.168.47 Baiduspider+(+http://www.baidu.com/search/spider.htm) 200 0 0

1、110.60.152.106這個就是你的網站的 IP。
2、61.135.168.47這個是爬行你網站的蜘蛛IP。
2、 Baiduspider代表代表百度蜘蛛,我們通常以此確定是哪個搜索引擎蜘蛛。
3、/index.php 就代表百度蜘蛛訪問的網頁
4、2011-10-11 08:05:54是百度蜘蛛爬行的日期與時間
5、代碼中的200就代表百度蜘蛛爬行后返回HTTP狀態代碼,代碼中可以了解蜘蛛爬行后的反映。
6、e3SVC1662187803這個我們不用管。
7、80代表WEB服務器的端口。
如果你的網站是亞洲黃色視頻:http://zgyzgj.com這就意味著百度蜘蛛在2011-10-11 08:05:54 爬過亞洲黃色視頻:http://zgyzgj.com/index.php這一頁(ye)(ye),200代表(biao)了正常;請求(qiu)已(yi)完(wan)成。對于日志中的內容,我們(men)之需(xu)要關(guan)心的是(shi)3和5項,3代表(biao)的是(shi)網(wang)頁(ye)(ye),不需(xu)要在說明,下(xia)(xia)面重點說一下(xia)(xia)第(di)五項,我們(men)要根據第(di)五項來即(ji)使調整網(wang)站。

通過下(xia)面的程序(xu)你就(jiu)可以(yi)記錄(lu)蜘蛛(zhu)訪問(wen)日(ri)志,使用時你只要(yao)在你的php頁面里調用以(yi)下(xia)這個文件就(jiu)可以(yi)了

function get_naps_bot()
{
$useragent strtolower($_SERVER[\\\'HTTP_USER_AGENT\\\'
]);

if (
strpos($useragent\\\'googlebot\\\') !== false
){
return 
\\\'Googlebot\\\'
;
}

if (
strpos($useragent\\\'msnbot\\\') !== false
){
return 
\\\'MSNbot\\\'
;
}

if (
strpos($useragent\\\'slurp\\\') !== false
){
return 
\\\'Yahoobot\\\'
;
}

if (
strpos($useragent\\\'baiduspider\\\') !== false
){
return 
\\\'Baiduspider\\\'
;
}

if (
strpos($useragent\\\'sohu-search\\\') !== false
){
return 
\\\'Sohubot\\\'
;
}

if (
strpos($useragent\\\'lycos\\\') !== false
){
return 
\\\'Lycos\\\'
;
}

if (
strpos($useragent\\\'robozilla\\\') !== false
){
return 
\\\'Robozilla\\\'
;

return 
false
;
}


function 
nowtime
(){
$date=date("Y-m-d.G:i:s"
);
return 
$date
;
}

$searchbot get_naps_bot
();

if (
$searchbot
) {
$tlc_thispage addslashes($_SERVER[\\\'HTTP_USER_AGENT\\\'
]);
$url=$_SERVER[\\\'HTTP_REFERER\\\'
];
$file="log"
;
$time=nowtime
();
$data=fopen($file,"a"
);
fwrite($data,"Time:$time        robot:$searchbot        URL:
$tlc_thispage\n");
fclose($data
);
}

?>

返回的http狀態諸如200 0 64分析說明

在百度研究院的論壇里看到一位版主有這樣的一段解釋:
蜘蛛在IIS里的行為200 0 64 的解釋:
根據我(wo)前段時間(jian)到現在(zai)的(de)(de)觀察(cha),雖然(ran)沒有(you)足夠的(de)(de)證據,但是(shi)基(ji)本上可(ke)以肯定在(zai)IIS中(zhong)(zhong),如果(guo)蜘蛛后(hou)(hou)(hou)面的(de)(de)號碼出現200 0 64,那么網站中(zhong)(zhong)的(de)(de)這個(ge)單頁(ye)(ye)面就會在(zai)搜(sou)索引擎(qing)中(zhong)(zhong)消(xiao)失了.我(wo)被K的(de)(de)頁(ye)(ye)面后(hou)(hou)(hou)面都寫著(zhu)200 0 64 ,不知道(dao)大(da)家是(shi)否認(ren)同,還有(you)其他看法(fa),當然(ran),我(wo)說這個(ge)不夠絕(jue)對,因為我(wo)也有(you)一個(ge)頁(ye)(ye)面后(hou)(hou)(hou)面顯示著(zhu)200 0 64 但是(shi)在(zai)搜(sou)索引擎(qing)中(zhong)(zhong)依舊可(ke)以找(zhao)到.這也說明(ming)著(zhu)問題(ti),但大(da)多200 0 64行為的(de)(de)網頁(ye)(ye)就已(yi)經(jing)沒有(you)了.

所以我覺得蜘蛛的200 0 64行為可以被解釋為清除數據。

這個(ge)解釋,目(mu)前(qian)看(kan) 上去(qu)還是有(you)可(ke)信度的(de)(de)(de)。我認為,抓(zhua)取狀(zhuang)態成(cheng)200 0 64是不(bu)(bu)正常(chang)的(de)(de)(de)抓(zhua)取,正常(chang)的(de)(de)(de)抓(zhua)取是成(cheng)功(gong)標志(zhi)200 0 0,當(dang)變(bian)成(cheng)了(le)200 0 64的(de)(de)(de)狀(zhuang)態時說(shuo)(shuo)明搜索引擎在(zai)抓(zhua)取這個(ge)頁面(mian)的(de)(de)(de)時候出現了(le)錯誤,沒有(you)正常(chang)的(de)(de)(de)進(jin)(jin)行(xing)常(chang)規抓(zhua)取;對于百度來說(shuo)(shuo),百度很可(ke)能是已經(jing)不(bu)(bu)再把這些頁面(mian)抓(zhua)進(jin)(jin)主索引庫,而(er)是放進(jin)(jin)了(le)“百度沙盒”里進(jin)(jin)行(xing)考察(cha),考察(cha)多久,就看(kan)你如何改進(jin)(jin),也許(xu),你看(kan)不(bu)(bu)到百度把這些被K的(de)(de)(de)網站(zhan)釋放出來的(de)(de)(de)時候,人(ren)是沒有(you)規律的(de)(de)(de)。

對于已經被百度拔毛的網站來說,如果你還在乎百度,那就趕緊改正網站上的一切作弊的地方消除過度優化消除惡意鏈接,等待百度再次光臨,一般來說,這需要2-3個月的時間,認真做(zuo)站,發現問(wen)題,解決問(wen)題,才是網站最終獲得成功的關鍵。

下面給出一個分析案例

http狀態碼 200

2011-05-14 15:52:03  W3SVC1  112.124.232.185   GET /category-8-b0-min1100-max2200.html - 80 - 220.181.7.74 Baiduspider+(+baidu/search/spider.htm) 200 0 0

   分析下(xia) 200 0 0組成部分    sc-status(協(xie)議(yi)狀態) sc-substatus(協(xie)議(yi)子狀態) sc-win32-status(Win32狀態碼)

   sc-status(協議狀態): 200 連(lian)接成(cheng)功

   sc-substatus(協議子狀態(tai)) :0 成功(gong)

   sc-win32-status(Win32狀態碼):0 代表抓取成功并帶回數據庫 ; 64 指定的網絡名不再可用

   1: 在這個訪問記錄里面112.124.232.185是你服務器的IP地址,220.181.7.74  是bd蜘(zhi)蛛(zhu)的IP,/category-8-b0-min1100-max2200.html 為蜘蛛訪問你的頁面 80是端口 GET是打開方式 W3SVC1是記錄的文件夾,這里說明,bd蜘蛛已經訪問了你的category-8-b0-min1100-max2200.html 這個頁面,那么最重要的是最后面的這個參數200 0 0

   2、200 0 0 成功訪問該頁面,0代表抓取成功并帶回數據庫。這個時候你就放心了,這個頁面已經被bd收錄,但是還沒有釋放出來,bd更新時就可能釋放出來。

   3:200 0 64 網絡上流傳著這么三種解釋第一:64為K站的前兆。第二64的出現只是64位操作系統。第三:網絡不可達,由于某種原因無法完全打開頁面,或者網絡不穩定這些原因,導致蜘蛛無法帶回頁面或者說不抓取該頁面,所以200 0 64的解釋也應該為:訪問了該頁面,但并沒有任何抓取也沒有帶回數據庫。這種原因多為空(kong)間不(bu)穩定、服務器不(bu)穩定。

   4:304 0 0這(zhe)個返回碼(ma)代表蜘蛛(zhu)訪問的頁面沒有(you)更(geng)新,和他之前來的時(shi)候(hou)是一樣的,所(suo)(suo)以看到這(zhe)個不(bu)(bu)要擔心,蜘蛛(zhu)來過,只(zhi)不(bu)(bu)過你沒有(you)更(geng)新,所(suo)(suo)以他也(ye)不(bu)(bu)愿意帶走這(zhe)個頁面。

   5:404 0 0這個是代表404頁面,但是有個很嚴重的問題,這個返回碼告訴我們,蜘蛛來到了404頁面并把他帶走了,崩潰~~~~,塞是這樣的話基本上你要倒霉了,塞你有太多的404,那么蜘蛛就會不斷是抓取,不斷的帶走,這樣會造成無數的重復頁面,最終導致K站或者降權,正確的返回罵是404 0 64 這就代表蜘蛛(zhu)沒有抓(zhua)取(qu)你這個(ge)頁面。

   6:500錯(cuo)誤(wu)500錯(cuo)誤(wu)是服務器(qi)內部錯(cuo)誤(wu),是由程序的(de)錯(cuo)誤(wu)造成的(de),我不(bu)懂程序,但(dan)是500錯(cuo)誤(wu)是會(hui)給你減(jian)分(fen)的(de),這(zhe)點基本的(de)邏輯都可以想的(de)到,塞發現500錯(cuo)誤(wu),馬上查(cha)看是哪個頁面(mian)的(de),然后去修正以下(xia)錯(cuo)誤(wu)吧!

   7:302塞在日志中發現302的(de)(de)(de)返(fan)回(hui)碼也(ye)是(shi)需(xu)要注意的(de)(de)(de),302為臨(lin)時重定(ding)向,塞(sai)你是(shi)長期的(de)(de)(de)將這(zhe)個(ge)頁面重定(ding)向到另(ling)一個(ge)頁面,麻(ma)煩你使用(yong)301永(yong)久重定(ding)向,塞(sai)是(shi)302的(de)(de)(de)話bd蜘蛛下次來還會訪(fang)問(wen)這(zhe)個(ge)頁面,這(zhe)樣又會造成(cheng)復制大量(liang)頁面的(de)(de)(de)問(wen)題,結果肯(ken)定(ding)是(shi)K,所以(yi),抽空檢查(cha)以(yi)下。

首頁|售后服務|體育產品|業績案例|關于我們|聯系方式|網站地圖

北(bei)京適普(pu)益康健身器材有限公司(si) Copyright © 2003-2020. zgyzgj.com. All Rights Reserved  京ICP備10212015號