当前位置:首页 > 代码 > 正文

蜘蛛爬行日志代码(蜘蛛的爬行)

admin 发布:2022-12-19 23:28 176


今天给各位分享蜘蛛爬行日志代码的知识,其中也会对蜘蛛的爬行进行解释,如果能碰巧解决你现在面临的问题,别忘了关注本站,现在开始吧!

本文目录一览:

IIS日志 蜘蛛爬行的代码 麻烦哪个大哥帮我用中文解释一下

前面的时间就不说了,W3那个是记录的文件夹,两个IP一个是你服务器的IP地址,一个是百度蜘蛛的IP,哪个是你服务器的哪个是百度蜘蛛的就不用我说了吧。

GET是打开方式,/index.asp为蜘蛛访问的你网站的页面,80是端口。

至于最后这个200 0 64,不同于200 0 0,说明蜘蛛已经访问了该页面,但并没有任何抓取也没有带回数据库。这种原因多为空间不稳定、服务器不稳定。不过也有人说这是K站的前兆,你要注意了。

百度蜘蛛爬行代码200 0 64,这是什么原因

还有人在纠结着个问题呢?200代表正常的,看好了。2xx 成功200 正常;请求已完成。201 正常;紧接 POST 命令。202 正常;已接受用于处理,但处理尚未完成。203 正常;部分信息 — 返回的信息只是一部分。204 正常;无响应 — 已接收请求,但不存在要回送的信息。3xx 重定向301 已移动 — 请求的数据具有新的位置且更改是永久的。302 已找到 — 请求的数据临时具有不同 URI。303 请参阅其它 — 可在另一 URI 下找到对请求的响应,且应使用 GET 方法检索此响应。304 未修改 — 未按预期修改文档。305 使用代理 — 必须通过位置字段中提供的代理来访问请求的资源。306 未使用 — 不再使用;保留此代码以便将来使用。4xx 客户机中出现的错误400 错误请求 — 请求中有语法问题,或不能满足请求。401 未授权 — 未授权客户机访问数据。402 需要付款 — 表示计费系统已有效。403 禁止 — 即使有授权也不需要访问。404 找不到 — 服务器找不到给定的资源;文档不存在。407 代理认证请求 — 客户机首先必须使用代理认证自身。410 请求的网页不存在(永久);415 介质类型不受支持 — 服务器拒绝服务请求,因为不支持请求实体的格式。5xx 服务器中出现的错误500 内部错误 — 因为意外情况,服务器不能完成请求。501 未执行 — 服务器不支持请求的工具。502 错误网关 — 服务器接收到来自上游服务器的无效响应。503 无法获得服务 — 由于临时过载或维护,服务器无法处理请求。

蜘蛛代码是什么?

这个问题,其实也并不是很全面,所谓的蜘蛛代码是指蜘蛛在你网站上所抓取的代码,如果上传了网络日志就能够通过查看日志上看到蜘蛛所爬行的页面。叫空间商将蜘蛛爬行日志上传到空间上吧,要看就下载出来看!

求一个PHP蜘蛛爬行记录插件

不知道你网站是什么系统。以下是wordpress一个非常粗糙的蜘蛛记录功能原理。可做参考

1.首先,在wordpress主题根目录建立一个robots.php文件,写入以下内容:

function get_naps_bot()

{

$useragent = strtolower($_SERVER[\'HTTP_USER_AGENT\']);

if (strpos($useragent, \’googlebot\’) !== false){

return \’Googlebot\’;

}

if (strpos($useragent, \’msnbot\’) !== false){

return \’MSNbot\’;

}

if (strpos($useragent, \’slurp\’) !== false){

return \’Yahoobot\’;

}

if (strpos($useragent, \’baiduspider\’) !== false){

return \’Baiduspider\’;

}

if (strpos($useragent, \’sohu-search\’) !== false){

return \’Sohubot\’;

}

if (strpos($useragent, \’lycos\’) !== false){

return \’Lycos\’;

}

if (strpos($useragent, \’robozilla\’) !== false){

return \’Robozilla\’;

}

return false;

}

function nowtime(){

$date=gmdate(\”Y-n-j H:i:s\”,time()+8*3600);

return $date;

}

$searchbot = get_naps_bot();

if ($searchbot) {

$tlc_thispage = addslashes($_SERVER[\'HTTP_USER_AGENT\']);

$url=$_SERVER[\'HTTP_REFERER\'];

$file=\”robotslogs.txt\”;

$time=nowtime();

$data=fopen($file,\”a\”);

fwrite($data,\”Time:$time robot:$searchbot URL:$tlc_thispage\\n\”);

fclose($data);

}

?

将其上传于你的主题目录内。

2.在Footer.php或header.php的适当位置添加以下代码调用robots.php。

程序原理:通过对蜘蛛标识符(如Baiduspider、Googlebot)的判断,记录蜘蛛爬行时间,并生成日志文件robotslogs.txt于根目录。

程序缺点:无法记录蜘蛛爬行的页面,功能较为简单。

蜘蛛爬行日志代码的介绍就聊到这里吧,感谢你花时间阅读本站内容,更多关于蜘蛛的爬行、蜘蛛爬行日志代码的信息别忘了在本站进行查找喔。

版权说明:如非注明,本站文章均为 AH站长 原创,转载请注明出处和附带本文链接;

本文地址:http://ahzz.com.cn/post/30167.html


取消回复欢迎 发表评论:

分享到

温馨提示

下载成功了么?或者链接失效了?

联系我们反馈

立即下载