蜘蛛爬行日志代码(蜘蛛的爬行)
admin 发布:2022-12-19 23:28 176
今天给各位分享蜘蛛爬行日志代码的知识,其中也会对蜘蛛的爬行进行解释,如果能碰巧解决你现在面临的问题,别忘了关注本站,现在开始吧!
本文目录一览:
IIS日志 蜘蛛爬行的代码 麻烦哪个大哥帮我用中文解释一下
前面的时间就不说了,W3那个是记录的文件夹,两个IP一个是你服务器的IP地址,一个是百度蜘蛛的IP,哪个是你服务器的哪个是百度蜘蛛的就不用我说了吧。
GET是打开方式,/index.asp为蜘蛛访问的你网站的页面,80是端口。
至于最后这个200 0 64,不同于200 0 0,说明蜘蛛已经访问了该页面,但并没有任何抓取也没有带回数据库。这种原因多为空间不稳定、服务器不稳定。不过也有人说这是K站的前兆,你要注意了。
百度蜘蛛爬行代码200 0 64,这是什么原因
还有人在纠结着个问题呢?200代表正常的,看好了。2xx 成功200 正常;请求已完成。201 正常;紧接 POST 命令。202 正常;已接受用于处理,但处理尚未完成。203 正常;部分信息 — 返回的信息只是一部分。204 正常;无响应 — 已接收请求,但不存在要回送的信息。3xx 重定向301 已移动 — 请求的数据具有新的位置且更改是永久的。302 已找到 — 请求的数据临时具有不同 URI。303 请参阅其它 — 可在另一 URI 下找到对请求的响应,且应使用 GET 方法检索此响应。304 未修改 — 未按预期修改文档。305 使用代理 — 必须通过位置字段中提供的代理来访问请求的资源。306 未使用 — 不再使用;保留此代码以便将来使用。4xx 客户机中出现的错误400 错误请求 — 请求中有语法问题,或不能满足请求。401 未授权 — 未授权客户机访问数据。402 需要付款 — 表示计费系统已有效。403 禁止 — 即使有授权也不需要访问。404 找不到 — 服务器找不到给定的资源;文档不存在。407 代理认证请求 — 客户机首先必须使用代理认证自身。410 请求的网页不存在(永久);415 介质类型不受支持 — 服务器拒绝服务请求,因为不支持请求实体的格式。5xx 服务器中出现的错误500 内部错误 — 因为意外情况,服务器不能完成请求。501 未执行 — 服务器不支持请求的工具。502 错误网关 — 服务器接收到来自上游服务器的无效响应。503 无法获得服务 — 由于临时过载或维护,服务器无法处理请求。
蜘蛛代码是什么?
这个问题,其实也并不是很全面,所谓的蜘蛛代码是指蜘蛛在你网站上所抓取的代码,如果上传了网络日志就能够通过查看日志上看到蜘蛛所爬行的页面。叫空间商将蜘蛛爬行日志上传到空间上吧,要看就下载出来看!
求一个PHP蜘蛛爬行记录插件
不知道你网站是什么系统。以下是wordpress一个非常粗糙的蜘蛛记录功能原理。可做参考
1.首先,在wordpress主题根目录建立一个robots.php文件,写入以下内容:
function get_naps_bot()
{
$useragent = strtolower($_SERVER[\'HTTP_USER_AGENT\']);
if (strpos($useragent, \’googlebot\’) !== false){
return \’Googlebot\’;
}
if (strpos($useragent, \’msnbot\’) !== false){
return \’MSNbot\’;
}
if (strpos($useragent, \’slurp\’) !== false){
return \’Yahoobot\’;
}
if (strpos($useragent, \’baiduspider\’) !== false){
return \’Baiduspider\’;
}
if (strpos($useragent, \’sohu-search\’) !== false){
return \’Sohubot\’;
}
if (strpos($useragent, \’lycos\’) !== false){
return \’Lycos\’;
}
if (strpos($useragent, \’robozilla\’) !== false){
return \’Robozilla\’;
}
return false;
}
function nowtime(){
$date=gmdate(\”Y-n-j H:i:s\”,time()+8*3600);
return $date;
}
$searchbot = get_naps_bot();
if ($searchbot) {
$tlc_thispage = addslashes($_SERVER[\'HTTP_USER_AGENT\']);
$url=$_SERVER[\'HTTP_REFERER\'];
$file=\”robotslogs.txt\”;
$time=nowtime();
$data=fopen($file,\”a\”);
fwrite($data,\”Time:$time robot:$searchbot URL:$tlc_thispage\\n\”);
fclose($data);
}
?
将其上传于你的主题目录内。
2.在Footer.php或header.php的适当位置添加以下代码调用robots.php。
程序原理:通过对蜘蛛标识符(如Baiduspider、Googlebot)的判断,记录蜘蛛爬行时间,并生成日志文件robotslogs.txt于根目录。
程序缺点:无法记录蜘蛛爬行的页面,功能较为简单。
蜘蛛爬行日志代码的介绍就聊到这里吧,感谢你花时间阅读本站内容,更多关于蜘蛛的爬行、蜘蛛爬行日志代码的信息别忘了在本站进行查找喔。
版权说明:如非注明,本站文章均为 AH站长 原创,转载请注明出处和附带本文链接;
相关推荐
- 05-09网页代码,网页代码快捷键
- 05-06单页网站的代码(完整的网页代码)[20240506更新]
- 05-06个人主页图片代码(个人主页图片代码怎么弄)[20240506更新]
- 05-06提取微信名片代码(微信名片信息提取)[20240506更新]
- 05-06php后台权限管理代码(php管理员权限)[20240506更新]
- 05-06付费观看代码php(付费观看代码)[20240506更新]
- 05-06在线html执行代码(html怎么运行)[20240506更新]
- 05-06源代码管理资源管理器(资源管理器运行代码)[20240506更新]
- 05-06代码源软件库(程序代码库)[20240506更新]
- 05-06点击弹出密码代码(点击弹出密码代码错误)[20240506更新]
取消回复欢迎 你 发表评论:
- 标签列表
- 最近发表
- 友情链接