wordpress监控搜索引擎蜘蛛代码
<?php
function get_naps_bot()
{
$useragent = strtolower($_SERVER['HTTP_USER_AGENT']);
if (strpos($useragent, 'googlebot') !== false){
return 'Googlebot';
}
if (strpos($useragent, 'msnbot') !== false){
return 'MSNbot';
}
if (strpos($useragent, 'slurp') !== false){
return 'Yahoobot';
}
if (strpos($useragent, 'baiduspider') !== false){
return 'Baiduspider';
}
if (strpos($useragent, 'sohu-search') !== false){
return 'Sohubot';
}
if (strpos($useragent, 'lycos') !== false){
return 'Lycos';
}
if (strpos($useragent, 'robozilla') !== false){
return 'Robozilla';
}
return false;
}
function nowtime(){
$date=date("Y-m-d.G:i:s");
return $date;
}
$searchbot = get_naps_bot();
if ($searchbot) {
$tlc_thispage = addslashes($_SERVER['HTTP_USER_AGENT']);
$url=$_SERVER['HTTP_REFERER'];
$file="robotslogs.txt";
$time=nowtime();
$data=fopen($file,"a");
$PR="$_SERVER[REQUEST_URI]";
fwrite($data,"Time:$time robot:$searchbot URL:$tlc_thispage\n page:$PR\r\n");
fclose($data);
}
?>
通过在wordpress上面添加一段代码就可以监控各大搜索引擎蜘蛛的爬行痕迹,对于做网站优化的人来说这个是非常实用。
监控搜索引擎蜘蛛具体原理:
通过将一段代码嵌入到wordpress的每个页面中,然蜘蛛来读取从而达到记录每个蜘蛛的爬行记录,同时因为各大搜索引擎的蜘蛛爬行程序都有自己的标识符,例如谷歌的是googlebot,百度的是baiduspider,它们可以通过查询_SERVER变量中的HTTP_USER_AGENT参数来获取,再结合HTTP_REFERER记录下URL的来源,最后用 nowtime()函数取得当前的系统时间,就形成了一条简单的擎蜘蛛爬行记录。
监控搜索引擎蜘蛛具体方法:
上面贴出来的robots.txt文件另存为robots.php,当然你可以任意给它取个名字,例如123.php或者aaa.php 都行,只要保证扩展名是php,让它能够正常执行即可;然后上传到你的网站程序的模板目录中(例如Wordpress的是/wp-content /themes/ThemesName目录);最后在你的模板文件中调用它,例如在Wordpress博客中,你可以在footer.php文件中添加代码。
接下来就是等待搜索引擎蜘蛛到你的网站来爬行了,爬行的结果记录在网站根目录的robotslogs.txt中,你直接打开 http://www.YourDomain.com/robotslogs.txt就能看到了。当然你也可以修改robots.php文件的第50行,把robotslogs.txt换成任意你想要的名字。
通过以上方法就可以查看到蜘蛛的爬行记录,同时也为您做SEO多了一个重要的参考。