矮人村

 找回密码
 立即注册
查看: 164|回复: 0
打印 上一主题 下一主题

批处理日志分析器,轻松分析蜘蛛行为

[复制链接]

34

主题

34

帖子

275

积分

中级会员

Rank: 3Rank: 3

积分
275
QQ
跳转到指定楼层
楼主
发表于 2018-3-8 22:24:44 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
开发之前,我们来想一想,我们都需要哪些功能?如果我们以百度蜘蛛为例,我们无非是想知道:
1、百度蜘蛛一天来我们的网站的次数(因为我们都希望越多越好)。
2、百度蜘蛛都是什么时间来的?(知道这个就可以在百度蜘蛛来的时候更新文章,这样可以增加收录数量,减少收录时间)
3、百度蜘蛛都抓取了哪些页面?相应的http状态码是多少?(根据状态码我们可以判断网站被抓取的情况)
通过分析,我们可以确定开发的目标了,我们要统计蜘蛛爬取次数、爬取时间、爬取的页面和相应的状态码。
下面我们以这一小段测试日志代码为例:


. HTTP/.com/search/spider.htm)"
02.
. HTTP/ (compatible; Googlebot/.com/bot.html)"

复制代码

大家测试的时候请下载全部日志代码,部分代码效果不明显.


01.@echo off
02.
03.
04.
) do find /i "Baiduspider" %%i > baidu.txt
06.
文件
08.
09.
10.
) do @echo %%y >> zhizhu.txt
12.
文件中每行的第四段,并将其写入到zhizhu.txt文件(第四段就是蜘蛛爬取
14.
15.
16.
17.的时间)
18.
19.
20.
') do set num=%%i
22.
23.rem 统计蜘蛛爬取的次数
24.
25.
26.

28.
29.rem 输出分割线---------------
30.
31.
32.

34.
35.rem 输出文字
36.
37.
38.

40.
41.rem 输出分割线----------
42.
43.
44.

46.
47.rem 输出文字
48.
49.
50.

52.
53.rem 输出分割线----------
54.
55.
56.
) do @echo %%a %%b %%c %%d >> zhizhu.txt
58.
文件中每行的第6、7、9、10段,并将其写入到zhizhu.txt文件(第6、7、9
60.
61.
62.
63.、10段就是蜘蛛爬取的页面和相应的http状态码)
64.
65.
66.

68.
文件
70.
71.
72.
) do ren
74.
文件更名为“系统时间-百度蜘蛛统计.txt”为名的文件,方便存档
76.
77.
78.
79.
80.

82.

84.
85.
86.

88.


复制代码

使用方法非常的简单,将上面的代码复制、粘贴到文本文件中,将文本文件另存为后缀名为.bat的批处理文件,然后将你要进行分析的网站日志文件和批处理文件放到同一个目录下,双击批处理文件,稍等一会,在通目录下会生成一个“系统时间-百度蜘蛛统计.txt”的文件,这个文件放的就是所有的统计结果,格式如下:


01.[20/Oct/2010:06:00:06
02.
03.[20/Oct/2010:08:10:58
04.
05.[20/Oct/2010:08:10:59
06.
07.[20/Oct/2010:09:06:22
08.
09.[20/Oct/2010:09:14:38
10.
11.[20/Oct/2010:10:59:19
12.
13.[20/Oct/2010:12:26:41
14.
15.[20/Oct/2010:12:27:09
16.
17.[20/Oct/2010:12:38:58
18.
19.[20/Oct/2010:12:47:19
20.
21.[20/Oct/2010:12:49:53
22.
23.[20/Oct/2010:14:17:31
24.
25.[20/Oct/2010:15:36:52
26.
27.[20/Oct/2010:17:17:34
28.
29.[20/Oct/2010:17:17:35
30.
31.------------------------------------------------------------------
32.
33.百度蜘蛛共来过15次,根据蜘蛛来的时间规律发布文章,可以增加收录哦!
34.
35.------------------------------------------------------------------
36.
37.接下来再看看百度蜘蛛抓取了哪些页面吧!
38.
39.------------------------------------------------------------------
40.
200 767
42.
43."GET /diannaopeixun/gaoji-diannaopeixun/page/3/ 301 -
44.
45."GET /diannaopeixun/gaoji-diannaopeixun/page/3 200 27988
46.
47."GET / 200 50348
48.
49."GET / 200 50442
50.
200 767
52.
53."GET / 200 50455
54.
55."GET / 200 50524
56.
57."GET / 200 50465
58.
59."GET / 200 50470
60.
61."GET / 200 50634
62.
200 149111
64.
65."GET /tag/iexe7xaax97xe5x8fxa3 200 24508
66.
67."GET /diannaopeixun/chuji-diannaopeixun/page/4/ 301 -
68.
69."GET /diannaopeixun/chuji-diannaopeixun/page/4 200 25256

复制代码

到此我们就完成了可以一键分析蜘蛛行为的史上最强网站日志分析器的制作,不但简单实用,而且功能强大,不需安装,也永远不用付费,是站长分析网站日志的终极利器。

备注说明:上面的代码是按照康盛世纪的服务器中产生的网站日志格式编写的,由于不同服务器产生的日志格式可
能不同,代码可以按照实际情况进行修改,代码中以rem开头的行,是对上一行代码的注释。

如果网站日志太大,可以将上面的代码分成两个文件来执行,一个文件的作用是统计时间和次数,另一个文件是统计抓取页面和相应的http状态码。如果想统计google蜘蛛,只需将上面代码中的“Baiduspider”改为“Googlebot”,然后再更改相应的输出文字即可。
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

标签|手机版|小黑屋| 矮人村

GMT+8, 2024-10-4 06:35 , Processed in 0.156000 second(s), 35 queries , Gzip On.

Powered by 小矮人挖矿

© 2016 矮人村 版权所有

快速回复 返回顶部 返回列表