几种常见WEB日志分析方法中被统计的用户访问量差异产生原因分析
这几天一直根据原始的weblog文件做日志分析,发现如下一些ip访问量和页面访问量方面的问题。
通常我们会用如下的一些工具来做WEB网站访问日志的分析。
- 1. 免费的google/yahoo 分析的ip地址量,访问人次和页面访问量
- 2. awstats 分析出的访问人次和页面访问量
- 3. 自己通过shell脚本做的原始weblog统计得到的ip量和页面访问量
这几者之间方法机制的存在着差别,就需要好好分析一些,提升一下自己在通过方式 3 得到的数据的精确性,同时也有助于发现一些存在的问题。
- 1.google/yahoo是通过页面脚本来做统计,这样就使得那些被浏览器加载并被用户看到的页面被统计到(当然不是绝对的,但基本上就是这样了),而那些在服务器端通过发送 Header Location: /xxxurl 跳转的页面不会被统计,同时那些使用ajax和服务器进行数据交互的访问也不会被统计记录。
- 2.awstats分析的是日志文件,采用方法基本上是基于对日志记录行的 正则表达式 匹配所进行的分析统计。这样一些不被google/yahoo统计的中间页面访问也会被当作pv进入统计。
- 3.自己的方式比较灵活,采用的分析机制基本同于awstats,但是更具有灵活性,自己想怎么分析就怎么分析(当然前提是weblog可以提取那些信息供分析)
工具 | ip量 | 唯一访问者数 | 访问人次 | pv量 |
– | X | X | X | |
awstat | – | X | X | X |
yahoo | X | X | X | X |
注: awstats也有唯一访问数的统计,不过只能在摘要和按月历史统计中才能看到,不能以按天的方式看到,为了方便这边对比看到某一天的数据,我单独以某天的日志做一个配置,得到的按月数据等同于按天。
对几种工具的统计的情况对比(以实际统计中某几天的数据做对比)
统计结果呈现出: ip量 < 唯一人数 < 访问人次
对PV量的统计
google 和 yahoo 差不多, awstats 统计出的 页面数 比google和yahoo统计出来的数量要多出约两倍左右。产生这个现象的原因: google和yahoo都是采用的在页面嵌入脚本的方式,这样统计出来的就都是在用户浏览器上显示的页面,所以他们统计出的结果差不多。和awstat统计结果发生大偏差的原因:
- 1.这个页面有可能是通过中间跳转过来的,被awstats分析了,但是没有浏览器的页面统计脚本执行,不会被google/yahoo记录。
- 2.是在一个页面里面还嵌入了一个另外的页面,对google/yahoo还只是一个页面执行了统计脚本。
- 3.还有就可能是这个页面中忘记放用来统计的js代码。
访问人次:
这个项只有 google和awstas有,其中google得到的人次要比awstats多。这个可以解释为他们用来识别两次访问间的时间间隔不同。google的判断时间间隔小,所以得到的总访问次数多。
唯一人数:
这个的结果是 yahoo < awstats < google
这个结果的不同可能是由于采用了不同的鉴别唯一用户的算法。估计采用了公网ip+ua+内网ip等的不同组合,从而得到的唯一用户数也不同。
IP访问量
这个只有 yahoo 提供,其他方式中没有该项,但是是可以反映出 ip地址量少于 唯一用户数的 。
对方式3自己写shell脚本做分析,在pv上得到的数据和awstats更接近一些,因为所使用的数据源和分析方式类似。
awstats使用缓冲记录运算获得的用户停留时间等信息不好获得,但是可以做出其他的一些按照ip为基准而awstat等工具未提供的统计,比如
- 某个业务模块下的ip访问量
- 只有一次web日志的ip量,有两,三,四次日志记录的ip量,5-10次,10次以上日志记录的ip量等
- 有文件访问但是没有正常网页访问的ip量
- 全部是失败访问确没有成功访问的ip量
- 其他一些 awstats和google/yahoo统计上没有的数据
Popularity: 6% [?]
Related
Comments
One Response to “几种常见WEB日志分析方法中被统计的用户访问量差异产生原因分析”
[...] 几种常见WEB日志分析方法中被统计的用户访问量差异产生原因分析 [...]