用Linux Shell网站SEO日志分析

本文正题。。。。。

这里我就整理了下,本人经常拆份的一些项。Shell在Cygwin里跑的一些常用命令符语句,我用的是Windows下Cygwin……大牛的就跳过吧。0.0

【新手哈 有哪错的 望指点 学习,】

现在把罗列下这些项:

//统计不重复抓取数量

//统计所有状态码数量

//统计某个目录抓取次数

//统计各个目录出现404响应码次数

//统计404页面的抓取数量

//统计每个ip下对应URL的抓取次数

//提取百度蜘蛛访问数量前10的网站目录及访问次数,并按降序排列

//提取某个目录百度蛛蛛访问次数

//统计首页抓取的次数占总体抓取次数比率

//统计404响应码占总响应码比率

//计算百度抓取总字节数

//计算平均每次每个网页抓取字节数(小数点后面大于5进1

对于不懂的命令符,大家还是多百度,多问 因为我底下这些都是这样过来的,欢迎评论提问,吐槽。。。指正。。。

下面我们就进入演示。。。。请大家盯紧了。。

 50544

//统计不重复抓取数量

cat baidu.log | awk ‘{print $4}’|sort|uniq|wc -l

02

//统计所有状态码数量

awk ‘{print $10}’ baidu.log |sort|uniq -c

03

//统计某个目录抓取次数

grep “/shop” baidu.log | awk ‘{print $4}’ |sort |wc –l

04

//统计各个目录出现404响应码次数

awk ‘{if($10==”404″){print $0}}’ baidu.log|sort|uniq -c|wc -l

06

//统计404页面的抓取数量

awk ‘{if($10==”404″){print $0}}’ baidu.log|sort|uniq|wc -l

 10

//统计每个ip下对应URL的抓取次数

awk ‘{print $6,$4}’ baidu.log |sort|uniq –c

07

//提取百度蜘蛛访问数量前10的网站目录及访问次数,并按降序排列

awk ‘{print $4}’ baidu.log |grep -P “[^/(a-zA-Z)|^/(a-zA-Z)/]”|awk -F”/” ‘{print $2}’|sort|uniq -c|sort -r|head -10

 08

//提取某个目录百度蛛蛛访问次数

cat baidu.log | grep “/shop/”| wc –l

cat baidu.log |awk ‘{print $4}’ |grep “/shop/” |wc –l

cat baidu.log |awk ‘{print $4} |awk –F”/” ‘{print $2}’|grep “shop”|wc -l

09

//统计首页抓取的次数占总体抓取次数比率

cat baidu.log |awk ‘{print $4}’|awk ‘{if($0==”/”){n=n+1}}END{print n/NR*100″%”}’

10

//统计404响应码占总响应码比率

cat baidu.log |awk ‘{print $10}’|awk ‘{if($0==”404″){n=n+1}}END{print n/NR*100″%”}’

 11

//计算百度抓取总字节数

cat baidu.log |awk ‘{print $11}’|awk ‘BEGIN{total=0}{total+=$1}END{print total}’

 13

//计算平均每次每个网页抓取字节数(小数点后面大于5进1

14

 

(转自老狼)

发表评论