学会用shell分析日志只要一上午!!!
很多地方分享了日志分析的shell脚本,但是基本没说每个命令符的具体含义,学习成本还是很高,在这里总结下,方便大家快速入门。
1、在Windows下的用户要使用shell命令符的话请先安装cygwin,安装方法自行Google(搜技术问题请使用google,百度搜不到活该)
2、下面粗略介绍下SEO日志分析常用的命令符用法,需要详细了解每个命令符请使用Google。
less 文件名 查看文件内容 按“q” 退出
cat 文件名 打开文件,可以多次打开几个文件 | cat 1.log 2.log |cat *.cat
grep -参数 文件名
-i 不区分大小写
-v 显示不符合条件的所有行
-c 显示符合条件的所有行数(符合条件的数量)
egrep 属于grep的升级版,在正则这一块的支持更完善,使用正则的时候建议使用egrep
head -2 文件名 显示2行
head -100 文件名 | tail -10 a.log 提取文件第91-100行数据
wc -参数 文件名 统计文本大小,字符多少,行数
-c 统计文本字节数
-m 统计文本字符数
-l 统计文本有多少行
sort – 参数 文件名 对文件进行排序
-n 对文件按照数字排序
-r 反向排序
uniq -参数 文件名 对文件去重,去重前需要使用排序
sort
-c 显示数据重复的次数
split -参数 文件名 对文件进行切割
-100 (每100行切割成一个文件)
-C 25m/b/k (每25兆/字节/K 分割成一个文件)
| 管道,把上一条命令的结果传输给下一条命令
“>” 和“ ” 重定向写入文件中 “>”相当于“w”清空并写入 “”相当于“a” 追加进文件
awk -F ‘分割符' Pattern {action} 文件名 使用指定的字符对每一行数据进行分段,默认是空格(网站日志就是空格分开)
-F后面跟的是分隔符
pattern 就是action执行的条件,这里可以使用正则表达式
$n 即时第几段数据 $0表示整行数据
NF表示当前记录的字段数
$NF 表示最后一个字段
BEGIN和END,这两者都可用于pattern中,提供BEGIN和END的作用是给程序赋予初始状态和在程序结束之后执行一些扫尾的工作
bash shell.sh 运行shell.sh脚本
dos2unix xxoo.sh 将“\r\n”转换成“\n” Windows——>linux (由于Windows和Linux下的换行符不同,所以我们在Windows下面下的代码需要使用dos2unix 转换成Linux下的换行符,否则运行shell脚本会报错)
unix2dos xxoo.sh 将“\n”转换成“\r\n” linux——>Windows
rm xx.txt 删除xx.txt文件
3、一些简单的命令符介绍到这里,需要了解shell,建议大家查看相关的书籍.
下面我们开始使用shell分析日志
1、切割百度的抓取数据(将文件切割出来对专门的爬虫数据进行处理能提高效率)
复制代码 代码如下:
cat log.log |grep -i ‘baiduspider' >baidu.log
2、网站状态码个数查询
复制代码 代码如下:
awk ‘{print $9}' baidu.log|sort|uniq -c|sort -nr
3、百度总抓取量
复制代码 代码如下:
wc -l baidu.log
4、百度不重复抓取量
复制代码 代码如下:
awk ‘{print $7}' baidu.log|sort|uniq|wc -l
5、百度平均每次抓取的数据大小(结果是KB)
复制代码 代码如下:
awk ‘{print $10}' baidu.log|awk ‘BEGIN{a=0}{a+=$1}END{ print a/NR/1024}'
6、首页抓取量
复制代码 代码如下:
awk ‘$7~/\.com\/$/' baidu.log|wc -l
7、某目录抓取量
复制代码 代码如下:
grep ‘/news/' baidu.log|wc -l
8、抓取最多的10个页面
复制代码 代码如下:
awk ‘{print $7}' baidu.log|sort|uniq -c|sort -nr|head -10
9、找出抓取的404错误页面
复制代码 代码如下:
awk ‘$9~ /^404$/ {print $7}' baidu.log|sort|uniq|sort -nr
10、找出抓取了多少js文件和文件抓取的次数
复制代码 代码如下:
awk ‘$7~ /.js$/ {print $7}' baidu.log|sort|uniq -c |sort -nr
免责声明:本站资源来自互联网收集,仅供用于学习和交流,请遵循相关法律法规,本站一切资源不代表本站立场,如有侵权、后门、不妥请联系本站删除!
《魔兽世界》大逃杀!60人新游玩模式《强袭风暴》3月21日上线
暴雪近日发布了《魔兽世界》10.2.6 更新内容,新游玩模式《强袭风暴》即将于3月21 日在亚服上线,届时玩家将前往阿拉希高地展开一场 60 人大逃杀对战。
艾泽拉斯的冒险者已经征服了艾泽拉斯的大地及遥远的彼岸。他们在对抗世界上最致命的敌人时展现出过人的手腕,并且成功阻止终结宇宙等级的威胁。当他们在为即将于《魔兽世界》资料片《地心之战》中来袭的萨拉塔斯势力做战斗准备时,他们还需要在熟悉的阿拉希高地面对一个全新的敌人──那就是彼此。在《巨龙崛起》10.2.6 更新的《强袭风暴》中,玩家将会进入一个全新的海盗主题大逃杀式限时活动,其中包含极高的风险和史诗级的奖励。
《强袭风暴》不是普通的战场,作为一个独立于主游戏之外的活动,玩家可以用大逃杀的风格来体验《魔兽世界》,不分职业、不分装备(除了你在赛局中捡到的),光是技巧和战略的强弱之分就能决定出谁才是能坚持到最后的赢家。本次活动将会开放单人和双人模式,玩家在加入海盗主题的预赛大厅区域前,可以从强袭风暴角色画面新增好友。游玩游戏将可以累计名望轨迹,《巨龙崛起》和《魔兽世界:巫妖王之怒 经典版》的玩家都可以获得奖励。
更新日志
- 【雨果唱片】中国管弦乐《鹿回头》WAV
- APM亚流新世代《一起冒险》[FLAC/分轨][106.77MB]
- 崔健《飞狗》律冻文化[WAV+CUE][1.1G]
- 罗志祥《舞状元 (Explicit)》[320K/MP3][66.77MB]
- 尤雅.1997-幽雅精粹2CD【南方】【WAV+CUE】
- 张惠妹.2007-STAR(引进版)【EMI百代】【WAV+CUE】
- 群星.2008-LOVE情歌集VOL.8【正东】【WAV+CUE】
- 罗志祥《舞状元 (Explicit)》[FLAC/分轨][360.76MB]
- Tank《我不伟大,至少我能改变我。》[320K/MP3][160.41MB]
- Tank《我不伟大,至少我能改变我。》[FLAC/分轨][236.89MB]
- CD圣经推荐-夏韶声《谙2》SACD-ISO
- 钟镇涛-《百分百钟镇涛》首批限量版SACD-ISO
- 群星《继续微笑致敬许冠杰》[低速原抓WAV+CUE]
- 潘秀琼.2003-国语难忘金曲珍藏集【皇星全音】【WAV+CUE】
- 林东松.1997-2039玫瑰事件【宝丽金】【WAV+CUE】