题目:[百度搜狐面试题] 统计url出现次数
oldboy.loghttp://www.etiantain.org/index.htmlhttp://www.etiantain.org/1.htmlhttp://post.etiantain.org/index.htmlhttp://mp3.etiantain.org/3.htmlhttp://www.etiantain.org/1.htmlhttp://post.etiantain.org/2.htmluniq - report or omit repeated lines
去除相邻的重复的行
[root@moban data]# cat ip.txt10.0.0.910.0.0.810.0.0.710.0.0.710.0.0.810.0.0.810.0.0.9[root@moban data]# uniq ip.txt10.0.0.910.0.0.810.0.0.710.0.0.810.0.0.9让重复的行相邻[root@moban data]# sort ip.txt10.0.0.710.0.0.710.0.0.810.0.0.810.0.0.810.0.0.910.0.0.9[root@moban data]# sort ip.txt |uniq10.0.0.710.0.0.810.0.0.9[root@moban data]# sort -u ip.txt10.0.0.710.0.0.810.0.0.9-u, --uniquewith -c, check for strict ordering; without -c, output only thefirst of an equal run[root@moban data]# sort ip.txt |uniq -c2 10.0.0.73 10.0.0.82 10.0.0.9uniq:-c 计数-c, --countprefix lines by the number of occurrences[root@moban data]# awk -F / '{print $3}' url.txtwww.etiantain.orgwww.etiantain.orgpost.etiantain.orgmp3.etiantain.orgwww.etiantain.orgpost.etiantain.org
解答:
[root@moban data]# awk -F / '{print $3}' url.txt|sort|uniq -c1 mp3.etiantain.org2 post.etiantain.org3 www.etiantain.org降序排序:法1:[root@moban data]# awk -F / '{print $3}' url.txt|sort|uniq -c|sort -r3 www.etiantain.org2 post.etiantain.org1 mp3.etiantain.org法2:cut[root@moban data]# cut -d / -f3 url.txt |sort|uniq -c|sort -r3 www.etiantain.org2 post.etiantain.org1 mp3.etiantain.org优化:[root@moban data]# cut -d / -f3 url.txt |sort -r|uniq -c3 www.etiantain.org2 post.etiantain.org1 mp3.etiantain.org排序:sort –rn[root@lanny test]# cat ip.txt10.0.0.9 o10.0.0.9 a10.0.0.8 z10.0.0.8 k10.0.0.8 c10.0.0.7 n10.0.0.7 f对第二列排序-t 分隔符 –k 第几列[root@lanny test]# sort -t " " -k2 ip.txt10.0.0.9 a10.0.0.8 c10.0.0.7 f10.0.0.8 k10.0.0.7 n10.0.0.9 o10.0.0.8 z分隔符默认是空格,因此 –t 可以省略[root@lanny test]# sort -k2 ip.txt[root@lanny test]# sort -rk2 ip.txt #倒序排列-t 表示按点号分隔域类似awk的-F,取字段用$1 $2或cut的-d,取字段f数字.sort –runtk-r 倒序 –u 去重 –n数字 -t分隔 –k 第几行uniq –c题目:要求对ip的第三列降序排序,如果第三列相同,那就第四列按照降序排序.[root@lanny test]# cat arp.txt192.168.0.3 00:e0:4c:41:d2:a5192.168.2.2 00:e0:4c:41:d1:7d192.168.3.7 00:50:bf:11:94:60192.168.3.5 00:e0:4c:43:a3:46192.168.2.4 00:0a:eb:6d:08:10192.168.1.2 00:01:6c:99:37:47192.168.4.9 00:0a:e6:b5:d1:4b192.168.0.4 00:0e:1f:51:74:24192.168.6.7 00:1d:72:40:b2:e1192.168.8.4 00:01:6c:36:5d:64192.168.1.22 00:e0:4c:41:ce:73192.168.0.15 00:e0:4c:41:d7:0e192.168.2.9 00:e0:4c:41:d1:8b192.168.0.122 00:16:ec:c5:46:45192.168.9.115 00:01:6c:98:f7:07192.168.7.111 00:17:31:b6:6e:a9sort -t. -k3.1,3.1nr -k4.1,4.3nr arp.txt-k多少列-k3.1,3.3 第三列第一个字符到第三列第一个字符-k4.1,4.3 第四列第一个字符,第四列第三个字符[root@lanny test]# sort -t. -k3.1,3.1nr -k4.1,4.3nr arp.txt192.168.9.115 00:01:6c:98:f7:07192.168.8.4 00:01:6c:36:5d:64192.168.7.111 00:17:31:b6:6e:a9192.168.6.7 00:1d:72:40:b2:e1192.168.4.9 00:0a:e6:b5:d1:4b192.168.3.7 00:50:bf:11:94:60192.168.3.5 00:e0:4c:43:a3:46192.168.2.9 00:e0:4c:41:d1:8b192.168.2.4 00:0a:eb:6d:08:10192.168.2.2 00:e0:4c:41:d1:7d192.168.1.22 00:e0:4c:41:ce:73192.168.1.2 00:01:6c:99:37:47192.168.0.122 00:16:ec:c5:46:45192.168.0.15 00:e0:4c:41:d7:0e192.168.0.4 00:0e:1f:51:74:24192.168.0.3 00:e0:4c:41:d2:a5题目:[百度搜狐面试题] 统计url出现次数 ---awk解决oldboy.loghttp://www.etiantain.org/index.htmlhttp://www.etiantain.org/1.htmlhttp://post.etiantain.org/index.htmlhttp://mp3.etiantain.org/3.htmlhttp://www.etiantain.org/1.htmlhttp://post.etiantain.org/2.html数组:[root@lanny test]# awk 'BEGIN{array[1]="lanny";array[2]="oldlanny";for(key in array) print key,array[key]}'1 lanny2 oldlannyt2.awk#!/bin/awkBEGIN{array[1]="lanny"array[2]="oldlanny"for(key in array)print key,array[key]}解析:begin定义,表示初始化数组[root@lanny test]# awk -f t2.awk1 lanny2 oldlanny[root@lanny test]# ./t2.awk #加了权限后可以这样执行-f 从文件读另一种方式:提供BEGIN和END的作用是给程序赋予初始状态和在程序之后执行一些扫尾的工作.任何在BEGIN之后列出的操作(在{}内)将在awk开始扫描输入之前执行,而END之后列出的操作将在扫描完全部的输入之后执行.因此,通常使用BEGIN来显示变量和预置(初始化)变量,使用END来输出最终结果.将数组输出[root@lanny test]# awk 'BEGIN{array[1]="lanny";array[2]="oldlanny";}END{for (key in array) print key,array[key]}' /etc/hosts #没什么实在意义,只不过写法需要数据流, begin 初始化,end 处理.1 lanny2 oldlanny[root@lanny test]#cat /etc/hosts | awk 'BEGIN{array[1]="lanny";array[2]="oldlanny";}END{for (key in array) print key,array[key]}'将文件内容输出为数组[root@lanny test]# awk 'BEGIN{array[1]="lanny";array[2]="oldlanny";}END{for (key in array) print key,array[key]}' /etc/hosts > awk.log[root@lanny test]# cat awk.log1 lanny2 oldlanny把第一列做为下标,第二列做为值输出.放入S[]输出[root@lanny test]# awk '{S[$1]=$2}END{for(k in S) print k,S[k]}' awk.log1 lanny2 oldlanny