您当前的位置: 首页 > 

宝哥大数据

暂无认证

  • 0浏览

    0关注

    1029博文

    0收益

  • 0浏览

    0点赞

    0打赏

    0留言

私信
关注
热门博文

由于ftp日志取数据出现重取导致日志计算数据量偏大

宝哥大数据 发布时间:2017-02-23 21:15:06 ,浏览量:0

原始数据:文件a 中210_f531_UUCELLMR_201702202350_00.CSV出现重取 这里写图片描述

通过uniq -c查到重取的文件
 cat a |awk '{print $1}'|uniq -c |grep -v '      1'

前部数字大于1的为重取, 这里写图片描述

获取重取得文件最后一次的数据

由于每行数据为文件名 大小 我们的数据已经排序,所以我们通过uniq -c 获取的文件名,来获取每个文件的记录最后一个

for line in `cat a |awk '{print $1}'|uniq -c |awk '{print $2}'`
do
cat a |grep $line |tail -n 1 >> b
done
我们对比a,b两个文件,确实过滤了
[root@chb ~]# cat a |awk '{print $1}'|wc -l
2300
[root@chb ~]# cat a |awk '{print $1}'|sort |uniq|wc -l
1805
[root@chbchb~]# cat b |awk '{print $1}'|wc -l 
1805
关注
打赏
1587549273
查看更多评论
立即登录/注册

微信扫码登录

0.0378s