原始数据:文件a 中210_f531_UUCELLMR_201702202350_00.CSV出现重取
uniq -c
查到重取的文件
cat a |awk '{print $1}'|uniq -c |grep -v ' 1'
前部数字大于1的为重取,
由于每行数据为文件名 大小 我们的数据已经排序,所以我们通过uniq -c 获取的文件名,来获取每个文件的记录最后一个
for line in `cat a |awk '{print $1}'|uniq -c |awk '{print $2}'`
do
cat a |grep $line |tail -n 1 >> b
done
我们对比a,b两个文件,确实过滤了
[root@chb ~]# cat a |awk '{print $1}'|wc -l
2300
[root@chb ~]# cat a |awk '{print $1}'|sort |uniq|wc -l
1805
[root@chbchb~]# cat b |awk '{print $1}'|wc -l
1805