在将数据加载进Hive时,经常需要对数据进行初步的多文件合并,分隔符替换统一等初步数据清洗需求,针对此种场景可以使用shell简单高效的完成相关工作,一下简单总结记录。
将目录下的多个文件合并成一个文件1、进入目录,cat a.txt b.txt c.txt > all.txtcat *.txt > all.txt2、命令将当前目录下的文件合并find . -type f -exec cat {} \;>all_files.txt3、通过命名特征查询合并find . -name "*.txt" | xargs cat > all.txt4、合并并设置默认换行符find . -name "*.txt" | xargs sed 'a\' > all_a.txt替换文件中的字符串1、将当前目录下包含jack串的文件中,jack字符串替换为tomsed -i "s/jack/tom/g" `grep "jack" -rl ./`2、将某个文件中的jack字符串替换为tomsed -i "s/jack/tom/g" test.txt3、替换fileName文件中的空格sed s/[[:space:]]//g fileName4、替换fileName文件中的空行grep -v "^$" fileName5、统计fileName文件中文本行数awk 'END{print NR}' fileName6、对fileName1文件中的内容进行去重并输出到fileName2中cat fileName1 | sort -n | sort -u > fileName2sort -n 表示 排序sort -u 表示 去重sort -r 表示 对当前排序取反sort -o 可以重定向到原文件(即为在源文件上修改)