博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
shell数据清洗相关命令
阅读量:6711 次
发布时间:2019-06-25

本文共 803 字,大约阅读时间需要 2 分钟。

hot3.png

       在将数据加载进Hive时,经常需要对数据进行初步的多文件合并,分隔符替换统一等初步数据清洗需求,针对此种场景可以使用shell简单高效的完成相关工作,一下简单总结记录。

将目录下的多个文件合并成一个文件1、进入目录,cat a.txt b.txt c.txt > all.txtcat *.txt > all.txt2、命令将当前目录下的文件合并find . -type f -exec cat {} \;>all_files.txt3、通过命名特征查询合并find . -name "*.txt" | xargs cat > all.txt4、合并并设置默认换行符find . -name "*.txt" | xargs sed 'a\' > all_a.txt替换文件中的字符串1、将当前目录下包含jack串的文件中,jack字符串替换为tomsed -i "s/jack/tom/g" `grep "jack" -rl ./`2、将某个文件中的jack字符串替换为tomsed -i "s/jack/tom/g" test.txt3、替换fileName文件中的空格sed s/[[:space:]]//g fileName4、替换fileName文件中的空行grep -v "^$" fileName5、统计fileName文件中文本行数awk 'END{print NR}' fileName6、对fileName1文件中的内容进行去重并输出到fileName2中cat fileName1 | sort -n | sort -u > fileName2sort -n 表示 排序sort -u 表示 去重sort -r 表示 对当前排序取反sort -o 可以重定向到原文件(即为在源文件上修改)

 

转载于:https://my.oschina.net/peakfang/blog/2236824

你可能感兴趣的文章
云因成本高昂屡被关注,上云的价值是什么?
查看>>
深入探索JVM自动资源管理
查看>>
Steve Thair谈DevOps on Windows的演变与面临的挑战
查看>>
过去一年,被我们“高估”的技术清单
查看>>
案例学习:Jigsaw模块化迁移
查看>>
ASP.NET 2.2 Preview 1首次支持Java SignalR客户端
查看>>
Netty 源码分析之 零 磨刀不误砍柴工 源码分析环境搭建
查看>>
[deviceone开发]-动画示例源码
查看>>
实现iOS图片等资源文件的热更新化(一): 从Images.xcassets导出合适的图片
查看>>
magento2 ajax机制 (customer-data)
查看>>
magento 2模块开发实例helloworld模块
查看>>
关于if-else流程图的画法
查看>>
calc 与 box-sizing 的替代
查看>>
如何使用 Java 构建微服务?
查看>>
kafka的SSL证书校验不通过
查看>>
glom模块的使用(二)
查看>>
Spring Boot 的 10 个核心模块
查看>>
我30岁了,转行学编程可以吗? 排除法告诉你答案
查看>>
Python进阶:全面解读高级特性之切片!
查看>>
社交大战升级,语音新物种“听途听app”获数百万天使轮融资
查看>>