pig教程 – 编码无悔 / Intent & Focused

[原创] 如何减少map-only的Pig job的输出文件数

2023 年 11 月 18 日2019 年 08 月 11 日作者 learnhard

查看更多Apache Pig的教程请点击这里。

如果一个Pig job是map-only的job，并且其输入文件数很多的话，那么输出的文件数也会同样多，此时，如果每个文件大小又比较小的话，长久下去就会对Haodoop NameNode造成很大压力。我们可以通过给Pig job添加一个reduce过程来减少输出文件数。

[原创]Apache Pig中文教程合集

2023 年 11 月 18 日2012 年 03 月 24 日作者 learnhard

Apache Pig是用来处理大规模数据的高级查询语言，配合Hadoop使用，可以在处理海量数据时达到事半功倍的效果，比使用Java，C++等语言编写大规模数据处理程序的难度要小N倍，实现同样的效果的代码量也小N倍。

我根据自己在工作中的学习和总结，写了如下一些Apache Pig中文教程，供大家参考。
文章来源：http://www.codelast.com/
➤ Apache Pig的一些基础概念及用法总结（1）

➤ Apache Pig的一些基础概念及用法总结（2）

➤ Apache Pig中文教程（进阶）

[原创]Apache Pig中文教程（进阶）

2023 年 11 月 18 日2012 年 03 月 15 日作者 learnhard

本文包含Apache Pig的一些进阶技巧及用法小结。如要学习基础教程，请查看我写的【其他几篇文章】。
本文的大量实例都是作者Darran Zhang（website: codelast.com）在工作、学习中总结的经验或解决的问题，并且添加了较为详尽的说明及注解，此外，作者还在不断地添加本文的内容，希望能帮助一部分人。

Apache Pig是用来处理大规模数据的高级查询语言，配合Hadoop使用，可以在处理海量数据时达到事半功倍的效果，比使用Java，C++等语言编写大规模数据处理程序的难度要小N倍，实现同样的效果的代码量也小N倍。