[原创]Apache Pig的一些基础概念及用法总结(2)

查看更多Apache Pig的教程请点击这里

▶▶ LIMIT操作并不会减少读入的数据量
如果你只需要输出一个小数据集,通常你可以使用LIMIT来实现,例如:

A = LOAD '1.txt' AS (col1: int, col2: chararray);
B = LIMIT A 5;
DUMP B;

Pig会只加载5条记录,就不再读取其他的记录了吗?答案是:不会。Pig将读取数据文件中的所有记录,然后再从中挑5条。这是Pig可以做优化、却没有做的一点。
【更新】Pig 0.10已经有了这功能了:

Push Limit into Loader
Pig optimizes limit query by pushing limit automatically to the loader, thus requiring only a fraction of the entire input to be scanned.
按我的理解,上面这段话的含义是:Pig将LIMIT查询自动优化到loader中,这样就只会扫描整个输入数据集的一部分(而不是全部)。

文章来源:http://www.codelast.com/
▶▶ 使用UDF不一定要在Pig脚本中REGISTER,也可以在命令行指定
大家知道,使用UDF需要在Pig脚本中REGISTER该UDF的jar包,但你可能不知道,你也可以不在Pig脚本中REGISTER它,而是通过命令行指定:

pig -Dpig.additional.jars=/home/codelast/a.jar:/home/codelast/b.jar:/home/codelast/c.jar test.pig

以上命令告诉了我们几件事:
我们让Pig执行了test.pig脚本;
我们向Pig传入了“pig.additional.jars”这样一个参数,此参数的作用相当于在Pig脚本中REGISTER jar包;
如果你要REGISTER多个jar包,只需像上面的例子一样,用分号(:)把多个jar包路径隔开即可;
test.pig必须写在最后,而不能写成“pig test.pig -Dpig.additional.jars=XXX”这样,否则Pig直接报错:

ERROR 2999: Unexpected internal error. Encountered unexpected arguments on command line - please check the command line.

当然,为了可维护性好,你最好把REGISTER jar包写在Pig脚本中,不要通过命令行传入。

▶▶ 使用ORDER排序时,null会比所有值都小
用ORDER按一个字段排序,如果该字段的所有值中有null,那么null会比其他值都小。

▶▶ 如何按指定的几个字段来去重
去重,即去除重复的记录。通常,我们使用DISTINCT来去除整行重复的记录,但是,如果我们只想用几个字段来去重,怎么做?
假设有以下数据文件:

[root@localhost ~]$ cat 1.txt 
1    2   3   4   uoip
1    2   3   4   jklm
9    7   5   3   sdfa
8    8   8   8   dddd
9    7   5   3   qqqq
8    8   8   8   sfew

我们要按第1、2、3、4个字段来去重,也就是说,去重结果应为:

1    2   3   4   uoip
9    7   5   3   sdfa
8    8   8   8   dddd

那么,我们可以这样做:

A = LOAD '1.txt' AS (col1: chararray, col2: chararray, col3: chararray, col4: chararray, col5: chararray);
B = GROUP A BY (col1, col2, col3, col4);
C = FOREACH B {
    D = LIMIT A 1;
    GENERATE FLATTEN(D);
};
DUMP C;

文章来源:http://www.codelast.com/
输出结果为:

(1,2,3,4,uoip)
(8,8,8,8,dddd)
(9,7,5,3,sdfa)

代码很简单,就是利用了GROUP时会自动对group的key去重的功能,这里不用多解释大家应该也能看懂。

▶▶ 如何设置Pig job的名字,使得在Hadoop jobtracker中可以清晰地识别出来
在Pig脚本中的一开始处,写上这一句:

set job.name 'This is my job';

将使得Pig job name被设置为“This is my job”,从而在Hadoop jobtracker的web界面中可以很容易地找到你的job。如果不设置的话,其名字将显示为“PigLatin:DefaultJobName”。

▶▶ “scalar has more than one row in the output”错误的一个原因
遇到了这个错误?我来演示一下如何复现这个错误。
假设有两个文件:

[root@localhost ~]$ cat a.txt 
1    2
3    4
[root@localhost ~]$ cat b.txt 
3    4
5    6

现在我们来做一个JOIN:

A = LOAD 'a.txt' AS (col1: int, col2: int);
B = LOAD 'b.txt' AS (col1: int, col2: int);
C = JOIN A BY col1, B BY col1;
D = FOREACH C GENERATE A.col1;
DUMP D;

这段代码是必然会fail的,错误提示为:

org.apache.pig.backend.executionengine.ExecException: ERROR 0: Scalar has more than one row in the output. 1st : (1,2), 2nd :(3,4)

文章来源:http://www.codelast.com/
乍一看,似乎代码简单得一点问题都没有啊?其实仔细一看,“A.col1”的写法根本就是错误的,应该写成“A::col1”才对,因为你只要 DESCRIBE 一下 C 的schema就明白了:

C: {A::col1: int,A::col2: int,B::col1: int,B::col2: int}

Pig的这个错误提示得很不直观,在这个链接中也有人提到过了。

▶▶ 如何输出LZO压缩格式的文本文件
借助于elephant-bird,可以轻易完成这个工作。
方法1:

A =LOAD 'input';
STORE A INTO 'output' USING com.twitter.elephantbird.pig.store.LzoPigStorage();

结果就会得到一堆名称类似于“part-m-00000.lzo”的文件。
注意以上省略了一堆的“REGISTER XXX.jar”代码,你需要自己添加上你的jar包路径。
方法2:
在Pig脚本的最前面添加两句话:

set mapred.output.compression.codec 'com.hadoop.compression.lzo.LzopCodec';
set mapred.output.compress 'true';

STORE的时候(不需要USING...)会自动将文件保存为LZO格式。
文章来源:http://www.codelast.com/
有人说,那加载LZO压缩的文本文件呢?很简单:

A = LOAD 'output' USING com.twitter.elephantbird.pig.store.LzoPigStorage(',');

这表示指定了分隔符为逗号,如果不想指定,省略括号中的内容即可。

▶▶ 如何输出 gz 及 bz2 压缩格式的文件
首先请看这个链接的说明。摘录一段话:

Compression
 
Storing to a directory whose name ends in ".bz2" or ".gz" or ".lzo" (if you have installed support for LZO compression in Hadoop) will automatically use the corresponding compression codec.
output.compression.enabled and output.compression.codec job properties also work.
Loading from directories ending in .bz2 or .bz works automatically; other compression formats are not auto-detected on loading.
说得简单点就是:当你把保存的目录名设置为以 .bz2 或 .gz 结尾时,输出的文件就自动会被压缩为对应的文件格式。
因此,我就有了下面这两段极其简单的示例代码:

--压缩率稍低
A = LOAD '1.txt';
STORE A INTO 'z.gz';

--压缩率较高
A = LOAD '1.txt';
STORE A INTO 'z.bz2';

正如上面的注释所示,bz2 的压缩率比 gz 高。
最后生成的目录下,文件名类似于:

part-m-00000.gz
part-m-00001.gz
part-m-00002.gz

如果是 bz2,则后缀名为 .bz2。

有人可能觉得这种通过目录名实现的方式不直观,那么你也可以在Pig脚本中指定输入文件的压缩格式。下面的例子演示了如何输出gzip格式的压缩文件(此时,目录名就不用以.gz结尾了):

set output.compression.enabled true;
set output.compression.codec org.apache.hadoop.io.compress.GzipCodec;

文章来源:http://www.codelast.com/
▶▶ 类似于Java字符串的contains方法,在Pig中怎么做
例如,要判断一个字符串“abc”是否包含“bc”,怎么做?
有一个方法,利用Pig内置的
INDEXOF函数来实现:

INDEXOF(string, 'character', startIndex)

string: The string to be searched.
'character': The character being searched for, in quotes.
startIndex: The index from which to begin the forward search. The string index begins with zero (0).
即:string 相当于上面所说的字符串“abc”,'character'相当于上面所说的字符串“bc”,startIndex设置为0即可,表示从字符串“abc”的头开始搜索。
如果能查到字符串,则返回值为搜索到的字符串的起始索引位置;如果查不到字符串,则返回值为-1。
这里给一个例子。输入数据为:
[root@localhost] ~$ cat a.txt 
abc    123

Pig脚本:

A = LOAD 'a.txt' AS (col1: chararray, col2: chararray);
B = FOREACH A GENERATE INDEXOF(col1, 'abc', 0), INDEXOF(col2, '9', 0);
DUMP B;

输出结果:

(0,-1)

可见,查不到的字符串,其返回值为-1。

▶▶ 类型为long的字段做FILTER的时候,数字没有加“L”可能会导致结果错误!
我遇到的一个真实问题,下面的代码:

A = LOAD '/path/to/my/data' USING MyLOADER;
B = FILTER A BY (fieldId == 3125694275663397348L OR fieldId == 3125694275741155094L);

对LOAD进来的数据进行了一个简单的FILTER,其中,fieldId 是一个类型为 long 的字段,这样写没有任何问题。但是如果把FILTER条件里的数字后面的“L”去掉,Pig不会报错,但FILTER语句可能就会失效。所以在写字面数字的时候,一定要为long类型后面加上“L”!

▶▶ 加载Sequence file不能当作纯文本文件来加载
假设Sequence file是 TAB制表符 分隔的两列数据,正确加载它可以这样写:

A = LOAD 'xxx' USING com.twitter.elephantbird.pig.load.SequenceFileLoader();
-- SequenceFileLoader加载出来的数据,自动会加上schema:{key: chararray,value: chararray}
B = FOREACH A GENERATE key AS col1, value AS col2;
C = LIMIT B 10;
DUMP C;

如果你把它当作未压缩的纯文本文件来加载(不使用USING XXX),则会发现job不报错,但实际上读出来的数据都是乱码。
文章来源:https://www.codelast.com/
➤➤ 版权声明 ➤➤ 
转载需注明出处:codelast.com 
感谢关注我的微信公众号(微信扫一扫):
wechat qrcode of codelast
以及我的微信视频号:

《[原创]Apache Pig的一些基础概念及用法总结(2)》有2条评论

  1. 问一下,用了pig -Dpig.additional.jars=/home/codelast/a.jar:/home/codelast/b.jar:/home/codelast
    这个后在脚本中可以定义别名或者直接用怎么用?我的一直报错误,说是不认识那个UDF

    回复

发表评论