转载须注明出处:http://www.codelast.com/

SequenceFile是Hadoop API提供的一种二进制文件,它将数据以<key,value>的形式序列化到文件中。

如果你要用Apache Pig读取这种类型的数据,可以用 PiggyBank 中的SequenceFileLoader——我没有用过,但肯定是没问题的。
但是,如果你保存在SequenceFile中的key或value是ThriftWritable类型的数据,那么,要用Pig来 load & store 这种数据,就不那么容易了。
幸好我们有Twitter,它已经帮我们做好了这个工作。利用其开源的 Elephant Bird,我们可以轻松做到这一点。
Elephant Bird 中的 SequenceFileLoader 以及 SequenceFileStorage 就是用来干这个的。
 
例如,load数据的做法是:
A = LOAD 'xxx' USING com.twitter.elephantbird.pig.load.SequenceFileLoader(
 '-c com.mediav.elephantbird.pig.util.BooleanWritableConverter',
 '-c com.twitter.elephantbird.pig.util.ThriftWritableConverter com.codelast.MyThriftClass');
其中,这份SequenceFile的key是BooleanWritable类型,value是ThriftWritable类型,它对应的Thrift类是MyThriftClass,这是一个自定义的Thrift class。
文章来源:http://www.codelast.com/
store 数据的做法是:
STORE B INTO 'xxx' USING com.twitter.elephantbird.pig.store.SequenceFileStorage(
 '-c com.mediav.elephantbird.pig.util.BooleanWritableConverter',
 '-c com.twitter.elephantbird.pig.util.ThriftWritableConverter com.codelast.MyThriftClass');
其中,对key和value的说明和上面一样。
 
这样,就可以实现加载以及存储SequenceFile了。
文章来源:http://www.codelast.com/
但是你会发现,这样输出的SequenceFile是未压缩的,所以文件体积比较大。如果要压缩,该怎么做呢?
答案就是在Pig脚本中添加以下几句话就OK了:
SET output.compression.enabled 'true';
SET mapreduce.output.fileoutputformat.compress.type 'BLOCK';
SET output.compression.codec 'org.apache.hadoop.io.compress.DefaultCodec';
这会使得输出的SequenceFile是BLOCK压缩类型,默认压缩编码的文件。
[原创] 如何用Apache Pig输出压缩格式的SequenceFile
Tagged on:                                         

发表评论

电子邮件地址不会被公开。 必填项已用*标注