[原创]Apache Pig的一些基础概念及用法总结(2)

转载必须注明出处:http://www.codelast.com/

本文可以让刚接触pig的人对一些基础概念有个初步的了解。
本文的大量实例都是作者Darran Zhang(website: codelast.com)在工作、学习中总结的经验或解决的问题,并且添加了较为详尽的说明及注解,此外,作者还在不断地添加本文的内容,希望能帮助一部分人。
要查看Pig系列教程,请点击【这里】

Apache pig是用来处理大规模数据的高级查询语言,配合Hadoop使用,可以在处理海量数据时达到事半功倍的效果,比使用Java,C++等语言编写大规模数据处理程序的难度要小N倍,实现同样的效果的代码量也小N倍。Twitter就大量使用pig来处理海量数据——有兴趣的,可以看Twitter工程师写的这个PPT
但是,刚接触pig时,可能会觉得里面的某些概念以及程序实现方法与想像中的很不一样,甚至有些莫名,所以,你需要仔细地研究一下基础概念,这样在写pig程序的时候,才不会觉得非常别扭。

本文基于以下环境:
pig 0.8.1… Read More

[转]BigTable/HBase基本概念解读 & Hbase shell常用命令

转自:http://ptsolmyr.com/2010/12/03/bigtable_hbase/ & http://blog.csdn.net/hongbinchen/article/details/6289279

 

BigTable是Key/Value数据库的元老之一。作为Google平台的主要部件,它相对于其他的K-V store较为复杂。在BigTable论文中,是这样定义的:

A Bigtable is a sparse, distributed, persistent multidimensional sorted map.

进一步解释如下:

The map is indexed by a row key, column key, and a timestamp; each value in the map is an uninterpreted array of bytes.

Read More