Smart's Blog

greenplum 利用gpload导入数据

       今天学习了如何使用greenplum的gpload工具往greenplum数据库中导入数据。记录一下导入的步骤。

       假如我们要将150机器上的一个文本文件source_user.txt内的数据导入151的gp集群的yum库的test.dest_user表。首先创建一个load control文件,这是一个YAML格式的文件,用于指定gp数据库信息、gpfdist配置信息、外部表选项以及数据格式等,于是我们创建一个名为user.yaml文件。内容如下:

image

然后在命令行执行命令:gpload -f user.yaml,看到如下信息即完成数据导入工作:

image

       此外,从图中我们看到gpload启动了gpfdist服务,这是一个并行文件分发服务。启动gpfdist服务后,gp的所有节点都会连接到这个服务,并创建外部表,然后gpfdist服务将文件内的数据内容随机分发到各个节点的外部表中,各个节点再通过计算重发这些数据到相应的节点中,整个过程充分利用了网络共享和各节点的硬件资源,效率很高。