python实现数据仓库ETL（python 数据仓库）-eolink官网

python实现数据仓库ETL（python 数据仓库）

通常讲的数据仓库ETL, 可以分为ETL和ELT两种实现方式. ELT是在加载到仓库后, 再做数据转换. ETL 是在加载之前完成转换, 落地的数据就是转换后的样子了.

ELT多使用在MPP架构的数据仓库平台上, 比如Teradata, greenplum, 主要考虑点是, MPP数据仓库数据处理能力强, 在加载后再做转换, 可以充分利用这一优势. 另外, Extract和Load过程很简单, 且数据仓库厂商提供unloading/loading的命令行工具一般具有并行处理能力, 所以直接用这些命令行工具满足. 至于转换部分过程, 多为通过sql查询出stage区新加的记录, 然后做一些运算, 最后再拼sql将计算后的数据放在另一个区.

如果数据仓库是建在Oracle/SQL Server这类架构数据库上, 多采用ETL方式, 将转换放在数据仓库外运行, 以减轻数据仓库的压力. ETL过程也多选购商业软件, 比如Datastage, SSIS.

在ELT方案中, python也可大有作为. 即使是使用数据仓库厂商提供的命令行工具做Extracting和Loading, python仍可以作为胶水. 拼sql, python的三引号字符串以及字符串操作都超强, 很适合.

在ETL方案中, 使用python完成流程控制自然是很轻松的, 所以关键点是, 提供一个高效的基于记录行的pipeline执行机制, 以及如何提供较高的执行效率. 下面有几个开源项目还不错, 值得在项目中一试. 其实甚至不用什么额外的开源项目, 用标准库也很容易做transform的, 因为python内建支持sqlite, 接下来无需多讲了.

基于pipeline的开源项目:

(推荐度*****) petl, 项目活跃度较高; 文档很不错; 支持多种数据源; 支持iterator(具有lazy加载机制); 很容易学习.

(推荐度****) pygrametl, ,

特点是: 文档全, 有用户实例. 我看了写代码, 代码质量很高; 作者实现了基于维度建模思想的几个转换组件, 支持cpython/jpython, 很容易学习.

(推荐度***) pyf, 具有web 页面, 功能很眩. 大量使用python generator机制, 其本身也是基于flow based programming. 学习难度较大.

ETL往往也要关注执行效率, 关于python并行处理, 单机上, CPython当然要选择multiprocessing方式, 一来可充分利用多核, 同时编程难度也不大. 要是将多个任务分配在几个机器执行, 我认为选用久经考验的gearman最合适, 不仅能提供负载均衡, 而且可以改善可用性.

管理接口平台，提高工作效率的关键解决方案

796 2022-09-05

python实现数据仓库ETL（python 数据仓库）

多平台统一管理软件接口，如何实现多平台统一管理软件接口

多平台统一管理系统接口，提高效率与自动化的关键

管理接口平台，提高工作效率的关键解决方案

推荐文章

接口调用是什么意思？几种常用接口调用方式

接口设计原则

8款在线 API 接口文档管理工具

api管理系统是什么？

什么是接口调试？接口调试的步骤有哪些？

api 接口管理系统有哪些？

接口测试有几种测试方法

API文档生成工具有哪些？

微服务和api网关区别

交换机配置步骤

最近发表

热评文章

在线接口文档管理工具推荐，支持在线测试，HTTP接口

开源的在线接口文档wiki工具Mindoc的介绍与使

如何优雅的进行接口设计？接口设计的六大原则是什么？

什么是API测试,api检测公司

遇到百度网址安全中心提醒您该页面可能存在钓鱼欺诈信息

软件接口设计怎么做？前后端分离软件接口设计思路