有多种技术可以为实时主动数据仓库提供数据集成服务Y比如脚本ETL
EAI和CDC但是Y只有部分技术能提供实时(连续)的提供了连续变化数据的捕捉和分
发能力Y并且只需要很低的开销和时间延迟CDC在提交的数据事务上进行
操作Y从OLTP系统中捕获变化的数据Y再进行基本的转换Y最后把数据发送
到数据仓库中虽然在体系结构上YCDC属于异步的Y但它表现出类似同步
的行为Y数据延迟只有不到1秒的时间Y同时能够维护数据事务的一致性。
ETL是将业务系统的数据经过抽取?
Extract?清洗转换?
Transform?
之后加载?
Load?到数据仓库的过程Y目的是将企业中的分散零乱
标准不统一的数据整合到一起Y为企业的决策提供分析依据
ETL是指从原系统中抽取数据Y并根据实际商务需求对数据进行转换Y然
后把转换结果加载到目标数据存储结构中源和目标通常都是数据库和文
件Y也可以是消息队列等。
数据抽取
可以采用周期性的pull机制或者事件驱动的push机制
pull机制支持数据整合Y通常以批处理的方式工作
push机制通常采用在线方式工作Y可以把数据变化传播到目标数据存储
结构。
数据转换
包括数据重构和整合数据内容清洗或集成
数据加载
对整个目标数据存储结构进行刷新Y或者只是对目标数据存储进行增量更
新。
早期的ETL解决方案通常以固定的周期运行批处理工作Y从平面文件和