多源异构数据爆炸式增长带来数据沼泽、信息孤岛等问题,导致无用数据和陈旧数据产生,而数据湖凭借原始格式存储、数据存储类型多样和开放访问等优势解决了数据存入问题,但其缺乏事务管理支持能力、数据治理能力,从而限制了数据产出。因此,企业多以将数据提取/加载/转换(ELT)到数据湖后再提取/转 换/加载(ETL)到数据仓库中的方式打通湖仓之间管道以同时获取二者优势,但这种二层架构存储成本高、数据一致性和可靠性不足、对高级分析的支持有限。在此基础上,业界提出湖仓一体(lakehouse),在数据湖上添加高级管理层具化数据仓库功能,实现多元化数据存储、存储计算资源分离、事务管理支持、丰富场景分析应用等优势组合。
详见:https://mp.weixin.qq.com/s/0bJDq1oGD1YOQWsoMQJwBg