Data Lake 三剑客——Delta、Hudi、Iceberg 对比分析

  • 时间:
  • 浏览:3
  • 来源:uu快3官网_uu快3登入

定性上讲,三者均为 Data Lake 的数据存储上端层,其数据管理的功能均是基于一系列的 meta 文件。meta 文件的角色这种于数据库的 catalog/wal,起到 schema 管理、事务管理和数据管理的功能。与数据库不同的是,哪此 meta 文件是与数据文件一齐存放到存储引擎中的,用户可不还可以直接想看 。很多做法直接继承了大数据分析中数据对用户可见的传统,怎么让无形中也增加了数据被不小心破坏的风险。一旦某个用户不小心删了 meta 目录,表就被破

作者:辛庸,阿里巴巴计算平台事业部 EMR 技术专家。Apache Hadoop,Apache Spark contributor。对 Hadoop、Spark、Hive、Druid 等大数据组件有深入研究。目前从事大数据云化相关工作,专注于计算引擎、存储特性、数据库事务等内容。