四个大型开源数据和数据湖系统
ache Iceberg 最初由Netflix设计和开发。关键的想法是组织目录树中的所有文件,如果您需要在2018年5月创建的文件在Apache iceBerg中,您只需找出该文件并只读该文件,也没有必要阅读您可以阅读的其他文件忽略您对当前情况不太重要的其他数据。核心思想是跟踪时间表上表中的所有更改。 它是一种用于跟踪非常大的表的数据湖解决方案,它是一个轻量级数据湖解决方案,旨在解决列出大量分区和耗时和不一致的元数据和HDFS数据的问题。它包含三种类型的表格格式木质,Avro和Orc.in Apache iceberg表格格式与文件集合和文件格式的集合执行相同的东西,允许您在单个文件中跳过数据 它是一种用于在非常大型和比例表上跟踪和控制的新技术格式。它专为对象存储而设计(例如S3)。Iceberg 中更重要的概念是一个快照。快照表示一组完整的表数据文件。为每个更新操作生成新快照。 Apache Iceberg 有以下特征:
Apache Hudi
Apache Hudi是一个大数据增量处理框架,它试图解决摄取管道的效率问题和在大数据中需要插入,更新和增量消耗基元的ETL管道。它是针对分析和扫描优化的数据存储抽象,其可以在几分钟内将更改应用于HDF中的数据集,并支持多个增量处理系统来处理数据。通过自定义InputFormat与当前Hadoop生态系统(包括Apache (编辑:东莞站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |