四个大型开源数据和数据湖系统

发布时间：2021-03-31 13:06:26 所属栏目：动态来源：互联网

导读：ache Iceberg 最初由Netflix设计和开发。关键的想法是组织目录树中的所有文件，如果您需要在2018年5月创建的文件在Apache iceBerg中，您只需找出该文件并只读该文件，也没有必要阅读您可以阅读的其他文件忽略您对当前情况不太重要的其他数据。核心思想是跟踪

ache Iceberg 最初由Netflix设计和开发。关键的想法是组织目录树中的所有文件，如果您需要在2018年5月创建的文件在Apache iceBerg中，您只需找出该文件并只读该文件，也没有必要阅读您可以阅读的其他文件忽略您对当前情况不太重要的其他数据。核心思想是跟踪时间表上表中的所有更改。

它是一种用于跟踪非常大的表的数据湖解决方案，它是一个轻量级数据湖解决方案，旨在解决列出大量分区和耗时和不一致的元数据和HDFS数据的问题。它包含三种类型的表格格式木质，Avro和Orc.in Apache iceberg表格格式与文件集合和文件格式的集合执行相同的东西，允许您在单个文件中跳过数据

它是一种用于在非常大型和比例表上跟踪和控制的新技术格式。它专为对象存储而设计(例如S3)。Iceberg 中更重要的概念是一个快照。快照表示一组完整的表数据文件。为每个更新操作生成新快照。

Apache Iceberg 有以下特征：

ACID 事务能力，可以在不影响当前运行数据处理任务的情况下进行上游数据写入，这大大简化了ETL; Iceberg 提供更好的合并能力，可以大大减少数据存储延迟;
支持更多的分析引擎优异的内核抽象使其不绑定到特定的计算引擎。目前，冰山支持的计算发动机是Spark，Flink，Presto和Hive。
Apache Iceberg为文件存储，组织，基于流的增量计算模型和基于批处理的全尺度计算模型提供统一和灵活的数据。批处理和流式传输任务可以使用类似的存储模型，并且不再隔离数据。iceberg支持隐藏的分区和分区演进，这促进了业务更新数据分区策略。支持三个存储格式木质，Avro和Orc。
增量读取处理能力iceBerg支持以流式方式读取增量数据，支持流和传输表源。

Apache Hudi

Apache Hudi是一个大数据增量处理框架，它试图解决摄取管道的效率问题和在大数据中需要插入，更新和增量消耗基元的ETL管道。它是针对分析和扫描优化的数据存储抽象，其可以在几分钟内将更改应用于HDF中的数据集，并支持多个增量处理系统来处理数据。通过自定义InputFormat与当前Hadoop生态系统(包括Apache

（编辑：东莞站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

神舟十四号载人飞行任	微软 Visual Studio 2
FCC 文件揭示苹果神秘	欧洲首家本土电池厂 N