分类: 大数据

包括大数据相关的最新资讯、前沿技术、使用技巧、应用案例等内容,涉及数据分析、数据可视化、商业智能、Hadoop、Spark、数据湖、数据仓库、等领域。

数据湖系列(2) – Iceberg 核心功能原理剖析

上一篇文章 数据湖系列(1) – Hudi 核心功能原理剖析 中讲解了关于 Hudi 的基本概念和功能原理,Hudi 利用主键索引的方法来实现了 Upsert 的语义。Apache Iceberg 也是一个广为应用的数据湖框架,虽然两个框架的设计初衷和思路不同,但如今随着需求逐步丰富,两者对于使用者来说,却是越来越趋于一致了。

使用 Flink Hudi 构建流式数据湖平台

摘要:本文整理自阿里巴巴技术专家陈玉兆 (玉兆)、阿里巴巴开发工程师刘大龙 (风离) 在 Flink Forward Asia 2021 的分享。主要内容包括:

Apache Hudi 101
Flink Hudi Integration
Flink Hudi Use Case
Apache Hudi Roadmap

银行业数据治理实践

“数据治理”的历史可以发展分为三个阶段。 第一阶段早期探索,早在 1988 年由麻省理工学院的两位教授启 动了全面数据质量管理计划(TDQM),可以认为是数据治理最初的雏 形,同年,DAMA(国际数据管理组织协会)成立。时间一直走到 200…

数据治理研究报告(2020)

    本报告从国家治理视角出发,以释放数据 价值作为数据治理的核心目标,针对当前技术产业和法律政策背景 下影响数据价值释放的各方因素,构建完善数据要素市场制度基础 设施。提出以数据开放共享、数据质量管理、数据交易流通和数据 风险规制四个方…