678杂记

字节跳动混沌工程实践

背景 什么是混沌工程 在生产环境中实际运行分布式系统,难免会有各种不可预料的突发事件发生。同时,云原生的发展,不断推进着微服务的进一步解耦,海量的数据与用户规模也带来了基础设施的大规模分布式演进。分布式系统天生有着各种相互依赖,可以出错的地…

数据湖系列(2) – Iceberg 核心功能原理剖析

上一篇文章 数据湖系列(1) – Hudi 核心功能原理剖析 中讲解了关于 Hudi 的基本概念和功能原理,Hudi 利用主键索引的方法来实现了 Upsert 的语义。Apache Iceberg 也是一个广为应用的数据湖框架,虽然两个框架的设计初衷和思路不同,但如今随着需求逐步丰富,两者对于使用者来说,却是越来越趋于一致了。

使用 Flink Hudi 构建流式数据湖平台

摘要:本文整理自阿里巴巴技术专家陈玉兆 (玉兆)、阿里巴巴开发工程师刘大龙 (风离) 在 Flink Forward Asia 2021 的分享。主要内容包括:

Apache Hudi 101
Flink Hudi Integration
Flink Hudi Use Case
Apache Hudi Roadmap

【企业架构】2022 年 18 大企业架构工具

企业架构系统并不总是必不可少的。据推测,在 1940 年代,国际商业机器公司的一位领导人小托马斯·沃森 (Thomas Watson Jr.) 曾说过:“我认为大约有 5 台计算机的全球市场。” 没有人需要定制软件来跟踪这么短的列表。

用作数据湖的代替Hadoop的开源项目

数据湖通常与面向 Hadoop 的对象存储相关联。在这种情况下,组织的数据首先上传到 Hadoop 平台,然后对驻留在 Hadoop 集群节点上的数据应用数据挖掘和分析工具。 我们发现 Hadoop 的核心是它的存储层HDFS(Hadoop…

加载更多