实时大数据流式计算入门路径

从应用开发者(即使用者)的角度, 从论文来理解思路和模型入门, 或者从API入门都好, 都不要从原理入门. 因为从原理入门, 一开始就会陷入各种实现, 以及解决各种有解又无解的分布式问题里面. 比如 存活&安全的冲突, 底层就是共识, 一致性等等的分布式基本问题 还有内存, 网络, 算力...带来的一系列资源和性能问题 各个框架的实现原理大框架都比较一致, 但是详细的实现差别很大, ...

Flink Distinct & Parallel Aggregate

流式计算依据形态分为: 数据界限: 有界流和无界流(bounded/unbounded) , 数据有无边界 数据源产生: 冷流和热流(cold/hot), 冷: 订阅触发才"生产源", 热: 源一直存在 订阅方式: 缓存, 共享, 回放, 单播, 多播, 广播... ... 批处理原语的局限 MapReduce借鉴了函数式编程的思想, 可以讲是分布式批处理的函数式实 ...