1、能说下实时处理这块搭建的系统的架构吗?
2、SparkStreaming从kafka消费数据,怎么保证不会重复呢?偏移量也不是实时去提交,假如说在消费的过程中,出现重启,这种情况下怎么确保不会有部分数据重复处理?
SparkStreaming有这个机制吗?
3、sparkstreaming的工作过程。
4、采用redis对当日日活设备进行过滤统计,这个怎么理解呢?这样能实时动态的展示日活量吗?怎么统计的日活量?
5、大屏实时显示日活数,怎么做的?这里又用到redis又用到hbase,主要目的是什么呢?
为什么选择hbase呢,市面上也有一些关系型数据库是可以支撑的。
6、phenix的索引怎么做的呢?为什么会提高查询速率呢?
7、根据rowkey去hbase查数据的过程。
全部评论
(1) 回帖