1.18.1. Data处理

[quickstart-data] 大数据、流式计算

1.18.1.1. Flink框架

数据处理：druid-io、flume、hadoop、hbase、、lucene、solr、、

1、大数据统计重复数和大数据Top 100 问题

大数据统计重复数
1、直接使用map保存记录
2、先分成若干份，再全部合并

大数据Top 100 问题：
1、直接使用快速排序（占用内存大）
2、先取出100个数据，然后进行排序，后面的依次跟100个数据的最小值比较，大了就替换
3、先分成若干份，分别取出前100，再依次合并（或全部合并）