1.18.1. Data处理
1、Flink框架
4、Spark框架
5、Spider爬虫
[quickstart-data] 大数据、流式计算
1.18.1.1. Flink框架
1.18.1.2. JStorm和Storm框架
1.18.1.3. Elasticsearch框架
1.18.1.4. Spark框架
1.18.1.5. Spider爬虫
数据处理:druid-io、flume、hadoop、hbase、、lucene、solr、、
1、大数据统计重复数和大数据Top 100 问题
大数据统计重复数
1、直接使用map保存记录
2、先分成若干份,再全部合并
大数据Top 100 问题:
1、直接使用快速排序(占用内存大)
2、先取出100个数据,然后进行排序,后面的依次跟100个数据的最小值比较,大了就替换
3、先分成若干份,分别取出前100,再依次合并(或全部合并)