1.18.1. Data处理

大数据处理

1、Flink框架

2、JStorm和Storm框架

3、Elasticsearch框架

4、Spark框架

5、Spider爬虫

[quickstart-data] 大数据、流式计算


1.18.1.1. Flink框架


1.18.1.2. JStorm和Storm框架


1.18.1.3. Elasticsearch框架


1.18.1.4. Spark框架


1.18.1.5. Spider爬虫


数据处理:druid-io、flume、hadoop、hbase、、lucene、solr、、

1、大数据统计重复数和大数据Top 100 问题

大数据统计重复数
1、直接使用map保存记录
2、先分成若干份,再全部合并

大数据Top 100 问题:
1、直接使用快速排序(占用内存大)
2、先取出100个数据,然后进行排序,后面的依次跟100个数据的最小值比较,大了就替换
3、先分成若干份,分别取出前100,再依次合并(或全部合并)


Copyright © 2018-2021 | Distributed under CC BY 4.0 | Peter all right reserved,powered by Gitbook Updated at 2023-03-25 00:08:43

results matching ""

    No results matching ""