并发编程 – CheungQ

水一篇，之前写了es分页查询的几种方法，ElasticSearch 分页查询方法from&size，scroll，及search_after浅析，起因是1月份的需求要做一个ES索引内数据聚合导出的需求。

这个ES索引每天有100万左右新增数据，而需求是每月根据不同的条件做聚合统计，并导出数据到csv文件。之前的同事做过一个类似的功能，但是性能很差，基本思路如下，可以简单分析下。

java的job接收导出查询的参数，创建导出执行任务，启动两个线程，一个es查询线程，一个写csv线程
java调用EsClient，进行search_after查询，每一页查询的结果保存到java内存中，并判断累计的结果数量，大于一个设定的数值之后则根据导出时候设定的参数进行聚合，保存到一个Map中
分页查询结束后，写csv线程读取聚合后的结果写入csv文件

首先，启动两个线程，一个读，一个等待读之后写csv这个其实是不合理的，在所有数据聚合完成之前，写线程就一直处于等待状态。但是这个模式我改动不了，这是目前项目代码里集成的导出任务jar包里的内容，我没法动它，其他很多导出功能也用的这一套代码，所以这边就只能先这样。（也不是说jar包里的逻辑我在外面就没法修改）

接下来，现有的功能是用的search_after查询的，排序字段是子订单id，是无序的。所以只能支持单线程操作，即只能用一个读线程（ReadThread），一页一页的往后翻页查询。且原来的逻辑中有点bug，大于一个设定的数值之后则根据导出时候设定的参数进行聚合。假定这个数值为5万，那么当不断地翻页某次聚合之后总结果数已经大于5万了，那么之后每次进行翻页查询都要把所有数据重新聚合一遍。最终实测，某次导出了300万数据进行聚合，导出任务总共执行超过了6个小时。

根据以上情况，我重新设计了这次的导出功能。

近期文章

分类

文章归档

标签：并发编程

es聚合导出（不是），Map#merge方法使用