我有300 000行的数据库,我需要通过算法过滤一些行。
protected boolean validateMatch(DbMatch m) throws MatchException, NotSupportedSportException{
// expensive part
List<DbMatch> hh = sd.getMatches(DateService.beforeDay(m.getStart()), m.getHt(), m.getCountry(),m.getSportID());
List<DbMatch> ah = sd.getMatches(DateService.beforeDay(m.getStart()), m.getAt(), m.getCountry(),m.getSportID());
....
我用于从Mysql加载数据的Hibernate道函数使用了初始化数组大小的2倍。
public List<DbMatch> getMatches(Date before,String team, String country,int sportID) throws NotSupportedSportException{
//Match_soccer where date between :start and :end
Criteria criteria = session.createCriteria(DbMatch.class);
criteria.add(Restrictions.le("start",before));
criteria.add(Restrictions.disjunction()
.add(Restrictions.eq("ht", team))
.add(Restrictions.eq("at", team)));
criteria.add(Restrictions.eq("country",country));
criteria.add(Restrictions.eq("sportID",sportID));
criteria.addOrder(Order.desc("start") );
return criteria.list();
}
示例我如何尝试过滤数据
function List<DbMatch> filter(List<DbMatch> mSet){
List<DbMatch> filtred = new ArrayList<>();
for(DbMatch m:mSet){
if(validateMatch(DbMatch m))filtred.add(m);
}
}
(1)我尝试了不同的标准设置并使用秒表计算功能时间。我的结果是当我使用filter(匹配)
匹配大小1000时,我的程序需要3分钟21秒659毫秒。
(2)我尝试删除标准. addorder(Order.desc("start"));
比程序在3分钟12秒811毫秒后过滤。
(3)但是如果我删除标准. addorder(Order.desc("start"));
并添加标准.setMax结果(1);
结果是22 s 311 ms。
使用最后一个配置,我可以通过22,3*300=22300 s(~6h)过滤我所有的300 000条记录,但如果使用第一个函数,我应该等待(~60 h)。
如果我想使用没有顺序和限制的标准,我必须确保我的表按数据库上的日期排序,因为获得最后匹配很重要。
所有数据都存储在匹配
表中。
表索引:
表,Non_unique,Key_name,Seq_in_index,Column_name,排序规则,基数,Sub_part,打包,空,Index_type,注释,Index_comment
匹配项,0, PRIMARY,1,mid,A,220712, , , , BTREE,,
匹配项,0,UK_kcenwf4m58fssuccpknl1v25v,1,beid,A,220712,,,YES,BTREE,,
已更新
添加ALTER TABLE匹配后添加INDEX(sportID,国家);
现在1000场比赛的程序时间减少到15s。但是如果我不使用order by并添加限制,1000个数学只需等待4s。
我应该如何处理这种情况以提高程序执行速度?
您的首要任务是弄清楚每个组件处理请求需要多长时间。
找出ORM生成的SQL查询,并在MySQL工作台中手动运行,看看需要多长时间(非缓存)。您也可以要求它来解释索引的使用情况。
如果它足够快,那么您的java代码需要更长的时间,您需要优化您的算法。您可以使用JConsole进一步深入研究。
如果您确定哪个组件需要更长的时间,您可以在此处发布您的分析,我们可以相应地提出建议。