最近在用hbase做图片存储,大约3000万张图片,每张60k以内。 在hbase shell里
count 'images'
这个速度会非常非常慢。
查了下,有个map reduce的rowcounter,尝试了半天,要用有hdfs写权限的用户执行,如我的系统上要用hdfs这个用户。
sudo crontab -u hdfs -e
10 * * * * (date;hbase org.apache.hadoop.hbase.mapreduce.Driver rowcounter screen_shots) >>/tmp/count_rows.txt 2>&1
上面在crontab里增加了个每小时执行一次rowcounter,将结果追加到/tmp/count_rows.txt
25万数据,约需要200s统计。