1 前言

我们来回顾下在这个系列的第一篇深刻理解高性能Redis的本质中介绍过Redis的几种基本数据结构，
它服务于各种不同的业务场景而设计的，比如：

动态字符串(REDIS_STRING)：整数(REDIS_ENCODING_INT)、字符串(REDIS_ENCODING_RAW)
双端列表(REDIS_ENCODING_LINKEDLIST)
压缩列表(REDIS_ENCODING_ZIPLIST)
跳跃表(REDIS_ENCODING_SKIPLIST)
哈希表(REDIS_HASH)
整数集合(REDIS_ENCODING_INTSET)

除了这些常见数据类型，还有一些不常用的数据类型，如 BitMap、Geo、HyperLogLog 等等，他们在各自的方向为不同的类型的数据统计给出解决方案。

位图（BitMap）计算：可以应用于任何大数据场景下的二值计算，比如是否登录、是否在线、是否签到、用户性别状态、IP黑名单、是否VIP用户统计等等场景。
Geo类型：记录地理空间信息，如地理坐标存储、位置计算、距离计算等能力，普遍运用在地图业务中的各种场景。

这一篇我们来介绍下HyperLogLog，HyperLogLog 主要用于Redis基数的统计，比如IP统计，用户访问量，页面访问量。

2 关于HyperLogLog

HyperLogLog 主要用于Redis 的基数统计，它的数据结构专门设计用来做数据合并和计算，并能节省大量的空间。
基数计数( cardinality counting) 通常用来统计一个集合中不重复的元素个数 , 例如统计某个网站的UV、PV或者网站搜索的的关键词数量。
在各种应用领域基数统计被广泛应用，如数据分析、网络监控指标、存储性能优化等。
简单来说，基数计数就是记录集合中所有不重复的元素Su ,当新增元素Xa时,判断Su中是否包含,不包含则将其加入Su,包含则不加入,计数值就是Su 的元素数量总和。
当然这种做法也存在两个问题：

当统计的数据量变大时,相应的存储内存也会线性增长
当集合Su 变大,判断其是否包含新加入元素的成本变大

2.1 实际应用场景

很多计数类场景，比如每日注册 IP 数、每日访问 IP 数、页面实时访问数 PV、访问用户数 UV等。
因为主要的目标高效、巨量地进行计数，所以对存储的数据的内容并不关系。也就是说它只能用于统计数量，没办法知道具体的统计对象的内容。

统计单日一个页面的访问量(PV)，单次访问就算一次。
统计单日一个页面的用户访问量(UV)，即按照用户为维度计算，单个用户一天内多次访问也只算一次。
多个key的合并统计，某个门户网站的所有模块的PV聚合统计就是整个网站的总PV。

2.2 高效和海量特性

如果我们使用普通集合，也能够实现对巨量数据的存储和统计么，但是存储量会大很多，性能也比较差。
以百度搜索为例，如果要做百度指数的计算，针对来访IP进行统计。那么如果每天有 1000 万 IP，一个 IP 占位 15 字节，那么 1000 万个 IP 就是 143M。

    10,000,000 * 15 /(1024 * 1024)  = 143.05 M

如果使用 HyperLogLog ，那么在 Redis 中每个键占用的内容都是 12K，理论上能够存储 264 个值，即18446744073709551616，这个数是巨量，Java中long类型也只能计算到 262 。
无论存储何值，它一个基于基数估算的算法HyperLogLog Counting（简称HLLC），使用少量固定的内存去存储并识别集合中的唯一元素。
HLLC采用了分桶平均的思想来消减误差，在Redis中, 有16384个桶。而HyperLogLog的标准偏差公式是1.04 / sqrt(m)，m 为桶的个数。所以

    1.04 / sqrt(16384) = 1.04 / 128 = 0.008125

所以这个计数的估算，是一个带有 0.81% 标准偏差的近似值。

HyperLogLog 算法原理参考这两篇，写的很清晰：
https://zhuanlan.zhihu.com/p/77289303
http://www.javashuo.com/article/p-mmwxrmjm-ga.html

3 HyperLogLog所支持的能力

HyperLogLog数据结构的命令有三个：PFADD、PFCOUNT、PFMERGE

3.1 PFADD 添加计数

Redis Pfadd 命令将所有元素添加到 HyperLogLog 数据结构中。

语法如下：

    redis > PFADD key element [element ...]

下面举例了网站统计模块添加IP的两种情况

    /* 对访问百度网站(key=baidu:ip_address)的IP进行添加 */
    redis> PFADD baidu:ip_address "192.168.0.1" "192.168.0.2" "192.168.0.3"
    (integer) 1
     
    /* 如果IP已经存在，则进行忽略，不对估计数量进行更新 */
    redis> PFADD baidu:ip_address "192.168.0.3"  
    (integer) 0  # IP已经存在

3.2 PFCOUNT 统计数量

Redis Pfcount 命令返回给定 HyperLogLog 的基数的估算值。
语法如下：

    redis > PFCOUNT key [key ...]

下面估算了访问IP的基数的值，返回 1034546 。

    redis> PFCOUNT baidu:ip_address
     
    (integer) 1034546

3.3 PFMERGE 合并统计

Redis PFMERGE 命令将多个 HyperLogLog 合并为一个 HyperLogLog ，合并后的 HyperLogLog 的基数估算值是对给定 HyperLogLog 进行并集计算得出的。
所以有重复的会被统计成一条数据。
合并得出的 HyperLogLog 会被储存在 destkey 键里面，如果该键并不存在，那么命令在执行之前，会先为该键创建一个空的 HyperLogLog 。
语法如下：

    redis > PFMERGE destkey sourcekey [sourcekey ...]

下面演示了合并和统计的过程：

    /* 统计百度 baidu:ip_address 访问IP */
    redis> PFADD baidu:ip_address "192.168.0.1" "192.168.0.2" "192.168.0.3"
    (integer) 1
     
     /* 统计淘宝 taobao:ip_address 访问IP */
    redis> PFADD taobao:ip_address "192.168.0.3" "192.168.0.4" "192.168.0.5"
    (integer) 1
     
    /* 合并且去重之后放在 total:ip_address  */
    redis> PFMERGE total:ip_address baidu:ip_address taobao:ip_address
    OK
     
    /* 结果为5 */
    redis> PFCOUNT total:ip_address
    (integer) 5

4 总结

基数计数是用于统计一个集合中不重复的元素个数，好比平常需求场景有，统计页面的UV或者统计在线的用户数、注册IP数等。HyperLogLog 主要基于Redis能力下的基数统计。HyperLogLog的主要使用场景包括：

统计单日一个页面的访问量(PV)，单次访问就算一次。
统计单日一个页面的用户访问量(UV)，即按照用户为维度计算，单个用户一天内多次访问也只算一次。
多个key的合并统计，某个门户网站的所有模块的PV聚合统计就是整个网站的总PV。

Java 面试宝典是大明哥全力打造的 Java 精品面试题，它是一份靠谱、强大、详细、经典的 Java 后端面试宝典。它不仅仅只是一道道面试题，而是一套完整的 Java 知识体系，一套你 Java 知识点的扫盲贴。

它的内容包括：

大厂真题：Java 面试宝典里面的题目都是最近几年的高频的大厂面试真题。
原创内容：Java 面试宝典内容全部都是大明哥原创，内容全面且通俗易懂，回答部分可以直接作为面试回答内容。
持续更新：一次购买，永久有效。大明哥会持续更新 3+ 年，累计更新 1000+，宝典会不断迭代更新，保证最新、最全面。
覆盖全面：本宝典累计更新 1000+，从 Java 入门到 Java 架构的高频面试题，实现 360° 全覆盖。
不止面试：内容包含面试题解析、内容详解、知识扩展，它不仅仅只是一份面试题，更是一套完整的 Java 知识体系。
宝典详情：https://www.yuque.com/chenssy/sike-java/xvlo920axlp7sf4k
宝典总览：https://www.yuque.com/chenssy/sike-java/yogsehzntzgp4ly1
宝典进展：https://www.yuque.com/chenssy/sike-java/en9ned7loo47z5aw

目前 Java 面试宝典累计更新 400+ 道，总字数 42w+。大明哥还在持续更新中，下图是大明哥在 2024-12 月份的更新情况：

想了解详情的小伙伴，扫描下面二维码加大明哥微信【daming091】咨询

同时，大明哥也整理一套目前市面最常见的热点面试题。微信搜[大明哥聊 Java]或扫描下方二维码关注大明哥的原创公众号[大明哥聊 Java] ，回复【面试题】即可免费领取。

阅读全文

追求性能极致 - Redis

追求性能极致 - Redis：HyperLogLog实现海量数据基数统计