散列表-哈希算法及其应用场景

Thursday. April 18, 2019 - 1 min

数据结构与算法系列（二十三）

哈希算法的概念和特性

我们前面分享了散列表、散列函数和散列冲突，其实也可以译作哈希表、哈希函数和哈希冲突，是一个意思。哈希算法简单理解就是实现前面提到的哈希函数的算法，用于将任意长度的二进制值串映射为固定长度的二进制值串，映射之后得到的二进制值就是哈希值（散列值）。

我们日常开发中最常见的哈希算法应用就是通过 md5 函数对数据进行加密了，md5 就是一个哈希函数，结合 md5 我们可以归纳出哈希算法的一般特性：

哈希算法的应用

我们日常用户密码加密通常使用的都是 md5、sha等哈希函数，因为不可逆，而且微小的区别加密之后的结果差距很大，所以安全性更好。

比如我们的 URL 字段或者图片字段要求不能重复，这个时候就可以通过对相应字段值做 md5 处理，将数据统一为 32 位长度从数据库索引构建和查询角度效果更好，此外，还可以对文件之类的二进制数据做 md5 处理，作为唯一标识，这样判定重复文件的时候更快捷。

比如我们从网上下载的很多文件（尤其是P2P站点资源），都会包含一个 MD5 值，用于校验下载数据的完整性，避免数据在中途被劫持篡改。

前面我们已经提到，PHP 中的 md5、sha1、hash 等函数都是基于哈希算法计算散列值

对于同一个客户端上的请求，尤其是已登录用户的请求，我们需要将其会话请求都路由到同一台机器，以保证数据的一致性，这可以借助哈希算法来实现，通过用户 ID 尾号对总机器数取模（取多少位可以根据机器数定），将结果值作为机器编号。

分布式缓存和其他机器或数据库的分布式不一样，因为每台机器存放的缓存数据不一致，每当缓存机器扩容时，需要对缓存存放机器进行重新索引（或者部分重新索引），这里应用到的也是哈希算法的思想。后面我们介绍 Redis 系列的时候会系统阐述这一块。

关于散列表的理论介绍至此告一段落，明天我们将就 PHP 数组实现原理来剖析 PHP 底层如何通过散列表实现数组。