斯坦福算法专项课程Course2 week4内容回顾

这一周的内容主要介绍了Hash表以及bloom-filters。

Course 2 Week 4

Hash Table

Hash表是一种存放键值对的数据结构，时间复杂度几乎为$O(1)$，支持的操作如下：

High-Level Idea

Hash表的原理是构造一个映射$h$，将元素映射到$h(x) \in \{0,1,2,…,n-1\}$，然后访问$A[h(x)]$，其中$A$是一个数组，$A$中每个元素可以是链表或者元素本身，这两者的区别如下：

如果$A$中每个元素是链表，那么一个格子中可以装很多元素。

hash表的运行时间为：

Resolving Collisions

如果存在$x,y$使得$h(x)=h(y)$，那么称其为冲突，这是我们不想看到的，解决方法如下：

如果$A$中元素是链表，那么可以在$A[h(x)]$尾部直接添加元素（这种方法称为Chaining)；否则可以根据某个规则让$x$找到下一个空位置，例如linear probing (这种方法称为Open addressing)

The Load of a Hash Table

为了后续讨论，这里定义一个变量：

$\alpha =\frac{\text{hash表中元素数量}}{\text{hash表中bucket数量}}$

其中bucket表示hash表中格子数量，即之前提到的$n$，注意在Open addressing方式，$\alpha$必然小于等于$1$，而在Chaining方式下，$\alpha$可能大于$1$。不难发现，hash表的性能取决于$\alpha$，我们希望$\alpha$越小越好，但是注意，仅考虑$\alpha$的大小是不够的，还要考虑hash函数输出的均匀性，即不要让大量元素映射到同一个值，下面将讨论这点。

Performance Guarantees (Open Addressing)

在Open Addressing条件下，我们有如下结论：

$插入时间近似于\frac 1{1-\alpha}$

这个不难理解，因为$\alpha$表示bucket的占用率，那么插入成功的概率为$1-\alpha$，所以插入时间服从参数为$1-\alpha$的几何分布，几何分布的期望为$\frac 1{1-\alpha}$

Performance Guarantees (Chaining)

讨论之前，要给出一个重要的定义：

Universal Hash Functions

$令H为U到\{0,1,2,...,n-1\}的\text{hash}函数全体，则H是\text{universal}当且仅当：\\ \forall x,y \in U, P_{h\in H}(h(x)=h(y))=\frac 1 n$

从一个例子中来了解Universal Hash Functions：

那么我们该如何构造Universal Hash Functions呢，有如下定理：

$假设U中的元素被映射到\{0,1,...,|U|-1\}，我们取p\ge |U|，p为质数，\\ 对任意a\in \{1,2,...,p-1\},b\in\{0,1,...,p-1\},定义\\ h_{a,b}(x) = ax+b \mod p \mod n\\ 该函数全体为F，那么F是\text{universal}\\ 注意|F|=(p-1)p$

证明该定理之前先证明一个引理：

$对任意a\in \{1,2,...,p-1\},b\in\{0,1,...,p-1\}\\ 记f_{a,b}=ax+b \mod p \\ \forall x_1\neq x_2，y_1,y_2 \in [1,p-1]，只存在一组a,b满足\\ y_1= f_{a,b}(x_1),y_2= f_{a,b}(x_2)$

解上述同余方程：

$ax_1 + b \equiv y_1 \mod p \\ ax_2 + b\equiv y_2 \mod p\\ a(x_1-x_2)\equiv y_1-y_2 \mod p$

因为$p$是质数，$x_1 \neq x_2$，所以对于$a\in [1,p-1]$只有一解，从而

$b \equiv y_1-ax_1 \mod p$

结论成立。

定理证明：

记

$ax_1 + b \equiv y_1 \mod p \\ ax_2 + b\equiv y_2 \mod p$

所以

$h_{a,b}(x_1) \equiv y_1 \mod n \\ h_{a,b}(x_2) \equiv y_2 \mod n$

由上述定理可知，因为$(x_1,y_1)$可以唯一确定$a,b$，所以满足$h_{a,b}(x_1) = h_{a,b}(x_2),(x_1\neq x_2)$的$(a, b)$数量与

$y_1 \equiv y_2 \mod n \\ y_1\neq y_2$

数量一致，在模$p$的意义下，$y_1$有$p$种选择，在$y_2$的$p-1$个选择中，$y_1 \equiv y_2 \mod n$的概率小于等于

$\frac {p-1}n$

所以满足条件的数量小于等于

$\frac{p(p-1)}n$

注意注意$|F|=(p-1)p$，那么

$\begin{aligned} P[h_{a,b}(x_1) = h_{a,b}(x_2)] &≤ \frac {\frac{p(p − 1)}n}{|F|}\\ &=\frac {\frac{p(p − 1)}n}{p(p − 1)}\\ &=\frac 1 n \end{aligned}$

因此结论成立。

Universal Hash Functions 之所以重要，是因为我们有如下结论：

Theorem : [Carter-Wegman 1979]

$\forall h\in H,H为\text{Universal family },那么该\text{hash}表的操作时间复杂度为O(1)$

下面来证明这个结论：

假设元素全体为$S$，则$\alpha=\frac{|S|}{n}$，我们假设$|S|=O(n)$，即$\alpha=O(1)$，考虑查找$x \in S$，那么时间复杂度为如下：

令$L=A[h(x)]$的链表长度，定义如下函数：

$Z_y =\begin{cases} 1, & h(x)=h(y)\\ 0, & h(x)\neq h(y) \end{cases}$

则

$L= \sum_{y\in S}Z_y$

注意H为Universal Hash，那么$P[h(x)=h(y)]\le \frac 1 n $，从而

$\begin{aligned} E[L] &=\sum_{y\in S}E[Z_y]\\ &=\sum_{y\in S}P[Z_y=1] \\ &=\sum_{y\in S}P[h(x)=h(y)] \\ &\le \sum_{y\in S}\frac 1 n \\ &=\frac{|S|}{n}\\ &=\alpha\\ &=O(1) \end{aligned}$

Bloom Filters

Bloom Filters的组成元素如下：

我们来计算$S$中元素被全插入后某个格子没有被置为$1$的概率。

一次插入后，该格子中没有被置为$1$概率为：

$(1-\frac 1 n ) ^{k}$

从而$|S|$次插入后该格子中没有被置为$1$概率为：

$(1-\frac 1 n ) ^{k|S|}$

从而$|S|$次插入后该格子中被置为$1$概率为：

$1-(1-\frac 1 n ) ^{k|S|}$

我们来分析上述概率，注意当$x$充分小时：

$e^x \approx 1+x$

从而

$1-(1-\frac 1 n ) ^{k|S|} \approx 1-e^{-\frac{k|S|}{n}} = 1-e^{-\frac{k}{b}}\\ b=\frac{n}{|S|},b表示每个元素占用的空间$

如果一个元素$x\notin S$，那么判别它找到的概率约等于：

$\epsilon = (1-e^{-\frac{k}{b}})^k\\ 该\epsilon 被称为\text{false positive rate}$

固定$b$，变化$k$，上述$\epsilon$的最小值为

$\epsilon \approx (\frac 1 2 )^{b\ln 2 }\\ k\approx (\ln 2)b$