布隆过滤器是一种基于哈希函数实现的空间高效、时间复杂度低的数据结构。它可以用来检查一个元素是否在一个集合中,通常用于缓存、查询加速和去重操作。
它的主要优点是节省内存空间,因为它不需要存储每个元素的整个信息,只需要利用哈希函数将元素映射为一个固定长度的二进制向量,然后将其作为索引进行标记。而且,因为哈希函数的映射是非常快速的,所以查询速度也非常快。
下面是使用Python实现布隆过滤器的简单示例代码:
import bitarray
import mmh3
class BloomFilter:
def __init__(self, size, hash_funcs):
self.size = size
self.bit_array = bitarray.bitarray(size)
self.bit_array.setall(0)
self.hash_funcs = hash_funcs
def add(self, item):
for func in self.hash_funcs:
index = mmh3.hash(item, func) % self.size
self.bit_array[index] = 1
def __contains__(self, item):
for func in self.hash_funcs:
index = mmh3.hash(item, func) % self.size
if not self.bit_array[index]:
return False
return True
bf = BloomFilter(5000, [3, 5, 7, 11, 13])
bf.add('hello')
if 'hello' in bf:
print('Found it!')
else:
print('Not found.')
在上面的示例代码中,我们首先定义了一个BloomFilter类,它接受两个参数:过滤器的大小和哈希函数列表。然后我们实现了两个方法:add和__contains__。add方法用于将元素加入到过滤器中,__contains__方法用于检查一个元素是否存在于过滤器中。
在调用BloomFilter类时,我们需要指定过滤器的大小和哈希函数的数量。在上面的代码中,我们使用了5个哈希函数,它们的值分别是3、5、7、11和13。如果要增加过滤器的准确性,可以增加哈希函数的
下一篇:布隆过滤器和哈希表的区别