BM算法是一种快速字符串匹配算法,它的全称为Boyer-Moore算法,是由Robert S.Boyer和J Strother Moore于1977年提出的。它的特点在于在查找时尽量跨过匹配串,减少比较次数,因此在某些情况下比其他字符串匹配算法要快。
BM算法的基本思想是倒序匹配,即从模式串的最后一位开始匹配,如果匹配不上,则根据已经匹配的字串中的信息推出下一次匹配位置。具体的实现过程有两个核心步骤:
此阶段是为了构建字符移动表和后缀移动表。字符移动表指的是,当发生匹配错误时,如何将模式串向右移动,使得模式串的尾部对齐文本串的下一个位置。后缀移动表就是当模式串的某一段匹配成功时,如何将模式串向右移动,以跳过已经匹配成功的部分,减少比较次数。
此阶段是利用上述两个移动表,在文本串中查找模式串,直至找到或者结束。具体的实现过程是从模式串的尾部开始匹配,依次匹配每个字符,如果发现不匹配,则跟据字符移动表或后缀移动表移动模式串,并进行下一轮匹配。
C++代码示例:
void preBmBc(char *x, int m, int bmBc[]) {
for (int i = 0; i < ASIZE; ++i) {
bmBc[i] = m;
}
for (int i = 0; i < m-1; ++i) {
bmBc[x[i]] = m-1-i;
}
}
void suffixes(char *x, int m, int *suff) {
suff[m-1] = m;
int f = 0;
for (int i = m-2; i >= 0; --i) {
while (f > 0 && x[f+m-1] != x[i+f]) {
f = suff[f];
下一篇:BN Learn 中的节点