仅30行代码,实现一个搜索引擎(1.0版)
创始人
2024-04-08 04:54:07
0

说到搜索引擎,一般人都会觉得这东西十分“高大上”,对于不了解搜索引擎实现方式的小伙伴而言,确实能够感同身受。

国内著名的搜索引擎代表非百度莫属,而国外著名的搜索引擎代表则非谷歌莫属了。

搜索引擎一定程度上方便了网民的生活,生活或工作中啥不知道的上网搜索一下大都能找到答案。

今天将会分享如何仅用30行左右的代码来实现一个简易版的搜索引擎,我先称之为1.0版本好啦~

搜索引擎组成

一个完整的搜索引擎由以下四部分组成:

  • 搜索器
  • 索引器
  • 用户接口
  • 检索器

搜索器

熟悉 Python 的小伙伴可以把搜索器理解为 Python 的爬虫(scrawler),它像蜘蛛一样能够在互联网上大量爬取各类网站的内容,将爬取到的内容传送给索引器。

索引器

拿到搜索器传送的网页或内容后,会对内容进行加工处理,形成索引(index),存储于内部的数据库等待检索。

用户接口

用户接口很好理解,是指网页和 App 前端界面,例如:百度和谷歌的搜索页面。

用户通过用户接口,向搜索引擎发出询问(query),询问解析后送达检索器。

检索器

检索器在收到用户接口传送的询问解析后进行高效检索,再将检索结果返回给用户。

搜索引擎 Python 实现

PS:今天分享的重点是搜索引擎的实现,不是如何进行爬虫爬取内容,因此搜索引擎的组成部分搜索器此处使用本地存储文件内容代替。

1. 搜索引擎基类文件

# Engine.py
class SearchEngineBase(object):def __init__(self):passdef add_search_contents(self, file_path):with open(file_path, 'r') as fin:content = fin.read()self.process_search_contents(file_path, content)def process_search_contents(self, file_path, content):raise Exception('process_search_contents not implemented.')def search(self, query_content):raise Exception('search not implemented.')def main(search_engine):for file_path in ['./search_contents/1.txt', './search_contents/2.txt', './search_contents/3.txt', './search_contents/4.txt', './search_contents/5.txt']:search_engine.add_search_contents(file_path)while True:query_content = input('请输入你要检索的关键词:')results = search_engine.search(query_content)print('Total found {} result(s):'.format(len(results)))for result in results:print(result)

2. 搜索引擎子类文件

# SimpleEngine.py
from Engine import SearchEngineBase, main
import sys, os
sys.path.append(os.path.dirname(os.path.dirname(os.path.abspath(__file__))))class MyEngine(SearchEngineBase):"""1.MyEngine是继承了父类SearchEngineBase的子类2.子类继承并实现了process_search_contents,search函数3.子类继承了父类的add_search_contents函数"""def __init__(self):super(MyEngine, self).__init__()self.__file_path_to_content = {} # 初始化私有变量__file_path_to_content,用于存储文件路径及其内容的字典def process_search_contents(self, file_path, content):"""填充字典__file_path_to_content,将文件路径作为key,文件内容作为value写入字典中"""self.__file_path_to_content[file_path] = contentdef search(self, query):"""枚举字典内容,将搜索的关键字在文件内容中有搜索结果时,将对应文件路径放入列表以便于统计其长度"""results = []for file_path, content in self.__file_path_to_content.items():if query in content:results.append(file_path)return resultssearch_engine = MyEngine()
main(search_engine)

3. 搜索样本文件

如图所示,将搜索的样本文件分别放在5个不同的 txt 文件中,并都放于 search_contents 目录下。

图片

4. 搜索引擎效果

在这里插入图片描述

到这里,一个简易版的搜索引擎就实现了,后面还会继续分享搜索引擎实现的进阶版,敬请关注哟~

如果你不想一个人野蛮生长,找不到系统的资料,问题得不到帮助,坚持几天便放弃的感受的话,可以加入我们的QQ群:746506216,大家可以一起讨论交流,里面会有各种软件测试资料和技术交流。


资源分享

下方这份完整的软件测试视频学习教程已经上传CSDN官方认证的二维码,朋友们如果需要可以自行免费领取 【保证100%免费】

在这里插入图片描述

在这里插入图片描述

相关内容

热门资讯

银河麒麟V10SP1高级服务器... 银河麒麟高级服务器操作系统简介: 银河麒麟高级服务器操作系统V10是针对企业级关键业务...
【NI Multisim 14...   目录 序言 一、工具栏 🍊1.“标准”工具栏 🍊 2.视图工具...
AWSECS:访问外部网络时出... 如果您在AWS ECS中部署了应用程序,并且该应用程序需要访问外部网络,但是无法正常访问,可能是因为...
不能访问光猫的的管理页面 光猫是现代家庭宽带网络的重要组成部分,它可以提供高速稳定的网络连接。但是,有时候我们会遇到不能访问光...
AWSElasticBeans... 在Dockerfile中手动配置nginx反向代理。例如,在Dockerfile中添加以下代码:FR...
Android|无法访问或保存... 这个问题可能是由于权限设置不正确导致的。您需要在应用程序清单文件中添加以下代码来请求适当的权限:此外...
月入8000+的steam搬砖... 大家好,我是阿阳 今天要给大家介绍的是 steam 游戏搬砖项目,目前...
​ToDesk 远程工具安装及... 目录 前言 ToDesk 优势 ToDesk 下载安装 ToDesk 功能展示 文件传输 设备链接 ...
北信源内网安全管理卸载 北信源内网安全管理是一款网络安全管理软件,主要用于保护内网安全。在日常使用过程中,卸载该软件是一种常...
AWS管理控制台菜单和权限 要在AWS管理控制台中创建菜单和权限,您可以使用AWS Identity and Access Ma...