Python采集--小说一键保存txt文本
创始人
2025-05-30 06:31:45
0

前言

嗨喽~大家好呀,这里是魔王呐 ❤ ~!

不知道在什么时候,我们学生时代的电脑桌面上流传起了一个个TXT文本

噢~那是一本本的小说,那这究竟是怎么实现的效果呢?

就让我用文章带你实现吧~

完整源码、python资料: 点击此处跳转文末名片获取

前期准备须知:

开发环境:

  • python 3.8 运行代码

  • pycharm 2022.3 辅助敲代码

  • requests 发送请求模块

爬 :

模拟 客户端 向 服务器 发送网络请求

在日常生活当中使用的电脑 联网了 操作如果是需要联网的

作用 :

从互联网当中批量获取数据

模拟人行为操作

代码实现 基本流程:

  1. 发送请求

  2. 获取数据

  3. 解析数据

  4. 保存数据

采集网站:

代码展示:

导入模块

import requests
import re

网站链接由于平台原因屏蔽啦~你们可以自己添加一下噢

book_url = 'https://****.tw/book_76108/'
book_text = requests.get(book_url).text
# 
.*?
#
第14章 寂静的春天(2)
url_list = re.findall('
.*?
', book_text) for sub_url in url_list:url = 'https:/***.tw/book_76108/' + sub_url

发送请求

    response = requests.get(url)

获取数据

    html_data = response.text

解析数据 提取数据

结构化数据: json数据 字符串 {"":"", "":""} 字典取值

非结构化数据: 网页源代码 xpath/css/re bs4/parsel/lxml/re....

地方找到符合规则的所有数据

    text = re.findall('

(.*?)
', html_data)[0]title = re.findall('

(.*?)

', html_data)[0]#   : 空格#
: 换行 在win当中换行是\n mac \r\n# replace("需要被替换的内容", "替换为什么内容")text = title+'\n\n'+text.replace(' ', ' ').replace('
', '\n')print(text)

保存数据

a: 追加写入

w: 覆盖写入

    open(f'三体(全集).txt', mode='a', encoding='utf-8').write(text)


尾语 💝

要成功,先发疯,下定决心往前冲!

学习是需要长期坚持的,一步一个脚印地走向未来!

未来的你一定会感谢今天学习的你。

—— 心灵鸡汤

本文章到这里就结束啦~感兴趣的小伙伴可以复制代码去试试哦 😝

👇问题解答 · 源码获取 · 技术交流 · 抱团学习请联系👇

相关内容

热门资讯

【NI Multisim 14...   目录 序言 一、工具栏 🍊1.“标准”工具栏 🍊 2.视图工具...
银河麒麟V10SP1高级服务器... 银河麒麟高级服务器操作系统简介: 银河麒麟高级服务器操作系统V10是针对企业级关键业务...
不能访问光猫的的管理页面 光猫是现代家庭宽带网络的重要组成部分,它可以提供高速稳定的网络连接。但是,有时候我们会遇到不能访问光...
AWSECS:访问外部网络时出... 如果您在AWS ECS中部署了应用程序,并且该应用程序需要访问外部网络,但是无法正常访问,可能是因为...
Android|无法访问或保存... 这个问题可能是由于权限设置不正确导致的。您需要在应用程序清单文件中添加以下代码来请求适当的权限:此外...
北信源内网安全管理卸载 北信源内网安全管理是一款网络安全管理软件,主要用于保护内网安全。在日常使用过程中,卸载该软件是一种常...
AWSElasticBeans... 在Dockerfile中手动配置nginx反向代理。例如,在Dockerfile中添加以下代码:FR...
AsusVivobook无法开... 首先,我们可以尝试重置BIOS(Basic Input/Output System)来解决这个问题。...
ASM贪吃蛇游戏-解决错误的问... 要解决ASM贪吃蛇游戏中的错误问题,你可以按照以下步骤进行:首先,确定错误的具体表现和问题所在。在贪...
月入8000+的steam搬砖... 大家好,我是阿阳 今天要给大家介绍的是 steam 游戏搬砖项目,目前...