Python采集--小说一键保存txt文本
创始人
2025-05-30 06:31:45
0

前言

嗨喽~大家好呀,这里是魔王呐 ❤ ~!

不知道在什么时候,我们学生时代的电脑桌面上流传起了一个个TXT文本

噢~那是一本本的小说,那这究竟是怎么实现的效果呢?

就让我用文章带你实现吧~

完整源码、python资料: 点击此处跳转文末名片获取

前期准备须知:

开发环境:

  • python 3.8 运行代码

  • pycharm 2022.3 辅助敲代码

  • requests 发送请求模块

爬 :

模拟 客户端 向 服务器 发送网络请求

在日常生活当中使用的电脑 联网了 操作如果是需要联网的

作用 :

从互联网当中批量获取数据

模拟人行为操作

代码实现 基本流程:

  1. 发送请求

  2. 获取数据

  3. 解析数据

  4. 保存数据

采集网站:

代码展示:

导入模块

import requests
import re

网站链接由于平台原因屏蔽啦~你们可以自己添加一下噢

book_url = 'https://****.tw/book_76108/'
book_text = requests.get(book_url).text
# 
.*?
#
第14章 寂静的春天(2)
url_list = re.findall('
.*?
', book_text) for sub_url in url_list:url = 'https:/***.tw/book_76108/' + sub_url

发送请求

    response = requests.get(url)

获取数据

    html_data = response.text

解析数据 提取数据

结构化数据: json数据 字符串 {"":"", "":""} 字典取值

非结构化数据: 网页源代码 xpath/css/re bs4/parsel/lxml/re....

地方找到符合规则的所有数据

    text = re.findall('

(.*?)
', html_data)[0]title = re.findall('

(.*?)

', html_data)[0]#   : 空格#
: 换行 在win当中换行是\n mac \r\n# replace("需要被替换的内容", "替换为什么内容")text = title+'\n\n'+text.replace(' ', ' ').replace('
', '\n')print(text)

保存数据

a: 追加写入

w: 覆盖写入

    open(f'三体(全集).txt', mode='a', encoding='utf-8').write(text)


尾语 💝

要成功,先发疯,下定决心往前冲!

学习是需要长期坚持的,一步一个脚印地走向未来!

未来的你一定会感谢今天学习的你。

—— 心灵鸡汤

本文章到这里就结束啦~感兴趣的小伙伴可以复制代码去试试哦 😝

👇问题解答 · 源码获取 · 技术交流 · 抱团学习请联系👇

相关内容

热门资讯

保存时出现了1个错误,导致这篇... 当保存文章时出现错误时,可以通过以下步骤解决问题:查看错误信息:查看错误提示信息可以帮助我们了解具体...
汇川伺服电机位置控制模式参数配... 1. 基本控制参数设置 1)设置位置控制模式   2)绝对值位置线性模...
不能访问光猫的的管理页面 光猫是现代家庭宽带网络的重要组成部分,它可以提供高速稳定的网络连接。但是,有时候我们会遇到不能访问光...
表格中数据未显示 当表格中的数据未显示时,可能是由于以下几个原因导致的:HTML代码问题:检查表格的HTML代码是否正...
本地主机上的图像未显示 问题描述:在本地主机上显示图像时,图像未能正常显示。解决方法:以下是一些可能的解决方法,具体取决于问...
表格列调整大小出现问题 问题描述:表格列调整大小出现问题,无法正常调整列宽。解决方法:检查表格的布局方式是否正确。确保表格使...
不一致的条件格式 要解决不一致的条件格式问题,可以按照以下步骤进行:确定条件格式的规则:首先,需要明确条件格式的规则是...
Android|无法访问或保存... 这个问题可能是由于权限设置不正确导致的。您需要在应用程序清单文件中添加以下代码来请求适当的权限:此外...
【NI Multisim 14...   目录 序言 一、工具栏 🍊1.“标准”工具栏 🍊 2.视图工具...
银河麒麟V10SP1高级服务器... 银河麒麟高级服务器操作系统简介: 银河麒麟高级服务器操作系统V10是针对企业级关键业务...