python自动化办公之BeautifulSoup爬取并解析html文本

news/2024/7/8 9:14:27 标签: python, 自动化, beautifulsoup

用到的库:BeautifulSoup

实现效果:爬取网站内容,拿到html文本并解析html文本

代码:

先爬取

python"># 先导入requests包
import requests
url='https://www.baidu.com'
response=requests.get(url)
# 做1个断言,如果执行成功,拿到html文本
if response.status_code==200:
    html_content=response.text
    print(html_content)
else:
    print(f'访问失败,状态码是{response.status_code}')

再解析(需要和前面的代码一起执行)

python"># 导入BeautifulSoup包
from bs4 import BeautifulSoup
# 解析html内容
soup=BeautifulSoup(html_content,'html.parser')
# 提取网页里面的超链接
links=soup.find_all('a')
for link in links:
    print(link.get('href'))

代码效果


http://www.niftyadmin.cn/n/5536968.html

相关文章

Java集合框架:深入探索与性能优化指南

引言 Java集合框架是Java标准库中用于存储和操作对象集合的一套工具。它提供了一套统一的接口和类,使得开发者可以高效地处理对象集合,而无需关心底层的实现细节。Java集合框架主要包括List、Set、Map等接口及其实现类。本文将详细介绍Java中的集合框架,并分享如何选择和使用…

JVM原理(十六):JVM虚拟机类型擦除与泛型发展

1. 泛型 泛型的本质是参数化类型或者参数化多态的应用,即可以将操作的数据类型指定为方法签名中的一种特殊参数,这种参数类型能够用在类、接口和方法的创建中,分别构成泛型类、泛型接口和泛型方法。 泛型让程序员能够以针对泛化的数据类型编…

无人机5公里WiFi低延迟图传模组,抗干扰、长距离、低延迟,飞睿智能无线通信新标杆

在科技日新月异的今天,我们见证了无数通信技术的飞跃。从开始的电报、电话,到如今的4G、5G网络,再到WiFi的广泛应用,每一次技术的革新都极大地改变了人们的生活方式。飞睿智能5公里WiFi低延迟图传模组,它以其独特的优势…

为什么salesforce需要设置社区端,而不是使用和内部员工同样的环境

虽然企业可能希望为客户和合作伙伴提供与内部员工相同的环境,但实际上这样做有几个显著的缺点和风险。这些包括: 安全性和权限管理:内部员工的系统通常包含敏感和机密的信息,例如财务数据、内部策略和未发布的产品信息。将客户和合…

【高级篇】第10章 Elasticsearch 集群管理与扩展

在本章中,我们将深入探讨Elasticsearch集群的管理与扩展策略,旨在帮助读者构建一个既能应对大规模数据处理需求,又能保持高可用性和弹性的系统架构。我们将从集群架构设计入手,解析不同节点的角色与配置,然后转向节点发现与配置同步机制,最后讨论水平扩展与容错策略,确保…

spring tx @Transactional 详解 `Advisor`、`Target`、`ProxyFactory

在Spring中,Transactional注解的处理涉及到多个关键组件,包括Advisor、Target、ProxyFactory等。下面是详细的解析和代码示例,解释这些组件是如何协同工作的。 1. 关键组件介绍 1.1 Advisor Advisor是一个Spring AOP的概念,它包…

OpenStack开源虚拟化平台(一)

目录 一、OpenStack背景介绍(一)OpenStack是什么(二)OpenStack的主要服务 二、计算服务Nova(一)Nova组件介绍(二)Libvirt简介(三)Nova中的RabbitMQ解析 OpenS…

Anaconda安装及配置+pytorch深度学习环境(2024复旦计算机工作站0705)

目录 前言 (补充:四、安装GPU环境的pytorch) 正文 一、Pytorch 二、Tensor 三、CUDA 四、其他技巧 五、数据 六、torch.nn 前言 深度学习越来越火啦,深入到各行各业,小北个人也对深度学习很感兴趣&#xff0…