Python中爬虫是应用最为广泛的程序,而爬虫抓取回来的数据很多都是直接将整个网页的数据包括HTML、CSS、JavaScript等一股脑的都带回来 。那我们不想要这些标签,只想要HTML里面的文本内容要怎么呢?我们今天就带来python怎么去除html标签的三个方法,一起往下看看吧 。

假设现在有一个html的块级标签是html = '<p>你今天过的好吗?</p>',只需要获取里面这个文字的内容 。
一、正则表达式
在python的数据处理中,正则表达式无疑是适用性最强,可自己扩展性最高的那一个了,示例如下:
Import re # 导入re模块tern = re.compile(r'<[^>]+>',re.S) # 匹配两个尖括号并将其作为一个整体result = tren.sub(' ', html) # 将html变量里匹配的全部替换成空【Python怎么去除html标签?用这三个就行了】二、解析HTML树
在python中BeautifulSoup库是专门用来对html标签做解析、遍历、维护的功能库,使用它可以非常简单的获取html的内容,示例如下:
Import bs4 import BeautifulSoupsoup = BeautifulSoup(html,'html.parser') # 对html进行解析print(soup.get_text()) # 只获取html这个变量中的文本三、节点处理
html的结构是自上而下、层级分明的一个个节点构成的,lxml的etree库就是用于对这种格式数据进行解析的,示例如下:
res = etree.HTML(text=html)print(res.xpath('string(.)'))以上就是python怎么去除html标签的三种方法了,希望对你有所帮助 。
猜你喜欢
- python如何修改Dataframe列名?Dataframe是什么
- Python如何用爬虫破解滑动验证码?这五步简单易用
- Python数字怎么转对应中文?两个简单实例看了就会
- Python除法运算符有哪些?除法运算符详解
- python中用pip不是内部或外部命令怎么办?两种情况解决方法
- python怎么将列表转为字符串?两个实例看了就懂
- python输出hello world代码的方法?按着这个步骤来就行
- python怎么输出所有的水仙花数?经典案例学习
- gitignore文件是干嘛的?gitignore文件怎么改
- python打错了怎么撤回?input输入打错了怎么办
