怎样更优雅的过滤 HTML 标签？

推荐学习书目

› Learn Python the Hard Way

Python Sites

› PyPI - Python Package Index

› http://diveintopython.org/toc/index.html

› Pocoo

值得关注的项目

› PyPy

› Celery

› Jinja2

› Read the Docs

› gevent

› pyenv

› virtualenv

› Stackless Python

› Beautiful Soup

› 结巴中文分词

› Green Unicorn

› Sentry

› Shovel

› Pyflakes

› pytest

Python 编程

› pep8 Checker

Styles

› PEP 8

› Google Python Style Guide

› Code Style from The Hitchhiker's Guide

This topic created in 3378 days ago, the information mentioned may be changed or developed.

扒页面的时候，经常会遇到这种的需求：

获取页面上所有的文章内容
过滤所有 HTML 标签，仅保留图像及文字

目前我自己提取网页文字觉得最方便的处理是这样的

    from bs4 import BeautifulSoup
    html_string = "一些 HTML 字符" 
    soup = BeautifulSoup(html_string)
    soup.text

但是

在需要保留 IMG 标签的时候就不行了，这时候我是采用正则来过滤，不过比较丑陋。。。

每次 coding 都好纠结，不知道有没有好方法，敲代码可以敲得更嗨点;)

Supplement 1 · Feb 21, 2017

非常感谢 BiggerLonger 提供的这个scrapy里的模块

from w3lib.html import remove_tags 
# keep参数为需要保留的标签名称
remove_tags(text, keep=('img',))

HTML

soup

过滤

标签

12 replies • 2017-02-22 07:50:25 +08:00

SourceMan

Feb 21, 2017

抽象出来，不就眼不见心不烦？

HanSonJ

Feb 21, 2017

PHP: echo strip_tags('一些 HTML 字符');

别打我逃)

IanPeverell

Feb 21, 2017

可以试试 lxml ，然后用 xpath

qsnow6

Feb 21, 2017

@SourceMan 想看有没有现成的，造轮子水平不高。。

chairuosen

Feb 21, 2017

先用正则把 img 标签找出来，替换成复杂的特殊字符文字包裹的 src 地址 text ，然后用你上文的方法替换其他标签，最后再把 img 标签转回来

bombless

Feb 21, 2017

以前做富文本编辑功能的时候做过这样的东西
用的方式是直接在 DOM 树上操作，递归解出 DOM 列表的内容
看了下 BeautifulSoup 里面也有 findChildren()这样的操作

BiggerLonger

Feb 21, 2017

from w3lib.html import remove_tags
remove_tags(text, which_ones=('div', 'a', ....))
scrapy 裡面的一個庫

qsnow6

Feb 21, 2017

@BiggerLonger 这个好！！！
现在就是在用 scrapy 写爬虫

这样就解决了！！

````
remove_tags(text, keep=('img'))
````

ic2y

Feb 21, 2017

用 xpath 进行提取， xpath 可以专门解析提取属性。

murmur

Feb 21, 2017

想多了难道不知道图片地址还可以写到 css 么

xieranmaya

Feb 22, 2017

jsdom 知道不

popil1987

Feb 22, 2017 via Android

用 lxml ，别用 bs4 。 bs4 只支持 css selector,而且不支持 nth-child 这种。 lxml 支持 xpath,用谷歌浏览器开发者工具可以很方便提取元素的 xpath
lxml 貌似只有排除一些 tag 的功能，没有保留一些 tag 的功能
不过可以建立个保留的 tag 名称的集合，遍历所有 node ，把未在集合中的 tag 删了就行。
当然有种情况是，你想保留 a 但不想保留 b ，那么
<b><a></a></b>这种情况得需要注意了