Beautifulsoup 如何过滤出换行、空行以及空格和中文空格!
请教,对于 html 中存在很多空行,空格的处理问题!
很多文章是存 word 中直接复制到到网页上的,对于这种方式编辑的 html 结构可能比较混乱!
如何净化或者说格式化这种 html !
快速过滤出换行符、空格、中文空格等
对于正则已经简单写处理方法,凑合能用
def del_content_blank(s):
clean_str = re.sub(r'\n| |\xa0|\\xa0|\u3000|\\u3000|\\u0020|\u0020', '', str(s))
return clean_str
但 Beautifulsoup 中对于换行是作为一个子节点解析的!那我怎么才能用 Beautifulsoup 模块过滤换行、空行以及空格和中文空格?这个问题请假大家,谢谢
请教,对于 html 中存在很多空行,空格的处理问题!
很多文章是存 word 中直接复制到到网页上的,对于这种方式编辑的 html 结构可能比较混乱!
如何净化或者说格式化这种 html !
快速过滤出换行符、空格、中文空格等
对于正则已经简单写处理方法,凑合能用
def del_content_blank(s):
clean_str = re.sub(r'\n| |\xa0|\\xa0|\u3000|\\u3000|\\u0020|\u0020', '', str(s))
return clean_str
但 Beautifulsoup 中对于换行是作为一个子节点解析的!那我怎么才能用 Beautifulsoup 模块过滤换行、空行以及空格和中文空格?这个问题请假大家,谢谢