Python Beautiful Soup库的安装
Beautiful Soup是一个Python第三方库,可以从HTML或XML文件中提取数据。安装Beautiful Soup可以使用pip或easy_install:
$ pip install beautifulsoup4 #或者 $ easy_install beautifulsoup4
Beautiful Soup的基本用法
Beautiful Soup的使用需要先导入:
from bs4 import BeautifulSoup
创建一个Beautiful Soup对象:
soup = BeautifulSoup(html_doc, 'html.parser')
在这里,html_doc是要解析的HTML文档,可以是一个字符串,也可以是一个文件句柄。
Beautiful Soup提供了四种对象类型:Tag,NavigableString,BeautifulSoup,Comment。
- Tag:表示一个HTML/XML标签,比如
- NavigableString:表示标签内非属性字符串,比如
hello 中的hello - BeautifulSoup:表示一个文档的全部内容
- Comment:表示注释
Beautiful Soup提供了很多搜索方法,可以搜索文档树,如find_all(),find(),find_parents(),find_next_siblings(),find_previous_siblings()等。这些方法接受各种过滤器,可以搜索到满足条件的内容。
Beautiful Soup还提供了一些工具函数,如get_text(),get(),has_attr(),string属性等,可以用于处理文档树中的内容。