lxml的安装
lxml是一个Python解析库,可以解析HTML和XML文档,可以用pip安装,在终端输入:
pip install lxml
安装完成后,可以import lxml来使用,也可以使用from lxml import etree来导入etree模块,etree模块可以更方便的操作XML文档,比如:
from lxml import etree html = etree.HTML('Hello World') print(etree.tostring(html))
输出:
b'Hello World'
lxml的基本使用方法
- 解析HTML文档:
使用etree.HTML()方法,可以将HTML文档解析为Element对象,就可以通过Element对象的API来操作HTML文档。比如:
html = etree.HTML('
Hello World') div = html.xpath('//div')[0] print(div.text)输出:
Hello World!
- 解析XML文档:
使用etree.parse()方法,可以将XML文档解析为ElementTree对象,就可以通过ElementTree对象的API来操作XML文档。比如:
xml = etree.parse('test.xml') root = xml.getroot() print(root.tag)
输出:
root
- 创建XML文档:
使用etree.Element()方法,可以创建一个Element对象,就可以通过Element对象的API来操作XML文档,比如:
root = etree.Element('root') child = etree.Element('child') child.text = 'Hello World!' root.append(child) print(etree.tostring(root))
输出:
b'
Hello World!'