1.安装 lxml

直接 pip 安装

1	pip install lxml

2.构建 DOM

from lxml import etree
 
html="""
<html>
<body>
<form>
    <div id="myDiv">
        <h3>text</h3>
        <ul id="china">
            <li>ul1 li1</li>
            <li>ul1 li2</li>
        </ul>
        <ul id="england">
            <li>england li1</li>
            <li>england li2</li>
        </ul> 
    </div>
</form>
<body>
<html>"""
 
dom = etree.HTML(html)

3.XPath 查询

3.1.获取当前节点及其内容

代码：

ele = dom.xpath('//ul[1]/li')[0] 
con = etree.tostring(ele).decode('utf-8') 
# 打印当前节点及其内容  
print(str(con))

结果：

3.2.获获取当前节点的 tagName 和 id 属性

代码：

ele = dom.xpath('//ul')[0] 
# 打印当前节点的tagName 
print(ele.tag) 
# 打印当前节点的id 
print(ele.attrfb.get('id'))

结果：

3.3.获取节点的内容

代码：

1
2
3

ele = dom.xpath('//ul[@id="china"]/li')[0] 
# 打印当前节点的内容 
print(ele.text)

结果：

4.注意

使用 lxml 的 xpath 得到的结果总是 list 类型
若标签 tag.text 仅仅能获得处于 tag 下而不处于 tag 的子节点下的内容，例如 Html 代码如下：

<div id="div1">
    div1.text
    <div id="div2">
                ......
    </div>
</div></code><

获取 id=”div1” 的内容，只能得到 div1.text，而不会得到 div2 元素及其内容。