Python之XML模块-365bet网络足球赌博-365bet网络足球赌博-365bet娱乐场中文-365bet亚洲手机版

1.XML基本概念

XML指可扩展语言(eXtensible Markup Language)，用来传输和存储数据，一个XML文件分为如下几部分内容：

1）文档声明 2）元素 3）属性 4）注释 5）CDATA区 6）实体

1.1 文档声明

在编写XML文档时，需要先使用文档声明，声明XML文档的类型。最简单的声明语法：，其中version表示XML的版本，encoding表示文档的编码格式，默认为utf-8。当XML文件中有中文时，必须使用encoding属性指明文档的字符编码，例如：encoding="GB2312"或者encoding="utf-8"，并且在保存文件时，也要以相应的文件编码来保存，否则在使用浏览器解析XML文件时，就会出现解析错误的情况。

1.2 元素

XML元素指XML文件中出现的标签，一个标签分为开始标签和结束标签，一个标签有如下几种书写形式，例如：

包含标签体：www.cnblogs.com/

不含标签体的：, 简写为：

一个标签中也可以嵌套若干子标签。但所有标签必须合理的嵌套，绝对不允许交叉嵌套，例如：错误的写法：welcome to www.cnblogs.com/

格式良好的XML文档必须有且仅有一个根标签，其它标签都是这个根标签的子孙标签。此外对于XML标签中出现的所有空格和换行，XML解析程序都会当作标签内容进行处理，例如：下面两段内容的意义是不一样的。

第一段：<网址>http://www.cnblogs.com/

第二段：

<网址>

http://www.cnblogs.com/

由于在XML中，空格和换行都作为原始内容被处理，所以，在编写XML文件时，使用换行和缩进等方式来让原文件中的内容清晰可读的“良好”书写习惯可能要被迫改变。

XML元素名称命名规范：

区分大小写，例如，

和

是两个不同的标记。

不能以数字或"_" (下划线)开头。

不能以xml(或XML、或Xml 等)开头。

不能包含空格。

名称中间不能包含冒号（:）

1.3 属性

一个标签可以有多个属性，每个属性都有它自己的名称和取值，例如：，属性值一定要用双引号（"）或单引号（'）引起来，定义属性必须遵循与标签相同的命名规范。多学一招：在XML技术中，标签属性所代表的信息，也可以被改成用子元素的形式来描述，例如：

text

View Code

1.4 注释

Xml文件中的注释采用：格式。

注意：

XML声明之前不能有注释

注释不能嵌套，例如：

……

-->

View Code

1.5 CDATA区

在编写XML文件时，有些内容可能不想让解析引擎解析执行，而是当作原始内容处理，遇到此种情况，可以把这些内容放在CDATA区里，对于CDATA区域内的内容，XML解析程序不会处理，而是直接原封不动的输出。

语法：

示例:

张三

]]>

李四

View Code

1.6 实体

对于一些单个字符，若想显示其原始样式，也可以使用转义的形式予以处理。

1.7 格式良好的XML文档

1）必须有XML的声明语句 2）必须有且只有一个XML根元素 3）标签大小写敏感

4）属性使用双引号 5）标签必须成对出现 6）空标签关闭

7）元素必须正确的嵌套 8）必须对特殊字符使用实体

2. xml的解析方法

常见的XML编程接口有DOM和SAX，这两种接口处理XML文件的方式不同，使用场合自然也就不同。Python有三种方法解析XML: SAX，DOM，以及ElementTree。

2.1 SAX (Simple API for XML )

Pyhton标准库包含SAX解析器，SAX用事件驱动模型，通过在解析XML的过程中触发一个个的事件并调用用户定义的回调函数来处理XML文件。SAX是一种基于事件驱动的API。利用SAX解析XML文档牵涉到两个部分:解析器和事件处理器。解析器负责读取XML文档,并向事件处理器发送事件,如元素开始及结束事件;而事件处理器则负责对事件作出处理。

优点:SAX流式读取XML文件，比较快，占用内存少。

缺点:需要用户实现回调函数（handler）。

2.2 DOM(Document Object Model)

将XML数据在内存中解析成一个树，通过对树的操作来操作XML。一个DOM的解析器在解析一个XML文档时，一次性读取整个文档，把文档中所有元素保存在内存中的一个树结构里，之后你可以利用DOM提供的不同的函数来读取或修改文档的内容和结构，也可以把修改过的内容写入xml文件。

优点:使用DOM的好处是你不需要对状态进行追踪，因为每一个节点都知道谁是它的父节点，谁是子节点.

缺点:DOM需要将XML数据映射到内存中的树，一是比较慢，二是比较耗内存，使用起来也比较麻烦！

2.3 ElementTree(元素树)

ElementTree就像一个轻量级的DOM，具有方便友好的API。代码可用性好，速度快，消耗内存少。相比而言，第三种方法，即方便，又快速，下面介绍用元素树如何解析XML。

3. ElementTree 详解

以Country.xml为例,内容如下

2008

141100

2011

59900

2011

13600

rainy day

sunny day

View Code

我们把xxx这种结构称为一个element，country称作element的tag，<>之间的内容称作element的text或data，<>中的name称作element的attrib，而整个XML树被称作ElementTree。ElementTree生来就是为了处理 XML ，它在 Python 标准库中有两种实现。一种是纯 Python 实现例如xml.etree.ElementTree，另外一种是速度快一点的xml.etree.cElementTree。你要记住：尽量使用C语言实现的那种，因为它速度更快，而且消耗的内存更少。如果你的电脑上没有 _elementtree，那么你需要这样做：

try: import xml.etree.cElementTree as ETexcept ImportError: import xml.etree.ElementTree as ET

这是一个让 Python 不同的库使用相同 API 的一个比较常用的办法。注意：从Python3.3开始，你没有必要这么做了，因为ElementTree模块会自动寻找可用的C库来加快速度。所以只需要 import xml.etree.ElementTree 就可以。

ElementTree模块拥有两个类

1）ElementTree: 代表整个XML文档，视作tree；用于对整个XML文档的操作；2）Element：代表XML文档(tree)上的单个节点；用于对XML节点及子节点的操作；

其官方中文版说明文档地址如下:

http://doc.codingdict.com/python_352/library/xml.etree.elementtree.html

3.1 模块方法

1) xml.etree.ElementTree.fromstring(text) ：从字符串常量中解析XML，与XML()方法解析的方式也一样，它们返回的都是一个Element实例。

2) xml.etree.ElementTree.iselement(element)：检查element是否是有效的element对象，如果是element对象返回true，否则返回false.

3) xml.etree.ElementTree.parse(source, parser=None)：把XML文件解析成 element tree，参数source是一个文件名或包含XML数据的文件对象，解析器是一个可选的解析器实例。如果没有指定parser的参数值，默认使用的是XMLParser解析器。调用此函数返回ElementTree实例对象

4) xml.etree.ElementTree.SubElement(parent, tag, attrib={}, **extra)：此函数是一个Subelement工厂，这个函数用于创建 element 实例，并将其添加到现有的 element 中。

5) xml.etree.ElementTree.tostring(element, encoding=”us-ascii”, method=”xml”, short_empty_elements=True):：将element及其所有的subelements转化成字符串。

其中element：表示一个element实例，encoding：默认编码是”us-ascii” ，method：默认是”xml”，可以选择“html”、“text”。

6) xml.etree.ElementTree.tostringlist(element, encoding=”us-ascii”, method=”xml”, *, short_empty_elements=True)：转化成字符串列表。

7) xml.etree.ElementTree.XML(text, parser=None)：用于从字符串常量中解析XML部分。其中text ：包含xml数据的字符串。 parser：解析器，默认是XMLParser ，结果返回的是一个Element实例

8）xml.etree.ElementTree.iterparse(source, events=None, parser=None)：在元素树中逐步解析XML,并且报告用户的情况。其中source是包含XML数据的文件名或文件对象。 events是要报告的事件列表，event有start，end，startns和endns四种选择，默认为end。 parser是一个可选的解析器实例，如果没有给出，则使用标准XMLParser解析器。 cElementTree不支持解析器。由iterparse创建的迭代器会产生形如(event,elem)的元组，其中event是事件列表中的某一个，而elem是相应的XML元素。

3.2 方法释义

3.2.1 使用模块方法读取XML数据

#_*_coding=utf-8

import xml.etree.ElementTree as ET

#1.ET对象具有多种方法从不同来源导入XML数据

#1)调用parse()方法，返回解析树

tree = ET.parse(r'E:\2018-12-19\country.xml')#载入数据

root =tree.getroot()#获取根节点，

#2)调用fromstring()方法，从字符串常量中解析XML，返回解析树的根元素

data = open(r'E:\2018-12-19\country.xml').read()

root1= ET.fromstring(data)#

#3)调用ElementTree类ElementTree(self, element=None, file=None)

tree1 = ET.ElementTree(r'E:\2018-12-19\country.xml')#

root2 = tree.getroot()#

#4)调用XML()方法，用于从字符串常量中解析XML部分。

root3 = ET.XML(data)#

读取XML数据

3.2.2 element对象的属性和方法

Element类

class xml.etree.ElementTree.Element(tag, attrib={}, **extra)

#属性

tag：string，元素类型，element type。

text：string，元素的内容,元素起始tag于结尾tag之间的文本。

tail：string，元素的尾形。元素结尾tag与下一个起始tag之间的文本

attrib：dictionary，元素的属性字典。

＃针对属性的操作

clear()：清空元素的后代、属性，并设置text和tail的属性为None。

get(key, default=None)：获取key对应的属性值，如该属性不存在则返回default值。

items()：根据属性字典返回一个列表，列表元素为(key, value）。

keys()：返回包含所有元素属性键的列表。

set(key, value)：设置新的属性键与值。

＃针对后代的操作

append(subelement)：添加一个直系子元素。

extend(subelements)：通过列表对象追加0个或多个子元素。＃python2.7新特性

find(match,namespaces=None)：寻找第一个匹配子元素，匹配对象可以为tag或path。

findall(match,namespaces=None)：寻找所有匹配子元素，匹配对象可以为tag或path。

findtext(match)：寻找第一个匹配子元素，返回其text值。匹配对象可以为tag或path。

insert(index, element)：在指定位置插入子元素。

iter(tag=None)：以当前element为root，创建一个tree iterator。＃python2.7新特性

iterfind(match,namespaces=None)：根据tag或path查找所有的后代。

itertext()：遍历所有后代并返回text值。

remove(subelement)：删除子元素。

View Code

练习:

#_*_coding=utf-8

import xml.etree.ElementTree as ET

tree = ET.parse(r'E:\2018-12-19\country.xml')#载入数据

root =tree.getroot()#获取根节点，

#1.获取element object 的四大属性tag、text、attrib以及tail

print(root.tag) #root element的tag

print(root.text) #root element的text

print(root.attrib) #root element本身的attrib,dict格式的

print(root.tail) #root element的tag结束到下一个tag之间的text

# #通过DICT逻辑获取树形结构的text，表示第一个child的第二个child element的text

print(root[0][1].text)#2008

#2. 针对属性的操作

#1)简单操作

print(root[0][3].keys())#['name', 'direction']

print(root[0][3].get('name'))#Austria

print(root[0][3].items())#[('name', 'Austria'), ('direction', 'E')]

root[0][3].set('name','aa')

#2）将所有的rank值加1,并添加属性updated为yes

for rank in root.iter("rank"):

new_rank = int(rank.text) + 1

rank.text = str(new_rank) # 必须将int转为str

rank.set("updated", "yes") # 添加属性

# 再终端显示整个xml

ET.dump(root)

# 注意修改的内容存在内存中尚未保存到文件中

# 保存修改后的内容

tree.write(r'E:\2018-12-19\country1.xml')

#3）删除添加的updated属性

for rank in root.iter("rank"):

# attrib为属性字典

# 删除对应的属性updated

del rank.attrib['updated']

ET.dump(root)

#3.遍历

#1)简单遍历

# 遍历xml文档的第二层

for child in root:

# 第二层节点的标签名称和属性

print(child.tag,":", child.attrib)

# 遍历xml文档的第三层

for children in child:

# 第三层节点的标签名称和属性

print(children.tag, ":", children.attrib)

#2）利用Element提供的方法遍历

#过滤出所有neighbor标签

for neighbor in root.iter('neighbor'):

print(neighbor.tag,":",neighbor.attrib)

#遍历所有的country标签

for country in root.findall('country'):

# 查找country标签下的第一个rank标签

rank = country.find("rank").text

# 获取country标签的name属性

name = country.get("name")

print(name, rank)

View Code

Xpath句法含义列表:

#_*_coding=utf-8

import xml.etree.ElementTree as ET

tree = ET.parse(r'E:\2018-12-19\country.xml')#载入数据

root =tree.getroot()#获取根节点，

#4.查找感兴趣的标签

#1)使用element方法查找country名为"singapore"的国家的gdp值以及排名

#findall只能用来查找直接子元素，不能用来查找rank，neighbor等element

for country in root.findall('country'):

name = country.get('name')

if name == 'Singapore':

rank = country.find('rank').text

gdp = country.find('gdppc').text

print("{name}: rank={rank},gdp={gdp}".format(name=name,rank=rank,gdp=gdp))

else:

continue

#输出:Singapore: rank=5,gdp=59900

#2)使用Xpath寻找所有国家的name属性

countrylist=root.findall("./country")

for country in countrylist:

print(country.get('name'))

#输出

# Liechtenstein

#Singapore

#Panama

#3)Xpath练习

#a)选取所有的country元素的rank子元素

print(root.findall('./country/rank'))#[, , ]

#b)以根节点为始祖，选取其后代中的rank元素

print(root.findall('.//rank'))#[, , ]

#c)以country为始祖，选取后代中的year元素

print(root.findall('country//year'))#[, , ]

#d)以country为始祖，选取后代中的具有direction属性的元素

print(root.findall("country//*[@direction]"))#[, , , , ]

#e)选取根元素的第一个country子元素

print(root.findall('./country[1]'))#[]

#f)选取根元素的最后一个country子元素

print(root.findall('./country[last()]'))#[]

#g)选取根元素的倒数第二个country子元素

print(root.findall('./country[last()-1]'))#[]

#h)以根节点为始祖，选取其后代含有name属性且值为Malaysia的元素

print(root.findall(".//*[@name='Malaysia']"))#[]

#i)以root为始祖，选取具有year子元素且其子元素text为2011的元素

print(root.findall(".//*[year='2011']"))#[, ]

#g)以country为始祖，选取具有名为Monday子元素的元素

print(root.findall("country//*[Monday]"))#[]

#k)以root为始祖，选取name=panama的元素的后代Monday元素

print(root.findall(".//*[@name='Panama']/weather/Monday"))#[]

print(root.findall(".//*[@name='Panama']/*/Monday"))

获取感兴趣的元素

3.2.3 创建XML文档

1）创建XML

#_*_coding=utf-8

import xml.etree.ElementTree as ET

#使用indent函数，使element tree 输出带缩进格式的xml

def indent(elem, level=0):

i = "\n" + level*"\t"

if len(elem):

if not elem.text or not elem.text.strip():

elem.text = i + "\t"

if not elem.tail or not elem.tail.strip():

elem.tail = i

for elem in elem:

indent(elem, level+1)

if not elem.tail or not elem.tail.strip():

elem.tail = i

else:

if level and (not elem.tail or not elem.tail.strip()):

elem.tail = i

#创建根节点

data = ET.Element('data')

#创建子节点并添加属性

sub1= ET.SubElement(data,'country',attrib={'name':'Liechtenstein','MothorTongue':'German'})

#sub1.attrib = {'MothorTongue':'German'}#此处再赋值，会覆盖之前设置的attrib值

country1_rank = ET.SubElement(sub1,'rank')

country1_rank.text = '2'

country1_year = ET.SubElement(sub1,'year')

country1_year.text = '2008'

country1_gdp = ET.SubElement(sub1,'gdppc')

country1_gdp.text = '141100'

country1_neighbor = ET.SubElement(sub1,'neighbor',attrib={'name':'Austria','direction':'w'})

indent(data)

ET.dump(data)

#创建element tree对象，写文件

tree = ET.ElementTree(data)

tree.write(r'E:\2018-12-19\text.xml')

View Code

2)将字典转换为XML文档

#_*_coding=utf-8

import xml.etree.ElementTree as ET

#使用indent函数，使element tree 输出带缩进格式的xml

def indent(elem, level=0):

i = "\n" + level*"\t"

if len(elem):

if not elem.text or not elem.text.strip():

elem.text = i + "\t"

if not elem.tail or not elem.tail.strip():

elem.tail = i

for elem in elem:

indent(elem, level+1)

if not elem.tail or not elem.tail.strip():

elem.tail = i

else:

if level and (not elem.tail or not elem.tail.strip()):

elem.tail = i

def dict_to_xml(tag, d):

'''

Turn a simple dict of key/value pairs into XML

'''

elem = ET.Element(tag)

for key, val in d.items():

child = ET.Element(key)

child.text = str(val)

elem.append(child)

return elem

dict1 = {'rank':'2','year':'2008','gdppc':'141100','neighbor':''}

data = dict_to_xml('country',dict1)

indent(data)

ET.dump(data)

#输出

# 2

# 2008

# 141100

View Code

3.2.4 解析大型XML文档

使用xml.etree.ElementTree.iterparse(source, events=None, parser=None)方法你将用尽可能少的内存从一个超大的XML文档中提取数据。

示例1：iterparse的简单使用

#_*_coding=utf-8

import xml.etree.ElementTree as ET

data = ET.iterparse(r'E:\2018-12-19\country.xml',('start','end'))

print(next(data))

#输出

# ('start', )

# ('end', )

# ('start', )

# ('end', )

# ('start', )

# ('end', )

# ('start', )

# ('end', )

# ('start', )

# ('end', )

# ('start', )

View Code

由上例可以看出，start 事件在某个元素第一次被创建并且还没有被插入其他数据 (如子元素) 时被创建，即是当遇到标签的“>”符号时触发start，而 end 事件在某个元素已经完成时被创建，即是遇到标签的结束标志时会触发end。

下面是一个包含iterparse()方法的很简单的函数，该函数只使用很少的内存就能增量式的处理一个大型 XML 文件，实现对节点的迭代式解析和删除，返回指定路径的最后一层元素。

#_*_coding=utf-8

from xml.etree.ElementTree import iterparse

def parse_and_remove(filename,path):

path_parts = path.split('/')

doc = iterparse(filename, ('start', 'end'))

# Skip the root element

next(doc)

tag_stack = []

elem_stack = []

for event, elem in doc:

if event == 'start':

tag_stack.append(elem.tag)

elem_stack.append(elem)

elif event == 'end':

if tag_stack == path_parts:

yield elem

elem_stack[-2].remove(elem)

try:

tag_stack.pop()

elem_stack.pop()

except IndexError:

pass

data = parse_and_remove(r'E:\2018-12-19\country.xml',('country/weather/Monday'))

print(next(data))

#输出

View Code

>>>>待续

Python之XML模块

🔍 相关推荐

【倍耐力轮胎】价格表

lol4800档位哪些英雄值得入手？看看这份实用攻略！

如何鉴别鹧鸪雌雄

🤝 友情链接