您的位置:新葡亰496net > 新葡亰496net > Word的实例讲授,Python读取word文本操作详解

Word的实例讲授,Python读取word文本操作详解

发布时间:2019-08-24 12:20编辑:新葡亰496net浏览(166)

    问题:python怎么着编制程序word文书档案?有啥库能够直接使用?

    Python读取word文本操作详解,pythonword

    正文切磋的显要问题时Python读取word文本操作,分享了有关概念和促成代码,具体如下。

    Python读写word文书档案有现存的库可以管理。作者这边运用 python-docx。能够用pip install python-docx安装一下。

    正文切磋的首要性难点时Python读取word文本操作,分享了有关概念和落实代码,具体如下。

    动用python工具读写MS Word文件(docx与doc文件),首要运用了python-docx包。本文给出一些常用的操作,并落成三个样例,扶助大家非常的慢入手。

    回答:

    一,docx模块

    Python能够行使python-docx模块管理word文书档案,管理格局是面向对象的。约等于说python-docx模块会把word文书档案,文书档案中的段落、文本、字体等都作为对象,对目的举行拍卖正是对word文书档案的剧情管理。

    那边说一句,ppt和excel也可能有附近的库哦,并且是直接读取文件之中的xml数据。所以doc格式得另找另外库管理,doc格式不是基于xml的。

    一,docx模块

    Python能够选拔python-docx模块管理word文书档案,管理方式是面向对象的。约等于说python-docx模块会把word文书档案,文书档案中的段落、文本、字体等都作为对象,对目的进行拍卖就是对word文书档案的内容处理。

    安装

    那边介绍一个库—python-docx,特地用来python读写word文书档案,使用方便、火速,上边作者简要介绍一下以此库的装置和动用,实验情况win10 python3.6 pycharm5.0,首要内容如下:

    二,相关概念

    假如要求读取word文书档案中的文字(一般的话,程序也只需求认知word文书档案中的文字信息),需求先领悟python-docx模块的多少个概念。

    1,Document对象,表示三个word文书档案。
    2,Paragraph对象,表示word文书档案中的五个段子
    3,Paragraph对象的text属性,表示段落中的文本内容。

    扶助文书档案:http://python-docx.readthedocs.org/en/latest/

    二,相关概念

    借使须求读取word文书档案中的文字(一般的话,程序也只需求认知word文书档案中的文字音信),须要先了然python-docx模块的多少个概念。

    1,Document对象,表示叁个word文书档案。
    2,Paragraph对象,表示word文书档案中的三个段子
    3,Paragraph对象的text属性,表示段落中的文本内容。

    pyhton管理docx文件必要利用python-docx 包,能够行使pip工具很便利的设置,pip工具在python安装路线下的Scripts文件夹中

    1.安装python-docx,这么些平昔在cmd窗口输入指令“pip install python-docx”就行,如下:

    三,模块的装置和导入

    内需留心,python-docx模块安装必要在cmd命令行中输入pip install python-docx,如下图表示安装成功(最终那句乌克兰(Ukraine)语Successfully installed,成功地设置到位,十三分考验马耳他语水准。)

    图片 1

    只顾在导入模块时,用的是import docx。

    也真是奇了怪了,怎么设置和导入模块时,比相当多都无须贰个名字,看来是很有不可缺少出三个python版本的模块管理程序python-maven了,本段纯属PS。

    1、新建或张开文件。那么些比较简单用docx的Document类,若内定路径则是展开文档;若未有一点名路线则是新建文书档案

    三,模块的装置和导入

    内需留神,python-docx模块安装须要在cmd命令行中输入pip install python-docx,如下图表示安装成功(最后那句立陶宛(Lithuania)语Successfully installed,成功地设置完结,十一分考验日语水准。)

    图片 2

    只顾在导入模块时,用的是import docx。

    也便是奇了怪了,怎么设置和导入模块时,相当多都毫无叁个名字,看来是很有至关重要出叁个python版本的模块管理程序python-maven了,本段纯属PS。

    pip install python-docx
    

    图片 3

    四,读取word文本

    在询问了地点的新闻之后,就很轻巧了,下边先创设八个D:tempword.docx文件,并在内部输入如下内容。

    图片 4

    然后写一段程序,代码及出口结果如下:

    #读取docx中的文本代码示例
    import docx
    #获取文档对象
    file=docx.Document("D:\temp\word.docx")
    print("段落数:" str(len(file.paragraphs)))#段落数为13,每个回车隔离一段
    
    #输出每一段的内容
    for para in file.paragraphs:
     print(para.text)
    
    #输出段落编号及段落内容
    for i in range(len(file.paragraphs)):
     print("第" str(i) "段的内容是:" file.paragraphs[i].text)
    

    运作结果:

    ================ RESTART: F:/360data/重要数据/桌面/学习笔记/readWord.py ================
    段落数:13
    啊
    
    我看见一座山
    
    雄伟的大山
    
    真高啊
    
    啊
    
    这座山是!
    
    真的很高!
    第0段的内容是:啊
    第1段的内容是:
    第2段的内容是:我看见一座山
    第3段的内容是:
    第4段的内容是:雄伟的大山
    第5段的内容是:
    第6段的内容是:真高啊
    第7段的内容是:
    第8段的内容是:啊
    第9段的内容是:
    第10段的内容是:这座山是!
    第11段的内容是:
    第12段的内容是:真的很高!
    >>> 
    
    #coding:utf-8
    import docx
    
    #新建文档
    doc_new = docx.Document()
    
    #读取文档
    doc = docx.Document(ur'C:1.docx')
    

    四,读取word文本

    在打听了地点的新闻之后,就非常粗略了,下边先创建两个D:tempword.docx文件,并在里边输入如下内容。

    图片 5

    然后写一段程序,代码及出口结果如下:

    #读取docx中的文本代码示例
    import docx
    #获取文档对象
    file=docx.Document("D:\temp\word.docx")
    print("段落数:" str(len(file.paragraphs)))#段落数为13,每个回车隔离一段
    
    #输出每一段的内容
    for para in file.paragraphs:
     print(para.text)
    
    #输出段落编号及段落内容
    for i in range(len(file.paragraphs)):
     print("第" str(i) "段的内容是:" file.paragraphs[i].text)
    

    运作结果:

    ================ RESTART: F:/360data/重要数据/桌面/学习笔记/readWord.py ================
    段落数:13
    啊
    
    我看见一座山
    
    雄伟的大山
    
    真高啊
    
    啊
    
    这座山是!
    
    真的很高!
    第0段的内容是:啊
    第1段的内容是:
    第2段的内容是:我看见一座山
    第3段的内容是:
    第4段的内容是:雄伟的大山
    第5段的内容是:
    第6段的内容是:真高啊
    第7段的内容是:
    第8段的内容是:啊
    第9段的内容是:
    第10段的内容是:这座山是!
    第11段的内容是:
    第12段的内容是:真的很高!
    >>> 
    

    理当如此你也得以选拔使用easy_install恐怕手动方式举办设置

    2.安装实现后,大家就能够展开简易的测量检验了,这里小编分别就读取word文书档案和写入word文档做了简介,首要代码及截图如下:

    总结

    上述正是本文关于Python读取word文本操作详解的全体内容,希望对我们全数协理。感兴趣的对象可以承袭参照本站其余连锁专项论题,如有不足之处,招待留言提议。谢谢朋友们对本站的支撑!

    本文研讨的严重性难题时Python读取word文本操作,分享了连带概念和完毕代码,具体如下。 一,docx模块...

    2、保存文件。有打开,就有保留。用Document类的save方法,在那之中参数是保存的文件路线,可能要保存的文书流。一般钦命路径就可以。

    总结

    如上正是本文关于Python读取word文本操作详解的全体内容,希望对我们持有援助。感兴趣的对象能够持续参照本站别的有关专项论题,如有不足之处,接待留言建议。多谢朋友们对本站的扶助!

    写入文件内容

    • 读取word文书档案,这里以读取文书档案中的段落文本和表格数据为例,示例文书档案如下:
    doc.save(path_or_stream)
    

    你或然感兴趣的小说:

    • Python读取内定目录下钦命后缀文件并保存为docx
    • python解析html提取数额,并生成word文档实例分析
    • Python复制Word内容并选择格式设字体与大小实例代码
    • 利用python批量修改word文件名的艺术言传身教
    • Word的实例讲授,Python读取word文本操作详解。用python结合jieba和wordcloud实现词云效果
    • Python Wordpress制作小说站
    • python 现身SyntaxError: non-keyword arg after keyword arg错误消除办法
    • python批量替换页眉页脚实例代码

    此地我们平素交给二个样例,依据自个儿的内需选拔有用的源委

    图片 6

    3、对象会集。python-docx包括了word文书档案的相干对象会集。

    #coding=utf-8
    from docx import Document
    from docx.shared import Pt
    from docx.shared import Inches
    from docx.oxml.ns import qn
    #打开文档
    document = Document()
    #加入不同等级的标题
    document.add_heading(u'MS WORD写入测试',0)
    document.add_heading(u'一级标题',1)
    document.add_heading(u'二级标题',2)
    #添加文本
    paragraph = document.add_paragraph(u'我们在做文本测试!')
    #设置字号
    run = paragraph.add_run(u'设置字号、')
    run.font.size = Pt(24)
    #设置字体
    run = paragraph.add_run('Set Font,')
    run.font.name = 'Consolas'
    #设置中文字体
    run = paragraph.add_run(u'设置中文字体、')
    run.font.name=u'宋体'
    r = run._element
    r.rPr.rFonts.set(qn('w:eastAsia'), u'宋体')
    #设置斜体
    run = paragraph.add_run(u'斜体、')
    run.italic = True
    #设置粗体
    run = paragraph.add_run(u'粗体').bold = True
    #增加引用
    document.add_paragraph('Intense quote', style='Intense Quote')
    #增加无序列表
    document.add_paragraph(
     u'无序列表元素1', style='List Bullet'
    )
    document.add_paragraph(
     u'无序列表元素2', style='List Bullet'
    )
    #增加有序列表
    document.add_paragraph(
     u'有序列表元素1', style='List Number'
    )
    document.add_paragraph(
     u'有序列表元素2', style='List Number'
    )
    #增加图像(此处用到图像image.bmp,请自行添加脚本所在目录中)
    document.add_picture('image.bmp', width=Inches(1.25))
    #增加表格
    table = document.add_table(rows=1, cols=3)
    hdr_cells = table.rows[0].cells
    hdr_cells[0].text = 'Name'
    hdr_cells[1].text = 'Id'
    hdr_cells[2].text = 'Desc'
    #再增加3行表格元素
    for i in xrange(3):
     row_cells = table.add_row().cells
     row_cells[0].text = 'test' str(i)
     row_cells[1].text = str(i)
     row_cells[2].text = 'desc' str(i)
    #增加分页
    document.add_page_break()
    #保存文件
    document.save(u'测试.docx')
    

    对应读替代码如下,很轻巧,分别获得具备段落文本和表格数据,然后循环打字与印刷就行,readWord函数输入参数为急需读取的word文书档案:

    doc.paragraphs #段落集合
    doc.tables #表格集合
    doc.sections #节 集合
    doc.styles #样式集合
    doc.inline_shapes #内置图形 等等...
    

    该段代码生成的文书档案样式如下

    图片 7

    4、插入段落。段落是word最基本的靶子之一。

    图片 8

    程序运转截图如下,已经成功博获得word文书档案的开始和结果:

    doc.add_paragraph(u'第一段',style=None) #插入一个段落,文本为“第一段”
    #默认是不应用样式,这里也可以不写style参数,或者指定一个段落样式
    doc.add_paragraph(u'第二段',style='Heading 2')
    
    #这些样式都是word默认带有的样式,可以直接罗列出来有哪些段落样式
    print [s.name for s in doc.styles if s.type==1]
    

    注:有二个难题没找到怎么样化解,即什么为表格设置边框线。如若您知道,还请能够指教。

    图片 9

    5、新扩展样式。那么些支持文书档案里面说得不留神,而且照旧立陶宛共和国(Republic of Lithuania)语的。笔者手头上的种类用到那个,就和睦雕刻出怎么选取,如下。

    读取文件内容

    • 写入word文书档案,那么些也非常粗略,构造相应数据结构,然后径直写入word文书档案就行,这里以增加标题、段落、图片、援引、表格,设置字体、有系列表和冬季列表为例,首要测验代码如下:
    #coding:utf-8
    from docx import Document
    from docx.shared import RGBColor #这个是docx的颜色类
    
    #新建文档
    doc = Document()
    
    #新增样式(第一个参数是样式名称,第二个参数是样式类型:1代表段落;2代表字符;3代表表格)
    style = doc.styles.add_style('style name 1', 2)
    
    #设置具体样式(修改样式字体为蓝色,当然还可以修改其他的,大家自己尝试)
    style.font.color.rgb = RGBColor(0x0, 0x0, 0xff)
    
    #coding=utf-8
    from docx import Document
    #打开文档
    document = Document(u'测试.docx')
    #读取每段资料
    l = [ paragraph.text.encode('gb2312') for paragraph in document.paragraphs];
    #输出并观察结果,也可以通过其他手段处理文本即可
    for i in l:
     print i
    #读取表格材料,并输出结果
    tables = [table for table in document.tables];
    for table in tables:
     for row in table.rows:
      for cell in row.cells:
       print cell.text.encode('gb2312'),'t',
      print
     print 'n'
    

    图片 10

    6、应用字符样式。字符自然是在段落里面包车型地铁,能够接纳上边方法给段落追Gavin字和设置字符样式。

    笔者们如故选拔刚才我们转移的公文,能够看来,输出的结果为

    图片 11

    #插入一个空白段落
    p = doc.add_paragraph('')
    p.add_run('123', style="Heading 1 Char")
    p.add_run('456')
    p.add_run('789', style="Heading 2 Char")
    
    #这样一个段落就应用了两个字符样式,中间“456”就没应用样式
    print p.text #输出结果是u'123456789' 也还是连续的
    

    图片 12

    图片 13

    7、设置字体。当然能够毫不经过设置样式对某个字打开安装,也能够一贯设置。

    注意:此地大家应用gb2312编码形式读取,首若是确认保证中文的读写准确。一般情形下,使用的utf-8编码格局。另外,python-docx首要管理docx文件,在加载doc文件时,会产出难点,假若有大气doc文件,提出先将doc文件批量转变为docx文件,比方利用工具doc2doc

    程序运行截图如下,已经成功创办并生成word文书档案:

    p = doc.add_paragraph('')
    r = p.add_run('123')
    r.font.bold = True #加粗
    r.font.italic = True #倾斜 等等...
    

    上述那篇用python管理MS Word的实例解说正是作者分享给大家的全体内容了,希望能给我们多个参照,也盼望大家多多帮忙脚本之家。

    图片 14

    8、表格操作。表格也是平日使用的一种对象类型。

    您或者感兴趣的稿子:

    • python实现在windows下操作word的方法
    • Python读取word文本操作详解
    • Python操作Word批量生成作品的措施
    • Python读取Word(.docx)正文音讯的不二秘籍
    • Python达成批量读取word中表格消息的法子

    迄今,大家就到位了利用python来编程word文书档案。总的来讲,整个经过简单,思路轻松,代码也十分的少,很好理解,只要你有自然的python基础,熟识一下有关示例和代码,多演习一下,相当慢就能够精晓的,python-docx官方网站也提供了十一分详尽的选拔文书档案,非常适合初专家学习,介绍的很周全,能够参见一下

    #新建一个2x3的表格,style可以不写
    table=doc.add_table(rows=2,cols=3,style=None)
    
    #可以用table 的rows和columns得到这个表格的行数和列数
    print len(table.rows)
    print len(table.columns)
    
    #遍历表格
    for row in table.rows:
     row.cells[0].text = '1'
     #print row.cells[0].text
    
    #新增行或列
    table.add_row()
    table.add_column()
    

    回答:

    Word常见操作大概就是这个。大家能够查阅帮忙文书档案,也足以用dir和help查看对象的艺术属性和推抢。

    python调用word接口主要使用python-docx模块,基本操作官方文书档案有表明。

    如上那篇Python读写docx文件的主意就是作者分享给我们的全体内容了,希望能给大家一个参阅,也希望我们多多协助脚本之家。

    图片 15

    您恐怕感兴趣的篇章:

    • Python使用win32com模块完成数量库表结构自动生成word表格的办法
    • 行使Python通过win32 COM实现Word文书档案的写入与封存方法
    • Python读取钦点目录下内定后缀文件并保留为docx
    • python docx 中文字体设置的操作方法
    • Python读取Word(.docx)正文新闻的办法
    • python3如何将docx转换成pdf文件
    • Ubuntu下使用python读取doc和docx文书档案的内容措施
    • python-docx修改已存在的Word文书档案的报表的书体魄式方法
    • Python操作word常见方法以身作则【win32com与docx模块】

    官方文书档案的链接在这时无法发,须求的话能够私信笔者。

    接下去大家一步一步的始发接纳Python对wold文书档案举行操作:

    1. 安装python-docx模块
      开采命令提醒符,输入“pip install python-docx”导入python-docx模块:
      图片 16俗尘突显Successfully installed python-docx-x.x.x表明您安装成功了。

    2. 开荒编写翻译器,导入Document和Inches包:
      图片 17

    3. 新建docx文件:
      图片 18

    4. 插入文书档案标题:
      图片 19

    5. 插入文书档案内容:
      图片 20

    6. 保留文件:
      图片 21

    此时大家运转一下这么些程序,在右侧文件列表中会出现“demo.docx”文件。

    图片 22

    小编们去文件目录展开它看一下:

    图片 23

    是我们写的文本没有错,那就是Python对word文书档案的基本操作。当然,不独有局限于插入标题和段落,还会有图片表格等,笔者在那边就不一一介绍,若感兴趣请查阅官方文书档案~

    图片 24

    自己是刘坏坏,盘点干货财富。尽管自己的对答有何疏漏之处,请在人世商量或私信建议。借使对你有援助,请点赞收藏。小编稽首~

    回答:

    一、安装Python-docx

    Python-docx是专程针对于word文书档案的一个模块,只可以读取docx 无法读取doc文件。说白了,python就一定于windows操作系统,QQ便是跑在windows操作系统上的软件,QQ最大的效劳是足以去聊天,说话。 在此间python-docx就相当于这里的qq 它最首要的功效是对docx文件实行操作,管理等.(个人理解,非专门的工作!)

    1.1、安装Python-docx

    1.1.1、使用虚构景况安装python-docx

    pip install python-docx # 安装命令

    安装收尾后,在此虚构意况中运作Jupyter notebook

    jupyter notebook

    1.1.2、切换工作目录(使用

    本文由新葡亰496net发布于新葡亰496net,转载请注明出处:Word的实例讲授,Python读取word文本操作详解

    关键词: