doc文件

文件解析器，解析包括.doc/.docx/pdf文件

doc文件

Windows 平台

直接处理 .doc 对表格处理不友好，如有合并单元格时会报错而无法读取，所以利用win32com来将其转换为.docx来处理。

import os


def doc2docx(path):
    w = win32com.client.Dispatch('Word.Application')
    w.Visible = 0
    w.DisplayAlerts = 0
    doc = w.Documents.Open(path)
    newpath = os.path.splitext(path)[0] + '.docx'
    doc.SaveAs(newpath, 12, False, "", True, "", False, False, False, False)
    doc.Close()
    w.Quit()
    os.remove(path)
    return newpath

Linux

通用的方案是利用textract来提取内容，其backend是 antiword，利用antiword 也可以转为.docx，所以也是选择将.doc转为.docx来处理。

antiword path-to-doc > path-to-docx

docx文件

.docx文件的解析使用python-docx,他可以帮助我们提取段落、表格、附件等内容。

pdf文件

pdf文件解析使用pdfplumber,他底层使用pdfminer.six, 在此之上，增加了对表格内容的组织，所以除了读取内容外，针对表格还可以返回其结构化结果。

Name		Name	Last commit message	Last commit date
Latest commit History 22 Commits
docs		docs
examples		examples
parser4document		parser4document
.gitignore		.gitignore
README.md		README.md
setup.py		setup.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

docs

docs

examples

examples

parser4document

parser4document

.gitignore

.gitignore

README.md

README.md

setup.py

setup.py

Repository files navigation

doc文件

Windows 平台

Linux

docx文件

pdf文件

About

Releases

Packages

Languages

xv44586/parser4document

Folders and files

Latest commit

History

Repository files navigation

doc文件

Windows 平台

Linux

docx文件

pdf文件

About

Topics

Resources

Stars

Watchers

Forks

Languages