pdf-view
该项目是更快的PDF在线预览方案的组成部分, 可以讲PDF文件按页拆分为图片并提取其中的文本信息, 提取出的文本信息以JSON的格式存储, 为页面上的下一步处理做准备.
安装
该项目依赖 graphicsmagick 和 nodejs.
1, nodejs安装不说 2, graphicsmagick 可以使用如下命令在mac上安装, 其他linux系统可以使用相应的方式安装
brew install graphicsmagick
brew install ghostscript
3, 安装该命令
sudo npm install pdf-view -g
使用
Usage: pv [options] <file>
Options:
-h, --help output usage information
-V, --version output the version number
-I, --image <pattern> image output pattern
-T, --text <path> text output path
- -T 声明用来提取文本信息, 参数之名json的保存地址
- -I 声明用来拆分图片, 参数为一个pattern, 必须包含'%d', 用来表示页码
示例:
$ pv -I ./page-%d.png -T demo.json demo.pdf
Warning: Setting up fake worker.
pdf to json finish.
split to image finish.
$ ls
demo.json demo.pdf page-0.png page-1.png page-2.png