《Drupal 7 权威指南》的第三部分已经翻译完第九章和第十章,准备开始翻译第十一章时发现找不到原书的 txt 文本了。在网上简单找了一下,发现原来 Linux 下有一个名为 pdftotxt 的命令行工具就可以将 PDF 转化为 txt 文件。
pdftotext 命令的用法十分简单,只需要在命令行后面跟上要转换的 PDF 的文件路径即可,如
以上命令便会基于 d7.pdf 生成一个同名的 d7.txt 文件。当然也可以自行设置输出的文件名称,如
pdftotext d7.pdf drupal7.txt
以上两个命令可以将 pdf 转换成 txt,PDF 中的所有内容都会被包含在 txt 中。很棒吧!
不过 PDF 的页头、页脚和页码等信息,也会被包含进 txt 中。大部分情况下,大家都不需要 txt 文件中包含这些噪音内容。