关于电子书籍的阅读计划(PDF 转 EPUB/MOBI)

前言

我一直是一个喜欢看计算机书籍的人,我收集的书籍资源有十多个 G。以前还因为误操作过一次 rm -rf / 导致我丢失了相当多的书籍。(虽然重要的都被找回来了)

其中大部分是 PDF,然后是 epub/mobi 资源。以前我从来不收集后者,原因是前段时间买了一个阅读器,所以特意重新将部分 PDF 书籍找了些 epub/mobi 资源。但是由于后者的稀缺所以只找到少数,所以我计划将现有的 PDF 资源转换成 epub 格式。

具体细节

如果你觉得 PDF 转 epub 有什么难度… 不都是文字吗?无非就是排版规则的区别。但是我想说… 如果网上的 PDF 书籍都是文字版那就好了。。。其实更多的是扫描版资源,是纯图片组成的,清晰度普遍不高,在阅读器上阅读很难受,其实包括手机和 iPad 在内阅读图片版 PDF 都不舒服呢。电脑的话肯定无压力了… 但是电脑不会给人一种阅读的享受… 这应该也是绝大多数人不喜欢用电脑看 PDF 书籍的原因(除开某些示例代码很多要照着写代码的技术书)。

实施计划

我打算尝试 OCR 识别的方式,将扫描版 PDF 转存为纯文字,然后再剔除一些识别过程中的冗余数据接着封装成 epub 格式。
当然,我并不祈求有严格的排版和其它装饰样式和 PDF 完全保持一致,只要不乱能够阅读就行了。目录也会尽可能尝试自动化完成页码的跳转。

难度的话,其实没有,但是我想想做好肯定是困难的,基本的排版(段落、标题等)是正确的就行了。

最后

其实有一点需要明确的指出来,网络上流传的出版书籍的 PDF 文件属于“盗版资源”,并不鼓励大家广泛传播 PDF。我收集电子版书籍的习惯是由于上学那会儿还真买不起那么多的书,所以看到好书就下载下来,于是乎收集了非常多的书籍。当然现在书本的价格对于我而言自然不在话下了,很多书其实还不如两顿饭钱,但是买书太占空间了,而且对于阅读了多年电子版书籍的我而言并不方便(毕竟手机、阅读器、电脑等设备都能随时看)。

我后来在 Kindle/微信阅读 等平台也买过部分正版电子版,但是它们的书籍资源无法导出(这个是废话),而我并不喜欢这种强平台依赖。

倒时候我会共享一些转换完成的好书出来,其实我一直有这个计划呢,因为我博客底部一直有一个 “BOOK” 的链接,但是一直没做而已,摆放了一年多了。。。