舊書電子化說明
將紙本的舊書變成電子檔有幾項優點:(一)、便於攜帶、保存、閱讀;(二)、有利於進一步的編輯、修改;(三)、減少對紙張(樹木)的消耗,本文主要提出一經濟簡單的方法,可將已經破舊且網上不能輕易得到的紙本書,利用光學辨識系統(OCR)及排版系統製作成可攜式文件格式 (PDF)。
在 OCR 的部份,經過實際的測試,智慧型手機的APP是比較可靠的,我主要使用 evolly.app 開發的文本掃描儀(Text Scanner)來完成,Text Scanner 需要網路才能正常運作,所以若是沒有網路的情況,可以使用開源的dpScreenOCR作為候補,當然成功率就沒那麼高,且要求的影像也需要用掃描器,比起手機拍照要慢得多,只可視為一個備案。
因為中文的辨識很難達到百分百的成功,同時,還需要排版軟體,所以還是有桌機或筆電比較方便,桌機和筆電的系統我選擇了 Linux ,一方面在硬體上可以不需要花費太多,另一方面由於愈來愈多跡象顯示非開源的軟體或硬體,未來在各方面可能會有許多限制。近日由於sifive 公司即將發表基於 RISC-V 的電腦(支援 Linux),所以未來對某些區域,Linux 應該是不錯的選擇。
為了避免在手機工作到一半時,突然有人打電話的窘境,建議是使用另外一隻不用的舊手機來做拍照和辨識的工作,當辨識完成時,將辨識後的文字先分享到如 QuickEdit 的App 並且從成純文字檔,當工作告一段落時在利用如 Share Cloud App 將檔案傳到平常在用的手機,最後利用如signal 將文字檔傳到電腦。
在排版的部分使用LaTeX,或者XeTeX ,關於TeX這種排版軟體,雖然不是WYSIWYG,但的確是功能強大,在此配合TeXMaker介面應該更加方便。對於中文方面,特別是直排,以下是一個範例:
%XeLaTeX document
%%%%%%%%%%%%%%%
% 中國歷代思想家 %
%%%%%%%%%%%%%%%
\documentclass[titlepage]{book}
\usepackage[paperwidth=17.8cm,paperheight=12.6cm, left=1.5cm, right=1.5cm, top=1.8cm, bottom=1.8cm,includefoot]{geometry}%設定尺寸
\usepackage{titlesec}%特殊標題、頁眉、內容
\usepackage{titletoc}%每節有個別目錄
\usepackage{graphicx}%圖形
\usepackage{subfigure}%子圖
\usepackage{fontspec} %設定字體
\usepackage{xeCJK} %讓中英文字體分開設置
\usepackage{indentfirst}%空兩格
\usepackage{rotating}%旋轉
\usepackage{enumerate}%數字大綱
\usepackage{multirow}%表格
\usepackage{array}%簡單矩陣
\usepackage{fancyhdr}
\usepackage{atbegshi}%旋轉
\usepackage{everypage}%可在每頁都加入一些固定的東西
\usepackage{zhnumber}%中文頁數
\usepackage{framed}%方框
\usepackage{wallpaper}%底圖
%\usepackage{multibbl}
\AtBeginShipout{%
\global\setbox\AtBeginShipoutBox\vbox{%
\special{pdf: put @thispage <</Rotate 90>>}%
\box\AtBeginShipoutBox
}%
}%順時針旋轉90
\defaultCJKfontfeatures{RawFeature={vertical:+vert}}
\newcommand*\CJKmovesymbol[1]{\raise.35em\hbox{#1}}%中文旋轉直排
\fancyhf{}% clearsall
\fancyhead{}
\fancyfoot[R]{\rotatebox{0}\thepage}
\renewcommand{\thepage}{\zhnum{page}}%中文頁數
\renewcommand{\headrulewidth}{0pt}
\newcommand{\blank}[1]{\hspace*{#1}}
\setCJKmainfont{新細明體} %fc-cache -f -v
\renewcommand{\bibname}{參考書目}
\renewcommand\contentsname{目次}\title{中國歷代思想家 一}
\let\CJKsymbol\CJKmovesymbol
\let\CJKpunctsymbol\CJKsymbol
\makeatletter
\let\@afterindentfalse\@afterindenttrue
\@afterindenttrue
\makeatother
\setlength{\parindent}{2em}%中文縮進兩個漢字位
\author{台灣商務印書館發行}
\begin{document}
\begin{titlepage}
\date{}
\maketitle
\thispagestyle{empty}
\end{titlepage}
\pagestyle{fancy}
\thispagestyle{empty}
\begin{center}
\setcounter{page}{1}
%\centering\thispagestyle{floatpage}
\includegraphics[scale=0.7, angle =90]{pp001.png}
\includegraphics[scale=0.7, angle =90]{pp002a.png}
\end{center}