自炊した書籍を読み終わったらClearScanで軽量化するようにした

Adobe Acrobatでページのテキスト認識(OCR)を行う場合に「ClearScan」という形式を利用することができます。

ClearScanとは、Adobeの説明をそのまま引用すると「元のフォントに似た新しい Type 3 フォントを合成し、低解像度のコピーを使用してページの背景を保持します」というもので、以下のようなメリットがあります。

ClearScanによるテキスト認識のメリット
  • 拡大・縮小を行っても文字がクリアに表示できる
  • PDFのファイルサイズをかなり小さくできる

しかし、一方でClearScanには以下のような問題点もあります。

ClearScanによるテキスト認識の問題点

処理に時間がかかる

処理してる間は放置しておけばいいので、それほど問題にはならないですが。

文字やページ全体が傾くことがある

あまり極端に傾くことはないみたいですが、以下のように微妙に傾きます。(著者名の箇所)

ClearScan未使用
ClearScan使用

文字の位置がずれることがある

やはり、文字は圧倒的にClearScanの方がキレイです。ただ、こんな感じで文字の位置がずれることがあります。特に縦書きの場合になるような気がします。

本で使われているフォントに影響されるのか、本によっては極端にずれる率やずれ幅が大きくなることがあるので、何ページか確認してみてClearScanの方を使うかどうか決めた方がよいかと思います。

ClearScan未使用
ClearScan使用

読み終わった本などに限定してClearScanを活用することにした

このような問題点を抱えているため、これまでClearScanは使いませんでしたが、iTunesに保存している書籍の量が増えてきたため、読み終わった本については多少のズレは割り切ってファイルサイズを軽減する目的でClearScanを活用することにしました。

ただし、画像やイラストが主体の本については、ファイルサイズ軽減の効果が低い割に上記のような問題が起きやすいので、避けた方がよいと思います。

ClearScanによるテキスト認識


  1. Adobe Acrobatで「ツール」>「テキスト認識」>「このファイル内」をクリック。
  2. 表示された「テキスト認識」画面で「編集」をクリック。
  3. 表示された「テキスト認識 - 一般設定」画面で「PDFの出力形式」を「ClearScan」に設定して「OK」をクリック。
  4. 最後に「テキスト認識」画面で「OK」をクリックすれば実行できます。


参考までにScanSnapの設定

自炊にはScanSnap S1500を使っていて、以下のとおり書籍用の読み取り設定を使っています。


このブログの人気の投稿

oh-my-zshの導入とか、zshとvimの環境をナウでヤングでシンプルな感じにした

Pagesの差し込み印刷が便利すぎて、Officeが完全に要らなくなった