PDFのOCRテキスト認識で変換した文字をペーストする際に文字化けする問題 : PDF

Pocket

追記メモ 2013.08.13
画像をPDFへ変換しAcrobat 10の[OCRテキスト認識]を使ってテキストへ変換した。OCRはうまくでき文字を選択できるようになった。しかし外部のアプリケーション(テキストエディタ[1]やWORD)へペーストする際に文字化けが発生した。

対策

画像を一度印刷しスキャンで読み取りPDFへ変換。Acrobat 10の[OCRテキスト認識]を使ってテキストへ変換すると外部へのペーストで文字化けが発生しなかった。


PDFの文字画像をAcrobat 9の[OCRテキスト認識]を使ってテキストへ変換した。OCR自体はうまくできて文字を選択できるようになった。しかし外部のアプリケーション(テキストエディタ[1]やWORD)へペーストする際に文字化けが発生する。

対策

  1. オリジナルのPDFファイルをIllustrator CS3で開く。
  2. Illusratorの文字に対応するオブジェクトのみを選択して新規aiファイルを作成してコピー&ペーストする。
  3. 新規に作成したaiファイルを別名を付けてAdobe PDF形式で保存する[2]
  4. 保存したPDFファイルの[OCRテキスト認識]機能を使ってテキストへ変換する。

上記の処理を行いペーストすると文字化けは解消できた。

[1] 秀丸を使い色々な文字コードで試したが駄目だった。文字コードの問題ではないとすると制作した際のフォントがインストールされていないのせいか?
[2] Illustratorでオリジナルを開いてそのままAdobe PDF形式として別名で保存しても文字化けは解消しなかった。

コメント

No comments yet.

コメントの投稿

改行と段落タグは自動で挿入されます。
メールアドレスは表示されません。