【多言語対応】PDFをWord形式に変換!【文字認識】

【多言語対応】PDFをWord形式に変換!【文字認識】

こんにちは!ナラコです。
先日、とある企業様よりこんなご相談が・・・

スキャンしてPDFにした書類があるんだけど…
Wordファイルに作り変えてもらえない?

よくよくそのPDFを見てみると

  • 中国語英語がメイン(多言語で作られている文書)
  • 全部で50ページくらい!
  • 紙をスキャンしたものでコピペ不可の状態

英語力は(たぶん)高校生レベル
中国語は全くわからない!
そんな私がどうやってこの案件をクリアしたか
ご紹介します。

【これで解決】OCRで文字を読み取り!PDFをWord形式に!

OCRとは

  • 光学文字認識
  • 活字、手書きテキストの画像を
    文字コードの列に変換するソフトウェア
  • パスポート、請求書、銀行取引明細書、
    レシート、名刺、メール、データや文書の印刷物など、
    紙に記載されたデータを
    データ入力する手法として広く使われ、
    紙に印刷された文書をデジタル化する

引用: Wikipedia

スキャンした文書を一発で文字を認識し読み取り
デジタル化できる技術「OCR

そして、その技術を使えるソフトウェアがあります!

これは日本語だけじゃなく、
英語中国語など多言語対応

では早速、実際にやってみましょう\(^o^)/

【文字認識技術】OCRが使えるソフトウェア

Adobe Acrobat DC

こちらのソフトは、(残念ながら)有料です。

上のリンクのように

  • ソフト単体でライセンス契約する形
  • Adobeのソフトを全て使用できるライセンス契約
    (Adobe Creative Cloud)

どちらかで契約する必要があります。
どちらも1年、つまり12ヶ月契約です。

ちなみに私は
写真撮影・動画制作・グラフィックデザインを行うため、
Adobe Creative Cloudを契約しており、
その契約者は追加料金なしで使用が可能

無料で使えるAdobe Acrobat Readerでは出来ません!
(PDF閲覧用として使う分にはいいのですが
編集関係は全くできないのでご注意を…)

Adobe Creative Cloud

【変換方法】PDFからWordファイルへ

1.ソフトウェア(Adobe Acrobat DC)の購入・ダウンロード

Adobe Acrobat Pro

こちらから購入をして、ダウンロード・インストールをしましょう。
https://acrobat.adobe.com/jp/ja/acrobat.html

※ダウンロード・インストールはAdobeのサイトをご参照ください。

2.Adobe Acrobat DCの起動

インストールが完了したら起動しましょう。

3.変換したいPDFファイルを開く

Wordファイルに変換したいPDFファイルを開きましょう。

Adobe Acrobatでの操作手順

  1. メニューバーの「ファイル」をクリック
  2. 開く」をクリック
  3. 開きたいファイルを選択してウィンドウの右下の「開く」をクリック

4.PDFファイルをWord形式に変換する(書き出す)

この書き出し時の設定が重要ポイント!

PDF文書からWord形式に書き出しする際に
PDF文書で使用されている言語を選びます!

ただし今回の文書は「中国語」と「英語」が混ざっています。
書き出し時に選べる言語は一つだけ!

なので…ここでは「中国語」を選びます!

※日本語で書かれたPDFファイルなら言語設定は通常不要です。
そのまま書き出せばOK!

なぜかというと、「英語」に関しては
改めて選択しなくても他の言語と併せて自動で認識してくれるからです!

なので、選択する言語は「英語」以外の言語を選んでおけばOKです。

では実際の操作の流れはコチラ↓

Adobe Acrobatでの操作手順【Windows】

  1. メニューバーの「ファイル」をクリック
  2. 「Word、ExcelまたはPowerPointに変換」をクリック
  3. 「PDFを書き出し」という画面に切り替わるので
    各項目の確認・設定をしていきます。

    1. 「選択されたファイル」に表示されているファイル名が
      変換しようとしているPDFファイルの名前になっているか確認
    2. 「次の形式に変換」箇所は
      「Microsoft Word」になっているか確認
    3. 「文書の言語(テキスト認識用)」は
      PDF文書に使用されている言語を選ぶ
  4. 最後、「Wordに書き出し」をクリックし、
    任意のファイル名で保存すれば完了!

Adobe Acrobatでの操作手順【Mac】

  1. メニューバーの「ファイル」をクリック
  2. 書き出し形式」→「Microsoft Word」→任意のバージョンを選択
  3. ウィンドウ「PDFとして保存」が表示されるので
    設定」をクリック
  4. ウィンドウ「DOCXとして保存の設定」が表示されるので
    言語設定」をクリック
  5. ウィンドウ「テキスト認識 – 一般設定」が表示されるので
    文書の言語」を選択
    《補足》英語+他の言語の文書の場合、
    ”他の言語”の方を選択しておけば、英語はどの言語を選んでも認識されます!
  6. ウィンドウ「DOCXとして保存の設定」に戻るので
    「OK」をクリック
  7. ウィンドウ「PDFとして保存」に戻るので
    任意のファイル名で「保存」をクリックすると完了!

【書き出し後】最終チェックは必ず!!

OCRによる文字認識は完璧ではありません…

必ず、PDFからWordへ変換したら
『目視チェック』を行なってくださいね!

※文書データが不鮮明だと、なお読み取りミスが多くなります。。。

最後に

いかがでしたでしょうか?
変換作業自体、めちゃくちゃ簡単ですね^^

必要になった際はぜひ試してみてください。

またこの記事がご参考になりましたら
SNSでシェアしていただけますととても嬉しいです♡

ではまた(^^)

Workカテゴリの最新記事