【多言語対応】PDFをWord形式に変換!

【多言語対応】PDFをWord形式に変換!

こんにちは!ナラコです。
先日、とある企業様よりこんなご相談が・・・

スキャンしてPDFにした書類があるんだけど…
Wordファイルに作り変えてもらえない?

よくよくそのPDFを見てみると

  • 中国語英語がメイン(多言語で作られている文書)
  • 全部で50ページくらい!
  • 紙をスキャンしたものでコピペ不可の状態

見た目はオトナ
英語力は(たぶん)中学生レベル
中国語は全くわからない!
その名は迷探偵ナラコ!
…がITを使って解決いたします!!!
(コナンのノリは無理がありすぎた。しんどい笑)

【これで解決】OCRで文字を読み取り!PDFをWord形式に!

スキャンした文書を一発で文字を読み取り、デジタル化できる技術「OCR
そしてその技術を使えるソフトウェアがあります!

そしてそれは日本語だけじゃなく、英語中国語など多言語対応
では早速、実際にやってみましょう\(^o^)/

OCRとは

  • 光学文字認識
  • 活字、手書きテキストの画像を文字コードの列に変換するソフトウェア
  • パスポート、請求書、銀行取引明細書、レシート、名刺、メール、データや文書の印刷物など、紙に記載されたデータをデータ入力する手法として広く使われ、紙に印刷された文書をデジタル化する

引用: Wikipedia

OCRが使えるソフトウェア

Adobe Acrobat DC

https://acrobat.adobe.com/jp/ja/acrobat.html

【PDFをWordに】OCRできるソフトウェア(Adobe Acrobat DC)

    • こちらのソフトは、(残念ながら)有料です。
      私が見た時の料金は1,738 円/月(税込)
    • ちなみに私は動画制作・グラフィックデザインを行うため、
      Adobe Creative Cloudを契約しており、
      その契約者は追加料金なしで使用が可能
    • 無料で使えるAdobe Acrobat Readerでは出来ません!
      →PDF閲覧用として使う分にはいいのですが編集関係は全くできないのでご注意を…
Adobe Creative Cloudはこちら

PDFからWordファイルへの変換方法

1.ソフトウェア(Adobe Acrobat DC)の購入・ダウンロード

Adobe Acrobat Pro

こちらから購入をして、ダウンロード・インストールをしましょう。
https://acrobat.adobe.com/jp/ja/acrobat.html

※ダウンロード・インストールはAdobeのサイトをご参照ください。

2.Adobe Acrobat DCの起動

インストールが完了したら起動しましょう。

3.変換したいPDFファイルを開く

Wordファイルに変換したいPDFファイルを開きましょう。

Adobe Acrobatでの操作手順

  1. メニューバーの「ファイル」をクリック
  2. 開く」をクリック
  3. 開きたいファイルを選択してウィンドウの右下の「開く」をクリック

4.PDFファイルをWord形式に変換する(書き出す)

この書き出し時の設定が重要ポイント!

PDF文書からWord形式に書き出しする際に
PDF文書で使用されている言語を選びます!

ただし今回の文書は「中国語」と「英語」が混ざっています。
書き出し時に選べる言語は一つだけ!

なので…ここでは「中国語」を選びます!

※日本語で書かれたPDFファイルなら言語設定は通常不要です。
そのまま書き出せばOK!

なぜかというと、「英語」に関しては
改めて選択しなくても他の言語と併せて自動で認識してくれるからです!

なので、選択する言語は「英語」以外の言語を選んでおけばOKです。

では実際の操作の流れはコチラ↓

Adobe Acrobatでの操作手順【Windows】

  1. メニューバーの「ファイル」をクリック
  2. 「Word、ExcelまたはPowerPointに変換」をクリック
  3. 「PDFを書き出し」という画面に切り替わるので
    各項目の確認・設定をしていきます。

    1. 「選択されたファイル」に表示されているファイル名が
      変換しようとしているPDFファイルの名前になっているか確認
    2. 「次の形式に変換」箇所は
      「Microsoft Word」になっているか確認
    3. 「文書の言語(テキスト認識用)」は
      PDF文書に使用されている言語を選ぶ
  4. 最後、「Wordに書き出し」をクリックし、
    任意のファイル名で保存すれば完了!

Adobe Acrobatでの操作手順【Mac】

  1. メニューバーの「ファイル」をクリック
  2. 書き出し形式」→「Microsoft Word」→任意のバージョンを選択
  3. ウィンドウ「PDFとして保存」が表示されるので
    設定」をクリック
  4. ウィンドウ「DOCXとして保存の設定」が表示されるので
    言語設定」をクリック
  5. ウィンドウ「テキスト認識 – 一般設定」が表示されるので
    文書の言語」を選択
    《補足》英語+他の言語の文書の場合、
    ”他の言語”の方を選択しておけば、英語はどの言語を選んでも認識されます!
  6. ウィンドウ「DOCXとして保存の設定」に戻るので
    「OK」をクリック
  7. ウィンドウ「PDFとして保存」に戻るので
    任意のファイル名で「保存」をクリックすると完了!

【書き出し後】最終チェックは必ず!!

OCRによる文字認識は完璧ではありません…

必ず、PDFからWordへ変換したら
『目視チェック』を行なってくださいね!

※文書データが不鮮明だと、なお読み取りミスが多くなります。。。

最後に

いかがでしたでしょうか?
変換作業自体、めちゃくちゃ簡単ですね^^

必要になった際はぜひ試してみてください。

またこの記事がご参考になりましたら
SNSでシェアしていただけますととても嬉しいです♡

ではまた(^^)

Workカテゴリの最新記事