ホームページ » フリーソフトウェアのダウンロード » PDFおよび画像ファイルからテキストを抽出する

    PDFおよび画像ファイルからテキストを抽出する

    すべてのテキストを抽出したいPDF文書がありますか?スキャンした文書の画像ファイルを編集可能なテキストに変換したい場合はどうですか。これらは、ファイルを扱うときに職場で見た最も一般的な問題のいくつかです。.

    この記事では、PDFまたは画像からテキストを抽出する方法についていくつか説明します。抽出結果は、PDFまたは画像内のテキストの種類と品質によって異なります。また、あなたの結果はあなたが使用するツールによって変わるので、最良の結果を得るためにできるだけ多くの以下のオプションを試してみるのが最善です。.

    画像またはPDFからテキストを抽出する

    開始する最も簡単で迅速な方法はオンラインPDFテキスト抽出サービスを試すことです。これらは通常無料で、コンピュータに何もインストールしなくても、探しているものを正確に提供できます。これが私が使ったことのある2つです。

    ExtractPDF

    ExtractPDFは、PDFファイルから画像、テキスト、フォントを取得するための無料ツールです。唯一の制限は、PDFファイルの最大サイズが10 MBであるということです。それは少し小さいです。もっと大きなファイルがある場合は、以下の他の方法を試してください。ファイルを選択して ファイルを送信 ボタン。結果は通常非常に高速であり、[テキスト]タブをクリックするとテキストのプレビューが表示されます。.

    念のため、PDFファイルから画像を抽出することもできます。全体的に見て、オンラインツールは素晴らしい仕事をします、しかし、私は私に面白い出力を与える2、3のPDF文書に遭遇しました。テキストはうまく抽出されますが、何らかの理由で各単語の後に改行が入ります。短いPDFファイルではそれほど大きな問題ではありませんが、テキストが多いファイルでは確かに問題になります。それがあなたに起こるならば、次のツールを試みなさい.

    オンラインOCR

    オンラインOCRは通常、ExtractPDFで正しく変換されなかったドキュメントに対して機能する傾向がありました。そのため、どちらのサービスを試してより良い出力が得られるかを確認することをお勧めします。オンラインOCRには、文書全体ではなく数ページのテキストを変換するだけでよい、大規模なPDFファイルを持っている人には便利な、優れた機能もいくつかあります。.

    あなたがしたい最初のことは先に行き、無料アカウントを作成することです。ちょっと面倒ですが、無料のアカウントを作成しないと、ドキュメント全体ではなく部分的にのみPDFが変換されます。また、5 MBのドキュメントしかアップロードできない代わりに、アカウントを使用してファイルごとに最大100 MBまでアップロードできます。.

    まず言語を選択してから、変換したファイルに適した出力形式の種類を選択します。あなたはいくつかの選択肢があります、あなたが好きならあなたは複数の選択肢を選ぶことができます。下 マルチページ文書, 選択できます ページ番号 次に、変換したいページだけを選択します。次にファイルを選択してをクリックします。 変換する!

    変換後、Documentsセクション(ログインしている場合)に移動します。ここで、利用可能な空きページの数と変換したファイルをダウンロードするためのリンクを確認できます。 1日25ページしかないので、それ以上必要な場合は、少し待つか、さらにページを購入する必要があります。.

    Online OCRは、実際のテキストのレイアウトを維持することができたので、私のPDFを変換するのに優れた仕事をしました。私のテストでは、箇条書きやさまざまなフォントサイズなどを使ったWord文書をPDFに変換しました。それから私はそれをWordフォーマットに変換するためにOnline OCRを使いました、そしてそれはオリジナルとおよそ95%同じでした。それは私にとってかなり印象的です.

    さらに、画像をテキストに変換したい場合は、Online OCRでPDFファイルからテキストを抽出するのと同じくらい簡単に行うことができます。.

    無料のオンラインOCR

    画像からテキストへのOCRについて話していたので、私は画像で本当にうまくいくもう一つの良いウェブサイトを言及させてください。私のテスト画像からテキストを抽出する際、Free Online OCRは非常に良く正確です。私は自分のiPhoneから本やパンフレットなどのページをいくつか撮ったが、それがどの程度うまくテキストを変換できるかに驚いた。.

    ファイルを選択してからアップロードボタンをクリックします。次の画面には、いくつかのオプションと画像のプレビューがあります。あなたが全部OCRしたくないのであれば、あなたはそれをトリミングすることができます。次に、OCRボタンをクリックするだけで、変換したテキストが画像プレビューの下に表示されます。制限もありませんが、本当にいいですね。.

    オンラインサービスに加えて、あなたが変換を実行するためにあなたのコンピュータの上でローカルに走っているソフトウェアを必要とする場合に備えて、私が言及したい2つのフリーウェアPDFコンバーターがあります。オンラインサービスでは、常にインターネット接続が必要になり、それが誰にとっても不可能になる可能性があります。しかし、私はフリーウェアプログラムからの変換の質がウェブサイトのものよりも著しく悪いことに気づきました.

    A-PDFテキスト抽出

    A-PDF Text Extractorは、PDFファイルからテキストを抽出するというかなり良い機能を果たすフリーウェアです。ダウンロードしてインストールしたら、[開く]ボタンをクリックしてPDFファイルを選択します。次に[テキストの抽出]をクリックしてプロセスを開始します.

    それはあなたにテキスト出力ファイルを保存する場所をあなたに尋ねるでしょう、そしてそれはそれから展開し始めるでしょう。をクリックすることもできます オプション このボタンでは、抽出する特定のページと抽出タイプのみを選択できます。 2つめのオプションは、テキストをさまざまなレイアウトで抽出するので興味深いものです。3つすべてを試してみると、どれが一番よい出力になるかを確認する価値があります.

    PDF2テキストパイロット

    PDF2Text Pilotはテキストを抽出するといういい仕事をします。選択肢はありません。あなただけのファイルやフォルダを追加し、変換して最善を願っています。一部のPDFではうまく機能しましたが、それらの大部分では多数の問題がありました。.

    「ファイルを追加」をクリックしてから「 変換する. 変換が完了したら、[参照]をクリックしてファイルを開きます。あなたの走行距離はこのプログラムを使用して変わるのであまり期待しないでください.

    また、企業環境にいる場合や仕事からAdobe Acrobatのコピーを入手することができる場合は、実際にはるかに良い結果を得ることができます。 Acrobatは明らかに無料ではありませんが、それはPDFをWord、ExcelおよびHTMLフォーマットに変換するオプションを持っています。元の文書の構造を維持し、複雑なテキストを変換するという最善の仕事もします。.