ホームページ » の仕方 » LinuxでPDFファイルから画像を抽出して保存する方法

    LinuxでPDFファイルから画像を抽出して保存する方法

    「pdftotext」コマンドラインツールを使用すると、LinuxでPDFファイルを編集可能なテキストに簡単に変換できます。ただし、元のPDFファイルに画像がある場合、それらは抽出されません。 PDFファイルから画像を抽出するには、“ pdfimages”という別のコマンドラインツールを使用できます。.

    注:この記事で何かを入力するときにテキストの前後に引用符がある場合は、特に指定しない限り、引用符を入力しないでください。.

    “ pdfimages”ツールはpoppler-utilsパッケージの一部です。この記事に記載されている手順を使用して、システムにインストールされているかどうかを確認し、必要に応じてインストールすることができます。.

    pdfimagesを使用してPDFファイルから画像を抽出するには、「Ctrl + Alt + T」を押してターミナルウィンドウを開きます。プロンプトで次のコマンドを入力します.

    pdfimages /home/lori/Documents/SampleWithImages.pdf / home / lori /ドキュメント/ ExtractImages / image

    注:この記事に示されているすべてのコマンドについて、コマンドの最初のパスとPDFファイル名を元のPDFファイルのパスとファイル名に置き換えてください。 2番目のパスは、抽出した画像を保存するルートフォルダへのパスです。 2番目のパスの最後にある「image」という単語は、ファイル名の前に付ける必要があるものすべてを表します。画像のファイル名は自動的に番号付けされます(000、001、002、003など)。各画像の先頭にテキストを追加する場合は、2番目のパスの最後にそのテキストを入力してください。この例では、image-001.ppm、image-002.ppmなど、各画像ファイル名は「image」で始まります。指定したテキストと番号の間にダッシュが追加されます。.

    デフォルトの画像フォーマットは、モノクロ以外の画像の場合はPPM(ポータブルピックスマップ)、モノクロ画像の場合はPBM(ポータブルビットマップ)です。これらのフォーマットはプラットフォーム間で簡単に交換できるように設計されています.

    注:PDFファイルの各画像には2つの画像ファイルがあります。各画像の2番目の画像は空白なので、ファイルマネージャのファイルのサムネイルで、どの画像にファイルの画像が含まれているかを判断できます。.

    .jpg画像ファイルを作成するには、以下に示すように、コマンドに「-j」オプションを追加します。.

    pdfimages -j /home/lori/Documents/SampleWithImages.pdf / home / lori /ドキュメント/ ExtractImages / image

    注:「-png」オプションを使用してデフォルトの出力をPNGに、「-tiff」オプションを使用してTIFFに変更することもできます。.

    各画像のメイン画像ファイルは、.jpgファイルとして保存されます。 2番目の空白の画像はまだ.ppmファイルまたは.pbmファイルです。.

    特定のページ以降の画像のみを変換する場合は、次のコマンド例に示すように、変換する最初のページを示すために「-f」オプションに番号を付けて使用します。.

    pdfimages -f 2 -j /home/lori/Documents/SampleWithImages.pdf / home / lori /ドキュメント/ ExtractImages / image

    注: "-j"オプションと "-f"オプションを組み合わせて.jpgの画像を取得し、後述の "-l"オプションでも同じことを行いました。.

    特定のページの前後にあるすべての画像を変換するには、以下に示すように、変換する最後のページを示す番号を付けて「-l」(小文字の「L」)オプションを使用します。.

    pdfimages -l 1 -j /home/lori/Documents/SampleWithImages.pdf / home / lori /ドキュメント/ ExtractImages / image

    注記:「-f」と「-l」オプションを一緒に使用して、ドキュメントの中央にある特定のページ範囲の画像を変換できます。.

    PDFファイルに所有者パスワードがある場合は、以下に示すように、「 - op」オプションとパスワードを一重引用符で囲みます。 PDFファイルのパスワードがユーザーパスワードの場合は、パスワードの代わりに「-upw」オプションを使用してください。.

    注:コマンド内のパスワードを一重引用符で囲んでください。.

    pdfimages -opw 'password' -j /home/lori/Documents/SampleWithImages.pdf / home / lori / Documents / ExtractedImages / image

    pdfimagesコマンドの使用方法について詳しくは、「ターミナル」ウィンドウのプロンプトで「pdfimages」と入力し、「Enter」を押してください。コマンドの使用法が、コマンドで使用可能なオプションのリストと共に表示されます。.