Linuxでコマンドラインを使用してPDFファイルを編集可能なテキストに変換する方法
PDFファイルを編集可能なテキストに変換したい理由がいくつかあります。たぶんあなたは古い文書を修正する必要があり、あなたが持っているのはそれのPDF版だけです。 WindowsでPDFファイルを変換するのは簡単ですが、Linuxを使用している場合はどうなりますか?
心配ない。 「poppler-utils」パッケージの一部であるpdftotextというコマンドラインツールを使用して、PDFファイルを編集可能なテキストに簡単に変換する方法を紹介します。このツールは既にインストールされている可能性があります。ご使用のシステムにpdftotextがインストールされているかどうかを確認するには、「Ctrl + Alt + T」を押して端末ウィンドウを開きます。プロンプトに次のコマンドを入力してEnterキーを押します。.
dpkg -s poppler-utils
注:この記事で何かを入力するときにテキストの前後に引用符がある場合は、特に指定しない限り、引用符を入力しないでください。.
pdftotextがインストールされていない場合は、プロンプトに次のコマンドを入力して「Enter」を押します。.
sudo apt-get install poppler-utils
プロンプトが表示されたらパスワードを入力して「Enter」を押します。.
poppler-utilsパッケージには、PDFをさまざまな形式に変換したり、PDFファイルを操作したり、ファイルから情報を抽出したりするためのツールがいくつかあります。.
以下は、PDFファイルを編集可能なテキストファイルに変換するための基本的なコマンドです。 「Ctrl + Alt + T」を押してターミナルウィンドウを開き、プロンプトにコマンドを入力して「Enter」を押す.
pdftotext /home/lori/Documents/Sample.pdf /home/lori/Documents/Sample.txt
元のPDFファイルの場所と名前、および結果のテキストファイルを保存する場所に対応するように各ファイルへのパスを変更します。また、ファイルの名前に合わせてファイル名を変更してください。.
テキストファイルが作成され、Linuxで他のテキストファイルを開くのと同じように開くことができます。.
変換されたテキストは、必要のない場所で改行することがあります。 PDFファイルのテキストの各行の後に改行が挿入されます.
「-layout」フラグを使用して、変換したテキストファイルの元のPDFファイルからドキュメントのレイアウト(ヘッダー、フッター、ページングなど)を維持できます。.
pdftotext -layout /home/lori/Documents/Sample.pdf /home/lori/Documents/Sample.txt
PDFファイル内のページ範囲のみを変換する場合は、「 - f」および「 - l」(小文字の「L」)フラグを使用して、変換する範囲の最初と最後のページを指定します。.
pdftotext -f 5 -l 9 /home/lori/Documents/Sample.pdf /home/lori/Documents/Sample.txt
保護され、所有者パスワードで暗号化されたPDFファイルを変換するには、「--opw」フラグを使用します(フラグの最初の文字はゼロではなく小文字の「O」です)。.
pdftotext -opw 'password' /home/lori/Documents/Sample.pdf /home/lori/Documents/Sample.txt
変換する元のPDFファイルを保護するために使用されるものに「パスワード」を変更してください。 「パスワード」の前後に二重引用符ではなく一重引用符があることを確認してください。.
PDFファイルが保護されており、ユーザーパスワードで暗号化されている場合は、「 - opw」フラグの代わりに「 - upw」フラグを使用します。コマンドの残りの部分は同じです.
変換後のテキストに適用される行末文字のタイプも指定できます。これは、WindowsやMacなどの異なるオペレーティングシステムでファイルにアクセスする予定がある場合に特に便利です。これを行うには、 " - eol"フラグ(フラグの中央の文字はゼロではなく小文字の "O")を使用し、その後にスペースと使用したい行末文字のタイプ( " 「unix」、「dos」、または「mac」).
注:テキストファイルのファイル名を指定しないと、pdftotextは自動的にPDFファイル名のベースを使用して「.txt」拡張子を追加します。たとえば、「file.pdf」は「file.txt」に変換されます。テキストファイルが「 - 」として指定されている場合、変換されたテキストは標準出力に送信されます。つまり、テキストはターミナルウィンドウに表示され、ファイルには保存されません。.
ターミナルウィンドウを閉じるには、左上隅の「X」ボタンをクリックしてください。.
pdftotextコマンドの詳細については、ターミナルウィンドウのプロンプトで「man page pdftotext」と入力してください。.