書式設定を維持しながらPDFからテキストをコピーする方法はありますか
ユビキタスなドキュメントフォーマットであるPDFは、フォント、画像、およびプラットフォーム間の一般的なレイアウトを維持しながらドキュメントを共有するのに最適です。ただし、文書からテキストをコピーして貼り付けるときに、その非常に高い書式設定を維持する簡単な方法はありますか?
本日の質疑応答セッションは、コミュニティ主導のQ&A Webサイトのグループである、Stack Exchangeの下位区分であるSuperUserの好意により提供されます。.
質問
SuperUserの読者Colenは、フォーマットを維持しながらPDFからテキストを抽出する方法を探しています。
PDFファイルからテキストエディタにテキストをコピーすると、さまざまな方法で文字化けします。太字や斜体のようなフォーマットは失われます。テキストの段落内の改行は、改行に変換されます。 2行にまたがって単語を区切るためのダッシュは、それらがあってはいけない場合でも保持されます。一重引用符と二重引用符は、兆候.
理想的には、PDFからテキストをコピーしてフォーマットをHTMLコードに変換し、「スマートクォート」を「and」に変換し、改行を適切に行うことができればと思います。これを行う方法はありますか?
フォーマットを犠牲にせずにColen(およびその他の人)がテキストをつかむための迅速で簡単な方法はありますか?
答え
SuperUserの貢献者であるFrabjousは、慎重な解決策を組み合わせたソリューションを提供しています。
まず、PDFとは何かを理解する必要があります。 PDFは、印刷されたページを模倣するように設計されており、入力形式ではなく出力形式としてのみ設計されています。 PDFは基本的に、文字(個々の文字や句読点など)または画像の正確な位置を含むマップです。ほとんどの場合、PDFには1つの単語の終わりと別の単語の始まりに関する情報さえ格納されていません。段落の終わりに対するソフトブレークとハードブレークのような関係ははるかに少なくなります。.
(最近のいくつかのPDFにこの情報に関する情報が保存されていますが、これは新しいテクノロジです。そのようなPDFを見つけることができて幸運です。あなたのPDFビューアでも、知らないかもしれません。)
とにかく、個々の文字の位置から単語や段落などを抽出するためのある種の「人工知能」を実装するのはあなたのソフトウェア次第です。他のソフトウェアよりも、さまざまなソフトウェアがこれをうまく実行できます。また、PDFの作成方法によっても異なります。いずれにせよ、あなたは決して完璧な結果を期待するべきではありません。出力PDFを持つことは、ソース文書を持つことと同じではありません。あなたができるならそれを取得しようとする方がはるかに良い.
あなたの種類の問題に対する標準的な解決策は、PDFをHTMLに変換するためにAdobe Acrobat Professional(高価なもの、無料の読者ではない)を使うことです。それでも完璧な結果が得られるわけではありません.
いくつかのフォーマットをそのままにしてPDFからテキストを抽出するために使用できるフリーソフトウェアがありますが、ここでもまた、完璧な結果を期待することはできません。たとえば、Calibre(RTF形式に変換可能)、pdftohtml / pdfreflow、またはAbiWordワードプロセッサ(すべてのインポート/エクスポートプラグインを有効にした状態)を参照してください。 OpenOffice用のPDFインポートプラグインもあります。.
しかし、これらの結果のいずれにも完全性を期待しないでください。あなたはここで穀物に反対しています。 PDFは編集可能な入力フォーマットとして意図されていません.
どのツールから始めるべきか決めるのに苦労しているならば、キャリバーは立派な文書スイスアーミーナイフです。電子ブックリーダーで使用するためにPDFファイルを変換したり、電子ブック/ドキュメントライブラリを整理したりするためにも使用できます。.
説明に追加するものがありますか?コメントの中で消してください。他の技術に精通したStack Exchangeユーザーからの回答をもっと読みたいですか?こちらのディスカッションスレッドをチェックしてください。.