Comment extraire le texte d`un document pdf

<div itemprop="description" class="intro marginTop" data-module="article-intro">

Il peut être très frustrant d`essayer d`extraire le texte d`un fichier PDF pour une utilisation dans une autre application. Il est pas rare que des graphiques pour obtenir de la manière ou la mise en page du document, il est difficile pour le test à transférer dans des phrases significatives. Bien qu`il soit impossible d`extraire du texte avec une approche de copier-coller, il peut prendre beaucoup de temps et ne permet pas de texte du fichier PDF à exporter comme un format différent. Il y a, cependant, quelques façons d`extraire le texte d`un fichier PDF.

Choses que vous devez

  • fichier PDF
  • Adobe Acrobat Reader
  • compte Gmail (en option)
  • PDF au logiciel de conversion de texte (facultatif)
  1. Extrait du texte en utilisant Acrobat Reader

  2. 1

    Ouvrez le fichier dans Acrobat Reader. Dans Windows, sélectionnez "Fichier - gt; Exporter le document en texte," le nom du document et l`enregistrer.

  3. 2



    Copiez le texte sur un Mac ou Linux OS en accédant au menu Affichage et en choisissant "Continu" ou "Continue-Orientation." (L`ancien vous fournira le texte dans une colonne, alors que ce dernier forme le texte sous forme de pages côte à côte.) Allez à "Modifier - gt; Sélectionner tout" et alors" Modifier - gt; Copie."

  4. 3

    Utilisez l`outil Sélectionnez si vous voulez seulement pour extraire une partie du texte. Clique sur le "texte Sélectionnez" outil, puis choisir les informations que vous souhaitez. Dans un document formaté en plusieurs colonnes, vous aurez besoin d`utiliser le "Colonne Select" premier outil. Aller à "Modifier - gt; Copier."

  5. Convertir PDF en HTML

    • 1

      Utilisez Gmail comme un raccourci. Joindre le fichier PDF à un email et l`envoyer à votre compte Gmail. Lorsque vous ouvrez l`e-mail, vous verrez un certain nombre d`options à côté de la pièce jointe. Choisir "Afficher en HTML" et enregistrez le fichier qui ouvre dans une fenêtre séparée. Bien que vous ne serez pas en mesure d`afficher des graphiques, le fichier HTML conservera le formatage du texte du document.

    • 2

      Extraire et convertir des fichiers sur la ligne de commande. Les utilisateurs de Linux peuvent utiliser une commande de conversion de base qui va changer un fichier .pdf dans un fichier .txt: "filename.pdf pdftotext." Assurez-vous de remplacer le nom de fichier avec le nom du fichier PDF.

    • 3

      Télécharger un fichier PDF pour le programme de conversion de texte. Il y a un certain nombre de programmes ouverts freeware disponibles tels que PDFBox et Easy PDF source et Text Converter (voir Ressources ci-dessous). Beaucoup de ces programmes peuvent également convertir des fichiers PDF en HTML ainsi.

Conseils & Avertissements

  • Déterminer si le document est formaté pour contenir à la fois du texte et des graphiques. L`approche Adobe Acrobat ne fonctionnera que si le fichier PDF contient deux- il ne fonctionnera pas pour les fichiers avec seulement des images. Dans certains cas, le texte dans un document PDF est effectivement formaté comme une image. Cela arrive souvent quand un document original est numérisé et un fichier PDF est créé à partir de l`image numérisée.
  • Soyez prêt à reformater une partie du texte en utilisant Acrobat Reader. Cette manière d`extraction exporte simplement le fichier PDF à un fichier texte - il ne conservera pas nécessairement conserver la mise en forme. Toutefois, si vous avez juste besoin d`utiliser les mots cela ne devrait pas être un problème.

AUTRES

» » » » Comment extraire le texte d`un document pdf