Comment lire le fichier pdf en java

<article data-type="article">
Comment lire un fichier PDF en Java

Il est difficile de ne pas lire les fichiers PDF en Java en utilisant les bibliothèques qui sont facilement disponibles. La lecture des fichiers PDF vous permet d`écrire des programmes Java qui peuvent traiter le texte dans ces fichiers. Une option pour la lecture de fichiers PDF est libre, open-source bibliothèque PDFBox disponible à partir de Apache. La plate-forme de développement Java Eclipse rend cette tâche plus facile et gère les bibliothèques que vous serez en train de télécharger. Vous devez être familier avec la programmation Java pour faire usage de ces bibliothèques Java.

Rassemblez les bibliothèques nécessaires

  • Télécharger le JDK Java sur le site de DIM. Ceci est un fichier exécutable que vous pouvez installer sur votre système en l`exécutant. Des versions sont disponibles pour Windows, Mac et Linux. Cliquez sur le rouge "Télécharger" bouton. Enregistrer un fichier appelé "jdk-6uxx-windows-xxx.exe" lorsque vous êtes invité. Enregistrez ce fichier et double-cliquez dessus pour lancer le programme d`installation de Java.

  • Télécharger le système de développement Eclipse et décompressez-le dans un répertoire de niveau supérieur. Sélectionner "Eclipse IDE for Java Developers." Cela va démarrer le téléchargement du logiciel "eclipse-java-galileo-SR2-win32.zip." Double-cliquez sur le fichier pour le décompresser après le téléchargement est terminé. Sélectionnez le "C:" root emplacement du répertoire décompressez Eclipse.

  • Démarrez Eclipse en double-cliquant sur "eclipse.exe" dans le répertoire que vous venez de créer en décompressant le fichier eclipse zip. Dans le système Eclipse, créez un projet nommé "ImprimerPDF." Sélectionner "Fichier" puis "Nouveau" puis "projet Java." Tapez le nom du projet "ImprimerPDF" dans la boîte de dialogue qui apparaît. Assurez-vous que le bouton radio est sélectionné qui dit "Créer des dossiers séparés pour les fichiers source et de classe." Cliquez "Terminer."

  • Créer un "lib" dossier dans votre "ImprimerPDF" projet. droite, cliquez sur le "ImprimerPDF" projeter et sélectionnez "Nouveau" et alors "Dossier." Entrez le nom "lib" et cliquez sur "Terminer."

  • Télécharger Apache "PDFBox.jar" à partir du site Apache et le copier dans le répertoire lib vous venez de créer. Sur la même page Web, télécharger le "fontbox-nn.jar" déposer et "jempbox-nn.jar" fichier. Dans chaque cas, lorsque vous cliquez sur ce fichier jar, il vous amène à une page où vous pouvez sélectionner l`un de plusieurs serveurs qui peuvent fournir ce fichier. Choisissez chacun d`entre eux et chaque fichier jar sera téléchargé. Copiez chaque fichier jar dans le répertoire lib vous venez de créer.




  • Télécharger le package de log4j.jar Apache de la même façon et copiez le fichier log4j.jar dans le répertoire. La bibliothèque Apache PDFBox utilise cette bibliothèque de journalisation Apache, donc ce fichier doit être présent.

  • Télécharger le package Apache Commons Discovery comme un fichier zip. Double-cliquez sur le fichier zip, sélectionnez le "commons-découverte-nn.jar" et l`extraire dans le répertoire lib.

  • Dans Eclipse, cliquez sur le "lib" répertoire et appuyez sur "F5." Assurez-vous que tous les fichiers JAR vous avez ajoutés sont affichés.

  • droite, cliquez sur le projet ImprimerPDF et sélectionnez "Propriétés." Sélectionner "Chemin de compilation Java" et sélectionnez le "bibliothèques" languette. Cliquer sur "Ajouter des bocaux" et allez dans le répertoire lib vous venez de créer et d`ajouter "commons-logging-nn.jar" "fontbox-nn.jar," "jempbox-nn.jar," "log4j-nn.jar," et "PDFBox-nn.jar." Cliquer sur "D`ACCORD."

Ecrire le code pour lire les fichiers PDF

  • droite, cliquez sur le "src" dossier de votre "ImprimerPDF" projeter et sélectionnez "Nouveau" et le "Paquet." Créer un package en utilisant un nom significatif. Par exemple, le nom du package "com.pdf.util." Cliquez "Terminer."

  • droite, cliquez sur le nom du package que vous venez de créer et sélectionnez "Nouveau" et alors "Classe." Créer une classe nommée "PDFTextParser." Assurez-vous de cliquer sur la case à cocher marquée "principal public static void ..." de sorte que le système crée un "Principal" méthode.

  • Modifier la "Principal" Procédé de la "PDFTextParser" classe pour contenir le code suivant:

    static void main (String args []) public {
    &# 9-&# 9-PDFTextParser pdf = new PDFTextParser ("données / javaPDF.pdf")
    ALLER
    &# 9-&N ° 9 - // imprimer les résultats
    &# 9-&# 9-System.out.println (pdf.getParsedText ())
    ALLER
    &# 9-}

    Notez que le fichier que vous souhaitez imprimer est énoncé dans le constructeur pour PDFTextParser ("données / JavaPDF.pdf"). Il pourrait tout aussi bien être un argument de ligne de commande:

    &# 9-&# 9-PDFTextParser pdf = new PDFTextParser (argv [0])
    ALLER

    ou choisi parmi une interface graphique.

    Il crée une instance de la classe PDFTextParser, puis appelle sa "getParsedText" méthode.

  • Insérez le code suivant juste en dessous de la ligne de classe supérieure "PDFTextParser public class" qui a été créé pour vous.

    PDFParser parser privé = null
    ALLER

    &# 9 - texte // Extrait du document PDF
    &# PDFTextParser 9 public (String fileName) {
    &# 9-&# Fichier 9-File = new File (fileName)
    ALLER
    &# 9-&# 9-if (! File.isFile ()) {
    &# 9-&# 9-&# 9-System.err.println ("Fichier " + FileName + " n`existe pas.")
    ALLER
    &# 9-&# 9-}
    &# 9-&# 9 - // Configurer instance de PDF parser
    &# 9-&# 9-try {
    &# 9-&# 9-&# 9-parser = new PDFParser (nouveau FileInputStream (fichier))
    ALLER
    &# 9-&# 9-} catch (IOException e) {
    &# 9-&# 9-&# 9-System.err.println ("Impossible d`ouvrir le PDF Parser. " + E.getMessage ())
    ALLER
    &# 9-&# 9-}
    &# 9-}
    &# 9 - // -------------------------------
    &# 9-public String getParsedText () {
    &# 9-&# 9-PDDocument pdDoc = null
    ALLER
    &# 9-&# 9-COSDocument cosDoc = null-&# 9-
    &# 9-&# 9-String parsedText = null-
    ALLER
    &# 9-&# 9-&# 9-&# 9-
    &# 9-&# 9-try {&# 9-&# 9-&# 9-
    &# 9-&# 9-&# 9-PDFTextStripper pdfStripper = new PDFTextStripper ()
    ALLER
    &# 9-&# 9-&# 9-parser.parse ()
    ALLER
    &# 9-&# 9-&# 9-parser.getDocument cosDoc = ()
    ALLER
    &# 9-&# 9-&# 9-pdDoc = new PDDocument (cosDoc)
    ALLER
    &# 9-&# 9-&# 9-
    &# 9-&# 9-&# 9 - // obtenir la liste de toutes les pages
    &# 9-&# 9-&# 9-List list = pdDoc.getDocumentCatalog (). getAllPages ()
    ALLER
    &# 9-&# 9-&# 9-
    &# 9-&# 9-&# 9 - // note que vous pouvez imprimer toutes les pages que vous souhaitez
    &# 9-&# 9-&# 9 - // en choisissant des valeurs différentes de la page de début et de fin
    &# 9-&# 9-&# 9-pdfStripper.setStartPage (1) -&à base de 1 // - # 9
    &# 9-&# 9-&# 9-int longueur = list.size () -&# 9-&# 9 - // nombre total de pages
    &# 9-&# 9-&# 9-pdfStripper.setEndPage (longueur) -&# 9 - // dernière page
    &# 9-&# 9-&# 9-
    &# 9-&# 9-&# 9 - // obtenir le texte pour les pages sélectionnées
    &# 9-&# 9-&# 9 parsedText = pdfStripper.getText (pdDoc)
    ALLER
    &# 9-&# 9-} catch (IOException e) {
    &# 9-&# 9-&# 9-System.err
    &# 9-&# 9-&# 9-&# 9-&# 9-.println ("Une exception est survenue lors de l`analyse du document PDF."
    &# 9-&# 9-&# 9-&# 9-&# 9-&# 9-&# 9- + e.getMessage ())
    ALLER
    &# 9-&# 9-} finally {
    &# 9-&# 9-&# 9-try {
    &# 9-&# 9-&# 9-&# 9-if (cosDoc! = Null)
    &# 9-&# 9-&# 9-&# 9-&# 9-cosDoc.close ()
    ALLER
    &# 9-&# 9-&# 9-&# 9-if (pdDoc! = Null)
    &# 9-&# 9-&# 9-&# 9-&# 9-pdDoc.close ()
    ALLER
    &# 9-&# 9-&# 9-} catch (IOException e) {
    &# 9-&# 9-&# 9-&# 9-e.printStackTrace ()
    ALLER
    &# 9-&# 9-&# 9-}
    &# 9-&# 9-}&# 9-
    &# 9-&# 9-retour parsedText
    ALLER
    &# 9-}

  • Exécutez le programme. droite, cliquez sur la classe PDFTextParser et cliquez sur "Courir comme" et ensuite "programme Java." Le programme devrait fonctionner et imprimer le contenu du texte du fichier PDF que vous avez entré dans votre code.

Supprimer Log4j Startup Message d`erreur

  • Créer un fichier de configuration pour supprimer le message d`erreur log4j système de journalisation Java créé quand il ne peut pas trouver un fichier de configuration lors de son démarrage. Faites un clic droit sur le "src" dossier du projet ImprimerPDF et sélectionnez "Nouveau" et alors "Fichier." Nom du fichier "log4j.properties" Eclipse affiche un écran vide pour ce nouveau fichier.

  • Collez les lignes suivantes dans l`écran vide représentant le "log4j.properties" fichier.

    # Définir le niveau de l`enregistreur de la racine à DEBUG et sa seule appender A1.
    log4j.rootLogger = WARN, A1

    # A1 est définie comme étant une ConsoleAppender.
    log4j.appender.A1 = org.apache.log4j.ConsoleAppender

    # A1 utilise PatternLayout.
    log4j.appender.A1.layout = org.apache.log4j.PatternLayout
    log4j.appender.A1.layout.ConversionPattern =% - 4r [% t]% -5p% c% x -% m% n

  • Sauver la "log4j.properties" fichier. La présence de ce fichier dans le niveau supérieur "src" répertoire supprimera le message log4j de démarrage et tous les messages de journalisation triviales. Le système de log4j affichera uniquement les erreurs réelles.

Conseils & Avertissements

  • Il y a aussi un certain nombre de logiciels commerciaux que vous pouvez utiliser pour extraire le texte à partir de fichiers PDF, mais ils ne sont pas bon marché.

AUTRES

Comment convertir iso à udf фото

Comment convertir iso à udf

Un fichier UDF est un type image ISO de disque. La conversion d`une ISO à l`UDF de type de données standard est…

Java ne sera pas installé фото

Java ne sera pas installé

Si Java ne sera pas installé sur votre machine, il est presque certainement parce que vous avez téléchargé le…

» » » » Comment lire le fichier pdf en java