LinuxHint a déjà publié un tutoriel expliquant comment installer et comprendre la formation de Tesseract.
Ce tutoriel montre le processus d'installation de Tesseract dans les systèmes Debian/Ubuntu mais ne s'étendra pas sur les fonctionnalités de formation, si vous n'êtes pas familiarisé avec ce logiciel, la lecture de l'article mentionné peut être une bonne introduction. Ensuite, nous vous montrerons comment traiter une image GIF avec Tesseract pour en extraire le texte.
Installation de Tesseract :
Cours:
apt installer tesseract-ocr
Maintenant, vous devez installer imagemagick qui est un convertisseur d'image.
Une fois installé on peut déjà tester Tesseract, pour le tester j'ai trouvé un gif sous licence pour réutilisation.
Voyons maintenant ce qui se passe lorsque nous exécutons tesseract sur l'image gif :
tesseract 2002NY40.gif 1résultat
Maintenant, faites un « moins » sur 1 résultat.SMS
moins 1résultat.SMS
Voici l'image avec son texte :
Dans ce Tesseract, les paramètres par défaut sont assez précis, généralement pour obtenir une telle précision, il faut une formation. Essayons une autre image gratuite que j'ai trouvée sur Wiki Commons, après l'avoir téléchargée, exécutez :
tesseract Actualizar_GNULinux_Terminal_apt-get.gif 2résultat
Vérifiez maintenant le contenu du fichier.
moins 2résultat.SMS
C'était le résultat alors que le contenu de l'image d'origine était :
Afin d'améliorer la reconnaissance des caractères, nous avons de nombreuses options et étapes à suivre qui ont été détaillées dans notre tutoriel précédent : suppression des bordures, suppression du bruit, optimisation de la taille et rotation des pages parmi d'autres fonctions comme le recadrage.
Pour ce tutoriel, nous utiliserons textcleaner, un script développé par Fred's ImageMagick Scripts.
Téléchargez le script et exécutez :
./textcleaner -g -e stretch -f 25 -o 10 -s 1Actualizar_GNULinux_Terminal_apt-get.essai gif.gif
Noter: avant d'exécuter le script, donnez-lui les autorisations d'exécution en exécutant "chmod +x nettoyeur de texte” en tant que root ou avec sudo préfixe.
Où:
nettoyeur de texte: appelle le programme
-g: Convertir l'image en niveaux de gris
-e: enache
-F: taille du filtre
-s: sharpamt,quantité de netteté des pixels à appliquer au résultat.
Pour plus d'informations et des exemples d'utilisation avec textcleaner, visitez http://www.fmwconcepts.com/imagemagick/textcleaner/index.php
Comme vous le voyez, textcleaner a changé la couleur d'arrière-plan, augmentant le contraste entre la police et l'arrière-plan.
Si nous exécutons tesseract, le résultat sera probablement différent :
test de tesseract.sortie de test gifmoins de sortie de test
Comme vous le voyez, le résultat s'est vraiment amélioré même s'il n'est pas entièrement précis.
La commande convertir fourni par imagemagick nous permet d'extraire des cadres d'images gif à traiter ultérieurement par Tesseract, ceci est utile s'il y a du contenu extractible dans différents cadres de l'image gif.
La syntaxe est simple :
convertirLe résultat sera généré sous forme de nombre de fichiers sous forme de cadres dans le gif, dans l'exemple fourni, les résultats seraient : sortie-0.jpg, sortie-1.jpg, sortie-2.jpg, etc.
Ensuite, vous pouvez les traiter avec tesseract, en lui demandant de traiter tous les fichiers avec un caractère générique en enregistrant le résultat dans un seul fichier en exécutant :
pour i dans output-* ; do tesseract $i outputresult ; Fini;Imagemagick a une grande variété d'options pour optimiser les images et il n'y a pas de mode générique, pour chaque type de scénario, vous devriez lire la page de manuel de commande de convert.
J'espère que vous avez trouvé ce tutoriel sur Tesseract utile.