De nos jours, presque tout (par exemple photos, musique, vidéos) est passé au numérique (et cela a du sens, car le contenu numérique peut être facilement géré, édité et partagé). Alors, comment les documents textuels peuvent-ils rester en arrière? Grâce aux progrès des techniques de reconnaissance optique de caractères (OCR), il est maintenant plus facile que jamais de numériser le texte dans des documents imprimés / manuscrits, ce qui permet de le modifier à l’aide de programmes de traitement de texte.
Maintenant, pour ce faire, vous avez besoin de très bonnes applications logicielles OCR, et c’est exactement ce dont traite cet article. Ces logiciels peuvent soit acquérir les documents imprimés sources sous forme d’images à partir de périphériques de numérisation, soit vous pouvez saisir vos propres images de document à convertir en texte modifiable. Intrigué? Eh bien, évitons de tourner autour du pot, et abordons le 5 meilleur logiciel OCR .
1. ABBYY FineReader
En ce qui concerne la reconnaissance optique de caractères, presque tout ce qui est comparable à ABBYY FineReader est proche. ABBYY FineReader regorge de fonctionnalités puissantes, ce qui facilite l'extraction de texte à partir d'images de toutes sortes.
Malgré une liste complète de fonctionnalités, ABBYY FineReader est extrêmement simple à utiliser. Il peut extraire du texte de presque tous les types de formats d'image courants, tels que PNG, JPG, BMP et TIFF. Et ce n'est pas tout. ABBYY FineReader peut également extraire du texte à partir de fichiers PDF et DJVU. Une fois que le fichier source ou l'image (qui doit de préférence avoir une résolution d'au moins 300 dpi, pour une numérisation optimale) est chargé, le programme l'analyse et détermine automatiquement les différentes sections du fichier contenant du texte extractible. Vous pouvez extraire tout le texte ou choisir uniquement certaines sections. Après cela, tout ce que vous avez à faire est d'utiliser l'option Enregistrer pour choisir le format de sortie, et ABBYY FIneReader se chargera du reste. De nombreux formats de sortie sont pris en charge, tels que TXT, PDF, RTF et même EPUB.
Le texte de sortie est parfaitement éditable, et le texte des documents les plus intensifs en contenu (par exemple, ceux comportant plusieurs colonnes et des dispositions complexes) est extrait sans faille. Les autres fonctionnalités comprennent une prise en charge linguistique étendue, de nombreux styles / tailles de police et des outils de correction d’image pour les fichiers provenant de scanners et d’appareils photo.
En un mot, si vous voulez le meilleur logiciel OCR absolu, complet avec un format d'entrée / sortie étendu et un support de traitement, optez pour ABBYY FineReader.
Disponibilité de la plate-forme: Windows 10, 8, 7, Vista et XP; Mac OS X 10.6 et ultérieur
Prix: les versions payantes commencent à partir de 169, 99 $, essai gratuit de 30 jours disponible
Télécharger
2. Readiris
A la recherche d'un logiciel de ROC extrêmement puissant, riche en fonctionnalités, mais ne nécessitant pas beaucoup d'efforts pour commencer? Jetez un coup d’œil à Readiris, car c’est peut-être ce dont vous avez besoin.
Readiris est une application de niveau professionnel qui propose un ensemble complet de fonctionnalités qui sont en grande partie identiques à celles décrites précédemment dans ABBYY FineReader. De BMP à PNG et de PCX à TIFF, Readiris prend en charge de nombreux formats d’image. Sinon, les fichiers PDF et DJVU peuvent également être traités. Les images peuvent provenir de scanners. L’application vous permet également de définir des paramètres de traitement personnalisés pour les fichiers / images sources, tels que le lissage et l’ajustement DPI, avant de les analyser. Bien que Readiris puisse très bien traiter les images de résolution inférieure, la résolution optimale doit être d’au moins 300 dpi. Une fois l'analyse terminée, Readiris détermine les sections de texte (ou zones) et le texte peut être extrait à partir de zones spécifiques ou du fichier entier. Le texte extrait est modifiable et peut être enregistré dans de nombreux formats, tels que PDF, DOCX, TXT, CSV et HTM.
De plus, la fonction de sauvegarde en nuage de Readiris Pro vous permet de sauvegarder directement le texte extrait sur différents services de stockage en nuage tels que Dropbox, OneDrive, GoogleDrive, etc. Il existe également un bon nombre de fonctionnalités d’édition / traitement de texte, et même les codes à barres peuvent être numérisés.
Dans l’ensemble, vous devez utiliser Readiris si vous souhaitez des fonctionnalités d’extraction / édition de texte robustes dans un package simple à utiliser, avec prise en charge étendue des formats d’entrée / sortie. Cependant, Readiris hésite un peu lorsqu'il s'agit de traiter des documents avec des mises en page complexes telles que plusieurs colonnes, tableaux, etc.
Disponibilité de la plate-forme: Windows 10, 8, 7, Vista et XP; Mac OS X 10.7 et ultérieur
Prix: les versions payantes commencent à 99 $, 10 jours d'essai gratuit disponible
Télécharger
3. FreeOCR
Si vous recherchez un logiciel OCR simple et sans problème avec des capacités de reconnaissance de texte décentes, ne cherchez pas plus loin que FreeOCR . Bien qu'il ne soit peut-être pas surchargé de toutes sortes de fonctionnalités sophistiquées, il fonctionne néanmoins extrêmement bien pour ce qu'il est.
Basé sur le très populaire moteur OCR Tesseract soutenu par Google, FreeOCR est extrêmement facile à utiliser. Il peut obtenir des documents imprimés numérisés via des scanners et vous permet également de télécharger des images ayant un contenu textuel. En plus de cela, il peut également extraire du texte à partir de documents multipages fortement formatés. Vous pouvez demander à l'application d'extraire tout le texte du fichier PDF / image d'entrée ou de définir un bloc de texte spécifique. Les vitesses de conversion sont plutôt bonnes et le texte converti peut être soit enregistré dans des formats tels que TXT et RTF, soit exporté directement vers Microsoft Word. FreeOCR prend en charge tous les principaux formats d'image, tels que PNG, JPG et TIFF.
Cela étant dit, FreeOCR a quelques défauts. C'est trop basique, et ne possède aucune fonction de post-traitement de texte. De plus, la mise en page du texte extrait est souvent altérée, avec des lignes et des colonnes qui se chevauchent. Utilisez-le uniquement si vous avez besoin d'une fonctionnalité OCR de base pour une utilisation occasionnelle.
Disponibilité de la plate-forme: Windows 10, 8, 7, Vista et XP
Prix: gratuit
Télécharger
4. Microsoft OneNote
OneNote est une application de prise de notes riche en fonctionnalités impressionnante et facile à utiliser. Cependant, la prise de notes n'est pas la seule chose à laquelle il est bon. Si vous utilisez OneNote dans le cadre de votre flux de travail, vous pouvez l'utiliser pour effectuer une extraction de texte de base, grâce à la bonté OCR intégrée.
Utiliser OneNote pour extraire du texte à partir d'images est ridiculement simple. Si vous utilisez l'application de bureau, tout ce que vous avez à faire est d'utiliser l'option Insérer pour insérer l'image dans l'un des cahiers ou des sections. Une fois que cela est fait, cliquez simplement sur l'image avec le bouton droit de la souris et sélectionnez l'option Copier le texte de l'image . Tout le contenu textuel de l'image serait copié dans le presse-papiers et peut être collé (et donc modifié) n'importe où, selon les besoins. Que ce soit au format PNG, JPG, BMP ou TIFF, OneNote prend en charge presque tous les principaux formats d'image.
Cependant, les fonctionnalités d'extraction de texte de OneNote sont assez limitées et ne peuvent pas traiter les images ayant des dispositions de contenu textuel complexes telles que des tableaux et des sous-sections. C'est donc quelque chose que vous devriez garder à l'esprit.
Disponibilité de la plate-forme: Windows 10, 8, 7 et Vista; Mac OS X 10.10 et ultérieur
Prix: gratuit
Télécharger
5. GOCR
Remarque: avant de commencer, il est important de savoir que même si GOCR prend en charge les formats d'image standard tels que PNG et JPG, il ne les a pas reconnus lors de nos tests (réalisés sur un PC exécutant Windows 10). Il est fort possible que cela fonctionne avec ces formats sur des machines Linux, mais si vous utilisez Windows, vous devrez convertir les images source au format PNM. Cela peut être fait via de nombreux outils de conversion de fichiers en ligne, tels que celui-ci.
Ce qui distingue GOCR de ce lot, c’est qu’il n’a pas vraiment d’interface utilisateur graphique (GUI). C'est un outil basé sur la ligne de commande et, en tant que tel, n'est pas vraiment le plus simple à utiliser. Mais une fois que vous êtes à l'aise avec les bases, GOCR peut s'avérer très utile pour extraire du texte à partir d'images. Il est également intéressant de noter que pour que GOCR fonctionne correctement, les images source doivent avoir un contenu textuel clairement visible, et de préférence un fond blanc, car l'utilitaire ne fonctionne pas vraiment avec des fichiers source complexes. GOCR extrait le texte des images et les enregistre au format TXT. Bien qu'il prenne en charge de nombreux arguments et fonctions, seuls quelques-uns doivent être connus pour commencer. Par exemple, pour extraire du texte à partir d'un exemple d'image PNM, vous devez entrer ce qui suit à l'invite de commande.
X: \ exemple de dossier \ gocr049 -i fichier.pnm -o fichier.txt
Ici, le dossier X: \ sample est l'emplacement où se trouve l'outil de ligne de commande de GOCR, et file.pnm et file.txt sont les fichiers d'entrée et de sortie, respectivement (tous deux situés au même endroit que GOCR; si l'emplacement est différent, le chemin complet doit être spécifié). De même, si vous souhaitez modifier les niveaux de gris de l’image, vous pouvez spécifier une valeur numérique en tant qu’argument, avec -l. Cliquez ici pour en savoir plus sur l'utilisation.
Pour résumer, GOCR est un assez bon utilitaire d'OCR, et lorsqu'il s'agit d'extraire du texte à partir d'images simples, il fonctionne exceptionnellement bien. Cependant, ses fonctionnalités sont extrêmement limitées et nécessitent beaucoup d'efforts pour fonctionner.
Disponibilité de la plate-forme: Windows 10, 8, 7, Vista et XP; Linux; OS / 2
Prix: gratuit
Télécharger
Tous ensemble pour convertir les images en texte?
La numérisation de contenu textuel imprimé (et manuscrit) est extrêmement utile car elle facilite considérablement le stockage, la modification et le partage de texte. Et le logiciel OCR décrit ci-dessus permet de le faire rapidement, quelle que soit la base ou les besoins avancés de vos besoins en extraction de texte. Vous avez besoin de fonctionnalités d’extraction de texte de niveau professionnel avec les meilleurs outils de post-traitement? Choisissez ABBYY FineReader ou Readiris. Préféreriez-vous un logiciel d'OCR plus simple qui intègre les bases? Utilisez OneNote ou FreeOCR. Essayez-les et voyez comment ils fonctionnent pour vous. Connaissez-vous un autre logiciel OCR qui aurait pu être inclus dans la liste ci-dessus? Criez dans les commentaires ci-dessous.