13 conseils pour construire la bonne base pour la capture automatisée

janvier 28, 2022 by Ramkumar Balan

Les entreprises en proie à des tâches manuelles et centrées sur les données n’atteignent pas leur plein potentiel. Historiquement, les entreprises dont le traitement automatisé des documents est inefficace ont souffert de flux de travail improductifs et n’ont pas atteint leurs objectifs.

L’émergence de l’automatisation cognitive des documents (CDA) a aidé les organisations à créer un flux de travail transparent grâce à la « capture automatisée ». La capture automatisée nous permet de gérer efficacement les documents et les e-mails et d’exploiter au mieux les informations contenues dans les documents.

Cela dit, les entreprises doivent encore faire face à plusieurs défis dans la gestion des documents en raison des limites des solutions CDA. Dans cet article, nous aborderons directement ces défis et suggérerons des conseils sur la façon de construire une base solide pour la capture automatisée.

13 conseils pour optimiser la capture automatisée

Source de l’image

La source de nos images peut facilement affecter leur qualité. Bien que cela puisse nous sembler trivial, cela affecte négativement la précision de notre classification et l’exactitude de l’extraction. En d’autres termes, les documents tels que les fax auront une qualité d’image inférieure à celle d’un PDF numérique à l’origine.

Dans le même temps, tous les scanners ont différents niveaux de capacité de numérisation en fonction de la qualité du fournisseur en fonction du fournisseur et du modèle.

Type de fichier image et résolution

Certains types de fichiers image ont une meilleure qualité inhérente que d’autres. Les gifs 300 dpi sont les plus courants, mais souvent, les entreprises ne peuvent pas contrôler le type de fichier reçu de sources externes. Les images à plus faible résolution auront des niveaux de classification et de précision d’extraction inférieurs (300 dpi sont considérés comme l’idéal).

Qualité d’image

Le dicton « garbage in, garbage out » s’applique également à la CDA. Images faxées plusieurs fois ; images mobiles avec inclinaison, inclinaison, flou, arrière-plan similaire ou mauvais éclairage ; numérisations monochromes ; documents avec des tampons, des gribouillis et des taches… tout cela peut affecter la précision de la classification et de l’extraction. Les images acquises par les solutions CDA doivent être traitées et perfectionnées avant d’appliquer la classification et l’extraction automatisées pour garantir une précision maximale.

Collection de documents

Le nombre d’échantillons et leur similitude avec le monde réel ont également un impact sur la précision. D’une manière générale, plus il y a d’échantillons « appris par machine » par la solution CDA, mieux c’est. Le nombre d’échantillons requis varie de quelques-uns à des centaines, selon le type de document. Les échantillons doivent refléter le plus fidèlement possible ce qui sera vu dans le « monde réel » pendant le processus de production.

Formulaires structurés

Les formes structurées ont généralement le plus haut niveau de précision de classification et d’extraction et nécessitent le moins d’échantillons entraînés. Néanmoins, la conception du formulaire aura un impact significatif sur la précision, de la proximité des champs les uns aux autres aux boîtes de champ par rapport aux boîtes aux lettres à l’ombrage des champs (le cas échéant). Si votre organisation contrôle la conception du formulaire, assurez-vous qu’il est conçu pour un potentiel d’automatisation maximal.

Documents semi-structurés

Les documents semi-structurés (tels que les factures, les bons de commande, les bons de commande et les connaissements) sont généralement moins précis que les formulaires structurés. Différentes solutions CDA ont différentes approches pour localiser les données souhaitées, et certaines sont plus fiables que d’autres pour trouver les données et les extraire avec succès. Ces documents ont également tendance à avoir des tableaux intégrés (par exemple, des éléments de ligne de facture), plusieurs tableaux ou des tableaux dans des tableaux qui peuvent avoir des taux de précision d’extraction inférieurs à ceux des champs normaux.

Documents non structurés

Les documents non structurés tels que les e-mails (corps), les lettres et les contrats sont les plus difficiles à classer et à extraire automatiquement. Les technologies basées sur l’IA telles que le traitement du langage naturel (NLP) ont amélioré les taux de précision d’extraction pour ces types de documents ces dernières années.

Type d’impression

Le type d’impression sur le document affecte également les taux de précision d’extraction. En règle générale, les champs imprimés à la machine ont les taux de précision les plus élevés, suivis des champs imprimés à la main, puis des champs cursifs. Pour l’impression à la machine, le type de police et l’espacement des caractères ont également un impact sur les taux de précision. La langue du document peut également avoir un impact sur les taux de précision. Les moteurs OCR utilisés par les solutions CDA présentent une précision OCR variable selon la langue, les langues latines revendiquant généralement les taux de précision les plus élevés.

Codes-barres et cases à cocher

Les champs de code-barres et de case à cocher affichent généralement la précision d’extraction la plus élevée sur un document. Il n’est pas rare que les solutions CDA affichent un pourcentage de précision dans les années 90 pour l’extraction des valeurs de codes-barres et des valeurs de cases à cocher/bulles. Cependant, des dizaines de codes-barres sont utilisés, y compris des codes-barres 1D, 2D et maintenant 3D (2D avec couleur), alors assurez-vous que la solution CDA prend en charge les plus fréquemment rencontrés.

Signatures

L’une des principales raisons pour lesquelles le papier est encore utilisé par de nombreuses organisations est l’exigence d’une signature, et la signature papier doit être capturée, classée et extraite. Le passage aux signatures électroniques peut supprimer le besoin de numériser le papier, ce qui améliore la productivité et la capacité de vos utilisateurs CDA. Déterminez si vous avez simplement besoin d’une détection de présence de signature, ou également d’une vérification de signature et d’une détection de fraude.

Bases de données

Les taux de précision de classification et d’extraction d’une solution CDA peuvent être considérablement améliorés grâce à l’utilisation de bases de données. En faisant correspondre un contenu similaire dans les bases de données, les erreurs OCR mineures peuvent être ignorées. Le résultat? Moins d’implication humaine pour confirmer/corriger les résultats d’OCR à faible confiance. Le contenu de la base de données peut inclure des noms de clients, des numéros de compte, des données ERP telles que le numéro de bon de commande ou le nom du fournisseur, des dictionnaires de mots spécifiques aux industries ou aux langues, etc.

Des règles

Des règles peuvent également être utilisées pour augmenter la précision d’extraction d’un champ. Par exemple, vérifier que le sous-total plus les taxes est égal au total est une règle simple qui peut signaler toute erreur, même après qu’un humain ait corrigé l’une de ces valeurs de champ. Les règles de formatage sont également un moyen simple d’assurer une grande précision de champ (par exemple, un numéro de sécurité sociale doit toujours avoir le format xxx-xx-xxxx, où x est un nombre compris entre 0 et 9). La vérification des sommes de contrôle des valeurs de champ augmente également la précision de l’extraction de champ.

Systèmes de destination

Les solutions CDA ne sont pas complètes sans un moyen simple d’envoyer les documents et les données aux systèmes, aux processus et aux personnes qui en ont besoin. La productivité des utilisateurs diminue énormément si les utilisateurs doivent déplacer manuellement les images et les données des documents d’un système à un autre. N’oubliez pas qu’un robot RPA peut automatiser le processus de déplacement et d’agrégation des données entre les systèmes si un connecteur prêt à l’emploi pour le système de destination n’est pas disponible.