De plus en plus  d’entreprises passent à une administration sans papier, ou à une réduction de celui-ci. Cela permet de réduire les coûts de stockage et de recherche d’anciens documents. Pour autant que ceux-ci soient bien référencés dans le système d’information.

Ce qui nous intéresse ici c’est la capacité que nous avons de trouver un document à travers le moteur de recherche une fois qu’il a été scanné et déposé dans le système.

Il existe de nombreuses solutions de gestion des documents électroniques. À des prix pouvant parfois être trop importants pour des petites structures. Dans ce cas, l’utilisation d’un simple partage de vos documents dans Google Drive peut être une solution bon marché, tout particulièrement pour les entreprises utilisant déjà Google for Works. Il existe un certain nombre de contraintes avec le système de reconnaissances des caractères (OCR) automatique de Google Drive qu’il vous faut connaître.

Le système est très efficace si vous avez besoin d’une reconnaissance sur un seul document. Vous trouverez de nombreuses aides en lignes pour ça. Cependant, il ne s’agit pas de la fonction qui nous intéresse.

La partie qui nous intéresse est comment fonctionne la reconnaissance des caractères dans les fichiers PDF et JPG lorsqu’ils sont déposés en grande quantité directement dans Google Drive. Et comment sont-ils indexés ? C’est le cas typique d’un projet de numérisation d’une grande partie des archives. Les informations de Google sur le système ne sont pas très claires ni complètes et un bon nombre d’informations qui sont accessibles, y compris sur les pages d’aides de Google, concernent une ancienne version.

Voici donc le résumé des informations que j’ai pu recueillir à ce jour.

Principes généraux

Lorsqu’un document est copié dans Drive, Google va effectuer une reconnaissance de caractères (OCR) sur le document pour permettre de retrouver le document via une recherche texte.

Par exemple, vous scannez une facture « Rive Bureautique » dans laquelle il y a une ligne pour votre « Serveur HP ML380 ». Vous nommez le document « Facture Rive Février 2016.pdf ».

Si vous cherchez le document a travers le moteur recherche, vous allez pouvoir le trouver via son nom. Avec la capacité OCR, si vous chercher « HP ML380 » vous allez également pouvoir retrouver votre document.

Délais d’indexation

Quelques secondes entre chaque étape du processus (voir ci-dessous). Pour un seul fichier, le processus est quasiment instantané. Un délai plus important est à prévoir pour les fichiers particulièrement volumineux ou lorsque plusieurs milliers de fichiers sont envoyés en même temps.

Commentaire

Google ne veut pas s’engager sur des délais qu’ils auraient à respecter pour le traitement des indexations. Ils font le travail au mieux, sans garantie. Un délai de quelques minutes, voire même quelques heures, ne devrait pas poser problème pour un projet de numérisation des archives. Et pour les documents du jour, il ne devrait pas y avoir plus de quelques minutes de délai.

Restrictions

  • L’indexation s’arrête après une taille de 1 MiB (quel que soit le type de fichiers).
  • L’indexation ne va pas plus loin que la page 50 (fichier PDF).
  • Les fichiers de plus de 20 MiB ne sont pas indexés du tout.
  • Toutes les langues ne sont pas supportées (aucun problème avec anglais, français, allemand)
  • Le texte doit être droit et dans la bonne direction

Commentaire

Google évite bien entendu de trop charger ses serveurs. Les limitations décritent ci-dessus ne sont pas un engagement formel de la part de Google, elles peuvent donc changer sans préavis. Le plus probable étant qu’elles soient revues à la hausse avec l’amélioration des performances et la diminution du coût du stockage.

Ces restrictions ne poseront pas de problèmes pour la plupart des numérisations d’archives, notamment comptables. Ces documents faisant quelques pages dans la plus grande majorité des cas.

Ce que le système ne fait pas

Il n’y a pas de rapport de numérisation ni de vérification qui soit accessible. Si une reconnaissance de caractères échoue, il faut relancer le processus. Pour se faire, il faut recopier le fichier dans Drive.

Il faut donc éviter de déplacer tous les fichiers numérisés dans un Drive sans faire de vérification. Lors du projet, il faudra effectuer des vérifications par pointage si le nombre de fichiers est important. Des vérifications systématiques peuvent être nécessaires si des besoins d’exhaustivité garantie ont été identifiés. Il faudra également former les utilisateurs aux limitations du système.

Commentaire

Le système de reconnaissance de caractère et l’indexation des résultats n’est pas un service mis en avant par Google. Il est à utiliser « comme tel » et sans garantie. Il faut donc mettre en place du côté de l’entreprise les mesures nécessaires pour assurer l’intégrité et la fiabilité du système.

Il est par contre une bonne solution très peu onéreuse pour stocker et rechercher des documents numérisés.

 

Processus

Pour ceux que cela intéresse, voici comment se déroule le processus en arrière-plan dans les serveurs de Google

Le fichier est enregistré sur un premier serveur. Les métadatas sont inscrites sur un second serveur. Une fois le fichier complètement téléchargé, le deuxième serveur envoie une notification.

Un serveur dédié écoute le flux et extrait le fichier du premier serveur quand il est prêt et l’envoie sur un autre serveur dédié pour reconnaissance, puis écrit le texte reconnu sur le second serveur. Finalement, le second serveur relance l’indexation du document pour que le texte reconnu soit recherchable.