Aide:Comment toiletter les textes numérisés : Différence entre versions

De PlantUse Français
Aller à : navigation, rechercher
(Formatage des pages)
Ligne 32 : Ligne 32 :
 
== Formatage des pages ==
 
== Formatage des pages ==
 
* respect du découpage en pages de l'original. Les numéros de page se mettent de préférence entre crochets.
 
* respect du découpage en pages de l'original. Les numéros de page se mettent de préférence entre crochets.
* pour bien distinguer du texte les notes de bas de page, on peut les séparer par un trait continu (ici, 8 tirets longs)
+
* pour bien distinguer du texte les notes de bas de page, on peut les séparer par un trait continu (ici, 12 tirets longs)
 
* pour les encyclopédies, chaque article peut faire l'objet d'une page différente. Ceci a l'avantage de permettre ensuite des liens vers ces pages.
 
* pour les encyclopédies, chaque article peut faire l'objet d'une page différente. Ceci a l'avantage de permettre ensuite des liens vers ces pages.
  

Version du 24 novembre 2012 à 10:45

La liste des ouvrages en cours de numérisation est accessible à la catégorie Ouvrage numérisé, et une liste des principaux sites en offrant en ligne (en pdf ou jpg) est à la page Sites web proposant des ouvrages numérisés.

Le principe de base est de fournir des textes fiables qui évitent au lecteur de retourner à l'original. Si le texte original est par trop illisible, il vaut mieux alors fournir deux versions, l'une originale et l'autre modernisée.

Sources des textes

Wikisource

Commencer par vérifier si le travail n'a pas déjà été fait dans Wikisource. Attention : Wikisource existe dans de nombreuses versions linguistiques, et il faut chercher dans la langue où le livre est écrit. Par exemple, une traduction de Darwin en français est à chercher sur Wikisource français. On peut se contenter d'un simple lien vers la page de Wikisource. Wikisource découpe les livres en pages et en chapitres. On peut aussi souhaiter importer ces textes sur Pl@ntUse, par exemple pour les découper en notices botaniques et faciliter l'inclusion de liens. Il faut alors trouver chaque page djvu de Wikisource, et importer page par page.

Sites proposant des pdf

Ils sont nombreux et pas toujours très visibles. Il est recommandé de prendre un peu de temps à les inventorier, ce que nous avons entrepris sur la page Sites web proposant des ouvrages numérisés, et de vérifier si le même livre n'a pas été numérisé en plusieurs lieux. La qualité de la numérisation et de l'OCR peut varier beaucoup. Autant choisir la version la meilleure.

Le travail d'inventaire n'est pas trivial. Dans Pl@ntUse, nous avons entrepris de créer des pages par auteur (voir Catégorie:Auteur), destinées à lister ses différentes œuvres, dans toutes leurs éditions et traductions. Cela est difficile pour les livres imprimés, et encore plus pour les manuscrits. Ce préliminaire est essentiel pour choisir une version à bon escient. Les auteurs sont également classés en catégories et par ordre chronologique (voir Chronologies).

Ouvrages non numérisés

Pour le scannage de livres entiers, évitez d'utiliser un scanner de bureau, qui impose des manipulations longues. Scannez plutôt sur un photocopieur professionnel, qui permet d'envoyer des fichiers pdf à une adresse électronique. Ne perdez pas de temps à vérifier le sens de l'image ou son alignement. Vous pourrez faire cela ensuite avec Adobe Acrobat.

Par contre, scanner des images suppose d'utiliser un scanner de bureau professionnel, et de scanner image par image. Récupérer des images à partir de scans de livres donne un résultat désastreux.

Respect du texte original

  • respect de l'orthographe, y compris des erreurs typographiques et de ce que nous percevons comme des fautes d'orthographe (Wikisource autorise la correction des fautes d'orthographe, en particulier des coquilles d'imprimeur, mais cela peut avoir des conséquences imprévues).
  • respect du formatage des caractères (italique, gras).
  • Utilisation de la norme Unicode pour les textes qui comportent des signes diacritiques ou qui sont écrits dans des alphabets non latins.

Exceptions

  • suppression des tirets qui coupent un mot en fin de ligne (à l'exception des mots coupés en fin de page).
  • normalisation de l'usage des lettres u/v et i/j, qui représentaient de simples variantes graphiques.
  • remplacement du s long (ſ) par un s normal
  • respect du estset allemand ß

Attention. Toute modification d'un texte peut donner lieu à droit d'auteur. Cela est vrai pour une traduction ou pour une modernisation. Par exemple, le texte original de Rabelais est libre, mais son texte modernisé il y a moins de 70 ans ne l'est pas. Un nouveau formatage du texte, une nouvelle pagination, une nouvelle organisation des notes, la mise à jour des noms scientifiques, etc., constituent autant de modifications donnant lieu à droits d'auteur. Quand vous scannez un texte ancien, vous pouvez donc partir d'une réédition récente pour obtenir un bon OCR, mais il faut impérativement le vérifier en totalité sur la base de la version originale.

Formatage des pages

  • respect du découpage en pages de l'original. Les numéros de page se mettent de préférence entre crochets.
  • pour bien distinguer du texte les notes de bas de page, on peut les séparer par un trait continu (ici, 12 tirets longs)
  • pour les encyclopédies, chaque article peut faire l'objet d'une page différente. Ceci a l'avantage de permettre ensuite des liens vers ces pages.

Divers

En introduction, il convient de préciser sur quelle édition on a travaillé, quelle est la source du document numérisé, et à quel niveau de fiabilité on est arrivé. Ce dernier point est délicat, car il résulte d'un compromis. La recherche des dernières erreurs demande un temps infini, mais à l'inverse, un texte non fiable ne sera pas utilisable, ou demandera à l'utilisateur de le recorriger. Wikisource distingue les correcteurs et les validateurs. Un texte n'est considéré comme validé que s'il a été revu par un validateur différent du correcteur.

Quant on trouve un OCR d'une qualité suffisante pour en permettre la lecture, il vaut mieux travailler en deux temps. Mettez-le d'abord en ligne entièrement, en l'organisant en pages et en sections et en le formatant à minima. Le lecteur pourra en profiter immédiatement. Vous aurez ensuite le temps de le toiletter, en précisant le statut de chaque page dans sa page de discussion.

Aspects techniques

Le toilettage de textes numérisés est chronophage. Il vaut donc mieux réfléchir avant de s'y lancer tête baissée.

  • choisir la meilleure version disponible. Quand un livre est disponible sur plusieurs plate-formes, il faut les comparer, faire un test et choisir la meilleure. Pour le Candolle, Origine des plantes cultivées, par exemple, Googlebooks donne une version mauvaise, Gallica une version correcte et Madrid une version excellente.
  • choisir une option de téléchargement optimale. Sur le site de Madrid, par exemple, le résultat est meilleur quand on télécharge page par page que quand on le fait par lot (en lisant avec Acrobat).
  • choisir le meilleur logiciel. Toujours pour Candolle, le résultat est moins bon avec Aperçu qu'avec Acrobat (sauts de ligne et tabulations intempestifs).
  • si on toilette d'abord sous Word, penser que les formats de caractère et les sauts de ligne ne passeront pas sur Mediawiki en mode Lire, mais couperont les lignes en mode Modifier.
  • augmenter la taille de la fonte, de façon à mieux visualiser les caractères proches souvent confondus par la ROC (e, c, o...). Choisir une police de caractères qui différencie les 1 (un), l (el) et I (i majuscule), également confondus. Dans Mediawiki, on ne différencie ces caractères que dans le texte publié. Il faut alors copier les mots fautifs dans un fichier de texte pour les retrouver ensuite en mode Modifier.

Comparez avec d'autres sites

Un livre français d'agronomie est en train d'être mis en ligne. Il peut être utile de consulter leur procédure.