Aide:Comment toiletter les textes numérisés

De PlantUse Français
Aller à : navigation, rechercher

La liste des ouvrages en cours de numérisation est accessible à la catégorie Ouvrage numérisé, et une liste des principaux sites en offrant en ligne (en pdf ou jpg) est à la page Sites web proposant des ouvrages numérisés.

Le principe de base est de fournir des textes fiables qui évitent au lecteur de retourner à l'original. Si le texte original est par trop illisible, il vaut mieux alors fournir deux versions, l'une originale et l'autre modernisée.

Sources des textes

Wikisource

Commencer par vérifier si le travail n'a pas déjà été fait dans Wikisource. Attention : Wikisource existe dans de nombreuses versions linguistiques, et il faut chercher dans la langue où le livre est écrit. Par exemple, une traduction de Darwin en français est à chercher sur Wikisource français. On peut se contenter d'un simple lien vers la page de Wikisource. Wikisource découpe les livres en pages et en chapitres. On peut aussi souhaiter importer ces textes sur Pl@ntUse, par exemple pour les découper en notices botaniques et faciliter l'inclusion de liens. Il faut alors trouver chaque page djvu de Wikisource, et importer page par page.

Sites proposant des pdf

Ils sont nombreux et pas toujours très visibles. Il est recommandé de prendre un peu de temps à les inventorier, ce que nous avons entrepris sur la page Sites web proposant des ouvrages numérisés, et de vérifier si le même livre n'a pas été numérisé en plusieurs lieux. La qualité de la numérisation et de l'OCR peut varier beaucoup. Autant choisir la version la meilleure. Pour cela, il faut consulter chaque version en ligne, et donner tous les renseignements pertinents.

Le travail d'inventaire n'est pas trivial. Dans Pl@ntUse, nous avons entrepris de créer des pages par auteur (voir Catégorie:Auteur), destinées à lister ses différentes œuvres, dans toutes leurs éditions et traductions. Cela est difficile pour les livres imprimés, et encore plus pour les manuscrits (et leurs éditions). Ce préliminaire est essentiel pour choisir une version à bon escient. Les auteurs sont également classés en catégories et par ordre chronologique (voir Chronologies).

Ouvrages non numérisés

Pour le scannage de livres entiers, évitez d'utiliser un scanner de bureau, qui impose des manipulations longues. Scannez plutôt sur un photocopieur professionnel, qui permet d'envoyer des fichiers pdf à une adresse électronique. Ne perdez pas de temps à vérifier le sens de l'image ou son alignement. Vous pourrez faire cela ensuite avec Adobe Acrobat.

Par contre, scanner des images suppose d'utiliser un scanner de bureau professionnel, et de scanner image par image. Récupérer des images à partir de scans de livres donne un résultat désastreux.

Respect du texte original

  • respect de l'orthographe, y compris des erreurs typographiques et de ce que nous percevons comme des fautes d'orthographe (Wikisource autorise la correction des fautes d'orthographe, en particulier des coquilles d'imprimeur, mais cela peut avoir des conséquences imprévues).
  • respect du formatage des caractères (italique, gras). Il y a des exceptions :
    • le formatage des petites capitales étant complexe, nous avons choisi de les rendre soit par des majuscules, soit par des minuscules (noms d'auteur...).
    • les noms botaniques sont mis en minuscules italiques, même s'ils sont au départ en majuscules.
  • gestion de la ponctuation : dans la mesure où cela n'influe pas sur le texte, il vaut mieux utiliser la norme actuelle, à savoir pas d'espace avant une virgule ou un point, une espace avant les autres signes ( ! ? ; :).
  • Utilisation de la norme Unicode pour les textes qui comportent des signes diacritiques ou qui sont écrits dans des alphabets non latins.
  • Nous vous recommandons de ne pas faire le travail à moitié, autrement dit, de relire un texte en vérifiant systématiquement le moindre détail sur l'original. Cela permet de ne pas avoir à faire deux fois ce travail fastidieux et minutieux. Quand vous l'avez fait, dites-le dans la page de discussion. Il est probable qu'il subsiste des erreurs ou des oublis après la relecture des textes, d'autant que la police utilisée en mode Modifier permet mal de distinguer certains caractères, comm l et 1, ou O et 0. Si vous trouvez des erreurs, merci de les corriger. Mais s'il s'agit d'autres erreurs, ne le faites qu'en vérifiant sur le texte original, soit dans un livre sur papier soit dans le pdf dont le lien est donné dans la page d'introduction.

Exceptions

  • suppression des tirets qui coupent un mot en fin de ligne (à l'exception des mots coupés en fin de page).
  • normalisation de l'usage des lettres u/v et i/j, qui représentaient de simples variantes graphiques.
  • remplacement du s long (ſ) par un s normal
  • respect du estset allemand ß

Attention. Toute modification d'un texte peut donner lieu à droit d'auteur. Cela est vrai pour une traduction ou pour une modernisation. Par exemple, le texte original de Rabelais est libre, mais son texte modernisé il y a moins de 70 ans ne l'est pas. Un nouveau formatage du texte, une nouvelle pagination, une nouvelle organisation des notes, la mise à jour des noms scientifiques, etc., constituent autant de modifications donnant lieu à droits d'auteur. Quand vous scannez un texte ancien, vous pouvez donc partir d'une réédition récente pour obtenir un bon OCR, mais il faut impérativement le vérifier en totalité sur la base de la version originale.

Formatage des pages

  • Respect du découpage en pages de l'original. Les numéros de page se mettent de préférence entre crochets. Mettre de préférence trois retours paragraphe avant un numéro de page et deux après.
  • Pour les encyclopédies, chaque article peut faire l'objet d'une page différente. Ceci a l'avantage de permettre ensuite des liens vers ces pages. Si les articles sont courts, on peut les distinguer en sections à l'intérieur d'une page ; on peut en effet créer des liens vers les sections. Dans ce cas, il vaut mieux forcer le sommaire à apparaître en tapant __TOC__ en début de page. Cela crée un sommaire même quand il y a peu de sections. Le sommaire doit être intégré même si les pages ne comportent qu'une section.
  • Les titres de sections peuvent être des intertitres du livre lui-même. Mais souvent, ces intertitres comportent des mots inutiles. Il faut alors créer des titres de sections brefs, car leur brièveté facilite le copiage des liens. On choisira de préférence le nom principal du titre original, en le mettant en minuscules. Quand ce nom est un nom vernaculaire vraiment obsolète, on pourra choisir le nom vernaculaire actuel.
  • Quand un texte comporte des citations en vers, le plus simple est d'utiliser la syntaxe suivante :
:premier vers
:deuxième vers
:troisième vers
:::Auteur, ''Livre''

qui donne


premier vers
deuxième vers
troisième vers
Auteur, Livre

Liens vers d'autres pages

A priori, on évitera d'insérer des liens dans le texte des ouvrages déjà publiés, dans l'idée de les transcrire tels que publiés.

Une exception est le cas des ouvrages qui comportent des renvois internes, tels que Voir la notice xyz. On en trouve chez Cazin ou Ibn al-Baytar. Ces renvois peyuvent être rendus cliquables pour faciliter la consultation du livre.

Une autre exception d'importance concerne le lien vars la page principale de l'espèce. Celui-ci suivra la syntaxe Nom accepté : Nomen specificum (sans nom d'auteur). Il sera placé sous le titre de section correspondant, séparé de deux espaces avant et après. Le nom sera le nom actuel utilisé dans la page espèce. Pour les ouvrages récents dont la nomenclature est à jour, on pourra se contenter de rendre le nom d'espèce cliquable.

Ces liens pointeront vers la page espèce de la même version linguistique.

Notes de bas de page

Wikisource a pris le parti de découper le texte suivant les pages originales, ce qui fait que les notes de bas de page restent dans cette position.

Dans Pl@ntUse, nous découpons le texte par espèce, par genre ou par groupe d'espèces. Une page peut donc correspondre à une partie de pages, ou au contraire plusieurs pages. Pour éviter qu'une note soit placée dans le texte d'une espèce suivante, il faut alors la faire remonter à la fin de la notice concernée.

Pour bien distinguer du texte les notes de bas de page, il est souhaitable de les séparer par un trait continu. Pour harmoniser, mettre 20 tirets longs :

____________________

avec trois retours paragraphe avant et deux après.

Erreurs et mises à jour

Le principe de base est de reproduire un ouvrage tel qu'il a été publié. Ce faisant, on peut remarquer des erreurs de l'auteur, ou avoir envie de faire des commentaires.

Si ces commentaires sont longs, il vaut mieux les placer dans la page sur l'espèce, ou dans une page ad hoc.

Noms scientifiques

Une bonne partie des noms scientifiques donnés par les ouvrages anciens sont obsolètes, et il est parfois difficile de savoir quel est le nom actuel. Pour pallier à ce problème, nous avons choisi de mettre en début de notice la mention Nom accepté : ''[[Nomen specificum]]''. Les crochets signalent les éléments qui ne font pas partie du texte, et le nom actuel est cliquable, ce qui permet d'accéder immédiatment à la page de l'espèce.

Erreurs diverses

Notre intention n'est pas de réécrire un livre, ni de le mettre à jour. On se limitera donc à signaler quelques erreurs flagrantes. Par exemple, "Rubiacées [sic : Apocynaceae]" (voir ahouïa). L'ajout de sic et la couleur violette permettent de bien distinguer le texte publié et la correction.

Les commentaires nécessaires seront aussi écrits dans cette couleur violette. Pour l'obtenir, il faut insérer :

<font color=#901040></font>.

Divers

En introduction, il convient de préciser sur quelle édition on a travaillé, quelle est la source du document numérisé, et à quel niveau de fiabilité on est arrivé. Ce dernier point est délicat, car il résulte d'un compromis. La recherche des dernières erreurs demande un temps infini, mais à l'inverse, un texte non fiable ne sera pas utilisable, ou demandera à l'utilisateur de le recorriger. Wikisource distingue les correcteurs et les validateurs. Un texte n'est considéré comme validé que s'il a été revu par un validateur différent du correcteur.

Quant on trouve un OCR d'une qualité suffisante pour en permettre la lecture, il vaut mieux travailler en deux temps. Mettez-le d'abord en ligne entièrement, en l'organisant en pages et en sections et en le formatant à minima. Le lecteur pourra en profiter immédiatement, et se rendre compte de l'importance du contenu. Vous aurez ensuite le temps de toiletter le texte, en précisant le statut de chaque page dans sa page de discussion.

Aspects techniques

Le toilettage de textes numérisés est chronophage. Il vaut donc mieux réfléchir avant de s'y lancer tête baissée.

  • choisir la meilleure version disponible. Quand un livre est disponible sur plusieurs plate-formes, il faut les comparer, faire un test et choisir la meilleure. Pour le Candolle, Origine des plantes cultivées, par exemple, Googlebooks donne une version mauvaise, Gallica une version correcte et Madrid une version excellente.
  • choisir une option de téléchargement optimale. Sur le site de Madrid, par exemple, le résultat est meilleur quand on télécharge page par page que quand on le fait par lot (en lisant avec Acrobat).
  • choisir le meilleur logiciel. Toujours pour Candolle, le résultat est moins bon avec Aperçu qu'avec Acrobat (sauts de ligne et tabulations intempestifs).
  • si on toilette d'abord sous Word, penser que les formats de caractère et les sauts de ligne ne passeront pas sur Mediawiki en mode Lire, mais couperont les lignes en mode Modifier.
  • augmenter la taille de la fonte, de façon à mieux visualiser les caractères proches souvent confondus par la ROC (e, c, o...). Choisir une police de caractères qui différencie les 1 (un), l (el) et I (i majuscule), également confondus. Il faut alors copier les mots fautifs dans un fichier de texte pour les retrouver ensuite en mode Modifier. Avec Firefox, on ne différencie ces caractères que dans le texte publié, alors qu'ils sont faciles à distinguer avec Safari (sous Mac).
  • quand la ROC comporte des retours paragraphe à chaque saut de ligne, il vaut mieux les enlever automatiquement. Pour ce faire :
  1. mettre quelques pages de texte dans un fichier Word
  2. insérer la pagination [xx] et séparer les paragraphes par deux retour paragraphe.
  3. faire une "recherche-remplacement" automatique des deux retour paragraphe par une chaîne de caractères particulière (par ex. @@) ;
  4. faire une "recherche-remplacement" automatique des retours paragraphe simples par une espace simple ;
  5. par précaution, faire une "recherche-remplacement" automatique des espaces doubles par une espace simple ;
  6. faire une "recherche-remplacement" automatique de la chaîne particulière (@@) par deux retours paragraphe.
  7. le texte peut alors être collé dans le wiki, où vous finirez de le toiletter.

Organisation du travail

Ne perdez pas de temps à chercher des solutions que vous ne connaissez pas pour formater. Le travail peut se faire en plusieurs temps, et par des personnes différentes :

  1. création des pages avec le bandeau de navigation, et une structuration en paragraphes
  2. toilettage du texte seul, sans formatage autre que gras et italique.
  3. formatage (texte centré, citations, notes, mise en deux colonnes...) ;
  4. écriture des noms en caractères non romans (grec, cyrillique, arabe...) : laissez cela à des personnes compétentes !

Si vous ne savez pas comment formater, demandez à ce que quelqu'un d'autre le fasse. Vous prendrez ensuite exemple sur lui.

En principe, pour tout livre nouveau, un administrateur commence par définir le bandeau de navigation et les normes particulières de formatage, en les appliquant à quelques pages. Si vous souhaitez collaborer, prenez exemple sur ces normes de formatage. C'est important pour le confort de lecture. Si vous souhaitez changer le format, il est impératif d'en discuter auparavant, pour que ce soit une décision collective.

Cela dit, pour éviter de faire deux fois le même travail, efforcez-vous de réviser un texte en profondeur la première fois, en ayant recours à l'original ou au pdf en permanence, et en veillant à tous les détails. Les lecteurs successifs n'auront alors à revenir à la source que s'ils constatent un problème.

Transcription des caractères non latins

Un certain nombre de jeux de caractères (grec, cyrillique...) sont accessibles sur les ordinateurs. Sur Mac, on les trouve dans le Visualiseur de caractères. On trouve aussi de nombreux claviers sur Lexilogos. Il suffit de cliquer sur chaque lettre, et le mot se forme dans une fenêtre. On l'intègre alors par copier-coller.

Pour l'arabe, le clavier de Lexilogos est à utiliser pour les mots en graphie arabe. L'avantage est que tant Lexilogos que Mediawiki gèrent le forme des lettres. Par contre, pour la transcription de l'arabe, nous suivons la norme DIN-31635. Nous notons la hamza par une simple apostrophe, et le ʿayn par le demi-rond gauche supérieur ‹ ʿ ›.

Comparez avec d'autres sites

Un livre français d'agronomie est en train d'être mis en ligne. Il peut être utile de consulter leur procédure.