Les témoins (cookies) nous aident à fournir nos services. En utilisant nos services, vous acceptez notre utilisation des témoins.

Modifications

Aide:Comment toiletter les textes numérisés

3 496 octets ajoutés, 14 novembre 2016 à 10:46
Respect du texte original
* gestion de la ponctuation : dans la mesure où cela n'influe pas sur le texte, il vaut mieux utiliser la norme actuelle, à savoir pas d'espace avant une virgule ou un point, une espace avant les autres signes ( ! ? ; :).
* Utilisation de la norme [[Unicode: Utilisation de la norme|Unicode]] pour les textes qui comportent des signes diacritiques ou qui sont écrits dans des alphabets non latins.
*Nous vous recommandons de ne pas faire le travail à moitié, autrement dit, de relire un texte en vérifiant systématiquement le moindre détail sur l'original. Cela permet de ne pas avoir à faire deux fois ce travail fastidieux et minutieux. Quand vous l'avez fait, dites-le dans la page de discussion. Il est probable qu'il subsiste des erreurs ou des oublis après la relecture des textes, d'autant que la police utilisée en mode Modifier permet mal de distinguer certains caractères, comm l et 1, ou O et 0. Si vous trouvez des erreurs, merci de les corriger. Mais s'il s'agit d'autres erreurs, ne le faites qu'en vérifiant sur le texte original, soit dans un livre sur papier soit dans le pdf dont le lien est donné dans la page d'introduction.
=== Exceptions ===
* Pour les encyclopédies, chaque article peut faire l'objet d'une page différente. Ceci a l'avantage de permettre ensuite des liens vers ces pages. Si les articles sont courts, on peut les distinguer en sections à l'intérieur d'une page ; on peut en effet créer des liens vers les sections. Dans ce cas, il vaut mieux forcer le sommaire à apparaître en tapant <nowiki>__TOC__</nowiki> en début de page. Cela crée un sommaire même quand il y a peu de sections. Le sommaire doit être intégré même si les pages ne comportent qu'une section.
* Les titres de sections peuvent être des intertitres du livre lui-même. Mais souvent, ces intertitres comportent des mots inutiles. Il faut alors créer des titres de sections brefs, car leur brièveté facilite le copiage des liens. On choisira de préférence le nom principal du titre original, en le mettant en minuscules. Quand ce nom est un nom vernaculaire vraiment obsolète, on pourra choisir le nom vernaculaire actuel.
* Quand un texte comporte des citations en vers, il le plus simple est d'utiliser la syntaxe suivante :
<nowiki>
== Liens vers d'autres pages ==
A priori, on évitera d'insérer des liens dans le texte des ouvrages déjà publiés, dans l'idée de les transcrire tels que publiés. Cela peut être discuté, et vos arguments sont les bienvenus. Mais évitez de le faire sans discussion.
Une exception dest le cas des ouvrages qui comportent des renvois internes, tels que 'importance concerne le lien vars 'Voir la page principale de l'espècenotice xyz. Celui-ci suivra la syntaxe Nom accepté : ''nomen specificum'' (sans nom d'auteur)On en trouve chez Cazin ou Ibn al-Baytar. Il sera placé sous le titre de section correspondant, séparé de deux espaces avant et après. Le nom sera le nom actuel utilisé dans la page espèce, ou à défaut vérifié dans un référentiel taxonomique ; dans ce cas, il sera bon de créer Ces renvois peyuvent être rendus cliquables pour faciliter la page espèce manquanteconsultation du livre.
Une autre exception d'importance concerne le lien vars la page principale de l'espèce. Celui-ci suivra la syntaxe Nom accepté : ''Nomen specificum'' (sans nom d'auteur). Il sera placé sous le titre de section correspondant, séparé de deux espaces avant et après. Le nom sera le nom actuel utilisé dans la page espèce. Pour les ouvrages récents dont la nomenclature est à jour, on pourra se contenter de rendre le nom d'espèce cliquable. Ces liens pointeront vers la page espèce de la même version linguistique (les pages espèce vont prochainement être créées automatiquement en français).
== Notes de bas de page ==
Wikisource a pris le parti de découper le texte suivant les pages originales, ce qui fait que les notes de bas de page restent dans cette position.
Dans Pl@ntUse, nous découpons le texte par espèce, par genre ou par groupe d'espèces. Une page peut donc correspondre à une partie de pages, ou au contraire plusieurs pages. La syntaxe "notes de bas de page" de Mediawiki s'applique donc mal. Pour éviter qu'une note soit placée dans le texte d'une espèce suivante, il faut alors la faire remonter à la fin de la notice concernée.
Pour bien distinguer du texte les notes de bas de page, il est souhaitable de les séparer par un trait continu. Pour harmoniser, mettre 12 20 tirets longs : ____________ ,  ____________________ avec trois retours paragraphe avant et deux après. == Erreurs et mises à jour ==Le principe de base est de reproduire un ouvrage tel qu'il a été publié. Ce faisant, on peut remarquer des erreurs de l'auteur, ou avoir envie de faire des commentaires. Si ces commentaires sont longs, il vaut mieux les placer dans la page sur l'espèce, ou dans une page ad hoc. === Noms scientifiques ===Une bonne partie des noms scientifiques donnés par les ouvrages anciens sont obsolètes, et il est parfois difficile de savoir quel est le nom actuel. Pour pallier à ce problème, nous avons choisi de mettre en début de notice la mention <nowiki>Nom accepté : ''[[Nomen specificum]]''</nowiki>. Les crochets signalent les éléments qui ne font pas partie du texte, et le nom actuel est cliquable, ce qui permet d'accéder immédiatment à la page de l'espèce. === Erreurs diverses ===Notre intention n'est pas de réécrire un livre, ni de le mettre à jour. On se limitera donc à signaler quelques erreurs flagrantes. Par exemple, "Rubiacées <font color=#901040>[''sic'' : ''Apocynaceae'']</font>" (voir [[A (Lafage, Côte d'Ivoire)#ahouïa des Antilles|ahouïa]]). L'ajout de ''sic'' et la couleur violette permettent de bien distinguer le texte publié et la correction. Les commentaires nécessaires seront aussi écrits dans cette couleur violette. Pour l'obtenir, il faut insérer : <nowiki><font color=#901040></font></nowiki>.
== Divers ==
En introduction, il convient de préciser sur quelle édition on a travaillé, quelle est la source du document numérisé, et à quel niveau de fiabilité on est arrivé. Ce dernier point est délicat, car il résulte d'un compromis. La recherche des dernières erreurs demande un temps infini, mais à l'inverse, un texte non fiable ne sera pas utilisable, ou demandera à l'utilisateur de le recorriger. Wikisource distingue les correcteurs et les validateurs. Un texte n'est considéré comme validé que s'il a été revu par un validateur différent du correcteur.
Quant on trouve un OCR d'une qualité suffisante pour en permettre la lecture, il vaut mieux travailler en deux temps. Mettez-le d'abord en ligne entièrement, en l'organisant en pages et en sections et en le formatant à minima. Le lecteur pourra en profiter immédiatement, et se rendre compte de l'importance du contenu. Vous aurez ensuite le temps de le toiletterle texte, en précisant le statut de chaque page dans sa page de discussion.
== Aspects techniques ==
* si on toilette d'abord sous Word, penser que les formats de caractère et les sauts de ligne ne passeront pas sur Mediawiki en mode Lire, mais couperont les lignes en mode Modifier.
*augmenter la taille de la fonte, de façon à mieux visualiser les caractères proches souvent confondus par la ROC (e, c, o...). Choisir une police de caractères qui différencie les 1 (un), l (el) et I (i majuscule), également confondus. Il faut alors copier les mots fautifs dans un fichier de texte pour les retrouver ensuite en mode Modifier. Avec Firefox, on ne différencie ces caractères que dans le texte publié, alors qu'ils sont faciles à distinguer avec Safari (sous Mac).
*quand l'OCR la ROC comporte des retours paragraphe à chaque saut de ligne, il vaut mieux les enlever automatiquement. Pour ce faire :
#mettre quelques pages de texte dans un fichier Word
#insérer la pagination [xx] et séparer les paragraphes par deux retour paragraphe.
#faire une "recherche-remplacement" automatique des deux retour paragraphe par une chaîne de caractères particulière (par ex. @@) ;
#faire une "recherche-remplacement" automatique des retours paragraphe simples par une espace simple ;
#par précaution, faire une "recherche-remplacement" automatique des espaces doubles par une esapce espace simple ;
#faire une "recherche-remplacement" automatique de la chaîne particulière (@@) par deux retours paragraphe.
#le texte peut alors être collé dans le wiki, où vous finirez de le toiletter.
En principe, pour tout livre nouveau, un administrateur commence par définir le bandeau de navigation et les normes particulières de formatage, en les appliquant à quelques pages. Si vous souhaitez collaborer, prenez exemple sur ces normes de formatage. C'est important pour le confort de lecture. Si vous souhaitez changer le format, il est impératif d'en discuter auparavant, pour que ce soit une décision collective.
 
Cela dit, pour éviter de faire deux fois le même travail, efforcez-vous de réviser un texte en profondeur la première fois, en ayant recours à l'original ou au pdf en permanence, et en veillant à tous les détails. Les lecteurs successifs n'auront alors à revenir à la source que s'ils constatent un problème.
 
== Transcription des caractères non latins ==
Un certain nombre de jeux de caractères (grec, cyrillique...) sont accessibles sur les ordinateurs. Sur Mac, on les trouve dans le Visualiseur de caractères. On trouve aussi de nombreux claviers sur [http://www.lexilogos.com/clavier/multilingue.htm Lexilogos]. Il suffit de cliquer sur chaque lettre, et le mot se forme dans une fenêtre. On l'intègre alors par copier-coller.
 
Pour l'arabe, le [http://www.lexilogos.com/clavier/araby.htm clavier de Lexilogos] est à utiliser pour les mots en graphie arabe. L'avantage est que tant Lexilogos que Mediawiki gèrent le forme des lettres. Par contre, pour la transcription de l'arabe, nous suivons la [https://fr.wikipedia.org/wiki/%C3%89criture_de_l%27arabe#Alphabet norme DIN-31635]. Nous notons la hamza par une simple apostrophe, et le [https://fr.wikipedia.org/wiki/%CA%BFAyn ʿayn] par le [https://fr.wikipedia.org/wiki/%CA%BF demi-rond gauche supérieur] ‹ ʿ ›.
== Comparez avec d'autres sites ==
146 870
modifications