AccueilContributionsNotes de travail
Dernière mise à jour :
lundi 20 novembre 2017
   
Sur le Web
Capitalisme & Crises Économiques
Jacques Gouverneur et Marcel Roelandts proposent de découvrir les résultats de leurs recherches respectives. Elles portent sur l’analyse critique de l’évolution du capitalisme, en respectant un souci de rigueur scientifique. Elles débouchent sur des analyses et des conclusions souvent novatrices.
Méthode de transcription des articles après OCR
Note de travail n°18
30 janvier 2011 par eric

Motivation

Un certain nombre de publications font l’objet au sein du collectif d’une transcription intégrale ou partielle, à fin d’édition ou de publication en ligne. On peut citer par exemple les revues Bilan et Octobre, La Critique Sociale, les Études de marxologie, etc.

Le fait de pouvoir se répartir, au gré des besoins ou des centres d’intérêt de tel ou tel contributeur, l’ensemble de ces articles, est une aide considérable au projet dans son ensemble.

Le plus souvent, nous donnions de rapides indications sur la méthode à suivre à nos éventuels correspondants. Le présent document essaie de présenter de façon rationnelle cette méthode de transcription.

Méthodologie

Des scans à 300 ppm minimum sont effectués, le plus souvent sur les originaux, et le résultat est passé, article par article, dans un logiciel de reconnaissance de caractères (OCR).

Le fichier résultant est importé au format OpenOffice (extension « .odt ») et l’intégralité du texte est mis dans le style de paragraphe par défaut intitulé « Corps de texte ».

Cette étape est faite en « interne » au sein de Smolny. C’est le document résultant qui est ensuite fournit au contributeur qui en effectuera la recomposition, la relecture et la mise en forme.

Sur la base de la version image du texte (résultant du scan), Il s’agit de recoller les sauts de pages physiques, d’insérer les notes de bas de page en tant que telles (elles sont après l’OCR en général fondues dans le corps du texte), de corriger toutes les erreurs de reconnaissance de caractères (et il y en a toujours, en quantité d’autant plus importante que la source ou la fonte initiale est de qualité médiocre), et d’appliquer un certains nombre de styles pré-définis dans le document fournis afin d’avoir une mise en forme standardisée et facilement exportable pour les articles qui devront être publiés en ligne. La section suivante détaille les styles à appliquer.

Styles utilisés

-  Styles de paragraphes :

  • « Corps de texte » : le fond de texte de base, c’est-à-dire tout paragraphe sauf les exceptions qui suivent - A priori tout le texte est initialement dans ce style de paragraphe ;
  • « Note de bas de page » : comme son nom l’indique ;
  • « Citation » : les blocs de citation constituant un ou plusieurs paragraphes séparés ;

-  Styles de caractères :

  • « Standard » : tout sauf le reste ;
  • « Citation » : texte de citation dans le corps de texte, si elle doit être en italique ;
  • « Accentuation » : les accentuations voulues par l’auteur ou les locutions latines, y compris abrégées, qui apparaissent en italiques ;
  • « Accentuation forte » : inter-titres et fontes en gras ;
  • « Ouvrage » : toute référence de titre de livre ou de journal, revue, etc.

Règles typos :

Les règles typographiques usuelles s’appliquent :

— un espace insécable devant tout double signe de ponctuation ( ; : ?!) ;
— un espace insécable après ou avant les guillemets ;
— un espace insécable devant les renvois de notes ;
— un espace insécable devant le numéro de page (ex : p. 8) ;
— accentuation des lettres capitales ;