De Zotero à HAL, en passant par BetterBibTeX

Avertissement

BetterBibTeX n'est (pour l'instant) pas compatible avec la version 5 de Zotero !
Si vous souhaitez utiliser le plug-in, pensez à ne pas mettre votre version à jour pour l'instant...
Si vous avez l'esprit aventureux, vous pouvez commencer à utiliser les pre-releases de BetterBibTeX avec Zotero 5 (certains éléments du post-script ne fonctionnent pas pour l'instant)

Saisir les références dans Zotero

Le choix de Zotero comme préalable à l'intégration des notices dans HAL a été dicté par les possibilités qu’offre cet outil pour la gestion à long terme des références bibliographiques.

Nous souhaitons en effet offrir aux laboratoires un service double : signalement de leurs publications dans HAL mais aussi remise d’une bibliothèque collaborative structurée, qui permettrait à chacun de disposer de ses publications pour tout un panel d’autres usages. Nous aurions pu utiliser un autre outil, comme EndNote à l'École des Ponts ParisTech, mais Zotero s’est imposé du fait de sa gratuité : puisque notre objectif à terme est de former les chercheurs à l’utilisation de cet outil, pour ses fonctions bibliographiques comme pour l'intégration en masse dans HAL, il était plus cohérent de proposer un outil libre.

Nous avons donc récolté les listes de publications de nos chercheurs, et les avons entrées manuellement dans Zotero, du fait des nombreuses défaillances d’outils de reconnaissance de caractères comme Anystyle.io. Évidemment, autant que possible, ces références ont été récupérées dans des catalogues de bibliothèques puis éventuellement dédoublées et modifiées (pour les chapitres d’ouvrages par exemple), mais nous avons souvent dû les créer ex-nihilo. Un important travail de vérification et de complément de ces données a été nécessaire, avec l’aide de plusieurs laboratoires-pilotes qui nous ont permis non seulement de mieux connaître le paysage éditorial dans les disciplines concernées, mais aussi de peaufiner notre technique d’alimentation de Zotero, aboutissant à la rédaction d’un guide de bonnes pratiques de saisie très complet pour notre usage interne.

Nous nous sommes également efforcés de fournir à ces laboratoires une bibliothèque Zotero la mieux structurée possible, en l’organisant par équipes, axes de recherche ou types de documents distincts (par exemple les commentaires de jurisprudence, qui sont des articles de revue particuliers) quand cela était pertinent, et en ajoutant si besoin des mots-clés personnalisés pour aider à la constitution de collections et sous-collections.

BetterBibTeX, l'outil magique ?

Tout comme l’Université de La Réunion et les Ponts ParisTech, le problème qui s’est posé à nous concernait les métadonnées obligatoires dans HAL mais absentes de Zotero. Notre premier souci a été d’implémenter certaines informations « en dur », comme le niveau de vulgarisation ou l’audience des publications, qu’il était possible de généraliser (quitte à corriger manuellement ces valeurs directement dans Bib2HAL pour quelques exceptions). Ne pouvant bénéficier de l’aide d’ingénieurs informaticiens dédiés au projet, nous nous sommes tournés vers la communauté des utilisateurs de Zotero, qui nous a signalé l’existence du plug-in BetterBibTeX.

Ce plug-in est développé et maintenu par Emiliano Heyns, également co-créateur du format d’export BibTeX dans Zotero. À l’origine conçu pour aider les utilisateurs de LaTeX à utiliser Zotero dans leurs travaux, il permet d’adapter considérablement l’export des champs bibliographiques du logiciel, grâce notamment à un post-script qu’il est possible de paramétrer à loisir pourvu que l’on maîtrise JavaScript.
Extrait de notre post-script, rédigé en JavaScript
Avec l’aide précieuse et efficace d’Emiliano Heyns - qu’il me soit permis de le remercier chaleureusement ici, nous avons pu dans notre post-script non seulement ajouter nos informations « en dur », parfois en les conditionnant au type de document concerné, mais également demander à Zotero d’exporter certains champs habituellement exclus des exports BibTeX (comme la cote, la localisation dans l’archive, etc.), et de les renommer pour les rendre conformes aux exigences de Bib2HAL. En nous basant sur la méthode de l’Université de La Réunion, qui avait choisi de modifier directement les formats d’export de Zotero, nous avons ainsi pu fixer le détournement de certains champs de Zotero. Cela est particulièrement utile pour des valeurs qu’il est impossible d’ajouter « en dur » du fait de leur unicité, comme la date de début d’une conférence.

Le post-script que nous utilisons est entièrement commenté et disponible pour le téléchargement dans le volet droit de cette page. Il ne nous dispense pas d’un certain nombre de vérifications dans Zotero :

- encoder la langue sur deux lettres, au format ISO,

- bien purger ou modifier certains champs remplis automatiquement par Zotero, comme le catalogue de bibliothèque (utilisé pour la mention de peerreviewing) ou la date de consultation (utilisé pour la date de début de colloque), sous peine d'intégrer des informations erronées,

- remplir certains champs comme « Type de rapport » en respectant la liste de valeurs définie par HAL.

Ces vérifications peuvent aisément être faites en affichant les colonnes concernées et en les parcourant rapidement.

Équivalences Zotero-HAL
Champ Zotero Champ HAL Type de document concerné
Archive x-onbehalfof Tous
Loc. dans l'archive x-audience Tous
Catalogue de bibliothèque x-peerreviewing Tous
Titre abrégé x-conferencestartdate Article de colloque et poster
Consulté le x-conferenceenddate Article de colloque
Cote x-invitedcommunication Article de colloque et poster
Autorisations x-city Article de colloque et poster
Extra x-country Article de colloque et poster

De Zotero à HAL

Une fois les données nettoyées et complétées dans Zotero, il ne reste plus qu’à exporter la bibliothèque au format BetterBibTeX, et à déposer le fichier .bib ainsi obtenu dans Bib2HAL.

L’étape de vérification des métadonnées aboutit alors presque toujours à une validation totale, même si les étapes de détection des doublons et d’affiliation des auteurs restent indispensables. 

Tout comme nos collègues, nous sommes bien conscients que cette solution reste du domaine du bricolage. En outre, si elle peut être assez facilement adoptée par des personnels dédiés à ce travail de référencement dans HAL et qui y seraient formés, elle reste probablement inaccessible à des chercheurs qui ne seraient pas férus d’informatique.

Néanmoins, elle nous a permis d'intégrer près de 5000 notices dans HAL en quelques semaines seulement (la majorité des dépôts a été faite entre décembre 2016 et février 2017), notre principale difficulté résidant dans la récupération des listes de publications. 

Ainsi, le terreau semble aujourd’hui fertile pour aborder la deuxième (et cruciale) étape de notre projet de déploiement : encourager les chercheurs à ajouter à ces notices le texte intégral de leurs publications, et les accompagner dans cette démarche.

Mis à jour le 11 septembre 2017