Cornelius

De conditorwi
Révision datée du 4 juin 2020 à 16:19 par F flamerie (discussion | contributions) (Filtres "Source de données")
(diff) ← Version précédente | Voir la version actuelle (diff) | Version suivante → (diff)
Aller à : navigation, rechercher

Cornélius : une interface pour valider les doublons incertains

Cornélius est l'interface web dédiée à la validation des doublons incertains de Conditor.

Elle est accessible à l'adresse : https://cornelius.conditor.fr. L'accès est conditionné par une authentification, contactez l'équipe Conditor pour obtenir un jeton d'authentification (token).

Pour en savoir plus concernant l'algorithme de similarité, consultez la page Algorithme de similarité pour le repérage de doublons incertains.

Pour en savoir plus concernant les évolutions en cours de Cornélius, consultez tableau de bord Trello.

Les fichiers source de l'application sont disponibles dans le dépôt Github du projet dans répertoire conditor-project/cornelius.

Fonctionnalités

Mode "liste" : afficher une liste de résultats

Par défaut, Cornélius affiche tous les doublons incertains repérés par la chaîne de traitement Conditor. Des tris et des filtres permettent d'affiner cet affichage.


Wiki cornelius fonct 01.png


Tri

Le menu déroulant en haut à droite permet de modifier le critère de tri de la liste de résultats. Les critères de tri suivants sont disponibles :

  • titre (A-Z, Z-A)
  • date de publication (croissant, décroissant)
  • taux de similarité (croissant, décroissant)

Note concernant le taux de similarité

Pour chaque signalement, le taux de similarité avec le signalement de départ est affiché. Cela permet de sélectionner les cas ayant un taux de similarité élevé ou au contraire des signalements a priori dissemblables.

Filtres

Le menu de gauche rassemble les filtres qui permettent de cibler les cas à traiter et de définir précisément un corpus sur lequel travailler.

Lorsqu'un filtre est appliqué, la liste de résultats se met à jour automatiquement. Les compteurs de nombre de documents affichés à côté des filtres s'actualisent également.

Filtres "Source de données"

Le premier filtre permet de sélectionner la source des signalements de départ, à partir desquels les comparaisons seront effectuées.

Le second filtre "Source des notices similaires" permet de sélectionner la source à prendre en compte pour les signalements à comparer.

Ainsi, si on sélectionne "HAL" comme source dans ces deux filtres, on affichera uniquement les doublons pour lesquels les 2 signalements proviennent de HAL. Des signalements provenant d'autres sources pourront toutefois être affichés si le nombre de signalements à valider est égal ou supérieur à 3. Un triplon HAL/HAL/PubMed sera par exemple affiché avec ce paramétrage. Un triplon HAL/PubMed/Crossref ne sera en revanche pas affiché.

/!\ L'ordre dans lequel les filtres sont appliqués importe.

Activer les deux filtres "Source de données" et "Source des notices similaires" consécutivement de façon inverse pour deux sources de données permet de se rendre compte que le choix de la source de départ détermine les résultats affichés, et donc la façon dont on va travailler.

Ainsi, choisir Crossref comme "Source de données" et HAL comme "Source des notices similaires" affichera une liste de résultats différente de celle générée en choisissant HAL comme "Source de données" et Crossref comme "Source des notices similaires". Dans le premier cas le point de départ est Crossref et l'élément de comparaison HAL, dans le second cas c'est l'inverse.

Wiki cornelius filtre source 01.png
Wiki cornelius filtre source 02.png

Si l'on souhaite procéder par type de document, la comparaison HAL -> Crossref permettra de travailler plus finement. La typologie documentaire de HAL est en effet plus étendue que celle de Crossref, d'autant que cette dernière est pour l'instant limitée aux articles dans Cornelius.

En tout état de cause, pour traiter l’ensemble des doublons incertains hal/crossref, il est indispensable d’activer successivement les deux combinaisons de filtres.

Filtres "Type de publication"

Ce filtre prend en compte les types de document Conditor utilisés pour comparer les signalements et non les types tels qu'ils sont présents dans les sources.

Il s'agit des types suivants.

  • Article
  • Conférence
  • Thèse
  • Ouvrage
  • Chapitre
  • Rapport
  • Autre

La case "Type de publication identique" permet de restreindre l'affichage aux signalements partageant le même type de document Conditor.

Filtre "Date de publication"

Le curseur permet de définir un intervalle de dates.

Filtres textuels

Les filtres suivants sont de type textuel et comportent un champ dans lequel saisir le texte à rechercher.

  • Titre / Résumé
  • Auteur
  • Identifiant
  • Adresse affiliation auteur

Le texte saisi ne doit pas excéder 40 caractères.

Pour le filtre "Identifiant", il est recommandé de saisir le texte entre guillemets pour effectuer une recherche sur la chaîne de caractères précise.

Wiki cornelius fonct 02.png

Mode "validation" : comparer et valider les signalements proposés comme doublons

Lorsqu'on clique sur le bandeau d'un signalement dans la liste de résultats, Cornélius bascule vers le mode "validation", affichant de façon complète les signalements comparés et permettant d'effectuer les validations.


Wiki cornelius fonct 03.png

Un cartouche en partie supérieure présente un résumé de chacun des signalements proposés à la validation, comportant les informations suivantes sous forme visuelle.

  • Titre
  • Source de données
  • Type de publication
  • Année de publication
  • Auteur
  • Taux de similarité par rapport au signalement de départ (pour les signalements comparés seulement)
  • Identifiant Conditor

Cela permet d'avoir une vue générale des informations principales, quel que soit le nombre de signalements comparés et pour tous ces signalements à la fois.

La zone de comparaison/validation affiche le détail de 2 signalements en face à face.

Les champs affichés varient d'un cas à l'autre selon l'information présente.

Lorsque le contenu d'un champ diffère entre les 2 signalements, il est surligné. Lorsqu'il est strictement identique caractère à caractère, il n'est pas surligné.

L'ordre et la nature des champs affichés sont optimisés en fonction du type de publication, pour faciliter la prise de décision.

Certains champs sont cliquables : un lien hypertexte permet à partir de l'identifiant source (DOI, PMID, halID, PPN) d'afficher le signalement source. Dans le cas du DOI, le lien pointe vers la page sur le site de l'éditeur.

Un lien est également présent au niveau de l'identifiant Conditor du signalement comparé. Il permet d'inverser l'ordre d'affichage et le sens de comparaison des signalements : le signalement comparé devient ainsi le signalement de base pour la comparaison.


Wiki cornelius fonct 04.png

Les boutons <Doublon> et <Non-doublon> permettent de valider le statut de doublon ou de non-doublon des 2 signalements en cours de comparaison.

Un clic sur le bouton <Doublon> ou <Non-doublon> est nécessaire pour chacun des signalements comparés.

Par exemple, si Cornélius demande de valider 2 signalements B et C par rapport à un signalement de départ A, on procèdera comme suit.

  • Cliquer sur <Doublon> ou <Non-doublon> pour prendre une décision concernant B par rapport à A
  • L'information "doublon" ou "non-doublon" est alors affichée dans le cartouche de B
  • Cliquer sur le cartouche de C pour le sélectionner et afficher le signalement complet
  • Cliquer sur <Doublon> ou <Non-doublon> pour prendre une décision concernant C par rapport à A
  • L'information "doublon" ou "non-doublon" est alors affichée dans le cartouche de C


Wiki cornelius fonct 05.png

Il convient ensuite de cliquer sur <Enregistrer> pour enregistrer les décisions prises ou <Annuler> pour revenir à l'écran d'accueil.

Après avoir cliqué <Enregistrer>, une fenêtre de confirmation s'affiche.


Wiki cornelius fonct 06.png

Autres fonctionnalités

Les actions effectuées lors d'une session peuvent être rappelées sous forme de notifications, en cliquant sur l'icône "clochette" en haut à droite de la barre de titre de Cornélius.

Le jeton d'authentification (token) peut être rappelé en cliquant sur l'icône "roue dentée" en haut à droite de la barre de titre de Cornélius.


Wiki cornelius fonct 07.png


Bonnes pratiques pour le travail collaboratif de validation

Les bonnes pratiques définies ci-après visent à assurer l'homogénéité et la cohérence des décisions prises par l'ensemble des membres du réseau métier, et partant celles des données bibliographiques.

On s'efforce dans cette perspective de considérer des critères objectifs et univoques, reposant sur la seule analyse de la publication en tant qu'objet bibliographique, sans tenir compte du contenu supposé des publications.

Voici quelques exemples de cas pour illustrer ce principe général.

Dans les deux premiers cas, bien qu'il puisse potentiellement exister des similitudes de contenu, on est face à deux objets bibliographiques différents, à deux modalités différentes de publication scientifique. Dans ces deux cas, les signalements regroupés et comparés par Cornélius ne sont donc pas des doublons.

Dans le troisième cas, c'est dans chacune des sources une vision différente du type de document pour un même objet bibliographique qui occasionne le regroupement et la comparaison des signalements par Cornélius. Dans ce cas, les signalements regroupés et comparés par Cornélius sont donc des doublons.

Cas n° 1 : Les types de document diffèrent et les références de publication diffèrent -> on valide comme non doublon

Exemple 1 : un preprint et un article

S'agissant des preprints et des articles, le point de vue rejoint celui développé dans page DOI des preprints du site "Question/réponse en IST" de l'INRA.

Ainsi, dans l'exemple suivant on valide la comparaison effectuée par Cornélius comme <Non-doublon>.

Wiki cornelius pratiques 01.png

Exemple 2 : un article de revue et un acte de conférence

Dans l'exemple suivant on valide la comparaison effectuée par Cornélius comme <Non-doublon>.

Wiki cornelius pratiques 02.png

Cas n° 2 non doublon : Le type de document est identique, mais les références de publication diffèrent -> on valide comme non doublon

Exemple 1 : un article et sa correction

Dans l'exemple suivant, on peut constater dans Cornélius que les informations concernant le volume et la pagination diffèrent. On obtient ensuite l'information concernant le fait que l'article a été corrigé en consultant le signalement sur le site de l'éditeur Wiley, grâce au lien hypertexte présent sur le DOI dans Cornélius. On valide la comparaison effectuée par Cornélius comme <Non-doublon>.

Exemple à retrouver

Exemple 2 : un article avec des auteurs et un titre identiques, publié dans 2 revues différentes

Wiki cornelius pratiques 04.png

Cas n° 3 : Le type de document diffère, mais les références de publication sont identiques -> on valide comme doublon

Dans certains cas, les sources attribuent un type de document différent à un même objet bibliographique. On peut citer notamment les séries de monographie : une même contribution parue dans les "Methods in Molecular Biology" est considérée comme un article de revue dans PubMed (voir PMID 26235083), comme un chapitre de livre sur le site de l'éditeur (voir sur SpringerLink : https://doi.org/10.1007/978-1-4939-2627-5_26) et dans HAL (voir hal-01406340).

Cette différence peut être plus mouvante et varier en fonction des contributions. Ainsi pour les "Lecture Notes in Computer Science", les contributions sont typées en chapitre de livre dans CrossRef, tantôt en article de revue, acte de conférence ou chapitre de livre dans HAL, enfin soit en chapitre soit en acte de conférence sur SpringerLink. Dans cette série sont en effet publiés à la fois de actes de conférence et des monographies non liées à des congrès.

Dans l'exemple suivant, on valide la comparaison effectuée par Cornélius comme <Doublon>.

Wiki cornelius pratiques 05.png

Cas particuliers

Que faire quand on ne peut pas prendre de décision en raison d'un manque d'informations?

Pour certains dépôts dans HAL, la saisie est trop lacunaire et on ne dispose pas de suffisamment d'éléments pour prendre une décision. Cornélius ne permet pas de mettre de côté certains cas ni de les marquer comme "indécidables".

Il est alors prudent de valider comme <Non-doublon> pour supprimer la proposition de Cornélius, et de corriger si applicable et possible le signalement source dans HAL.

L'exemple suivant illustre en partie ce cas : si on s'en tient aux informations disponibles dans Cornélius, la décision est difficile à prendre. En consultant le dépôt dans HAL (voir inserm-01470285) et en ouvrant ouvre le fichier de texte intégral dans HAL, on constate qu'il s'agit bien d'un doublon.

Wiki cornelius cas particulier 01.png

Que faire quand Cornélius propose des doublons multiples dans une même "grappe" ?

Exemple 1 : A n’est doublon de rien et B, C et D sont doublons

Valider à <Non-doublon> pour A et B, A et C, A et D.

Si B, C et D sont des doublons incertains, on peut les afficher dans Cornélius en cliquant sur l'identifiant Cornélius de l'un des 3.

Si B, C et D sont des doublons certains, on ne peut pas les afficher dans Cornélius.

Carte Trello en lien : Marquer les doublons identifiés comme certains dans une grappe de doublons incertains

Exemple 2 : A et B sont doublons, C et D sont doublons

Valider à <Doublon> A et B, à <Non-doublon> pour A et C, pour A et D

Si C et D sont considérés comme doublons incertains, Cornélius proposera de les valider.

Si C et D sont des doublons certains, Cornélius ne proposera pas de les valider il n'y aura donc pas besoin de validation.