Cornelius
Sommaire
Cornélius : une interface pour valider les doublons incertains
Cornélius est l'interface web dédiée à la validation des doublons incertains de Conditor.
Elle est accessible à l'adresse : https://cornelius.conditor.fr. L'accès est conditionné par une authentification, contactez l'équipe Conditor pour obtenir un jeton d'authentification (token).
Pour en savoir plus concernant l'algorithme de similarité, consultez la page Algorithme de similarité pour le repérage de doublons incertains.
Pour en savoir plus concernant les évolutions en cours de Cornélius, consultez tableau de bord Trello.
Les fichiers source de l'application sont disponibles dans le dépôt Github du projet dans répertoire conditor-project/cornelius.
Fonctionnalités
Mode "liste" : afficher une liste de résultats
Par défaut, Cornélius affiche tous les doublons incertains repérés par la chaîne de traitement Conditor. Des tris et des filtres permettent d'affiner cet affichage.
Tri
Le menu déroulant en haut à droite permet de modifier le critère de tri de la liste de résultats. Les critères de tri suivants sont disponibles :
- titre (A-Z, Z-A)
- date de publication (croissant, décroissant)
- taux de similarité (croissant, décroissant)
Note concernant le taux de similarité
Pour chaque signalement, le taux de similarité avec le signalement de départ est affiché. Cela permet de sélectionner les cas ayant un taux de similarité élevé ou au contraire des signalements a priori dissemblables.
Filtres
Le menu de gauche rassemble les filtres qui permettent de cibler les cas à traiter et de définir précisément un corpus sur lequel travailler.
Lorsqu'un filtre est appliqué, la liste de résultats se met à jour automatiquement. Les compteurs de nombre de documents affichés à côté des filtres s'actualisent également.
Filtres "Source de données"
Le premier filtre permet de sélectionner la source des signalements de départ, à partir desquels les comparaisons seront effectuées.
Le second filtre "Source des notices similaires" permet de sélectionner la source à prendre en compte pour les signalements à comparer.
Ainsi, si on sélectionne "HAL" comme source dans ces deux filtres, on affichera uniquement les doublons pour lesquels les 2 signalements proviennent de HAL. Des signalements provenant d'autres sources pourront toutefois être affichés si le nombre de signalements à valider est égal ou supérieur à 3. Un triplon HAL/HAL/PubMed sera par exemple affiché avec ce paramétrage. Un triplon HAL/PubMed/Crossref ne sera en revanche pas affiché.
Filtres "Type de publication"
Ce filtre prend en compte les types de document Conditor utilisés pour comparer les signalements et non les types tels qu'ils sont présents dans les sources.
Il s'agit des types suivants :
- article
- conférence
- thèse
- ouvrage
- chapitre
- rapport
- autre
La case "Type de publication identique" permet de restreindre l'affichage aux signalements partageant le même type de document Conditor.
Filtre "Date de publication"
Le curseur permet de définir un intervalle de dates.
Filtres textuels
Les filtres suivants sont de type textuel et comportent un champ dans lequel saisir le texte à rechercher.
- Titre / Résumé
- Auteur
- Identifiant
- Adresse affiliation auteur
Le texte saisi ne doit pas excéder 40 caractères.
Pour le filtre "Identifiant", il est recommandé de saisir le texte entre guillemets pour effectuer une recherche sur la chaîne de caractères précise.
Mode "validation" : comparer et valider les signalements proposés comme doublons
Lorsqu'on clique sur le bandeau d'un signalement dans la liste de résultats, Cornélius bascule vers le mode "validation", affichant de façon complète les signalements comparés et permettant d'effectuer les validations.
Un cartouche en partie supérieure présente un résumé de chacun des signalements proposés à la validation, comportant les informations suivantes sous forme visuelle.
- titre
- source de données
- type de publication
- année de publication
- auteur
- pour les signalements comparés au signalement de départ : taux de similarité par rapport au signalement de départ
- identifiant Conditor
Cela permet d'avoir une vue générale des informations principales, quel que soit le nombre de signalements comparés et pour tous ces signalements à la fois.
La zone de comparaison/validation affiche le détail de 2 signalements en face à face.
Les champs affichés varient d'un cas à l'autre selon l'information présente.
Lorsque le contenu d'un champ diffère entre les 2 signalements, il est surligné. Lorsqu'il est strictement identique caractère à caractère, il n'est pas surligné.
L'ordre et la nature des champs affichés sont optimisés en fonction du type de publication, pour faciliter la prise de décision.
Certains champs sont cliquables : un lien hypertexte permet à partir de l'identifiant source (DOI, PMID, halID, PPN) d'afficher le signalement source. Dans le cas du DOI, le lien pointe vers la page sur le site de l'éditeur.
Un lien est également présent au niveau de l'identifiant Conditor du signalement comparé. Il permet d'inverser l'ordre d'affichage et le sens de comparaison des signalements : le signalement comparé devient ainsi le signalement de base pour la comparaison.
Les boutons <Doublon> et <Non-doublon> permettent de valider le statut de doublon ou de non-doublon des 2 signalements en cours de comparaison.
Un clic sur le bouton <Doublon> ou <Non-doublon> est nécessaire pour chacun des signalements comparés.
Par exemple, si Cornélius demande de valider 2 signalements B et C par rapport à un signalement de départ A, on procèdera comme suit.
- Cliquer sur <Doublon> ou <Non-doublon> pour prendre une décision concernant B par rapport à A
- L'information "doublon" ou "non-doublon" est alors affichée dans le cartouche de B
- Cliquer sur le cartouche de C pour le sélectionner et afficher le signalement complet
- Cliquer sur <Doublon> ou <Non-doublon> pour prendre une décision concernant C par rapport à A
- L'information "doublon" ou "non-doublon" est alors affichée dans le cartouche de C
Il convient ensuite de cliquer sur <Enregistrer> pour enregistrer les décisions prises ou <Annuler> pour revenir à l'écran d'accueil.
Après avoir cliqué <Enregistrer>, une fenêtre de confirmation s'affiche.
Autres fonctionnalités
Les actions effectuées lors d'une session peuvent être rappelées sous forme de notifications, en cliquant sur l'icône "clochette" en haut à droite de la barre de titre de Cornelius.
Le jeton d'authentification (token) peut être rappelé en cliquant sur l'icône "roue dentée" en haut à droite de la barre de titre de Cornelius.
Bonnes pratiques
Rubrique en cours
Cas particuliers
Rubrique en cours