Algorithme de similarité pour le repérage de doublons incertains

De conditorwi
Aller à : navigation, rechercher

En plus des règles de dédoublonnage certain qui repèrent et valident automatiquement des notices décrivant une production scientifique identique[1], la plate-forme Conditor comporte un module dédié au dédoublonnage incertain (co-similarity). Ce dernier repère des notices textuellement très similaires, donc susceptibles de décrire une production scientifique identique : cet appariement demande une validation manuelle.

Ce module met en œuvre une technique de repérage de notices similaires à base de shingles (n-grammes) et de fingerprints (comparaison d'empreintes). Cette méthode s'inspire de l'expérience d'Altavista en 1999 décrite dans cet article.

Parmi les champs extraits de la TEI-Conditor pour effectuer le repérage de doublons, 8 champs textuels sont concaténés au sein d’un champ fingerprint sur lequel différents traitements sont effectués : mise en minuscules, suppression des accents, suppression de mots vides, découpage du "texte" en groupe de mots (shingles, n-grammes) et application d’un filtre conservant les groupes de 2, 3 et 4 mots en précisant pour chacun son positionnement. Les shingles du champ fingerprint d'une notice sont comparés aux shingles de chaque champ fingerprint des autres notices présentes dans le réservoir. Un score est alors attribué à toutes les notices grâce à l'algorithme bm25. Le taux de similarité de 100% est attribué à la notice obtenant le score le plus élevé pour pouvoir calculer un ratio à l'ensemble des notices. Une rupture du taux de similarité est repérée et sont ensuite retenues comme doublons potentiels les notices ayant un taux de similarité supérieur ou égal à celui du taux de rupture.

Les 8 champs retenus dans le fingerprint sont les suivants :

  • first3AuthorNames
  • title:default
  • title:fr
  • title:en
  • title:meeting
  • title:monography
  • title:journal
  • abstract


Notice A : hal-01578971

first3AuthorNames Labergue Alexandre Gradeck Michel Lemoine Fabrice
title:default Comparative study of the cooling of a hot temperature surface using sprays and liquid jets
title:fr
title:en Comparative study of the cooling of a hot temperature surface using sprays and liquid jets
title:meeting
title:monography
title:journal International Journal of Heat and Mass Transfer
abstract This experimental work aims at investigating the cooling of hot surfaces by using full cone sprays; comparison with the use of a liquid jet is also considered. The wall is a 175 mm diameter nickel disk and 5 mm thickness heated by electromagnetic induction up to about 800 °C. In the case of the sprays, the goal is to link the spray properties with the heat flux removed from the heated surface. For the spray, the influence of the mass flux distribution as well as the droplets properties on the cooling are studied by using three different spray nozzles...
fingerprint Labergue Alexandre Gradeck Michel Lemoine Fabrice Comparative study of the cooling of a hot temperature surface using sprays and liquid jets Comparative study of the cooling of a hot temperature surface using sprays and liquid jets International Journal of Heat and Mass Transfer This experimental work aims at investigating the cooling of hot surfaces by using full cone sprays; comparison with the use of a liquid jet is also considered. The wall is a 175 mm diameter nickel disk and 5 mm thickness heated by electromagnetic induction up to about 800 °C. In the case of the sprays, the goal is to link the spray properties with the heat flux removed from the heated surface. For the spray, the influence of the mass flux distribution as well as the droplets properties on the cooling are studied by using three different spray nozzles.

Notice B : hal-01417339

first3AuthorNames Gradeck Michel Lemoine Fabrice
title:default Comparative study of the cooling of a hot temperature surface using sprays and liquid jets
title:fr
title:en Comparative study of the cooling of a hot temperature surface using sprays and liquid jets
title:meeting IHTC-15 : 15th International Heat Transfer Conference
title:monography
title:journal
abstract This experimental work aims at investigating the cooling of hot surfaces by using full cone sprays; comparison with the use of a liquid jet is also considered. The wall is a 175 mm diameter nickel disk and 5 mm thickness heated by electromagnetic induction up to about 800 °C. In the case of the sprays, the goal is to link the spray properties with the heat flux removed from the heated surface. For the spray, the influence of the mass flux distribution as well as the droplets properties on the cooling are studied by using three different spray nozzles...
fingerprint Gradeck Michel Lemoine Fabrice Comparative study of the cooling of a hot temperature surface using sprays and liquid jets Comparative study of the cooling of a hot temperature surface using sprays and liquid jets IHTC-15 : 15th International Heat Transfer Conference This experimental work aims at investigating the cooling of hot surfaces by using full cone sprays; comparison with the use of a liquid jet is also considered. The wall is a 175 mm diameter nickel disk and 5 mm thickness heated by electromagnetic induction up to about 800 °C. In the case of the sprays, the goal is to link the spray properties with the heat flux removed from the heated surface. For the spray, the influence of the mass flux distribution as well as the droplets properties on the cooling are studied by using three different spray nozzles...


Exemple des n-grammes

N-grammes.png

La notice A a été appariée avec la notice B à 97.05% alors que la notice B a été appariée avec la notice A à 97.96%.

Dans Cornelius,

  • la mention "similaire à 97.05%%" apparaît sur la notice B quand elle est comparée à la notice A.

Similarity-cas0a.PNG


  • la mention "similaire à 97.96%%" apparaît sur la notice A quand elle est comparée à la notice B.

Similarity-cas0b.PNG


Conséquences du traitement

  • Des notices avec un titre d’article comportant des termes communs et des noms d’auteurs communs peuvent être proposées comme doublons incertains alors que le numéro, le volume et la pagination sont différents.

exemple

hal-01464001 et hal-01464000 [2]

Similarity-cas1.PNG

  • Des notices avec un titre d’article comportant des termes communs et des noms d’auteurs communs peuvent être proposées comme doublons incertains dans un même congrès

exemple

hal-01210771 et hal-01210770

Similarity-cas6.PNG


  • Des notices avec un titre d’article comportant des termes communs et un titre de périodique identique peuvent être proposées comme doublons incertains alors que l’auteur et la pagination sont différents.

prévoir exemple et copie d'écran


  • Des notices avec des auteurs communs et une part du résumé importante en commun peuvent être proposées comme doublons incertains alors que le titre et la pagination sont différents

exemple

hal-01136074 hal-01136097

Similarity-cas3.PNG

  • Des notices avec des titres d’article et auteurs communs peuvent être proposées comme doublons incertains alors que la source est différente

exemple

hal-01216551 hal-01108436

Similarity-cas4.PNG


  • Des notices avec un titre source long identique peuvent être proposées comme doublons incertains alors que les titres (courts) et les auteurs (peu nombreux) sont différents

exemple

halshs-00678936 halshs-00678900 : dans ce cas halshs-00678936 a pour doublon incertain halshs-00678900 mais halshs-00678900 n'a pas pour doublon incertain halshs-00678936

Similarity-cas5.PNG


  • Des notices avec peu de champs textuels renseignés peuvent être proposées comme doublons incertains avec des notices très complètes alors que la pagination est différente

prévoir exemple et copie d'écran




_____________________________

  1. Les règles de dédoublonnage certain comparent des champs prédéfinis. Pour que les notices soient appariées, les chaînes de caractères doivent être strictement identiques (en dehors de la ponctuation).
  2. Pour retrouver ces notices dans Cornelius, copier-coller l’identifiant dans la zone de recherche appropriée.