Des ressources pour le Text & Data Mining (TDM)

La plus importante source de données textuelles et ses outils intégrés mis à disposition de la communauté scientifique française pour l’analyse et la fouille de textes.

projet d’infrastructure de recherche

Istex fait partie des 108 infrastructures retenues dans la feuille de route nationale des Infrastructures de recherche éditée par le ministère de l’Enseignement supérieur, de la Recherche et de l’Innovation (MESRI) .

S’affichant comme une bibliothèque scientifique numérique sans équivalent, Istex a été présenté dans la catégorie projet d’infrastructure de recherche par son comité de pilotage constitué de représentants des différents partenaires (ABES, Consortium Couperin, Inist, France Université, Université de Lorraine).

Les principaux objectifs stratégiques exposés pour cette infrastructure sont :

  • ouvrir la collection aux ressources nativement publiées en accès ouvert et poursuivre son alimentation grâce à une politique d’acquisition ;
  • faciliter la constitution de corpus cohérents et enrichis, directement exploitables pour du TDM ;
  • promouvoir le développement de services avancés avec la communauté des chercheurs en TAL (traitement automatique des langues) ;
  • offrir des services d’exploration et d’exploitation de corpus accessibles à tous.

Istex, c’est :

27 377 852 documents, parmi lesquels :

  • 3,8 millions chargés en 2022
  • 3,5 millions en Open Access (13 %)
  • 14 millions de textes intégraux nettoyés (51 %)
  • 26,7 millions avec au moins un enrichissement (97,6 %)

À l’occasion du 10e anniversaire d’Istex, l’Inist et l’Abes ont écrit conjointement un article relatant le projet Istex devenu aujourd’hui le plus vaste réservoir d’archives scientifiques

Alexandra Petitjean-Monnin, Raluca Pierrot et Cécilia Fabry, « ISTEX : de la plateforme de référence à l’infrastructure de recherche », Arabesques, 107 | 2022, 20.

Istex fait peau neuve

Le nouveau site Istex a été lancé en mars avec un design plus moderne et une réorganisation des contenus.

S’inscrivant dans une démarche UX (User Experience), le site Istex évolue afin de mieux répondre aux besoins d’information et d’accompagnement sur toute la gamme de services proposés. 

Data.istex.fr

Data.istex.fr est un site, accessible à tous, qui expose des jeux de données Istex produits et/ou transformés à l’Inist selon les normes du web sémantique en les modélisant via une ontologie dédiée.

De nouveaux corpus y ont été publiés en 2022 :

Corpus d’actualité :

Corpus spécialisé :

Mémoire-Neurosciences

Ces corpus scientifiques bénéficient des nouvelles ressources acquises dans le cadre des programmes CollEx-Persée, du Plan de soutien à l’édition scientifique française, et des acquisitions pérennes des Licences Nationales. Onze nouveaux corpus éditeurs sont ainsi venus enrichir le fonds Istex :

Istex.DL

Istex.DL est un site qui permet quant à lui d’extraire un corpus de documents Istex.

Afin de faciliter les extractions, et en réponse aux demandes d’utilisateurs, des améliorations ont été réalisées  :

  • «TXT cleaned » : ce nouveau format permet de télécharger le texte intégral nettoyé (seul le contenu textuel des paragraphes est conservé).
  • passerelle avec l’outil CorText : conçue initialement à l’intention des chercheurs en SHS, la plateforme CorText est destinée à la fouille, l’analyse et l’exploitation de corpus textuels hétérogènes.
  • assistant de construction de requête : un mode « recherche assistée » est disponible pour accompagner un utilisateur non averti.

Plateforme d’exposition et de partage de terminologies scientifiques multidisciplinaires et multilingues.

Loterre, nouvelle version

La version 3 de Loterre a été lancée avec de nouveaux services.

Cette nouvelle version propose aux utilisateurs d’accéder à des services dédiés aux terminologies :

  • Contrôler, pour vérifier la validité d’un fichier SKOS/RDF-XML ;
  • Transformer, pour convertir une terminologie dans différents formats, la corriger ou l’enrichir ;
  • Aligner, pour aligner un fichier SKOS/RDF-XML avec une terminologie de Loterre ;
  • Annoter, pour expérimenter l’annotation d’un texte avec une terminologie de Loterre.

Parmi les autres nouveautés, un plugin interroge Istex à partir du libellé des concepts. Cette fonctionnalité s’inscrit dans une démarche d’interopérabilité entre les différentes applications de l’Inist.

Un autre plugin affiche un aperçu de la page Wikipédia d’un concept, lorsqu’il a été aligné avec cette encyclopédie collaborative.

Répondre à un besoin scientifique

Un thésaurus de paléoclimatologie a été publié sur Loterre. 

Issu d’une réflexion avec des chercheurs du domaine, il a pour objectif d’offrir à la communauté scientifique un vocabulaire de référence bilingue (français, anglais), inexistant jusqu’alors.

Il a été réalisé en collaboration avec des chercheurs des laboratoires LSCE, Géosciences Montpellier et GEOPS (Géosciences Paris-Saclay) et une équipe de la DiBISO de l’Université Paris-Saclay.