Auteurs
Développé par Thomas GERVAIS d'ALDIN dans le cadre de la chaire de professeure junior de Marine DELABORDE
Outil sous licence ETALAB
Gitlab: https://gitlab.huma-num.fr/mdelaborde/valo-lt2d
Présentation générale
Le Générateur de métadonnées est une application web permettant la création facile de métadonnées au formats Dublin Core, OLAC, et CMDI sur la base d'un formulaire interactif. L'utilisateur y trouvera tous les éléments de base de ces formats de métadonnées, permettant la création de fichiers de métadonnées accompagnants ses ressources conformément aux différents standards recommandés voire requis pour le dépot d'une ressource.
Dans le domaine de la linguistique, les métadonnées sont essentielles à la bonne gestion des ressources numériques. Bien conçues, elles facilitent non seulement la découverte et l'accès aux ressources, mais elles assurent également leur préservation et leur réutilisation sur le long terme.
Les formats Dublin Core, OLAC, et CDMI sont interopérables et emboitables les uns dans les autres. Ils correspondent ici à différents niveaux de présision dans description de la ressource.Les bonnes pratiques en matières de métadonnées indiquées sur le site sont directement tirées des sites de référence, dont les liens sont disponibles dans l'onglet "Sources".
Formats de métadonnées
Dublin Core
Le Dublin Core est un format de métadonnées très largement répandu pour la description de ressources numériques dans un environnement interdisciplinaire. Simple et flexible, il vise à donner une description basique mais efficace des ressources sur la base de 15 éléments de base. La force de ce format de métadonnées réside dans l'alliance de son interopérabilité et des nombreuses extensions qu'il propose, permettant d'affiner la description des ressources en fonctions des besoins de différentes pratiques et domaines.
OLAC
OLAC (Open Language Archives Community) est un ensemble de normes prévues comme une extension du Dublin Core, spécifiquement adapté à la description des ressources linguistiques, par l'usage d'un vocabulaire controlé adapté à la linguistique. Prenant la forme d'attributs d'éléments, OLAC est particulièrement facile à prendre en main dès lors que l'on maîtrise les bases du Dublin Core.
CMDI
Plus qu'un format de métadonnées, CMDI est une infrastructure complète de gestion des métadonnées. C'est un format capable d'intégrer de nombreux autres formats ( comme Dublin Core et OLAC), et de proposer des éléments complètement personnalisables. Cet outil propose les éléments CMDI minimaux à la bonne formation d'un fichier CMDI, afin qu'il soit recevable dans le cadre d'un dépôt CLARIN.
OLAC
http://www.language-archives.org/
OLAC (Open Language Archives Community) est une initiative internationale collaborative pour la création de bibliothèques numériques de ressources linguistiques. Elle est à l'origine de la création du standard OLAC de métadonnés conçu sur mesure pour la description des données linguistiques (Bird & Simons, 2003) .
Prévu comme une extension du Dublin Core et du protocole OAI ( Open Archives Initiative ), OLAC à l'avantage premier d'être dérivé d'un standard de métadonnées largement établi, garantissant l'interopérabilité des ressources entre les différents dépôts. Ces standards permettent une description des éléments de base ( Titre, Date, Auteurs ...) pour l'identification et la classification de ressources variées, numériques ou physique. OLAC se matérialise sous la forme d'attributs, venant spécifier et adapter à la linguistique ces éléments de base par l'usage d'un vocabulaire controlé standard. (Chang et al., 2004)
Un des objectif d'OLAC est de faciliter la découverte filtrée des ressources, par exemple par l'étude d'un domaine linguistique précis, ou l'identification précise (par élément) de la / des langue(s) d'une ressources. (Bird & Simons, 2001)
OLAC est capable de prendre en charge une grande diversité de formats de données, aussi bien textuelles qu'audio ou autres outils numériques appliqués à la linguistique, permettant de répondre au mieux au besoin de la communauté linguistique pour la documentation de ses ressources.
CMDI
CMDI (Component Metadata Infrastructure) est un standard développé par CLARIN (Common Language Resources and Technology Infrastructure), un projet européen pour la formation et l'entretien d'infrastructure pour la gestion des ressources linguistiques. Le principal avantage du CMDI réside dans la personnalisation des jeux de métadonnées, en mesure de décrire des jeux de données complexes. L'utilisateur à la possibilité de créer son propre jeu de composants, adaptés au besoin de son projet. (CLARIN)
CLARIN exige de ses Centres B l'utilisation du formats CMDI, et celui-ci est encouragé pour les dépôts CLARIN (Ortolang, Cocoon, Phonothèque de la MMSH, CORLI Centre K CLARIN pour les centres CLARIN français). CLARIN supporte également une variété de standards classiques de métadonnées comme Dublin Core ou OLAC. (https://www.clarin.eu/content/cmdi-component-metadata-infrastructure)
Le CMDI a la capacité d'encapsuler d'autres standards de métadonnées. C'est la raison pour laquelle METALING exige la création préalable d'un fichier OLAC avant celle d'un fichier CMDI, car le OLAC renseigné sera intégré au CMDI généré par le script de conversion "olac2cmdi.xsl".
Le CMDI Component Registry est un outil mis à disposition par CLARIN permettant la création de profils CMDI permettants la création, la gestion et la réutilisation de shémas de métadonnées CMDI. Vous y trouverez de nombreux profils, déjà utilisés dans d'autres projets passés ou en cours. Vous pouvez créer ex-nihilo des profils CMDI entièrement par le biais de l'interface. METALING propose les éléments de minimaux à la bonne formation d'un CMDI , mais vous pouvez utiliser CMDI Component Registry afin d'affiner et de créer de nouveaux éléments adaptés à votre projet. (https://catalog.clarin.eu/ds/ComponentRegistry/#/)
Guide d'utilisation
Les éléments Dublin Core sont représentés en bleu, les éléments OLAC en verts et les éléments CMDI en orange. Il est nécéssaire de commencer par éditer un fichier DC/OLAC si vous souhaitez l'intégrer dans un fichier CMDI : le fichier DC/OLAC généré par le premier formulaire est soumis au script de conversion 'olac2cmdi.xsl' (https://github.com/clarin-eric), créant un fichier CMDI éditable par le second formulaire.
Chaque encadré correspond à un élément, et chaque sous-encadré ( pour OLAC ) représente un attribut d'élément. Les champs de saisies correspondent au contenu de l'élément (librement éditable), alors que les familles et valeurs d'attributs appartenant à des vocabulaires restreints sont séléctionnable à l'aide de menus déroulants. Chaque élément, famille d'attribut et valeur d'attribut est accompagné d'un descriptif s'affichant par la séléction d'une valeur dans le menu.
Les champs répétables sont surmontés d'un bouton '+' permettant de dupliquer l'élément courant
Le fichier généré prendra par défaut la désignation du 'Titre' normalisé
ATTENTION : Les fichiers téléchargeables contenant le code XML généré sont sont stockés sur le serveur et sont supprimés chaque jour à une heure fixe. Tout code généré AVANT 3h du matin (heure de Paris) doit donc être regénéré s'il doit être téléchargé APRÈS.
Sources
Open Language Archive Community (http://www.language-archives.org
Dublin Core (https://www.dublincore.org/)
Bird, Steven & Simons, Gary. The OLAC Metadata Set and Controlled Vocabularies. Linguistic Data Consortium, University of Pennsylvania, and SIL International, 2003.
Chang, Ru-Yng, Huang, Chu-Ren, & Cheng, Chin-Chuan. Implementation of an OLAC-based Linguistic Metadata System over a Set of Heterogeneous Language Archives. Institute of Linguistics, Academia Sinica, 2004.
Broeder, Daan & Wittenburg, Peter. Best Practice Guide CMDI (Component Metadata Infrastructure). Technical Report, MPI for Psycholinguistics, 2011.
Simons, Gary & Bird, Steven. Building an Open Language Archives Community on the OAI Foundation. Library Hi Tech, 21:210–218. 2003.
Simons, Gary & Bird, Steven. Extending Dublin Core Metadata to Support the Description and Discovery of Language Resources. Computers and the Humanities, 37: to appear. 2003 .
Dublin Core Metadata Initiative (DCMI). The Dublin Core Metadata Element Set. National Information Standards Organization (NISO), ANSI/NISO Z39.85-2001. Bethesda, Maryland, 2001.
http://www.language-archives.org/
https://www.clarin.eu/