Outils personnels
Vous êtes ici : Accueil Catalogage et catalogues 5) Formats de catalogage et métadonnées 5.1) Formats de catalogage (codification des données)

5.1) Formats de catalogage (codification des données)

Pour que l'ordinateur puisse les traiter correctement, les notices de catalogage doivent être codifiées précisément; cette codification est appelée "format". Les trois grands formats utilisés dans les bibliothèques sont MARC21 (y c. sa variante IDS-MARC), UNIMARC et MAB2. Quelle évolution pour MARC21? XML joue un rôle de plus en plus important, mais ne bouleverse pas l'analyse logique des éléments à codifier. Mise à jour 9 mars 2010

5) Formats de catalogage et métadonnées

5.1) Formats de catalogage (codification des données)

 

 

1) Que veut dire "format"?

  • Format de saisie: grille de saisie, par ex. pour le catalogage
  • Format d'affichage: présentation des notices de catalogage dans l'OPAC
  • Format du livre: 23 cm, 8°
  • Format de stockage: bases de données, par ex. Oracle
  • Format d'échange: par ex. MARC21

 

2) Références

 

Leresche, Françoise

Les formats MARC. - 2004

http://www.rnbm.org/rencontres_2004/leresche-normes.pdf

 

Eversberg, Bernhard. - Was sind und was sollen bibliothekarische Datenformate. - 1999

http://www.allegro-c.de/formate/formate.htm

 

 

3) La naissance de MARC21

Henriette Avram, Library of Congress, 1965. (Permalink)

 

Marc 1965

C'est le rapport qui a lancé le projet de codification MARC

Une notice MARC, simplifiée:

100  $a Ramuz, Charles Ferdinand

245  $a Derborence : $b roman / $c Charles Ferdinand Ramuz

260  $a Paris : $b Grasset, $c 2003

300  $a 182 p. : $b ill. ; $c 23 cm

490  $a Les cahiers rouges

 

Une notice MARC contient donc:

  • des zones (100, 245, etc.)
  • dans chaque zone, des sous-zones ($a, $b, etc.)

Mais pourquoi faut-il codifier les notices de catalogage, et quelles sont les méthodes de codification?

 

 

4) Pourquoi codifier

 

L'homme sait interpréter une fiche classique de catalogage, mais pas la machine (pas encore...?)

Fiche classique, 1961

Pour manipuler les données correctement, l'ordinateur doit pouvoir repérer précisément l'auteur, la date, la cote, etc.

 

 

5) Comment codifier

 

Terminologie

  • Format = codification
  • Notice = record
  • Zone = champ = field

 

Format fixe (de longueur fixe)

Tiroirs Ikea

Petit meuble à tiroirs, Ikea: le nombre et la dimension des tiroirs sont prédéfinis.

 

Fichier des lecteurs Aleph, extrait

Fichier des lecteurs Aleph, extrait:

  • chaque champ est de longueur fixe
  • un champ ne peut pas être répété

 

 

Format entièrement variable: MARC

 

Notice en format variable: MARC

 

  • Chaque notice a un nombre variable de zones
  • Chaque zone a un nombre variable de sous-zones
  • La longueur des zones et des sous-zones est variable.

 

 

 

Importance d'une bonne codification

 

Une codification variable est absolument nécessaire pour les données bibliographiques, mais cela ne suffit pas; il faut en plus que la codification soit logique, cohérente, que tous les éléments importants soient codifiés de manière claire et univoque.

Contre-exemple: système Swissbase

Cette codification est de longueur variable, mais plusieurs éléments sont mal codés, ou pas du tout codés.

Notice Swissbase

 

Une codification logique et précise est indispensable:

  • pour indexer les données de manière optimale
  • pour paramétrer l'OPAC
  • pour faire des statistiques fiables
  • pour convertir les données dans un nouveau système (migration)
  • pour faciliter l'échange des données

 

Un bon format est comme la colonne vertébrale des données.

 

 

6) MARC21

 

Origine

MARC = Machine readable cataloging

Mis au point en 1965 à la Library of Congress par Henriette Avram 1919-2006

Henriette Avram

 Volonté de la Library of Congress d'automatiser le catalogage, notamment pour résoudre le problème du stockage des fiches distribuées.

Fiches LoC

 

 

Principes de base

Analyse très fine, en fonction des spécificités du catalogage

Format variable (zones et sous-zones répétitives; longueur variable)

Structure "étiquette / indicateur / sous-zones"

Structure de MARC

 

Evolution des formats MARC

Dès 1966 aux Etats-Unis et dans le monde: LC-MARC, puis MARC II, puis USMARC, puis MARC21

(et toutes les variantes nationales de MARC, notamment IDS-MARC)

Dès 1973 en Allemagne et en Autriche: MAB1, puis MAB2, puis abandon de MAB au profit de MARC21

Dès 1977 en Europe: UNIMARC

 

 

Site Web de référence pour MARC21

Library of Congress MARC Standards

http://www.loc.gov/marc/

Site Web officiel pour MARC21

 

 

7) ISO 2709

La norme IS0 2709 définit l'organisation des données catalographiques MARC sur une bande magnétique. Bien que très ancienne et obsolète, cette norme est encore largement utilisée aujourd'hui, car tous les systèmes de bibliothèques savent envoyer et recevoir des notices sous forme ISO 2709.

ISO 2709

Plus de détails sur ISO 2709, cliquer ici!

 

 

8) Quelques limites de MARC21

 

Article (déterminant) en début de titre

 

L'article (le déterminant) en début de titre est codé de la manière suivante: le contenu du 2e indicateur donne le nombre de caractères qu'il faut sauter pour trier le titre correctement.

Article en début de titre

Cette méthode pose plusieurs problèmes:

  • seule la première sous-zone peut être traitée avec cette méthode
  • selon les zones, c'est le 2e ou le 1er indicateur qui est utilisé
  • dans certaines zones (par exemple 246), cette méthode ne peut tout simplement pas être utilisée
  • le décompte du nombre de caractères peut poser problème avec Unicode
  • etc.

Une solution mieux structurée, généralisable, a déjà été définie dans le cadre de MARC21, il ne reste plus qu'à l'implanter...

Voir le rapport = http://www.loc.gov/marc/marbi/dp/dp118.html 

 

Oeuvres en plusieurs volumes

La méthode la plus souvent utilisée est la saisie des volumes dans une zone de notes 505.

Plusieurs volumes en 505

Mais il n'y a pas vraiment de méthode pour les cas complexes avec notices chaînées.

 

 

Multilinguisme

 

Il manque dans MARC21 une méthode pour coder les langues des éléments.

Exemple du titre parallèle: il n'est même pas codé spécifiquement comme titre parallèle, donc pas non plus de code de langue.

Titre parallèle

Ponctuation

Dans MARC21, on doit saisir simultanément les codes de sous-zones et la ponctuation ISBD; très souvent, il y a redondance. En bonne logique, on ne doit pas saisir dans la base de données des éléments qui concernent la présentation dans l'OPAC.

245 10 $a Condition de l'homme : $b essai / $c Henri-L. Miéville

":" veut dire: début du sous-titre, $b également

"/" veut dire: début de la mention de responsabilité, $c également.

 

 

9) IDS-MARC

 

IDS (Informationsverbund Deutschschweiz) a choisi MARC21 pour garantir la meilleure compatibilité sur le plan national (RERO et Bibliothèque nationale) comme sur le plan international.

Mais IDS a aussi cherché à résoudre certains problèmes de MARC21; IDS a donc adapté MARC21 sur certains points, et le résultat de cette adaptation est appelé "IDS-MARC".

 

Par rapport à MARC21, IDS-MARC présente les caractéristiques suivantes:

a) la ponctuation ISBD n'est pas saisie, elle est ajoutée par programme lors de l'affichage

IDS-MARC, pas de ponctuation

 

b) L'article (le déterminant) en début de titre est codé par <<...>>

Article en début de titre

 

c) La codification des non-nooks est faite en clair

Non-books

 

d) Une technique simple permet de chaîner les notices entre elles

Chaînage de notices

Cette technique est utilisée pour chaîner les volumes d'une collection à la notice de collection, ou les volumes d'une oeuvre en plusieurs volumes à la notice de niveau supérieur.

Résultat dans l'OPAC:

Notices chaînées dans l'OPAC

 

e) Compatibilité avec MARC21

La compatibilité entre IDS-MARC et MARC21 est garantie grâce à un programme-interface

Interface import-export

 

 

Grâce à cette interface, les notices peuvent être échangées entre MARC21 et IDS-MARC sans perte ni d'information ni de codification; par exemple notice dérivée de RERO vers IDS:

Notice RERO en MARC21 original

Notice convertie en IDS-MARC

 

 

10) UNIMARC

 

A l'origine d'UNIMARC, il y a la volonté (européenne!) de définir un format qui soit meilleur que MARC et qui soit vraiment international. UNIMARC bénéficie d'un soutien de la FIAB.

Site Web de référence pour UNIMARC

http://www.ifla.org/VI/3/p1996-1/sec-uni.htm

UNIMARC est utilisé surtout en Europe (France bibliothèques universitaires, Italie, Portugal, etc.)

Exemple de notice UNIMARC, simplifiée:

Notice UNIMARC

UNIMARC est un excellent format!

  • codification logique et cohérente
  • pas de ponctuation à saisir
  • mécanisme pour le chaînage des notices
  • etc.

Cependant, développé 10 plus tard que MARC, UNIMARC n'a pas réussi, malgré ses qualités, à s'imposer sur le plan international.

 

 

11) MAB2

 

MAB = Maschinelles Austauschformat; MAB2 = 2e version

A l'origine de MAB, il y a la volonté (allemande!) de définir un format qui soit meilleur que MARC et qui soit moins lourd en temps machine.

Site Web de référence pour MAB

http://www.d-nb.de/standardisierung/formate/mab.htm

MAB est utilisé quasi exclusivement en Allemagne et en Autriche.

 MAB exemple de notice

L'Allemagne et l'Autriche ont décidé récemment d'abandonner le format MAB comme format d'échange (tant sur le plan national qu'international), et d'adopter MARC21.

Umstieg auf MARC21 (Passage à MARC21)

http://www.d-nb.de/standardisierung/formate/marc21.htm

 

 

12) Format interne / Format d'échange

 

Le format interne (codification des données dans la base de données d'une bibliothèque) n'est pas forcément le même que le format d'échange. Exemple de la Deutsche Nationalbibliothek:

  • format interne: un format spécifique, le format PICA
  • formats en exportation: à choix MAB2, MARC21 ou UNIMARC

DNB, notice en format PICA

 

 

13) L'avenir de MARC21

 

 HTML

 

HTML est un langage de balises; c'est la méthode universelle pour codifier une page Web. Tous les navigateurs savent comment interpréter une page HTML. Toutes les balises HTML sont prédéfinies sur le plan international, on n'a aucune liberté.

Page HTML

Exemples de balises HTML: <tr> ... </tr>

 

 

XML

 XML est aussi un langage de balises, pour codifier non pas des pages Web, mais des données. Dans XML, aucune balise n'est prédéfinie, on dispose d'une liberté totale. Mais on doit suivre des règles strictes de syntaxe.

Données XML

Exemples de balises XML: <name> ... </name>

Vous n'avez jamais entendu parler de XML? Alors cliquer ici.

 

 

MARC21 et XML

 

Le format MARC21 peut être présenté sous forme XML.

Soit sous la forme MODS, avec des balises alphabétiques, correspondant aux étiquettes de MARC21

MODS

 

Soit sous la forme MARCXML, avec des balises "MARC21 original"

MARCXML

 

Il n'y a donc pas incompatibilité entre MARC21 et XML. MARC21 peut être présenté sous forme XML, que ce soit avec la solution MODS ou avec la solution MARCXML.

Pour un exemple concret d'utilisation de MARCXML, cliquer ici.

 

En fait il ne faut pas confondre

  • l'analyse logique des éléments à codifier (titre, sous-titre, etc.): sur ce point, MARC21 est excellent (mais peut être amélioré sur certains points)
  • la méthode de codification MARC (étiquette 245, sous-zone $a, etc.): cette méthode est tout à fait spécifique au monde des bibliothèques; il est normal d'étudier des alternatives
  • le formatage ISO 2709: c'est une technique effectivement obsolète, qui fera sans doute place à XML

 

Les critiques les plus fréquentes contre MARC21

 

  • Beaucoup de points de détail (article, ponctuation ISBD, etc.): il existe des solutions à ces problèmes, dans le cadre de MARC21
  • Format inadapté aux ressources numériques: en partie vrai
  • Technique de codification exotique: vrai
  • Trop compliqué, trop détaillé: en partie vrai
  • Marc conçu seulement pour imprimer des fiches: faux

 

Quelle évolution? Il faut étudier divers scénarios.

Voir par exemple MARC scenarios

http://futurelib.pbwiki.com/MARC-Scenarios:

  1. Etendre MARC21 en utilisant MARCXML
  2. Ou: Etendre MODS pour en faire un nouveau format
  3. Ou: Créer un nouveau format

 

Probablement: stabilité et continuité

Evolution lente de MARC21 dans le sens XML

Abandon progressif de ISO 2709

Pourquoi une évolution lente? Il y a des centaines de millions de notices MARC21 dans le monde, et il y a des dizaines de milliers de système automatisés installés. Tout changement radical est quasiment impossible. Mais la notice de catalogage classique, en MARC21, sera certainement de plus en plus complétée par des informations non-MARC.

 

 

L'avenir est déjà présent: le CERN CDS

 

La même notice est convertie dynamiquement en divers formats!

CERN CDS = http://cdsweb.cern.ch/

CERN CDS

 Autre exemple: Library of Congress

http://lccn.loc.gov/93182445

LC divers formats

 

 

Actions sur le document