5.1) Formats de catalogage (codification des données)
Pour que l'ordinateur puisse les traiter correctement, les notices de catalogage doivent être codifiées précisément; cette codification est appelée "format". Les trois grands formats utilisés dans les bibliothèques sont MARC21 (y c. sa variante IDS-MARC), UNIMARC et MAB2. Quelle évolution pour MARC21? XML joue un rôle de plus en plus important, mais ne bouleverse pas l'analyse logique des éléments à codifier. Mise à jour 9 mars 2010
5) Formats de catalogage et métadonnées
5.1) Formats de catalogage (codification des données)
1) Que veut dire "format"?
- Format de saisie: grille de saisie, par ex. pour le catalogage
- Format d'affichage: présentation des notices de catalogage dans l'OPAC
- Format du livre: 23 cm, 8°
- Format de stockage: bases de données, par ex. Oracle
- Format d'échange: par ex. MARC21
2) Références
Leresche, Françoise
http://www.rnbm.org/rencontres_2004/leresche-normes.pdf
Eversberg, Bernhard. - Was sind und was sollen bibliothekarische Datenformate. - 1999
http://www.allegro-c.de/formate/formate.htm
3) La naissance de MARC21
Henriette Avram, Library of Congress, 1965. (Permalink)

C'est le rapport qui a lancé le projet de codification MARC
Une notice MARC, simplifiée:
100 $a Ramuz, Charles Ferdinand
245 $a Derborence : $b roman / $c Charles Ferdinand Ramuz
260 $a Paris : $b Grasset, $c 2003
300 $a 182 p. : $b ill. ; $c 23 cm
490 $a Les cahiers rouges
Une notice MARC contient donc:
- des zones (100, 245, etc.)
- dans chaque zone, des sous-zones ($a, $b, etc.)
Mais pourquoi faut-il codifier les notices de catalogage, et quelles sont les méthodes de codification?
4) Pourquoi codifier
L'homme sait interpréter une fiche classique de catalogage, mais pas la machine (pas encore...?)

Pour manipuler les données correctement, l'ordinateur doit pouvoir repérer précisément l'auteur, la date, la cote, etc.
5) Comment codifier
Terminologie
- Format = codification
- Notice = record
- Zone = champ = field
Format fixe (de longueur fixe)

Petit meuble à tiroirs, Ikea: le nombre et la dimension des tiroirs sont prédéfinis.

Fichier des lecteurs Aleph, extrait:
- chaque champ est de longueur fixe
- un champ ne peut pas être répété
Format entièrement variable: MARC

- Chaque notice a un nombre variable de zones
- Chaque zone a un nombre variable de sous-zones
- La longueur des zones et des sous-zones est variable.
Importance d'une bonne codification
Une codification variable est absolument nécessaire pour les données bibliographiques, mais cela ne suffit pas; il faut en plus que la codification soit logique, cohérente, que tous les éléments importants soient codifiés de manière claire et univoque.
Contre-exemple: système Swissbase
Cette codification est de longueur variable, mais plusieurs éléments sont mal codés, ou pas du tout codés.

Une codification logique et précise est indispensable:
- pour indexer les données de manière optimale
- pour paramétrer l'OPAC
- pour faire des statistiques fiables
- pour convertir les données dans un nouveau système (migration)
- pour faciliter l'échange des données
Un bon format est comme la colonne vertébrale des données.
6) MARC21
Origine
MARC = Machine readable cataloging
Mis au point en 1965 à la Library of Congress par Henriette Avram 1919-2006

Volonté de la Library of Congress d'automatiser le catalogage, notamment pour résoudre le problème du stockage des fiches distribuées.

Principes de base
Analyse très fine, en fonction des spécificités du catalogage
Format variable (zones et sous-zones répétitives; longueur variable)
Structure "étiquette / indicateur / sous-zones"

Evolution des formats MARC
Dès 1966 aux Etats-Unis et dans le monde: LC-MARC, puis MARC II, puis USMARC, puis MARC21
(et toutes les variantes nationales de MARC, notamment IDS-MARC)
Dès 1973 en Allemagne et en Autriche: MAB1, puis MAB2, puis abandon de MAB au profit de MARC21
Dès 1977 en Europe: UNIMARC
Site Web de référence pour MARC21
Library of Congress MARC Standards
http://www.loc.gov/marc/

7) ISO 2709
La norme IS0 2709 définit l'organisation des données catalographiques MARC sur une bande magnétique. Bien que très ancienne et obsolète, cette norme est encore largement utilisée aujourd'hui, car tous les systèmes de bibliothèques savent envoyer et recevoir des notices sous forme ISO 2709.

Plus de détails sur ISO 2709, cliquer ici!
8) Quelques limites de MARC21
Article (déterminant) en début de titre
L'article (le déterminant) en début de titre est codé de la manière suivante: le contenu du 2e indicateur donne le nombre de caractères qu'il faut sauter pour trier le titre correctement.

Cette méthode pose plusieurs problèmes:
- seule la première sous-zone peut être traitée avec cette méthode
- selon les zones, c'est le 2e ou le 1er indicateur qui est utilisé
- dans certaines zones (par exemple 246), cette méthode ne peut tout simplement pas être utilisée
- le décompte du nombre de caractères peut poser problème avec Unicode
- etc.
Une solution mieux structurée, généralisable, a déjà été définie dans le cadre de MARC21, il ne reste plus qu'à l'implanter...
Voir le rapport = http://www.loc.gov/marc/marbi/dp/dp118.html
Oeuvres en plusieurs volumes
La méthode la plus souvent utilisée est la saisie des volumes dans une zone de notes 505.

Mais il n'y a pas vraiment de méthode pour les cas complexes avec notices chaînées.
Multilinguisme
Il manque dans MARC21 une méthode pour coder les langues des éléments.
Exemple du titre parallèle: il n'est même pas codé spécifiquement comme titre parallèle, donc pas non plus de code de langue.

Ponctuation
Dans MARC21, on doit saisir simultanément les codes de sous-zones et la ponctuation ISBD; très souvent, il y a redondance. En bonne logique, on ne doit pas saisir dans la base de données des éléments qui concernent la présentation dans l'OPAC.
245 10 $a Condition de l'homme : $b essai / $c Henri-L. Miéville
":" veut dire: début du sous-titre, $b également
"/" veut dire: début de la mention de responsabilité, $c également.
9) IDS-MARC
IDS (Informationsverbund Deutschschweiz) a choisi MARC21 pour garantir la meilleure compatibilité sur le plan national (RERO et Bibliothèque nationale) comme sur le plan international.
Mais IDS a aussi cherché à résoudre certains problèmes de MARC21; IDS a donc adapté MARC21 sur certains points, et le résultat de cette adaptation est appelé "IDS-MARC".
Par rapport à MARC21, IDS-MARC présente les caractéristiques suivantes:
a) la ponctuation ISBD n'est pas saisie, elle est ajoutée par programme lors de l'affichage

b) L'article (le déterminant) en début de titre est codé par <<...>>

c) La codification des non-nooks est faite en clair

d) Une technique simple permet de chaîner les notices entre elles

Cette technique est utilisée pour chaîner les volumes d'une collection à la notice de collection, ou les volumes d'une oeuvre en plusieurs volumes à la notice de niveau supérieur.
Résultat dans l'OPAC:

e) Compatibilité avec MARC21
La compatibilité entre IDS-MARC et MARC21 est garantie grâce à un programme-interface

Grâce à cette interface, les notices peuvent être échangées entre MARC21 et IDS-MARC sans perte ni d'information ni de codification; par exemple notice dérivée de RERO vers IDS:


10) UNIMARC
A l'origine d'UNIMARC, il y a la volonté (européenne!) de définir un format qui soit meilleur que MARC et qui soit vraiment international. UNIMARC bénéficie d'un soutien de la FIAB.
Site Web de référence pour UNIMARC
http://www.ifla.org/VI/3/p1996-1/sec-uni.htm
UNIMARC est utilisé surtout en Europe (France bibliothèques universitaires, Italie, Portugal, etc.)
Exemple de notice UNIMARC, simplifiée:

UNIMARC est un excellent format!
- codification logique et cohérente
- pas de ponctuation à saisir
- mécanisme pour le chaînage des notices
- etc.
Cependant, développé 10 plus tard que MARC, UNIMARC n'a pas réussi, malgré ses qualités, à s'imposer sur le plan international.
11) MAB2
MAB = Maschinelles Austauschformat; MAB2 = 2e version
A l'origine de MAB, il y a la volonté (allemande!) de définir un format qui soit meilleur que MARC et qui soit moins lourd en temps machine.
Site Web de référence pour MAB
http://www.d-nb.de/standardisierung/formate/mab.htm
MAB est utilisé quasi exclusivement en Allemagne et en Autriche.

L'Allemagne et l'Autriche ont décidé récemment d'abandonner le format MAB comme format d'échange (tant sur le plan national qu'international), et d'adopter MARC21.
Umstieg auf MARC21 (Passage à MARC21)
http://www.d-nb.de/standardisierung/formate/marc21.htm
12) Format interne / Format d'échange
Le format interne (codification des données dans la base de données d'une bibliothèque) n'est pas forcément le même que le format d'échange. Exemple de la Deutsche Nationalbibliothek:
- format interne: un format spécifique, le format PICA
- formats en exportation: à choix MAB2, MARC21 ou UNIMARC

13) L'avenir de MARC21
HTML
HTML est un langage de balises; c'est la méthode universelle pour codifier une page Web. Tous les navigateurs savent comment interpréter une page HTML. Toutes les balises HTML sont prédéfinies sur le plan international, on n'a aucune liberté.

Exemples de balises HTML: <tr> ... </tr>
XML
XML est aussi un langage de balises, pour codifier non pas des pages Web, mais des données. Dans XML, aucune balise n'est prédéfinie, on dispose d'une liberté totale. Mais on doit suivre des règles strictes de syntaxe.

Exemples de balises XML: <name> ... </name>
Vous n'avez jamais entendu parler de XML? Alors cliquer ici.
MARC21 et XML
Le format MARC21 peut être présenté sous forme XML.
Soit sous la forme MODS, avec des balises alphabétiques, correspondant aux étiquettes de MARC21

Soit sous la forme MARCXML, avec des balises "MARC21 original"

Il n'y a donc pas incompatibilité entre MARC21 et XML. MARC21 peut être présenté sous forme XML, que ce soit avec la solution MODS ou avec la solution MARCXML.
Pour un exemple concret d'utilisation de MARCXML, cliquer ici.
En fait il ne faut pas confondre
- l'analyse logique des éléments à codifier (titre, sous-titre, etc.): sur ce point, MARC21 est excellent (mais peut être amélioré sur certains points)
- la méthode de codification MARC (étiquette 245, sous-zone $a, etc.): cette méthode est tout à fait spécifique au monde des bibliothèques; il est normal d'étudier des alternatives
- le formatage ISO 2709: c'est une technique effectivement obsolète, qui fera sans doute place à XML
Les critiques les plus fréquentes contre MARC21
- Beaucoup de points de détail (article, ponctuation ISBD, etc.): il existe des solutions à ces problèmes, dans le cadre de MARC21
- Format inadapté aux ressources numériques: en partie vrai
- Technique de codification exotique: vrai
- Trop compliqué, trop détaillé: en partie vrai
- Marc conçu seulement pour imprimer des fiches: faux
Quelle évolution? Il faut étudier divers scénarios.
Voir par exemple MARC scenarios
http://futurelib.pbwiki.com/MARC-Scenarios:
- Etendre MARC21 en utilisant MARCXML
- Ou: Etendre MODS pour en faire un nouveau format
- Ou: Créer un nouveau format
Probablement: stabilité et continuité
Evolution lente de MARC21 dans le sens XML
Abandon progressif de ISO 2709
Pourquoi une évolution lente? Il y a des centaines de millions de notices MARC21 dans le monde, et il y a des dizaines de milliers de système automatisés installés. Tout changement radical est quasiment impossible. Mais la notice de catalogage classique, en MARC21, sera certainement de plus en plus complétée par des informations non-MARC.
L'avenir est déjà présent: le CERN CDS
La même notice est convertie dynamiquement en divers formats!
CERN CDS = http://cdsweb.cern.ch/

Autre exemple: Library of Congress
http://lccn.loc.gov/93182445


