De manière schématique, un projet Time Machine s’appuie sur un ensemble de ressources patrimoniales qu’il transforme ensuite en données structurées et utilisables à des fins de mise à disposition du public. Cette transformation en données utilisables doit pleinement s’inscrire dans une logique de partage et de temps long: les données préparées doivent être utilisables maintenant et dans le futur, dans le cadre de ce projet mais potentiellement pour d’autres projets. Il faut donc travailler dans une perspective de mise à disposition des données. Ce chapitre traite également des principes d’écodesign à appliquer aux projets Time Machine.
Le deuxième chapitre s’est conclu sur la numérisation des ressources patrimoniales nécessaires au projet. Sur cette base, il faut maintenant passer d’une logique de ressource patrimoniale (par exemple une page extraite d’un recensement) à une logique de données (les multiples données contenues par cette ressource spécifique). Il s’agit donc de structurer les ressources numérisées en utilisant des catégories. Ce passage du document aux données soulève des défis techniques et méthodologiques. Sur le plan technique, l’équipe du projet doit veiller à exploiter de la manière la plus efficace possible les ressources numérisées. Idéalement, ces ressources peuvent être exploitées de manière (semi)-automatisée 7, permettant de directement structurer le contenu des documents dans des catégories de travail. Ainsi, un document de recensement se transforme en données réparties dans les catégories choisies (noms, année de naissance, lieu de domicile, etc.). Pour utiliser une image compréhensible de tous, le document numérisé se transforme en «fichier Excel», avec ses colonnes comme autant de catégories. Si la qualité des ressources le permet (qualité de la numérisation), cette structuration peut se faire grâce à un programme réalisant les tâches tout seul. Au cours de cette phase de mise en données, les personnes responsables devront faire de nombreux choix méthodologiques qu’il importe de documenter. Certains éléments du document numérisé ne sont pas clairs et doivent être explicités d’une certaine manière. À titre d’exemple, un document de recensement peut contenir des abréviations. Plusieurs hypothèses peuvent être avancées sur la signification exacte de ces abréviations. Du point de vue de la durabilité des données, le point important consiste à documenter les choix réalisés. Si l’abréviation est comprise d’une certaine manière, les données reflèteront ce choix. Si ce jeu de données est utilisé dans 10 ans, dans le cadre d’un autre projet, il faut assurer la possibilité de reconstruire et de comprendre les décisions réalisées durant la phase de mise en données des ressources numérisées. Le même raisonnement s’applique là où un document est endommagé (parties illisibles) et, de manière générale, partout là où la personne en charge de la numérisation doit intervenir durant la transformation en données.
<aside>
En parallèle aux questions de protection des données (traitées plus bas), les projets Time Machine peuvent soulever des questions de propriété intellectuelle. Cela concerne les données utilisées pour le projet mais également les conditions d’utilisation des jeux de données préparés dans le cadre du projet. Cette dernière dimension est traitée dans un encadré distinct (licences d’utilisation des jeux de données). De manière générale, il s’agit d’être certain que les droits sur les éléments utilisés pour le projet n’appartiennent pas à une tierce personne. Le droit d’auteur vise à protéger les créations de l’esprit (littéraire ou artistique) possédant un caractère individuel (une originalité) viii. Les photographies sont protégées indépendamment de leur caractère original. Si le projet Time Machine utilise des créations littéraires ou artistiques (par ex. des textes ou des photographies) afin de constituer son jeu de données, il doit s’assurer du respect du droit d’auteur. Le droit d’auteur sur une œuvre s’éteint 70 ans après la mort de l’auteur. Si l’auteur en a décidé ainsi, certaines œuvres peuvent être libres de droit ou utilisables librement plus rapidement. Une fois la protection échue, on considère que l’œuvre fait partie du domaine public. Les projets Time Machine pourraient être concernés par les changements législatifs en matière de «fouilles de données» (data mining). Le droit européen autorise d’ores et déjà l’analyse des données disponibles publiquement, sans besoin d’autorisation des auteurs dans le cadre de projets scientifiques (avec conditions supplémentaires dans le cadre de projets commerciaux) ix. Ces questions «test» peuvent être utilisées pour un premier éclairage. En cas de doutes, il importe de clarifier la situation avec des spécialistes.
Le travail de mise en données des ressources patrimoniales représente l’un des moments les plus importants afin d’assurer la durabilité du projet. L’objectif fondamental est le suivant: d’autres personnes/équipes devraient pouvoir utiliser ces données dans un futur plus ou moins proche, selon des modalités à définir (voir l’encadré sur les licences). Le projet durable s’inscrit donc dans un mouvement de données ouvertes (open data) et interopérables, permettant d’intégrer un certain jeu de données dans un projet plus large.
Pour garantir cette ouverture et cette interopérabilité, le modèle de «paquet d’information» offre une approche particulièrement adaptée. De manière générale, les données sont présentées sous forme de paquet d’information comprenant toujours deux éléments: a) l’information contenue, sous forme de données (le contenu) et b) un ensemble de métadonnées qui renseignent entre autres sur le type/date/créateur de données (le conteneur) x.

Pour reprendre l’exemple du document de recensement numérisé, sa mise en données devrait donc porter sur 1) les informations contenues dans le document, exprimées sous forme de données (liste de noms, de dates de naissance, de lieux de domicile, etc.), ainsi que sur 2) des métadonnées renseignant sur le processus de numérisation, les choix effectués, le créateur de la donnée. Parmi les métadonnées, on distingue entre les métadonnées descriptives (identifiant de la donnée, auteur, date) et les métadonnées techniques (format, taille, emplacement). Dans 10 ans, si une personne travaille avec ces données, elle aura ainsi accès au contenu, mais également au conteneur, ce dernier offrant des renseignements précieux sur la qualité des données, leurs conditions d’obtentions, leurs limitations éventuelles.
Les métadonnées vont également permettre de rechercher toutes les ressources d’un même type (toutes les images, toutes les vidéos, tous les sons, selon un format spécifique, etc.) ou toutes les ressources créées par une personne spécifique. De plus, leur qualification selon certaines catégories («tag» ou mots-clés) va permettre d’intégrer des ressources dans un ensemble beaucoup plus grand. Ainsi, si les métadonnées de l’exemple des ressources de recensement renseignent sur la région concernée (#Valais #Sion) ou sur la période concernée (#19ème), ces ressources pourront être mises en relation avec d’autres bases de données comprenant les mêmes mots-clés. Par le biais d’informations sémantiques (des mots-clés), la base de données du projet se retrouve potentiellement intégrable dans un ensemble beaucoup plus grand. Il existe alors une opportunité de relier différentes bases de données et de profiter d’un référencement beaucoup plus large.
Cette ambition exige d’adopter une approche standardisée (une «ontologie»), qui va ensuite permettre l’interopérabilité. Pour un projet Time Machine, il faut donc distinguer deux étapes distinctes:
Ces informations structurées vont permettre d’ancrer les données préparées pour le projet dans une perspective d’ouverture et d’utilisation longue durée. Il s’agit d’un investissement pour la pérennité du projet et pour les travaux futurs d’autres équipes.
<aside>
La sécurité des données est un sujet crucial pour tous les projets numériques. Il s’agit d’assurer une protection de l’intégrité des données, face aux intrusions non-autorisées (vol/copie de données) mais également une protection contre des accidents (incendie du local où se trouvent les serveurs). Dans la plupart des projets Time Machine, ces questions de sécurité sont traitées par le fournisseur de services de stockage de données. Les équipes de projet peuvent vérifier auprès de ce fournisseur les standards de sécurité appliqués et s’assurer que leurs données sont protégées contre les accidents et les intrusions (notamment via copie sur des serveurs multiples). Cette dernière question porte surtout sur la phase de préparation du projet. Une fois la phase de préparation des données terminée, celles-ci seront mises à disposition du public et n’auront donc plus de risque particulier quant à un vol/intrusion.
</aside>
Un projet Time Machine se construit sur des données du passé et doit donc, à ce titre, considérer une série de questions juridiques ayant trait à la protection des données. Les questions de propriété intellectuelle sont traitées dans un encadré distinct. Pour débuter, il importe de clarifier si le projet traite des données personnelles xiii. Une donnée personnelle est une donnée qui peut être rapportée à une personne identifiée (Monsieur Martin) ou identifiable (une personne habitant à l’avenue de la gare 15 à Sion). Les données concernant des machines ou des phénomènes naturels, par exemple le débit du Rhône (sans lien avec des personnes identifiables), ne sont pas protégées. Parmi les données personnelles, les données dites «sensibles» sont d’avantage protégées. Ces données sensibles comprennent les opinions ou activités religieuses, idéologiques, politiques ou syndicales, la santé, la sphère intime ou l’origine raciale, ainsi que d’éventuelles informations sur des mesures d’aide sociale ou des poursuites ou sanctions pénales et administratives. En plus d’une protection accrue accordée aux données sensibles, la loi protège également les profils de personnalité, c’est-à-dire les recoupages et assemblages de données personnelles permettant de reconstruire la personnalité d’un individu. La protection porte alors sur l’effet cumulé de multiples données qui, prises individuellement, ne seraient pas particulièrement problématiques. En droit suisse, un postulat fondamental lie la protection des données personnelles et la personnalité. Cela explique pourquoi la protection des données se focalise sur la protection des données des personnes vivantes. La protection directe disparait avec la mort car la personnalité juridique s’éteint xiv. Persiste toutefois une protection indirecte qui vise à protéger les droits des proches vivants.
<aside>
Les projets Time Machine travaillent souvent avec des données disponibles dans les archives. En la matière, la loi valaisanne LIPDA pose un délai ordinaire de 30 ans pour la consultation des documents versés aux archives xv. Pour les documents contenant des données sensibles ou des profils de personnalités, le délai d’accès par le public est d’au moins 10 ans après la mort de la personne concernée. Lorsque la date de la mort n’est pas connue, le délai de protection échoit 100 ans après la clôture du dossier. Les projets Time Machine traitant des données personnelles de personnes décédées devraient intégrer, au titre de bonnes pratiques, les principes de protection des données le plus tôt possible dans leurs réflexions xvi. Les principes les plus pertinents sont les suivants: a) minimiser les données récoltées: seules les données personnelles nécessaires à l’objectif devraient être utilisées. b) chercher le consentement des personnes qui pourraient se prévaloir d’une protection indirecte: dans certains cas (notamment données du passé récent), il peut être souhaitable de prendre contact avec les descendants (par ex. familles). Ainsi, les représentant-es des familles particulièrement exposées dans un projet spécifique pourraient être consultés et informés. Cela ne signifie pas que ces représentants obtiennent un droit de véto sur le développement du projet. c) assurer une possibilité d’accéder aux données et de les corriger et effacer le cas échéant: il peut être pertinent de donner la possibilité aux descendants de demander des corrections si les données utilisées sont erronées. De manière générale, le bureau du préposé cantonal à la protection des données et à la transparence est un point de contact pour des questions plus avancées 9.
</aside>