L'approche Open data m'enthousiasme vraiment, car je suis convaincu que c'est le début d'un mouvement qui, en ouvrant les données publiques, va permettre à l'intelligence individuelle et collective des citoyens d'exprimer sa créativité.
Il faut maintenant aller plus loin, en publiant des données non seulement ouvertes mais pleinement réutilisables : à cet égard, on ne saurait se contenter de proposer de sous forme d'une collection, aussi riche soit-elle, de fichiers XLS, PDF ou même CSV qui vont nécessiter beaucoup de travail pour que les données qu'ils renferment soient vraiment exploitées.
Le W3C a défini des standards pour l'accès aux données brutes, via l'approche du "web sémantique" ou "web des données" qui seul permet une réutilisation généralisée des données, par la mise en réseau massive des silos de données ouvertes où qu'ils se trouvent sur le web. Ces standards s'appellent XML, RDF, OWL et SPARQL, ils sont désormais matures et de nombreux outils existent pour les mettre en œuvre.
C'est notamment le cas de ceux proposés par Antidot - chez qui je travaille - et déjà utilisés par des clients comme le CNRS, EDF R&D ou encore LexisNexis : les solutions Antidot Information Factory et Antidot Finder Suite permettent, de manière industrielle, de mailler très largement des données de provenance et de nature très diverses, de les exploiter et de les valoriser.
Pour ceux qui ne connaîtraient pas et souhaiteraient découvrir l'approche ouverte du "web des données" je conseille ce blog dont l'approche est très pédagogique : http://www.lespetitescases.net/petite-histoire-du-web-sem....
Vous pouvez aussi consulter les différentes présentations d'Antidot sur Slideshare : http://www.slideshare.net/antidotNet
Christophe a voté
Arthur a voté
David a voté
Sylvain a commenté
Pierre a commenté
Tibor a voté
Olivier Grisel a voté
Sylvie a voté
Karima a commenté
Charles a voté
Laurent a commenté
Julien Dubois a voté
Vincent et Christophe ont commenté
Florence a voté
Yann, Blaise de Carné et Julien ont commenté
Catherine, Raymond et Jean-Christophe ont voté
Pierre a partagé
A propos de SNCF Open Data
- CGU - Contactez-nous - Mode d'emploi - Mentions légales
- Imagine Cup 2012
© 2012

Commentaires (19)
Vincent
J'ai la même démarche à mon niveau, on se comprend.
Pierre
Je lis en home page de ce site : "SNCF envisage de mettre à la disposition des meilleurs innovateurs les données et les APIs de nature à leur inspirer des services performants pour ses clients et profitables pour eux. "
Je me permets d'insister : la donnée brute en RDF, publiée dans le nuage du LOD - voir http://punktokomo.abes.fr/2011/09/21/lactu-du-web-de-donn... pour mesurer la croissance fantastique du LOD cloud - est la seule vraie façon pérenne de permettre une réexploitation massive des données.
Espérer que des APIs associées à chaque jeu de données vont être vraiment utiles est illusoire, et pour une raison très simple : si pour bâtir une appli exploitant 13 jeux de données différents il faut se coltiner 13 APIs de fournisseurs différents, alors le résultat du développement sera un monstre totalement impossible à maintenir et à faire évoluer dans le temps, et donc au final inutile.
Vincent
Pierre, nous sommes deux à être convaincus. Je me sentais un peu seul jusqu'à présent.
Pierre
On va vite s'apercevoir que l'OpenData n'est plus un problème de "comment faire", maintenant que les standards, technologies et outils sont disponibles, mais bien de "que faire" et surtout "pourquoi le faire".
Et du coup, le "que faire" et le "pourquoi" pouvant justifier d'interconnecter des jeux de données issus de producteurs très différents (*) on en arrive vite au fait de partager des données les plus brutes possibles, sans le filtre d'APIs qui présupposent des usages et en limitent d'autres : comme l'a dit fort justement Tim Berners-Lee à TED 2009 : "Raw data now!"
(*) par exemple la SNCF, l'INSEE, le Ministère de l’Enseignement Supérieur et les 22 régions françaises si l'on s'intéresse aux déplacement des étudiants entre leur ville d'origine, la vilel où se situe leur domicile d'étudiant et leur lieu d'étude
Yann
Bonjour,
Quelqu'un pourrait il indiquer des exemples existants de données Transport au format rdf. Je pense, par exemple, à des données décrivant les lignes, les "missions", les arrêts, les horaires... ?
Merci.
Pierre
Il me semble que dans le cadre du projet Open Data de Rennes, Keolis (filiale de la SNCF) a publié des données, mais je ne sais pas quoi ni sous quel format...
En tant que lyonnais j'espère que Keolis généralisera son approche Open data et que les données lyonnaises seront rapidement publiées... et si possible en RDF :-)
Alain
Bonjour, oui, il faut employer les standards en matière d'information de transports. Il existe :
1- pour l'information géolocalisé, ceux d'INSPIRE : http://inspire.jrc.ec.europa.eu/index.cfm/pageid/2 Voir le package "Transport networks et également la rubrique "Network services".
2- Les travaux decollecte et d'harmonisation effectués par RailNetEurope : http://www.rne.eu/index.php/home.html
3- Les travaux du CEN-TC278 relayés maintenant en France par l'AFIMB et des partenaires ; l'activité française est synthétisée sur ce site : http://www.chouette.mobi/normes/spip.php?rubrique18
Pour ce qui est du RDF, je ne connais pas d'exemple,mais c'est sûrement un cas d'école intéressant à proposer au projet Datalift : http://datalift.org/
Blaise de Carné
Je m'ajoute à la liste des convertis. Ici à Rennes Keolis est resté au stade de la publication en CSV. Il faut aller plus loin et publier les données en RDF !
Julien
Bonjour,
Comme précisé dans un autre poste, la question de la publication des données de transport a déjà été soulevée par le CETE et le LIRMM. Un rapport à d'ailleurs été produit :
http://www.cete-mediterranee.fr/tt13/www/article.php3?id_...
La SNCF ou ses partenaires peuvent déjà prendre cette ébauche comme point de départ pour la publication de leurs données en RDF.
Yann
Bonjour à tous et merci de ces contributions,
Je précise un peu ma question.
Je parle des données d'offre :
typiquement le périmêtre de GTFS : Google Transit Feed Specification, http://code.google.com/intl/fr/transit/spec/transit_feed_...
ou celui de Chouette http://www.chouette.mobi/normes/spip.php?rubrique18
Deux questions se posent :
Faut il choisir un standard simple et connu des développeurs : GTFS ou une norme, plus complète mais plus complexe comme Chouette ? Rennes et Bordeaux ont choisi GTFS, qu'en pensez vous ?
Dans quelle mesure RDS propose t il (elle ?) il une approche pertinente sur ce sujet ?
En attendant vos contributions, je vais, effectivement, (re)lire le rapport du CERTU sur le sujet.
Christophe
Bonjour
Il existe en France un groupe lié à l'AFNOR (CN03/GT7) qui est en charge des travaux de normalisation des échanges de données pour l'information voyageur (j'assure la présidence de ce groupe).
Plusieurs standards sont disponibles et d'autres en cours d'élaboration.
NEPTUNE (appelé CHOUETTE ou TRIDENT dans les post précédent) est un standard XML de l'AFNOR qui dispose d'une application open source, financée par le ministère, qui permet de lire et éditer ce format, et d'importer d'autres formats standards ou propriétaires (GTFS, Pégase, etc.). Les données sont importées en base de donnée et facilement utilisables pour un développeur. NEPTUNE permet d'échanger l'ensemble d'une offre planifiée (ligne, arrêt, itinéraires, horaires, etc.). La SNCF dispose déjà d'un "guichet unique" pour la diffusion d'information à ce format (quitte à ouvrir des données autant ouvrir celle-là, elles pourront si nécessaire être converties en GTFS par CHOUETTE). NEPTUNE est de plus un format aujourd'hui imposé par la quasi-totalité des cahiers de charge de SIM (Système d'information Multimodaux, et autres systèmes d'information voyageur).
Il existe aussi la norme SIRI (XML aussi), définie au niveau Européen (CEN/TC278/WG3), pour les échanges de données temps réel (heures de passage, position des véhicules, évènements sur le réseau, etc.). Cette norme est déjà largement utilisée en France (STIF, CERTU, Velia-Transdev, Keolis, INEO, etc. et SNCF ….), mais aussi dans toute l'Europe, aux États-Unis (New York), en Israël et en Australie. Vous pouvez télécharger des informations sur le sujet sur http://www.certu.fr/catalogue/p2508/Normalisation_des_ech... ou http://www.stif.info/IMG/pdf/Profil_Siri_IDF_V2-2-STIF-20... .
Pour aller plus loin sur l'offre planifiée, une autre norme (NeTEx) est en développement au niveau européen. Elle permettra de prendre en compte toutes les problématiques d'exploitation (pour les sorties des systèmes dits de graphiquage, comme Hastus pour ceux qui connaissent, ou les SAE, Système d'Aide à l'Exploitation), mais aussi le transport à la demande et les informations de tarification qui font actuellement cruellement défaut.
Enfin, il y a un site dédié aux normes transport: http://www.chouette.mobi/normes/ … tout y est !
Christophe
J'ajoute un petit complément: les normes ci-dessus sont "extensibles" main n'intègre pour l'instant rien concernant RDF. Une telle intégration est toutefois particulièrement intéressante dans le cadre de l'ouverture des données.
J'ai vu que certains d'entre vous semblent avoir un bon niveau d'expertise sur le domaine... si cela vous intéresse, je suis tout prêt à vous accueillir lors d'une réunion du GT7 pour voir ce qu'apporterait RDF et comment l'intégrer à ces normes.
Vincent
Oui Christophe ça m'intéresse. Toutes mes coordonées sont sur http://www.networkvb.com/contacts.php
Laurent
Je crois qu'il ne faut pas choisir entre GTFS et TRIDENT (NEPTUNE). Même si le format GTFS est public, il est propriétaire. Si google décide de le modifier unilatéralement, nous subirons ces choix. Par contre, GTFS est simple (ce qui présente des avantages et des inconvénients d'ailleurs) et mondialement reconnu. NEPTUNE est une norme réellement publique. Bâtie "ensemble" et de façon "ouverte" par les européens. Ce qui à mon avis est plus conforme à l'esprit de l'Open Data. Mais la Gironde par exemple a publié aux deux formats, et je pense que c'est une bonne initiative.
PS ; j'ai lu les données horaires Excel de Longjumeau publiées sur data.gouv.fr, et j'ai trouvé 2 erreurs (il n'y a qu'une feuille !! ci-jointe avec les erreurs entourées si ils veulent corriger)
PPS ; Bonjour Yann ça fait longtemps. Content de voir que tu restes actif dans le domaine.
Yann
Bonnes fêtes à tous,
Merci de vos contributions. Plutôt d'accord avec tout cela... Désolé pour Laurent Briant, mais je ne peux pas corriger les données de Longjumeau :-) Peut être que nous serons rejoins sur ce forum par l'émetteur, qui sait ?
Quelqu'un a t il une exemple d'utilisation "publique" des données publiées au format Trident par la Gironde ?
Roux
Comme souvent, il faut faire attention si l'on veut concrétiser quelque chose d'avancer progressivement. Le RDF est évidemment l'objectif final et ce vers quoi la SNCF comme tous les organismes publics devraient tendre.
Pour autant dans un premier temps, le travail de sémantisation des données (nécessaire pour proposer des RDF) peut s'avérer lourd. S'il est atteignable rapidement, tant mieux.
Autrement, plutôt que de freiner la sortie des données, il est essentiel de les publier au plus tôt et dans un premier temps dans des formats ouverts : CSV et/ou JSON et/ou XML (en opposition aux formats propriétaires comme le xls ...)
Karima
Je vote pour SPARQL à 100% et j'ajouterai qu'il y a aussi la société BorderCloud qui peut aider la SNCF à valoriser ses données (gratuites ou payantes).
Exemple de nos travaux avec l'un de nos projets de recherche avec Sparql.pro :
http://en.sparql.pro/wiki/Category:SPARQL_Query
http://en.sparql.pro
et la doc en français pour les novices :
http://fr.wikiversity.org/wiki/SPARQL_Protocol_and_RDF_Qu...
Karima Rafes
http://www.BorderCloud.com
Pierre
Le W3C a établi un modèle de qualification des projets Open Data, allant de * à ***** selon le niveau de "réutilisabilité" des données.
J'ai découvert récemment ce site (en anglais) qui explique bien cette progression avec un exemple tout simple : http://5stardata.info/
Sylvain
Un exemple intéressant, pour celles et ceux qui voudraient mieux visualiser ce que peut apporter SPARQL et le web sémantique:
http://kasabi.com/dataset/openflights-routes