Chargement en cours

Synthèses rédigées par les étudiants du cours de Culture numérique

L’Open Data dans la Science

Prochain Changement du Paradigme?

Lozano, Verónica Laura- Master GREEN
L´« Open Data » est une perspective d´utilisation des données qui a déjà changé la manière de management et d´utilisation des informations publiques, cependant dans la communauté scientifique elle reste à développer. Dans cet article sont abordés les défis de l´OD dans la Science.
(déposé le 2014-12-19 11:02:40)

Introduction

« Open Data » (OD) c´est l´idée que certaines informations doivent être de libre accès pour  son utilisation et libre de droit d´auteur. Dans la démarche de « Software Libre », « Open Source » et « Open Access », l’OD vient consolider des tendances dans l´heure numérique permettant de démocratiser l’accès à l´information mais aussi de maximiser les possibilités vis-à-vis d´opportunités immenses qu´elle nous donne. Même si il semble être une idée nouvelle, pour certains l´OD remonte  à l´époque des Lumières et actuellement le numérique renforce la capacité de le mettre en place. On verra dans cet article les opportunités dans le milieu scientifique  et les nombreuses inconvénients qui se présentent: confrontation d´intérêts et de pratiques, le management et les ressources.

Antécédents dans l´heure Numérique: OD dans les données publiques

Dans les dernières années l’OD est en train de se développer dans les gouvernements à travers l´ouverture de certaines informations publiques. Ce processus consiste à rendre public des données des Etats aux citoyens sur des portails informatisés sur internet. Déjà en 1966 les Etats Unis avaient promulgué la première loi d’accès des citoyens à l´information publique (1) mais l´Union Européenne en fera de même seulement à partir de 2003 (2).

L´Open Data à la Loupe
L´Open Data à la Loupe (Vidéo)

Vidéo

Spot de présentation de la démarche d'ouverture des données numériques publiques, initié par LiberTIC, soutenu par Nantes Métropole et réalisé par A2B Production en licence Art Libre.
Yann BRESSON
Licence : Creative commons - by

L´importance de ce processus est qu´il permet de garantir non seulement la transparence mais aussi de rendre le système démocratique plus performant pour le partage d´information qui mobilise la participation et l´engagement citoyen. D´autre part des chercheurs peuvent utiliser cette information, et dans le champ économique plusieurs avantages pourraient naitre parce que des entrepreneurs peuvent s´en servir pour développer des innovations dans l´univers de l´informatique et des télécommunications. Plusieurs économistes et politiques focalisent sur les avantages et opportunités que ce type de dynamique pourrait donner à la dématérialisation de l´économie. La Commission Européenne elle-même a chiffré à plus de 27 milliards d’euros ce marché. 

Comme exemples on peut trouver des sites d´information publique de France ou des Etats Unies.

Plateforme ouverte des données publiques françaises

Plateforme ouverte des données publiques françaises

ETALAB
Licence : Domaine Public
Source : data.gouv.fr

Site d´Open Data du Gouvernement d´Etats-Unies

Site d´Open Data du Gouvernement d´Etats-Unies

Licence : Domaine Public

Dans le champ de l’information publique on peut parler d´expériences réussies et qu´elles sont en train de se multiplier.

Open Data dans la Science

Dans le champ scientifique, les études sur le climat (3) et la chimie (4) ont développé des systèmes de partage de l´information et des données. Par exemple, le développement de la connaissance en cristallographie aurait été impossible sans le partage des structures trouvées, Peter Murray-Rust estime que peut être des milliers d´articles ont été rédigés grâce au partage de ces données.   D´autre part  l´ère génomique a été un des pionniers dans l´utilisation de « Big Data » partagée, on pourrait dire que le grand développement de la question génomique n´aurait pas été possible sans le partage de l´information en banques de données comment GenBank® (5).

Pour Peter Murray-Rust "An important concept of Open Data is « re-use »…this represents the use of the data, normally without explicit permission, for studies foreseen or not foreseen by the original creator” “…I assert axiomatically that data, per se, is valuable for re-use.”  La différence entre avoir accès aux données et  pouvoir les réutiliser librement est fondamentale, seulement avec la réutilisation c´est possible de créer de nouvelles connaissances et des applications.

En 2003, Geneviève Fioraso, ministre de l´enseignement supérieur et de la recherche française dirait : « L´information scientifique est un bien commun qui doit être disponible pour tous ». La disponibilité peut être prise comme l´accès ou comme l´accès et la réutilisation, c´est là qui commence une opposition très important dans le milieu scientifique pour l´utilisation des donnés brutes obtenues dans la démarche de recherche: Est-ce que ces données sont des œuvres humaines sujettes à droits d´auteur ou Est-ce que ils sont des faits passibles d´être réutilisables sans demander l´autorisation? On pourrait prendre un exemple pour l´illustrer:

Nous sommes intéressés par comparer les courbes de température des différentes substances à celle d´une nouvelle que on vient de synthétiser. Plusieurs données des autres substances sont-elles publiées dans des différents journaux, est ce qu´on pourrait simplement utiliser ces données pour faire notre courbe de comparaison?

La reponse est Non, aujourd´hui on aurait besoin de demander à chaque journal l´autorisation de le faire parce qu´ils considèrent que ces données sont sujettes à droits d´auteur. Si on laisse de côté le temps perdu ou le besoin de répéter tous ces expériences, on pourrait se demander:

Est-ce que le courbe de température de l´eau pourrait-elle être sous droit d´auteur? Est-ce que le chercheur pourrait avoir obtenu des données différentes? Les données de la nature sont-elles des œuvres humaines?

C´est là  qui commence la discussion sur les efforts de l´obtention de ces données mais aussi des implications dans le système concurrentiel scientifique et marchand. Aujourd´hui c´est tout à fait possible de faire des articles de recherche à partir de la seule utilisation des données disponibles comme GenBank®, cependant, comme on peut lire dans les conditions d´usage de cette information, quelques déposants pourraient réclamer des droits d´auteur.   

Utilisation des Donnés de GenBank®

Utilisation des Donnés de GenBank®

Licence : Domaine Public

Autre concept qui vient à renforcer l´utilisation d´OD dans la Science est la « eScience » (voir Zimmerman 2008) dont le focus est l´utilisation de l´heure digitale dans le partage et réutilisation des données scientifiques.

L´ouverture des données scientifiques pourrait avoir des effets très importants dans la recherche fondamentale ainsi que dans la recherche appliquée, parce qu´elle pourrait diminuer les ressources gaspillés dans la répétition des expériences mais aussi parce que le partage pourrait réduire les écarts dans les possibilités technologiques des différents pays. Ces inégalités sont très grandes dans des champs comment la génomique, qui avec les nouvelles techniques de séquençage par exemple, diminue parfois par mille le temps de manipulation. De plus, dans les cas des expérimentations avec des animaux, qui est une des controverses actuelles, la mise en partage de toutes les données pourrait diminuer significativement les nombres d´animaux utilisés, mais il existe de nombreux inconvénients à une démarche de OD dans la Science:

  - Les conflits avec les copyrights des journaux scientifiques

  - Le management des données

  - Les ressources matérielles et humaines pour garantir un développement des bases de données en accord avec les besoins et attentes de la communauté scientifique

  - Le changement des pratiques de publication

  - Les intérêts économiques des industriels et la concurrence du marché

Une des pratiques actuelles qui pourrait se renforcer est appelée "Supplementary Data", dans certaines disciplines les auteurs sont habitués à publier les donnes brutes, cependant les journaux considèrent que cette information est sous les mêmes droits que le publication et pourtant elle n´est pas libre de réutilisation. Même si les auteurs arrivent à mettre à disposition les données, si ces données ne sont part d´une plateforme commun et avec une codification homogène le travail de réutilisation pourrait être très difficile (6).

Il existe déja des sites pour partager et utiliser des donnés brutes de la recherche, par exemple l´OSDC (Open Science Data Cloud)  fournit à la communauté scientifique des ressources pour le stockage, le partage et l'analyse des données scientifiques.

Open Science Data Cloud

Open Science Data Cloud

Licence : Licence inconnue -- D.R.

Mais l´organisation de ce type de structures et le management va requérir des ressources financières et des ressources humaines spécialisées. Comment financer des plateformes de partage des données puissantes et pratiques reste à débattre, est-ce que les disciplines qui ne disposent pas de très grands ressources pourraient les développer de la même manière?

Conclusions et Perspectives

L´OD dans la Science pourrait être un des grands changements du XXIème siècle. La potentialisation de l´intégration des informations sera sans doute le challenge scientifique de l´époque, sans le partage et réutilisation des données on ne parviendra pas à dépasser les limites actuelles. Cependant il existe de nombreux obstacles qu´il faudra dépasser, le changement des règles et d´habitudes dans la communauté scientifique est peut-être le plus grand défi.

Bibliographie et Ressources

ARTICLES

CNRS (2014) Mieux Partager les Connaissances. Une Stratégie ouverte pour une information scientifique et technique d´avenir. http://www.cnrs.fr/dist/z-outils/documents/STRATEGIE.pdf

Murray-Rust, Peter (2008) Open Data in Science. NaturePrecedings. http://precedings.nature.com/documents/1526/version/1/files/npre20081526-1.pdf

Zimmerman, Ann.(2007)  Not by Metadata Alone: The Use of Diverse Forms of Knowledge to Locate Data for Reuse.  http://scientificdatasharing.com/wp-content/uploads/2011/02/Zimmerman_Not-by-metadata-alone_2007.pdf

Zimmerman, Ann.(2008) New Knowledge from Old Data: The Role of Standards in the Sharing and Reuse of Ecological Data.  http://scientificdatasharing.com/general/interview-with-susanna-assunta-sansone/

SITES

OSDC  (Open Science Data Cloud)  https://www.opensciencedatacloud.org/

Partage des donnés des essais cliniques : http://scientificdatasharing.com/core/sharing-data-from-clinical-trials-where-we-are-and-what-lies-ahead/

FOIA (USA) https://www.cms.gov/Regulations-and-Guidance/Legislation/FOIA/downloads/FOIAHandbook.pdf

Directive 2003/98/CE du Parlement européen concernant la réutilisation des informations du secteur public

http://eur-lex.europa.eu/LexUriServ/LexUriServ.do?uri=CELEX:32003L0098:FR:HTML

 

Documents associés complémentaires

(No title provided)

Image Ainsley Seago. Dans Roche DG, Lanfear R, Binning SA, Haff TM, Schwanz LE, et al. (2014) Troubleshooting Public Data Archiving: Suggestions to Increase Participation. PLoS Biol 12(1): e1001779.
Licence : Creative commons - by
 

Notes de lecture

"Mieux Partager les Connaissances"

"Open Data in Science"