European Commission logo
français français
CORDIS - Résultats de la recherche de l’UE
CORDIS
Contenu archivé le 2024-05-24

consortium on discovering knowledge with Inductive Queries

Article Category

Article available in the following languages:

Des données aux connaissances

Les chercheurs croulent sous les données, mais n'ont pas les moyens de récupérer les informations importantes. Ainsi, une approche innovante du recensement des connaissances dans les bases de données a été mise au point.

Économie numérique icon Économie numérique

S'il fallait caractériser l'état de la science à l'orée du troisième millénaire, peut-être conviendrait-il de parler «d'explosion des données». De la physique des particules à la biologie moléculaire, de la neurologie à l'astronomie, presque toutes les sciences expérimentales connaissent une augmentation sans précédent de la quantité et de la complexité des données disponibles. Ces bases de données abondent d'informations scientifiques, fruits d'observations effectuées à l'aide d'instruments de plus en plus sophistiqués et d'une technologie de l'information de plus en plus au point. Le projet CINQ a permis l'application d'une approche originale à l'analyse d'un volume de données aussi vaste, peu structuré en soi et dont la gestion est plutôt complexe. Pour permettre le processus de recensement des connaissances, on a développé des algorithmes d'extraction des données intelligents, afin d'isoler des ensembles de données et de fournir ainsi une présentation compacte et sémantiquement riche de données brutes hétérogènes. Afin de mieux intégrer les données et les ensembles de connaissances qu'elles contiennent, les partenaires du projet CINQ ont utilisé le concept de bases de données inductives. Dans les bases de données inductives, on a pu utiliser des questions ordinaires pour accéder aux données et les manipuler, alors que les questions inductives ont permis l'extraction de structures, notamment des articles apparaissant fréquemment ensemble et des règles d'association. Le recensement de connaissances dans les bases de données inductives s'est ainsi converti en un processus de recherche étendu que l'analyste peut contrôler en spécifiant les données ou les structures qui l'intéressent. L'obtention d'un langage de recherche approprié figurait parmi les objectifs du projet CINQ qui se poursuit dans le projet IQ actuel, financé dans le cadre du sixième programme-cadre (6e PC). Même si de nombreux efforts ont été consacrés à l'application de recherches de structures pour l'extraction des informations disponibles dans les pages web, ce sont les défis scientifiques liés au génome fonctionnel qui ont accaparé l'attention du projet CINQ. La plupart des techniques d'analyse disponibles pour les données d'expression des gènes utilisent des algorithmes de groupes qui tentent d'établir des groupes de gènes dont l'expression est corrélée dans différentes situations biologiques. Comme leur validité biologique est sujette à caution, on a proposé des algorithmes d'extraction des données exploratoires qui cherchent des règles descriptives dans les données recueillies par analyse série de l'expression des gènes (SAGE) ou dans les microstructures d'ADN.

Découvrir d’autres articles du même domaine d’application