En vedette - Une technologie de recherche pour évaluer les opinions et prédire l'avenir

Inspirée par un système de catégorisation d'ouvrages par un bibliothécaire indien il y a de cela plus de 50 ans, une équipe de chercheurs financés par l'UE a développé un nouveau type de recherche en ligne qui prend en compte des facteurs tels que l'opinion, les partis pris, le contexte, le temps et la localisation. Cette nouvelle technologie, qui pourrait bientôt être commercialisée, peut afficher des tendances d'opinion publique sur un thème, une entreprise ou un individu sur le temps, et peut même être utilisée pour prédire l'avenir.

Économie numérique

«Une recherche avec le mot 'climat' sur Google ou sur un autre moteur de recherche donne une liste de résultats contenant ce mot; il n'y a aucune catégorisation, aucun ordre spécifique et aucun contexte. Les moteurs de recherche actuels ne prennent pas en compte les dimensions de la diversité, à savoir des facteurs tels que la date de publication des informations, l'existence possible d'un parti pris quant à une opinion ou une autre inhérent au contenu et à la structure, l'auteur ou l'époque de la publication», commente Fausto Giunchiglia, professeur d'informatique à l'université de Trente, en Italie. Mais la technologie des moteurs de recherche peut-elle être adaptée afin d'identifier et de comprendre la diversité? Un moteur de recherche peut-il préciser, par exemple, l'évolution de l'opinion publique sur le réchauffement planétaire ces dernières années? Peut-il déterminer si l'été sera chaud dans un siècle en associant les estimations actuelles et antérieures issues de plusieurs sources différentes? Il semblerait bien que oui, et ce grâce à une combinaison révolutionnaire de la science moderne et d'une méthode d'indexation découverte il y a plusieurs décennies par des chercheurs européens travaillant dans le cadre du projet LivingKnowledge(s’ouvre dans une nouvelle fenêtre) (1). Soutenu par un financement de 4,8 millions d'euros de la Commission européenne, l'équipe du projet LivingKnowledge, coordonnée par le professeur Giunchiglia, a adopté une approche pluridisciplinaire pour développer une nouvelle technologie de recherche, en se basant sur des domaines aussi variés que l'informatique, les sciences sociales, la sémiotique et la bibliothéconomie. En effet, considéré comme le père de la bibliothéconomie, Sirkali Ramamrita Ranganathan, un bibliothécaire indien, a servi d'inspiration aux chercheurs du projet. Dans les années 1920 et 1930, Ranganathan a développé le premier système de classification de bibliothèque analytico-synthétique (ou à facettes). En utilisant cette approche, les objets (dans le cas de Ranganathan les livres, dans le cas de l'équipe LivingKnowledge les contenus des bases de données et d'Internet) sont assignés plusieurs caractéristiques et attributs (facettes), permettant une classification ordonnées de plusieurs manières et non selon un ordre taxonomique unique et prédéterminé. En utilisant ce système, un article traitant des effets du réchauffement planétaire sur l'agriculture rédigé en Norvège en 1990 peut être classé dans «Géographie; Climat; Changement climatique; Agriculture; Recherche; Norvège; 1990.» Pour mieux comprendre le système d'indexation et l'appliquer à la technologie des moteurs de recherche, les chercheurs de LivingKnowledge se sont tournés vers l'Institut indien de statistique, un partenaire du projet, qui utilise la catégorisation à facettes quotidiennement. «En exploitant leurs connaissances, nous avons pu transposer le pseudo-algorithme de Ranganathan en un algorithme informatique, et nos informaticiens ont pu l'utiliser pour l'extraction de données issues d'Internet, et ainsi extraire leur signification et contexte, leur assigner des facettes et les utiliser pour structurer les informations en fonction des dimensions de la diversité», explique le professeur Giunchiglia. Les chercheurs de l'université de Pavie, en Italie, également partenaire du projet, se sont appuyés sur leur expertise pour extraire la signification du contenu web, pas seulement de contenu multimédia ou du texte, mais également de la manière dont les informations sont structurées et disposées, en vue d'en déduire des partis pris et des opinions, apportant une autre facette aux données. «Nous avons pu identifier le parti pris des auteurs sur un thème donné et déterminer si leurs opinions étaient positives ou négatives», explique le coordinateur du projet. «Les faits sont des faits, mais toute information sur un évènement, ou sur tout sujet, est souvent influencée par une opinion ou un parti pris.» Des bibliothèques de 1930 aux missions spatiales en 2034... Cette technologie a été appliquée dans le cadre d'un banc d'essai, actuellement disponible en tant que logiciel en accès ouvert, et a été utilisée pour des tests basés sur deux scénarios d'application intéressants. En collaboration avec l'institut autrichien de recherche sociale SORA, l'équipe a utilisé le système de LivingKnowledge pour identifier les tendances sociales et suivre l'opinion publique en termes quantitatifs et qualitatifs. Utilisé pour l'analyse de contenu média, ce système pourrait aider une entreprise à comprendre l'impact d'une nouvelle campagne publicitaire, montrant comment il a affecté la reconnaissance de la marque dans le temps et quels sont les groupes sociaux les plus réceptifs. De même, un gouvernement pourrait utiliser ce système pour évaluer l'opinion publique sur une nouvelle politique, ou une personnalité politique pourrait l'utiliser de la manière la plus acceptable devant l'opinion publique pour contrer les revendications de son adversaire. À l'aide de Barcelona Media, une fondation pour la recherche sans but lucratif soutenue par Yahoo! et avec l'aide de l'Internet Memory Foundation aux Pays-Bas, l'équipe de LivingKnowledge a examiné les tendances actuelles et passées, mais les a extrapolé et a déterminé des prévisions extraites des données existantes pour tenter de prédire l'avenir. Leur application Future Predictor est capable de réaliser des recherches basées sur des questions comme «Quel sera le prix du pétrole en 2050?» ou «Quelle sera l'augmentation des températures mondiales au cours des 100 prochaines années?» et de trouver des informations et prévisions pertinentes provenant de l'Internet actuel. Par exemple, une recherche pour 2034 indique que le terme «voyage dans l'espace» est le sujet indexé le plus pertinent des actualités d'aujourd'hui. «Dans l'immédiat, ce scénario d'application offre une fonctionnalité pour la détection des tendances avant que ces tendances n'apparaissent dans les évènements d'actualités, en fonction des capacités de navigation et de recherche intégrées pour la recherche d'informations multidimensionnelles dépendant du contenu, du parti pris et du moment», explique le professeur Giunchiglia. Plusieurs partenaires du projet espèrent commercialiser la technologie, et le coordinateur du projet a l'intention de créer une fondation à but non lucratif pour s'appuyer sur les résultats de LivingKnowledge au moment où la demande pour ce genre de technologie sera plus forte. Comme le fait remarquer le professeur Giunchiglia, Google a fondamentalement changé le monde en offrant à tous un accès au monde de l'information, mais l'a fait uniquement pour l'homme: en effet, à l'heure actuelle, seuls les hommes peuvent comprendre la signification de toutes ces données, aussi la surcharge d'informations est-elle un problème fréquent. Alors que nous nous rapprochons d'une ère caractérisées par des «données massives» (big data en anglais) dans lequel tout et n'importe quoi est accessible par un simple clic, la signification de ces informations doit être comprises par l'homme, mais également par les machines, de manière à ce que la quantité soit assimilée avec la qualité. L'approche de LivingKnowledge aborde ce problème. «Lorsque nous avons lancé ce projet, personne ne parlait des données massives. Mais maintenant, ce terme est constamment utilisé et un intérêt croissant se fait ressentir pour ce type de technologie», explique le professeur Giunchiglia. «L'avenir sera fortement marqué par ces données massives; on ne peut pas savoir aujourd'hui si c'est une bonne chose ou non, mais une chose est sûre, c'est que sera différent.» Avec l'application Future Predictor, le professeur Giunchiglia est bien placé pour savoir de quoi il parle. LivingKnowledge a reçu un financement au titre du septième programme-cadre (7e PC) de l'Union européenne. (1) 'LivingKnowledge facts, opinions and bias in time' Liens utiles: - Site web du projet LivingKnowledge facts, opinions and bias in time(s’ouvre dans une nouvelle fenêtre) - Fiche d'information du projet VENUS-C sur CORDIS(s’ouvre dans une nouvelle fenêtre)

Télécharger Télécharger le contenu de la page