Service Communautaire d'Information sur la Recherche et le Développement - CORDIS

Tendances scientifiques: Un algorithme de Big Data promet de dénicher le prochain bestseller

Dans un nouveau livre, intitulé «The Bestseller Code: Anatomy of a Blockbuster Novel», deux universitaires de Stanford décrivent comment un algorithme de leur conception peut prévoir, avec une précision de 80 %, les nouveaux romans qui deviendront de grands bestsellers.
Tendances scientifiques: Un algorithme de Big Data promet de dénicher le prochain bestseller
Le secteur de l'édition, tout comme de nombreux autres domaines culturels tels que le cinéma et la télévision, se base sur le succès. Cependant, prévoir avec précision les bestsellers reste un art difficile. En effet, les éditeurs utilisent leur intuition, des estimations et leur connaissance des précédents succès. Bien évidemment, cela ne marche pas à chaque fois; certains des romans les plus vendus et les plus acclamés par la critique ont été rejetés à maintes reprises avant de trouver un éditeur. La liste compte J.K. Rowling avec «Harry Potter à l'école des sorciers», Stephen King avec «Carrie» (refusé 30 fois au total) et Frank Herbert et son œuvre de science-fiction «Dune», pour ne citer que trois auteurs féconds qui ont finalement connu un grand succès lorsqu'ils sont parvenus à trouver un éditeur.

Aujourd'hui, l'algorithme baptisé «bestseller-omètre» par ses créateurs, pourrait aider à ne pas passer à côté d'un succès potentiel. Il se base sur un mouvement du secteur de l'édition, entamé dans les années 2000 avec l'essor des e-books, et vient compléter l'intuition des éditeurs avec les informations du Big Data. L'initiative a été conçue à l'université Stanford en 2008, lorsque l'étudiante en doctorat Jodie Archer et Matthew L. Jockers, un professeur associé d'anglais (désormais à l'université de Nebraska-Lincoln mais qui a contribué à créer le Stanford Literary Lab) ont uni leurs forces pour découvrir comment les ordinateurs pourraient analyser et comprendre les livres d'une façon inaccessible à l'humain.

Examiner les données pour trouver le roman parfait

Après plusieurs années de collaboration, ils ont traité les données de 20 000 romans figurant sur les listes de best-sellers du «The New York Times» en exploitant la puissance de traitement de centaines d'ordinateurs. Ils ont appris à ces ordinateurs à «lire»: essentiellement, entraîner les ordinateurs à déterminer où commencent et où finissent les phrases, identifier les parties du discours, et définir l'intrigue. Ensuite, ils se sont servis d'algorithmes de classification automatique pour isoler les caractéristiques les plus courantes des meilleures ventes. Aujourd'hui, le bestseller-omètre peut prévoir avec une précision de 80 % la probabilité qu'un nouveau roman soit un succès ou un échec.

D'après le bestseller-omètre, quels sont les facteurs clés pour qu'un roman ait le plus de chances de se vendre comme des petits pains? Avoir une jeune héroïne, forte mais perturbée (voir Katniss Everdeen de «Hunger Games» ou Lisbeth Salander de «Millénium: Les Hommes qui n'aimaient pas les femmes») comme personnage principal est un bon début. Ne pas parler de sexe de manière trop explicite mais mettre en avant «les rapprochements humains». Ne pas utiliser trop de points d'exclamations ni trop d'adjectifs et d'adverbes, utiliser fréquemment le verbe «avoir besoin», et si le personnage principal a un animal de compagnie, opter pour un chien et non un chat. Ne pas avoir peur d'être familier – les lecteurs de bestsellers préfèrent un langage plus informel et des phrases comme «beurk» et «OK» sont encouragées. Enfin, les titres des livres sont aussi importants: utiliser un simple nom pour le titre (comme le succès «Le chardonneret» de Donna Tartt ou «The Island» (L'Île des oubliés, de Victoria Hislop).

Le meilleur roman selon l'algorithme

Archers et Jockers attendaient avec impatience de voir quel roman parmi les milliers serait le favori du bestseller-omètre. C'est «Le Cercle» de Dave Eggers qui a été sélectionné, un thriller de 2013 dans lequel une jeune étudiante travaille pour une grande entreprise technologique dont les ambitions obscures consistent à remodeler le monde selon sa propre philosophie qui est de détruire le droit à la vie privée.

Plus spécifiquement, le bestseller-omètre a aimé l'héroïne du livre, le fait qu'«avoir besoin» et «vouloir» étaient ses verbes les plus utilisés et se concentrait sur trois thèmes spécifiques; la technologie, les emplois et le lieu de travail, et les rapprochements humains, ce dernier point étant le sujet prédominant dans tous les bestsellers selon l'algorithme. Plus important, «Le Cercle» est vraiment devenu un bestseller, faisant partie de la liste des bestsellers du «The New York Times» pendant plusieurs semaines.

Néanmoins, Archer a très rapidement détecté l'ironie du choix du besteller-omètre; «Le Cercle» est un roman dystopique qui souligne les dangers du Big Data et l'intrusion croissante de la technologie dans tous les aspects de la vie humaine.

Bien qu'Archer et Jockers n'aient aucune intention de commercialiser leur création, le Big Data devrait davantage imposer sa marque sur le secteur de l'édition, avec la crainte qu'une dépendance plus importante vis à vis des données puisse réduire la diversité des récits, les éditeurs s'intéressant davantage au profit. «Nous craignons de pouvoir homogénéiser le marché et ce n'est pas ce que nous recherchons», commente Archer. «Le message transmis par le bestseller-omètre est, 'Tiens, essaie ce nouvel auteur que tu ne choisirais pas compte tenu de ton budget limité'.»

Source: D'après des communiqués de presse

Informations connexes

Pays

  • États-Unis