Optimiser les algorithmes d'optimisation
Comme exemple de ces très gros ensembles de données, qui se présentent de plus en plus souvent dans divers contextes, citons les journaux de trafic Internet et les transactions financières. Pour gérer et analyser de tels ensembles de données, les scientifiques sont obligés de revoir les approches classiques de conception d'algorithmes d'optimisation. Les algorithmes d'optimisation servent à évaluer les compromis dans les concepts, et à dégager des motifs dans les ensembles de données. De leur côté, les algorithmes d'apprentissage statistique tentent souvent de trouver des caractéristiques pour faciliter la catégorisation des tâches. Le fait de déterminer l'ensemble de caractéristiques le plus petit mais doté de la valeur prédictive maximale, est un problème d'optimisation. Les scientifiques du projet SUBLINEAROPTML (Sublinear optimization for machine learning), financé par l'UE, ont conçu des algorithmes infra linéaires pour résoudre de tels problèmes d'optimisation. Ils associent des techniques sophistiquées d'échantillonnage avec une implémentation randomisée d'algorithmes d'apprentissage en ligne. Les algorithmes d'apprentissage en ligne établissent une prévision pour chaque élément d'un flux de données, et ils utilisent les retours pour améliorer l'exactitude des prévisions suivantes. Au contraire de l'apprentissage statistique, ils ne font aucune hypothèse sur les données en entrée. Les nouveaux algorithmes utilisent la randomisation pour élaguer les données et générer des solutions correctes, dans un délai plus court que celui de la représentation des données (délai dit infra linéaire). Les scientifiques du projet ont montré que le délai d'exécution de la plupart de ces algorithmes est minimal lorsqu'ils utilisent la mémoire vive (RAM). Les algorithmes du projet peuvent être étendus à des versions kernélisées de ces problèmes, y compris ceux d'optimisation des machines à vecteur de support, pour lesquels il n'existait pas de solveurs infra linéaires. Ces progrès dans l'apprentissage statistique ont été présentés lors de plusieurs conférences internationales. Le projet SUBLINEAROPTML s'est traduit par une méthode potentiellement plus efficace pour aider les ordinateurs à résoudre certains des problèmes d'optimisation les plus difficiles qu'ils rencontrent. Un jour, il se peut qu'un routeur utilise ces algorithmes pour trouver le chemin le plus rapide au sein d'un réseau encombré.
Mots‑clés
Algorithmes d'optimisation, apprentissage automatique, très gros ensembles de données, problèmes d'optimisation, algorithmes d'apprentissage