Idea Transcript
© Librairie Arthème Fayard et Collège de France, 2018. ISBN : 978-2-213-71368-7 Dépôt légal : septembre 2018.
Table des matières Couverture Page de titre Page de Copyright Leçon inaugurale prononcée le jeudi 11 janvier 2018 par Stéphane Mallat, professeur Chapitre 1 Modélisation, prédiction et intelligence artificielle Algorithmes d'apprentissage supervisé Généralisation et régularité Malédiction de la grande dimension Modèles parcimonieux multiéchelles Apprentissage supervisé et réseaux de neurones Régularités mathématiques en grande dimension Conclusion Références Les leçons inaugurales du Collège de France Les leçons inaugurales publiées dans la collection Collège de France / Fayard
Leçon inaugurale prononcée le jeudi 11 janvier 2018 par Stéphane Mallat, professeur LEÇON INAUGURALE N O 276
Monsieur l’Administrateur, Chers collègues et amis, Mesdames et Messieurs, Chers Gérard Berry et Alain Prochiantz, je voudrais d’abord vous remercier de votre accueil, et d’avoir porté la création de cette nouvelle chaire, avec Pierre-Louis Lions et Antoine Georges. C’est pour moi un grand honneur et un plaisir de venir raconter au Collège de France l’émergence impressionnante des sciences des données, et les nombreuses questions nouvelles qu’elles suscitent. Comme vous vous en doutez, cette discipline n’est pas l’héritière d’une longue histoire au Collège de France, et cependant elle s’inscrit au cœur de problématiques qui sont abordées ici depuis plusieurs siècles. L’objectif déclaré des sciences des données est d’extraire de la connaissance d’ensembles de données. En soi, il n’y a là rien de nouveau. Extraire de la connaissance de données est au cœur des méthodologies développées par les sciences et les sciences humaines, qui sont représentées au Collège de France aussi bien par la physique que par l’égyptologie, en passant par la biologie, l’économie ou l’anthropologie. Néanmoins, la perspective apportée par les mathématiques et l’informatique est différente. Un peu comme en philosophie, on veut non seulement comprendre les aspects génériques de cette extraction de connaissances, mais aussi traduire ces principes sous forme d’algorithmes pouvant être programmés sur des ordinateurs. Les applications des sciences de données sont considérables pour stocker, analyser et valoriser les masses de données acquises dans tous les domaines des sciences, de l’industrie, des services et de nos interactions sociales. Ainsi, nos téléphones portables sont maintenant capables de reconnaître nos visages, de transcrire notre parole ou de répondre à des questions, alors qu’ils ne servaient qu’à téléphoner il y a cinq ans. Mais je voudrais aujourd’hui vous parler des questions scientifiques fondamentales que cela soulève, et qui sont en lien avec la pratique des sciences et des sciences humaines, dans tous les domaines. La chaire s’intitule « Sciences des données », au pluriel, car cette nouvelle discipline est une sorte d’auberge espagnole, où cohabitent des approches et cultures scientifiques totalement différentes, qui s’enrichissent mutuellement.
Cela inclut non seulement les mathématiques, notamment les statistiques, mais aussi l’informatique et l’intelligence artificielle, le traitement du signal et toutes les sciences – comme la physique, la biologie, l’économie ou les sciences sociales – qui modélisent et traitent des données. Il ne s’agit donc pas de tracer les frontières d’un nouveau domaine, mais au contraire d’apporter une vision et un langage communs à des sciences différentes, ce qui est la vocation et le charme des mathématiques appliquées. C’est ce point de vue que je voudrais développer, tout en restant enraciné dans les applications, qui sont sources de problèmes nouveaux, de créativité et d’idées.
MODÉLISATION, PRÉDICTION ET INTELLIGENCE ARTIFICIELLE Pour développer un point de vue générique, on va considérer n’importe quel type de données numériques : sons, images, textes, données médicales, mesures physiques ou données issues de réseaux sociaux. Un point commun à toutes ces données est qu’elles incluent toutes un grand nombre de variables. L’enregistrement d’un son a environ 104 échantillons par seconde, une image a souvent plus d’un million de pixels, ce petit texte a 5 × 104 caractères, et bien sûr la physique reste la reine de la grande dimension avec des systèmes dont le nombre de variables dépasse 1024 (nombre d’atomes dans quelques grammes de matière). On verra que cette grande dimension est source de toutes les difficultés. Le traitement de données concerne indifféremment n’importe lequel de ces exemples et bien d’autres, même si je prendrai souvent des exemples d’images par simplicité. On peut distinguer deux types de problèmes en sciences des données : la modélisation et la prédiction. Un modèle décrit la variabilité des données et permet d’en générer de nouvelles. On l’utilise pour comprimer et donc pour stocker des données avec le moins de mémoire possible, ou pour les transmettre efficacement. Avec un modèle, on peut aussi éliminer des erreurs introduites dans les données, ou resituer des données complètes à partir de mesures partielles. Ainsi, on peut restaurer des images médicales de haute qualité avec un nombre de mesures réduites, afin de minimiser l’exposition des patients. La modélisation est au cœur du traitement du signal, qui a de
nombreuses applications, notamment dans le domaine des télécommunications. Une prédiction a pour but d’estimer la réponse à une question à partir de données. Ces prédictions sont faites par des algorithmes d’apprentissage statistique, qui sont à l’origine du renouveau de l’intelligence artificielle. Les applications sont considérables. En vision par ordinateur, on interprète le contenu des images, par exemple pour reconnaître une personne, un animal ou une ville. Des algorithmes traduisent des textes sur Internet. En médecine, ces techniques apportent une aide au diagnostic pour personnaliser les prescriptions à partir de données génomiques ou épigénétiques, par exemple en cancérologie. Sur un réseau social, les informations diverses ou des likes sont des données à partir desquelles on peut prédire des choix politiques, des préférences musicales, la consommation de crème au chocolat ou de drogues [14]. Les algorithmes d’apprentissage ont fait des progrès spectaculaires ces dernières années, non seulement grâce à l’accélération des vitesses de calcul des ordinateurs et aux masses de données collectées dans tous les domaines, mais aussi grâce à l’évolution des algorithmes. Les réseaux de neurones profonds ont obtenu des résultats spectaculaires, qui, dans certains cas, sont proches ou dépassent les performances humaines pour la vision, l’analyse de sons, l’analyse du langage, ou pour des jeux de stratégie comme le go, dont le champion du monde a été battu par un réseau de neurones. Pourtant, d’un point de vue mathématique, on comprend mal les raisons de ce succès. Je vais commencer par décrire le fonctionnement des algorithmes d’apprentissage avant d’expliquer le cheminement mathématique permettant d’analyser l’essence de l’apprentissage.
ALGORITHMES D’APPRENTISSAGE SUPERVISÉ Je noterai x une donnée et y la réponse à une question. S’il s’agit de reconnaître un animal dans une image, alors x sera une image et y le nom de l’animal. Un algorithme d’apprentissage prend la donnée x en entrée et calcule une estimation y˜ de la réponse y. Un tel algorithme a la particularité d’inclure un grand nombre de paramètres, qui sont des coefficients dont les valeurs ne sont pas fixées à l’avance.
Les valeurs des paramètres de l’algorithme sont optimisées lors de la phase d’apprentissage. L’apprentissage est supervisé lorsque l’algorithme s’entraîne sur des exemples de données pour lesquelles on lui fournit la réponse. Le nombre d’exemples peut être très grand. On notera xi chaque donnée d’entraînement et yi la réponse associée. Cela peut être des images xi avec les noms yi des animaux dans ces images. Lors de la phase d’apprentissage, les paramètres de l’algorithme sont ajustés pour qu’il fasse le moins d’erreurs possible sur les réponses qu’on lui a données. Autrement dit, il faut que les réponses y˜i calculées à partir des données xi soient aussi proches que possible des bonnes réponses yi. Lorsque cette phase d’apprentissage est terminée, l’algorithme est totalement configuré. Il peut alors calculer une prédiction y˜ de la réponse y pour de nouvelles données x qu’il n’a jamais rencontrées. La difficulté principale est de garantir que l’algorithme généralise bien, autrement dit que l’erreur de prédiction entre y˜ et y reste petite pour des données x inconnues. Le but est de trouver des algorithmes qui produisent une erreur de généralisation qui soit aussi petite que possible, en moyenne sur les données que l’on rencontre typiquement. Cette erreur est estimée lors d’une phase de test. On quantifie l’erreur entre y˜ et y, en moyenne sur des données x qui sont différentes des exemples xi utilisés pour l’apprentissage. Cette capacité de généralisation peut sembler un peu magique de prime abord, mais nous allons voir qu’elle est fondée sur une idée simple : l’existence de régularités exploitées par l’algorithme d’apprentissage. Comprendre la nature de cette régularité sera le fil d’Ariane de cette conférence. Développer des algorithmes d’apprentissage qui se généralisent est une recherche qui s’inscrit dans un triangle entre informatique, applications et mathématiques. Les données ne parlent pas toutes seules. Un algorithme doit utiliser des informations a priori sur le lien entre la donnée x et la réponse y. Cette information a priori provient de connaissances et de modèles issus du domaine d’application, qu’il faut encapsuler dans l’algorithme d’apprentissage. L’informatique se concentre sur le développement d’algorithmes et leurs programmations sur des ordinateurs, pour traiter une masse potentiellement considérable des données. Les mathématiques essayent plutôt de dégager les principes selon lesquels ces algorithmes sont ou non capables de bien
généraliser. Qu’est-ce que l’algorithme apprend lors de la phase d’apprentissage ? Quelle est la nature de la connaissance a priori ? Ce sont des questions qui doivent être formalisées. Cela fait appel à de nombreuses branches des mathématiques, au premier rang desquelles se trouvent les statistiques, mais aussi les probabilités, l’analyse et la géométrie. Cependant, l’explosion récente des performances des algorithmes d’apprentissage ne résulte pas de travaux mathématiques. Comme souvent en science, sans doute fallait-il la liberté d’expérimentateurs de grand talent pour montrer la voie. Cela a été permis par
Figure 1. Prédiction de l’état y de l’eau (glace, liquide ou vapeur), en fonction d’une donnée x de température et de pression, représentée par un point dans le plan température-pression. La classe y de chaque exemple d’entraînement est indiquée par une marque : un point noir pour la glace, un anneau noir pour l’état liquide et un point blanc pour la vapeur. Les domaines de température-pression des trois états physiques sont séparés par une frontière indiquée en trait plein. La frontière estimée par l’algorithme du plus proche voisin est montrée en pointillés. L’algorithme fait des erreurs de généralisation sur les données (points) situées entre la vraie frontière en trait plein et son estimation en pointillés.
l’augmentation prodigieuse des vitesses de calcul et des masses de données, ainsi que par le formidable travail algorithmique de nombreux informaticiens. Pour dégager l’essence mathématique de ces résultats expérimentaux, il faut commencer par les comprendre. La manipulation de données sur des challenges (que j’évoquerai à la fin de cette leçon), est une bonne façon de garder les pieds sur terre. Je vais maintenant aborder le point de vue des mathématiques.
GÉNÉRALISATION ET RÉGULARITÉ La capacité de généraliser d’un algorithme est liée à l’existence d’une
forme de régularité sous-jacente, connue a priori. L’algorithme exploite cette régularité pour calculer les valeurs inconnues à partir des exemples connus. Le problème mathématique sera de définir précisément cette notion de régularité. Je vais commencer par un problème simple, que l’on rencontre dès le lycée. On veut connaître l’état y de l’eau (glace, liquide ou gaz) en fonction de sa température v1 et de la pression v2 dans un récipient. La donnée x = (v1,v2) regroupe les d = 2 variables de température et de pression. Chaque donnée x peut donc être représentée par un point dans le plan températurepression. On saura prédire exactement l’état y de l’eau si l’on connaît les frontières entre les domaines du plan température-pression où l’eau est sous forme de glace, de liquide ou de vapeur. Ces frontières sont illustrées par des traits pleins dans la figure 1. La prédiction se fait à partir d’exemples xi de température et de pression pour lesquels on connaît l’état yi de l’eau. Ces exemples sont illustrés par des points dont la marque dépend de yi dans la figure 1. Pour une nouvelle donnée de température et de pression x = (v1, v2), on veut calculer une prédiction y˜ de l’état y de l’eau. L’algorithme du plus proche voisin est particulièrement simple. Il cherche l’exemple xi de température et pression (v1, v2) qui est le plus proche de x, et il estime que l’eau sera dans le même état : y˜ = yi. Essayons maintenant de comprendre à quelles conditions cet algorithme se généralise bien. La généralisation est liée à l’existence d’une régularité qui permet d’extrapoler ce que l’on a appris sur les exemples. La prédiction associe à un x une classe ou une autre. Cela définit des frontières entre des domaines pour lesquels les prédictions y˜ sont différentes, illustrées en pointillés dans la figure 1. Les prédictions sont donc différentes à gauche et à droite de chaque frontière. Les frontières d’un algorithme de plus proche voisin sont équidistantes entre des exemples xi de classes différentes. L’algorithme fait une erreur de généralisation uniquement sur les données x situées entre la vraie frontière (trait plein) et celle du prédicteur (pointillés). Il fait donc peu d’erreurs de généralisation si la frontière estimée est proche de la vraie frontière. Pour cela, il suffit que la vraie frontière soit régulière, et que l’on ait assez de données d’entraînement xi de part et d’autre de cette frontière. Tout cela ne semble donc pas si compliqué.
MALÉDICTION DE LA GRANDE DIMENSION Les problèmes d’apprentissage deviennent très difficiles lorsque la donnée x = (v1, …, vd) est définie par un grand nombre d de variables. On se retrouve confronté à la malédiction de la grande dimension, qui invalide l’approche que nous avons utilisée précédemment. L’algorithme du plus proche voisin cherche l’exemple d’entraînement xi qui est le plus proche de x, et estime que la réponse associée à x est la même que pour xi : y˜ = yi. Pour commettre peu d’erreurs, il faut qu’il existe effectivement un exemple xi proche de x ; or nous allons voir qu’en grande dimension cela demande un nombre d’exemples tellement gigantesque que c’est impossible. Prenons le cas d’une image x = (v1, …, vd) où le nombre d de variables (pixels) est typiquement supérieur à un million. Chaque v spécifie l’intensité lumineuse d’un pixel de l’image, comprise entre 0 et 1. Si v = 0, alors le pixel est noir, et si v = 1, alors il est blanc. Chaque image xi peut être considérée comme un point, qui a d coordonnées (v1, …, vd) entre 0 et 1. C’est donc un point dans un hypercube [0, 1] d difficile à imaginer, qui a d axes, autrement dit d dimensions. Pour qu’un exemple xi soit proche de x, il faut que toutes les variables de x et de xi soient quasiment les mêmes. Si on veut que la distance entre x et xi soit plus petite que 1/10, il faut que la différence entre chacune des variables de x et xi soit inférieure à 1/10. Si d = 2, pour qu’il existe un exemple xi à une distance 1/10 de n’importe quel x dans le carré [0, 1]2, il faut au moins 10 10 = 100 exemples. Pour garantir l’existence d’un exemple à une distance 1/10 dans un hypercube [0, 1] d de dimension d, il faut plus que 10 … 10 = 10 d exemples. Or, si d 100, alors 10 d est plus grand que le nombre d’atomes dans l’Univers ! Généralement, d est bien plus grand que 100, plutôt de l’ordre du million. En grande dimension, on n’a donc jamais assez d’exemples pour garantir qu’il existe un exemple xi proche de chaque donnée x, même avec des masses considérables de données. C’est la malédiction de la grande dimension. Pour faire face à cette malédiction, il faut trouver d’autres sources de régularité, connues a priori, permettant de généraliser à partir d’un nombre limité d’exemples. Différents algorithmes d’apprentissage utilisent différentes formes de régularité. Les réseaux de neurones profonds ont des architectures similaires pour apprendre à reconnaître des images, des sons, répondre à des questions ou calculer des énergies quantiques. Cela indique
qu’il existe une forme de régularité commune à tous ces problèmes. Un enjeu important pour les mathématiques est de comprendre la nature de cette régularité.
MODÈLES PARCIMONIEUX MULTIÉCHELLES Pour vaincre la malédiction de la grande dimension, la première idée qui vient à l’esprit est d’essayer de réduire la dimension des données x. Nous allons voir que c’est le plus souvent possible, car les données sont ellesmêmes régulières. Cela signifie que les d variables de x peuvent être spécifiées par moins de coefficients. Cela se fait en représentant chaque donnée x = (v1, …, vd) avec de nouvelles variables Φ(x) = (v’1, …, v’d), dont la plupart sont nulles ou quasi nulles. On dit alors que la nouvelle représentation Φ(x) est parcimonieuse. L’existence de régularités multiéchelles permet de calculer des représentations parcimonieuses avec des ondelettes. Ondelettes multiéchelles Pour simplifier l’analyse de systèmes complexes, on étudie séparément les phénomènes qui apparaissent à des échelles très différentes. Cela va de l’échelle des particules, de l’ordre de 10-15m, jusqu’à l’échelle de l’Univers, de 1026m. Des disciplines différentes étudient des gammes d’échelles différentes : la physique quantique aux plus petites échelles ; la biologie, la chimie des matériaux aux échelles intermédiaires ; les géosciences, l’astrophysique ou la cosmologie aux plus grandes échelles. La théorie des ondelettes donne un cadre mathématique et algorithmique pour comprendre comment séparer les composantes qui apparaissent à des échelles différentes. Cela permet d’expliciter la régularité des données et de calculer des représentations parcimonieuses.
Figure 2. L’image x est à gauche. Sa représentation Φ(x) en ondelettes est composée de douze petites images au centre de la figure. Ces petites images montrent les coefficients d’ondelettes à différentes échelles. Les grands coefficients (points noirs) sont localisés le long des contours. L’image de droite est reconstruite à partir des coefficients en ondelettes, qui sont approximés avec quarante fois moins de bits que les pixels de l’image originale, par le standard de compression JPEG-2000.
Les ondelettes sont des ondes de taille différente, qui mesurent les variations locales des données à différentes échelles. Je vais me concentrer sur le cas des images x = (v1, …,vd) où les d variables sont les intensités lumineuses des pixels. Une transformée en ondelettes calcule un changement de variables composé de coefficients d’ondelettes Φ(x) = (v’1, …, v’ d ). Chaque coefficient d’ondelette v’ mesure la variation locale de l’intensité lumineuse dans une zone particulière de l’image. Une transformée en ondelettes opère donc comme un zoom qui extrait les détails de l’image à toutes les échelles. Les ondelettes localisées dans une zone où l’intensité lumineuse est constante produisent des coefficients nuls. Dans une image ayant de nombreuses zones régulières, il y a beaucoup de coefficients d’ondelettes qui sont quasiment nuls. Les grands coefficients sont au voisinage des contours de l’image, où l’intensité lumineuse varie brutalement. Comme ces contours occupent peu d’espace, il y a peu de coefficients d’ondelettes non nuls, et on obtient une représentation parcimonieuse, comme le montre la figure 2. La théorie des ondelettes résulte de la mise en commun d’idées provenant de la géophysique, de la physique quantique, du traitement du signal et de l’image ainsi que de l’analyse harmonique en mathématiques. L’apport mathématique a été initié par Yves Meyer qui a découvert l’existence de bases d’ondelettes orthogonales [10]. Ces bases permettent de reconstruire une donnée x ayant d variables à partir d’une représentation ayant d coefficients d’ondelettes. Lors de mon doctorat aux États-Unis, j’ai commencé par étudier les algorithmes de filtrage d’images à des résolutions multiples. La connexion
entre ces filtres et les bases d’ondelettes de Meyer a révélé une structure mathématique plus générale d’« espaces de multirésolution ». Cela m’a d’abord permis d’élaborer un algorithme de filtrage rapide (utilisé dans la plupart des applications) pour calculer les coefficients d’ondelettes [7]. Avec Yves Meyer, nous avons aussi démontré que ces filtres permettent de construire simplement toutes les bases orthogonales d’ondelettes. Nous verrons que ces filtres apparaissent aussi dans les réseaux de neurones profonds. Parcimonie en ondelettes J’ai mentionné que, lorsque les données ont des variations régulières sauf en quelques endroits, par exemple le long des contours d’une image, alors les coefficients d’ondelettes sont parcimonieux. C’est une forme de régularité qui se formalise mathématiquement par l’appartenance à des espaces de fonctions que l’on appelle « espaces de Besov » [10]. C’est grâce à cette régularité sous-jacente que le standard JPEG-2000 comprime les images, en codant leurs coefficients d’ondelettes non nuls avec un nombre réduit de bits [8], dans la figure 2. La parcimonie permet aussi de restituer des informations manquantes ou dégradées par des erreurs de mesure. Si vous savez qu’une image peut être reconstruite avec un petit nombre de coefficients d’ondelettes non nuls, alors vous pouvez potentiellement identifier les valeurs de ces coefficients sans connaître toutes les données. On réduit ainsi le bruit de mesures par des algorithmes de seuillage [1], qui identifient les coefficients non nuls et éliminent le bruit là où l’on sait que les coefficients de l’image sont nuls. Si on a des valeurs manquantes, alors les algorithmes de compressed sensing peuvent estimer ces valeurs grâce à la parcimonie des coefficients d’ondelettes [2]. Cependant, la parcimonie des données dans des bases d’ondelettes n’est pas suffisante pour aborder les problèmes de classification. On peut réduire le nombre de variables d’une image d’un facteur 100, mais, comme au départ il y en a plusieurs millions, il en reste des dizaines de milliers. La malédiction de la grande dimension reste donc présente.
APPRENTISSAGE SUPERVISÉ ET RÉSEAUX DE NEURONES Revenons aux problèmes de prédiction d’une réponse y à partir d’une donnée x. Sauf dans des cas particulièrement simples, on ne peut pas éliminer suffisamment de variables de x pour éviter la malédiction de la grande dimension. Il faut donc espérer que la réponse y varie très régulièrement en fonction de x, en un sens qu’il reste à spécifier. Nous allons maintenant voir quelles stratégies sont utilisées par les algorithmes d’apprentissage. Séparation linéaire Si y est l’index d’une classe, on a vu qu’estimer y revient à trouver les frontières entre les différentes classes dans l’espace des données x, comme l’illustre la figure 2. Prenons un exemple où l’on n’a que deux classes y = 1 et y = 0. Chaque donnée x = (v1, …, vd) est représentée par un point dans un espace de dimension d. La malédiction de la grande dimension implique que les exemples d’entraînement sont très éloignés les uns des autres.
Figure 3. Les exemples de données xi sont des points illustrés par des points blancs pour la classe yi = 0 et par des points noirs lorsque yi = 1. On calcule une famille d’attributs Φ(x) faiblement discriminants. Dans l’espace des attributs à droite, on cherche un plan qui sépare les deux classes. Cela signifie que la projection sur l’axe perpendiculaire au plan définit un nouvel attribut qui discrimine fortement les deux classes.
Pour identifier la frontière malgré cette malédiction, il faut que celle-ci soit très régulière. Une technique importante de l’apprentissage statistique consiste à modifier la représentation des données x afin d’aplatir la frontière. Cela revient à chercher un critère discriminant pour séparer les deux classes de données. Considérons par exemple la reconnaissance des images de camions de pompiers (rouges) parmi d’autres images de voitures. Bien que ces images x
soient complexes et de grande dimension, on peut simplement prédire s’il s’agit d’un camion de pompier en comptant le nombre de pixels rouges dans l’image. S’il y en a suffisamment, alors c’est un fort indicateur qu’il y a un camion de pompier, bien que cela ne soit pas certain. La connaissance a priori du problème nous a ici permis d’identifier un attribut fortement discriminant. Pour des problèmes plus complexes, on n’a pas suffisamment d’information a priori pour identifier directement un attribut fortement discriminant. On peut cependant essayer de définir un ensemble d’attributs Φ(x) = (v’1, …, v’m) qui sont faiblement discriminants. L’âge est ainsi un attribut faiblement discriminant pour diagnostiquer un cancer. Cela signifie que la valeur d’un seul attribut v’ permet tout juste de faire mieux qu’un choix aléatoire entre les deux classes. C’est la phase d’apprentissage qui va optimiser une combinaison de ces attributs pour définir un nouvel attribut beaucoup plus discriminant. Le plus simple est de calculer une combinaison linéaire des attributs faibles de Φ(x), avec des poids (w1, …, wm). L’estimation ȳ de la classe y est calculée en testant si cette combinaison linéaire est supérieure ou pas à un seuil d’activation b :
Ce test sépare deux régions de l’espace des attributs Φ(x) avec un plan. On peut vérifier que ce plan est orthogonal à la direction dans laquelle pointe le vecteur des poids = (w1, …, wm), comme l’illustre la figure 3. Si Φ(x) est à gauche du plan, alors ȳ = 1 et à droite ȳ = 0. Les paramètres de cet algorithme de classification linéaire sont les poids (w1, …, wm) et le seuil b, qui ajustent la frontière plane. Lors de la phase d’apprentissage, on optimise ces paramètres en minimisant l’erreur de y˜i relativement à yi, en moyenne sur les n exemples d’entraînement. Cette erreur est évaluée par une fonction de coût, qui est le risque statistique. L’erreur d’apprentissage est nulle si on trouve un plan qui sépare tous les exemples Φ(xi) en mettant à gauche les points pour lesquels yi = 0 et à droite ceux pour lesquels yi = 1, comme l’illustre la figure 3. Le but de cet apprentissage est de minimiser l’erreur de généralisation sur
n’importe quelle donnée x typique. La théorie statistique de l’apprentissage donne des conditions pour contrôler cette erreur de généralisation, lorsque les exemples d’apprentissage sont choisis au hasard [13]. Dans le cas de l’apprentissage linéaire décrit précédemment, le nombre d’exemples n doit être nettement plus grand que le nombre de paramètres et donc de poids wk non nuls après optimisation. Sinon, on risque de faire du surapprentissage, autrement dit de s’adapter de trop près aux exemples d’entraînement, sans dégager la régularité sous-jacente qui permet de généraliser. Cela signifie que le critère fortement discriminant doit être calculé en agrégeant un nombre d’attributs nettement plus petit que le nombre d’exemples. Ceci est une forme de parcimonie sur le choix des attributs, qui s’apparente au principe philosophique du rasoir d’Occam. Ce principe, à la base de la méthodologie scientifique, recommande de chercher un nombre minimum de facteurs pour expliquer un phénomène. De nombreux algorithmes d’apprentissage supposent que l’information a priori est suffisante pour spécifier une famille d’attributs faiblement discriminants Φ(x) = (v’1, …, v’m). Ces algorithmes se distinguent par le critère d’optimisation du vecteur de poids qui définit la frontière entre les classes. C’est le cas des support vector machines, des algorithmes de boosting ou des arbres de décision [3]. Cependant, lorsque le problème est difficile, on n’a pas toujours assez d’informations a priori pour définir les attributs Φ(x). Dans ce cas, il faut aussi apprendre Φ(x) à partir des données d’entraînement. C’est ce que font les réseaux de neurones. Ces algorithmes ont obtenu des résultats spectaculaires sur des problèmes réputés très difficiles, en utilisant beaucoup d’exemples d’entraînement. Réseaux de neurones Les réseaux de neurones sont des algorithmes d’apprentissage, inspirés de loin par la biologie. Les premiers modèles de neurones artificiels ont été développés dès les années 1950. Ce sujet a longtemps été considéré comme la lubie d’une petite communauté scientifique, jusqu’à ce que des résultats spectaculaires d’apprentissage soient obtenus par les réseaux de neurones profonds à partir des années 2010 [5]. Cela a été une surprise dont on comprend encore mal les racines mathématiques.
Un neurone artificiel est une structure de calcul élémentaire qui définit un plan séparateur avec une non-linéarité, un peu comme le classificateur que nous avons étudié précédemment. Il prend en entrée des variables (v’1, …, v’m) et calcule une somme pondérée par des poids : v’1w1 + … + v’mwm. Si cette somme est au-dessous d’un seuil d’activation b, alors la sortie du neurone est nulle. Sinon le neurone ressort la valeur v’1w1+ … + v’mwm – b. Ce neurone effectue donc une séparation de l’espace des variables (v1 ’ , …, v’m ) avec un plan orthogonal au vecteur = (w1, …, wm), comme dans la figure 3. Si le seuil b est grand, alors le neurone produira peu de valeurs non nulles et aura donc des réponses parcimonieuses. La non-linéarité du neurone peut être modifiée suivant les applications.
Figure 4. Un neurone (à gauche) calcule une valeur de sortie en combinant les variables d’entrée avec des poids appris. Un réseau de neurones multicouche est montré à droite. Sur la première couche, les neurones prennent en entrée les variables de la donnée x. Les neurones de la deuxième couche prennent en entrée les sorties des neurones de la première couche. Les sorties Φ(x) de la dernière couche (ici la deuxième) sont recombinées par un dernier neurone qui calcule une prédiction ȳ.
On organise les interactions des neurones dans un réseau. La valeur de sortie d’un neurone est fournie en entrée de plusieurs autres neurones, dont les sorties peuvent être elles-mêmes les entrées d’une nouvelle couche de neurones, et ainsi de suite. On obtient un réseau organisé en couches, comme l’illustre la figure 4. La dernière couche peut s’interpréter comme une famille d’attributs Φ(x) = (v1’, …, v’m ) calculés par le réseau. Ces attributs sont recombinés linéairement par un dernier neurone qui obtient en sortie une estimation de la réponse ȳ. Le réseau est paramétré par les poids wk et les seuils d’activation b de tous les neurones. L’entraînement du réseau ajuste ces paramètres afin que l’erreur ȳi– yi sur les exemples d’entraînement soit en moyenne la plus petite possible. Cette erreur moyenne est quantifiée par une fonction de coût. La phase d’apprentissage optimise les attributs Φ(x) de la
dernière couche et les paramètres qui recombinent ces attributs pour prédire la réponse, en minimisant le coût de l’erreur. L’information a priori n’est plus dans le choix de la famille d’attributs Φ(x), puisqu’ils sont appris, mais dans l’architecture qui spécifie le nombre de neurones dans chaque couche, leur connectivité, les contraintes sur les poids et la fonction de coût que l’on minimise. Cette architecture doit donc être en lien avec les propriétés du problème de prédiction. La minimisation du coût se fait par un algorithme de descente de gradient, qui ajuste les poids du réseau à chaque itération afin de réduire le coût. Le calcul du gradient effectue une rétropropagation des erreurs de prédiction sur les exemples d’entraînement à travers le réseau [5]. Réseaux profonds convolutifs De nombreux succès récents de l’apprentissage par ordinateur sont dus à des réseaux de neurones profonds convolutifs. Les premiers réseaux convolutifs ont été introduits par Yann LeCun dans les années 1990 [6]. Avec l’augmentation des capacités de calcul, de mémoire et l’accumulation de données, ces réseaux ont obtenu depuis 2010 des résultats remarquables pour la reconnaissance d’images ou de voix, pour la traduction de langues, pour des jeux de stratégie comme le go, mais aussi pour prédire le comportement de systèmes physiques complexes [5]. La capacité de généralisation de ces réseaux est mal comprise, mais l’expérimentation numérique montre qu’ils ne sont pas affectés par la malédiction de la dimensionnalité pour résoudre ces problèmes. L’architecture des connexions d’un réseau de neurones dépend d’informations a priori sur le problème que l’on veut résoudre. La position des objets dans une image peut souvent varier arbitrairement. Il n’y a donc pas de raison de différencier la valeur des poids dans des positions différentes de l’image. En conséquence, les réseaux convolutifs imposent que les poids sont invariants par translation, ce qui est une forme de symétrie sur laquelle je reviendrai. Par ailleurs, chaque neurone a un nombre de connexions limitées avec les neurones de la couche suivante, ce qui réduit le nombre de poids non nuls. La figure 5 illustre l’architecture d’un réseau de neurones profond dans le cas où la donnée x d’entrée est une image. Chaque couche est constituée d’une famille d’images dont la taille diminue lorsque la profondeur
augmente, comme les coefficients d’ondelettes de la figure 4. L’architecture est multiéchelle au sens où, tout comme dans une transformée en ondelettes rapide, le réseau implémente une cascade de filtrages qui agrègent et transforment les variables de l’image x sur des domaines de plus en plus grands lorsque la profondeur augmente. Cependant, les neurones incluent aussi un seuil d’activation et leurs poids ne sont pas fixés à l’avance, comme dans une transformée en ondelettes. Ces paramètres sont appris au cours de la phase d’apprentissage. Les réseaux de neurones profonds incluent typiquement des dizaines de millions de poids. La capacité de généralisation de ces réseaux a été une surprise, car le nombre de paramètres est considérable, si bien qu’ils violent en apparence le principe de parcimonie qui recommande d’apprendre un nombre relativement petit de paramètres non nuls. Cela peut s’expliquer par l’effet non linéaire introduit par les seuils d’activation de chaque neurone. Pour la reconnaissance d’images et de sons, on observe que les poids des premières couches ressemblent souvent à des ondelettes. Cependant, les poids des couches profondes sont plus complexes. Les réponses des neurones des couches profondes sont de plus en plus invariantes relativement à des transformations des données qui ne portent pas d’information sur la réponse y que l’on veut prédire, par exemple des variations d’illumination et certains changements de formes en classification d’images.
Figure 5. Un réseau de neurones convolutif prend en entrée des données, ici une image. Les neurones de la première couche transforment cette entrée avec des poids qui sont non nuls sur des petits domaines carrés de l’image. Les poids ne dépendent pas de la position du support. Les valeurs de sortie de chaque couche constituent une famille de petites images. Les neurones de la couche suivante prennent en entrée ces petites images et les transforment à nouveau avec des neurones dont les poids ne dépendent pas de la position spatiale dans l’image. Les sorties Φ(x) de la dernière couche sont recombinées pour calculer la prédiction ȳ.
Ces réseaux semblent capables d’apprendre des propriétés relativement génériques. Les poids du réseau appris pour une tâche particulière, par exemple pour reconnaître des chats et des chiens dans des environnements
variés, peuvent être utilisés pour une autre tâche, par exemple reconnaître d’autres types d’objets ou de scènes. C’est un transfert d’apprentissage, qui demande cependant de modifier les dernières couches du réseau [5].
RÉGULARITÉS MATHÉMATIQUES EN GRANDE DIMENSION Je vais maintenant revenir sur les mathématiques pour introduire quelques concepts permettant de comprendre comment construire une représentation Φ(x) pour la classification et comment interpréter le comportement des réseaux de neurones. Symétries et invariants Dans un problème de classification, on calcule des attributs Φ(x) afin d’aplatir la frontière entre les différentes classes. Deux classes peuvent alors être séparées par un plan comme l’illustre la figure 6. Des expériences numériques permettent d’observer que les frontières entre les différentes classes s’aplatissent lorsque la représentation Φ(x) est définie par les couches de plus en plus profondes d’un réseau. Pour comprendre comment interpréter cet aplatissement, nous allons faire un nouveau saut conceptuel. On considère des transformations T qui associent à une donnée x une autre donnée x’ = T(x). Parmi les transformations T, nous allons considérer plus particulièrement les symétries de la question que l’on a posée. Il s’agit des transformations T qui ne changent pas la valeur de la réponse y. Autrement dit, x et x’ = T(x) ont la même réponse y, pour tout x. L’ensemble des transformations T qui sont des symétries est un groupe de symétries.
Figure 6. Les exemples de deux classes sont illustrés par des points blancs et noirs. Une
symétrie transforme un point en un autre point de la même classe, comme l’illustrent les flèches. Pour aplatir la frontière entre les deux classes, on veut que les symétries deviennent des déplacements localement parallèles et donc localement linéaires dans l’espace des attributs Φ(x).
Un groupe est une structure mathématique qui satisfait des propriétés générales que nous n’évoquerons pas ici [11]. La notion de symétrie est au cœur de la physique moderne, à travers les lois de conservation, qui permettent de spécifier la nature des interactions depuis la physique des particules jusqu’à la relativité générale. Cette notion est aussi au centre des mathématiques, que ce soit en arithmétique, en géométrie ou en analyse. Nous allons voir que les symétries jouent un rôle tout aussi important pour l’apprentissage, en permettant de comprendre comment aplatir les frontières entre différentes classes. La notion de groupe de symétries est apparue en 1832 dans les travaux du jeune mathématicien Évariste Galois, qui voulait montrer que les solutions des équations polynomiales de degré 5 ne peuvent être calculées avec des formules utilisant des radicaux. Au lieu de s’attaquer à la résolution directe du problème, Galois a considéré les T qui transforment une solution x d’une équation de cinquième degré f (x) = y en une autre solution x’ = T (x), autrement dit f (T (x)) = y. C’est la même idée que l’on utilise en physique, dans de nombreuses branches des mathématiques et ici en apprentissage. Cependant, la nature de x, de y et de f va complètement changer, tout comme le groupe des symétries T. Dans le cas de la classification, les symétries sont les transformations des données x qui ne changent pas la classe y de x. On dit que la classe y est invariante par ces transformations. Notre but est ici de trouver un ensemble d’attributs Φ(x) qui aplatissent les frontières entre les classes. Une frontière est plate si elle est invariante par déplacement planaire. Cela veut dire que les différentes classes situées à gauche et à droite de cette frontière sont aussi invariantes par ce déplacement planaire. L’idée consiste donc à définir Φ(x) afin que les symétries deviennent des déplacements aussi plats que possible dans l’espace des attributs Φ(x), autrement dit localement linéaires. Pour faire cela, il nous faut connaître les symétries et savoir les aplatir. Nous ne connaissons pas toutes les symétries, mais nous avons le plus souvent des informations a priori sur certaines symétries qui préservent la réponse y que l’on veut prédire. Considérons la reconnaissance d’animaux
dans une image. Même si l’animal bouge dans l’image, le nom y de l’animal ne changera pas. Les classes y sont donc invariantes par translations de x. Dans ce cas, les translations forment un sous-groupe de l’ensemble des symétries. Pour aplatir le groupe des translations, l’architecture des réseaux de neurones convolutionnels impose que les poids des neurones soient invariants par translation dans l’image. Les translations d’une image sont des symétries définies par deux paramètres : le déplacement horizontal puis vertical. On est donc loin de capturer toute la variabilité d’une image x, qui a plus d’un million de pixels. Un groupe de symétries beaucoup plus grand s’obtient avec des transformations qui déforment l’image. Une déformation bouge les pixels d’une image de façon plus libre qu’une translation. De nombreuses petites déformations ne modifient pas la reconnaissance d’une image et donc la réponse y. Par exemple, on reconnaît un chiffre ou un visage même s’ils sont légèrement déformés. Certaines déformations définissent ainsi des groupes de symétries. Les symétries peuvent aussi être de natures très différentes. Une mélodie reste reconnaissable après une transposition fréquentielle, qui bouge les fréquences vers les aigus ou les graves. Ces transformations fréquentielles sont donc des symétries de la reconnaissance de mélodies. De façon générale, notre connaissance a priori permet de définir certaines symétries de la question à laquelle on veut répondre, mais on est loin de toutes les connaître. Reste à comprendre comment un réseau de neurones arrive à aplatir ces symétries. Aplatir localement un groupe de symétries est un sujet important en géométrie car cela permet de linéariser des phénomènes non linéaires, et donc de les rendre plus simples [11]. Cet aplatissement se fait en augmentant la dimension de l’espace, en introduisant de nouvelles « fibres » générées par l’action du groupe. On retrouve ces structures de fibres dans les couches intermédiaires des réseaux de neurones. Il semble que les réseaux de neurones aplatissent les frontières entre les classes avec le même type de stratégie. Cependant, la géométrie de ces couches intermédiaires est mal comprise, tout comme la nature des symétries et des invariants qui sont construits dans les couches les plus profondes d’un réseau. On est donc loin d’avoir expliqué le comportement de ces réseaux. Organisation multiéchelle
Les réseaux de neurones profonds calculent des cascades de filtrage un peu comme les transformées en ondelettes, ce qui permet de séparer les phénomènes qui apparaissent à différentes échelles. De nombreux phénomènes physiques, biologiques, perceptuels, sociaux ou symboliques ont des organisations hiérarchiques [12]. En séparant l’information suivant les échelles, on réduit la complexité du phénomène, ce qui peut permettre d’éviter la malédiction de la grande dimension. Les interactions entre un grand nombre de variables peuvent en effet être réduites à un nombre restreint d’interactions à des échelles différentes. On peut cependant se demander s’il est nécessaire d’apprendre tous les poids d’un réseau ou si ces poids peuvent être calculés a priori. Les ondelettes sont capables d’aplatir l’action de symétries comme les translations et les déformations, en séparant les variations des données à différentes échelles. En définissant les poids à partir des filtres d’ondelettes, on obtient un réseau de « scattering en ondelettes », dont on peut analyser les propriétés mathématiques [9]. Si le problème est dominé par des symétries géométriques telles que les translations, les rotations, les déformations, alors un réseau d’ondelettes calcule des attributs Φ(x) dont les performances sont comparables à celles obtenues par la dernière couche d’un réseau de neurones convolutif, dont tous les poids sont appris. C’est le cas pour la classification d’images ou de sons qui ne sont pas trop complexes, comme des chiffres ou des textures. Les propriétés multiéchelles des réseaux d’ondelettes permettent aussi d’estimer des grandeurs physiques sans connaître les équations de la physique. On peut ainsi prédire l’énergie quantique de petites molécules organiques à partir de la position de leurs atomes [9], sans utiliser les équations de Schrödinger. La structuration multiéchelle des symétries géométriques joue un rôle important, mais n’est pas suffisante pour comprendre les réseaux de neurones profonds. Pour différencier des structures macroscopiques et discriminer des milliers de classes d’objets ou d’animaux, il est nécessaire d’apprendre les poids des réseaux de neurones profonds pour obtenir de bonnes performances de prédiction et de généralisation [5]. Ces réseaux de neurones semblent capables de calculer des invariants appris à partir d’exemples d’entraînement. Ces invariants sont une forme de connaissance apprise sur les propriétés de la réponse y relativement aux données x. Cependant, on ne sait pas caractériser la nature mathématique de ces invariants.
Modèles génératifs et mémoire Les réseaux de neurones profonds ouvrent aussi une nouvelle brèche pour modéliser des données complexes. Modéliser une classe de données signifie décrire la distribution des points qui font partie de cette classe, dans l’espace de toutes les données possibles. Cela permet de comprendre les propriétés spécifiques de ces données. La construction de modèles est au cœur de la physique statistique, dont le but est de décrire la fluctuation des variables d’un système physique. On utilise souvent des modèles gaussiens, qui définissent des distributions dont les points sont concentrés le long d’ellipsoïdes dans un espace linéaire et donc plat. Ils permettent de bien décrire certains systèmes désordonnés, comme les gaz. Cependant, les modèles gaussiens ne sont pas capables de capturer la géométrie de structures cohérentes, comme les tourbillons d’un fluide turbulent dans la figure 7. Un problème ouvert depuis les travaux du mathématicien russe Andreï Kolmogorov en 1941 est de définir des modèles probabilistes de la turbulence de fluides. Lorsque la distribution des données x n’est pas gaussienne, on peut cependant essayer de la rendre gaussienne. Il est par exemple possible d’aplatir cette distribution en transformant x en une nouvelle famille d’attributs Φ(x). Aplatir une distribution de points peut se faire en aplatissant son groupe de symétries, comme précédemment. Pour la turbulence de fluides, une partie importante du groupe de symétries est incluse dans le groupe des déformations. On a vu qu’un réseau de scattering en ondelettes aplatit localement l’effet des petites déformations.
Figure 7. Vorticité d’un fluide turbulent en deux dimensions (à gauche), synthèse à partir d’un modèle gaussien (au centre) et synthèse à partir d’un modèle calculé par un réseau de scattering en ondelettes (à droite).
On peut donc mieux décrire la distribution d’images de turbulence par un
modèle gaussien sur les coefficients de scattering que sur les valeurs des pixels de l’image elle-même. La qualité d’un modèle peut être évalué qualitativement en comparant les images originales avec des exemples d’images synthétisées avec le modèle. La figure 7 montre une image de vorticité d’un fluide turbulent en deux dimensions, ainsi que les images synthétisées avec un modèle gaussien sur les pixels et un modèle gaussien sur les coefficients calculés par un réseau de scattering en ondelettes. On observe que ce dernier modèle reproduit nettement mieux les structures géométriques de la turbulence. Cela confirme que la géométrie des données est mieux aplatie. Lorsque les données incorporent des structures macroscopiques complexes comme des formes de visages, de tables, de maisons, il est nécessaire d’apprendre les filtres du réseau de neurones permettant de représenter ces structures. Les réseaux convolutionnels génératifs sont capables de reproduire de telles structures, en apprenant tous les coefficients du réseau avec suffisamment d’exemples. L’apprentissage se fait en mettant en compétition deux réseaux adversaires [4]. Le premier réseau est un générateur qui synthétise des données différentes des données d’entraînement mais de même nature. Il peut par exemple s’agir de visages différents si les données d’entraînement sont des images de visages. L’adversaire est un réseau classificateur qui tente de distinguer les données synthétisées par le générateur relativement aux données d’entraînement, en repérant des caractéristiques différentes. Lorsque le classificateur devient incapable de faire cette distinction, on considère que l’apprentissage du générateur est terminé. Ces réseaux adversaires ont obtenu des résultats spectaculaires pour synthétiser des images de visages, de scènes complexes comme des chambres à coucher, ainsi que des voix ou de la musique. Ils semblent apprendre des dictionnaires de structures caractéristiques, à partir des exemples d’entraînement. On peut considérer les coefficients du réseau comme une forme de mémoire distribuée, permettant de générer des données similaires. Malgré ces succès algorithmiques, on maîtrise encore mal les propriétés mathématiques de ces modèles.
CONCLUSION
Les challenges de données Les mathématiques ont pour l’instant bien du retard à rattraper pour comprendre les avancées des algorithmes en sciences des données. Il est donc particulièrement important de faire des expériences numériques sur des données pour appréhender la nature des problèmes. Les challenges de données ont été un accélérateur important de la recherche algorithmique en apprentissage statistique. Un challenge demande de prédire la réponse y à une question, à partir d’une donnée x. Ces questions proviennent de l’industrie, d’hôpitaux, de laboratoires de recherches ou de tout autre environnement. Les challenges abordés lors de mon cours au Collège de France sont disponibles sur un site 1 web . Chaque challenge met à disposition des exemples pour l’entraînement, avec les données xi et les réponses yi associées. Il fournit aussi des données de tests xt sans les réponses yt. C’est aux participants d’implémenter un bon algorithme pour calculer une prédiction y˜t des réponses, et de les soumettre au challenge. Le site web, qui connaît la bonne réponse yt, calcule le risque des erreurs obtenues par chaque participant, et renvoie cette valeur avec un classement. Cela permet à une communauté scientifique de comparer les résultats des différents algorithmes et de les améliorer. L’objectif de ces challenges est de faciliter un échange libre de données et d’idées, et de faciliter l’enseignement des sciences des données plus largement en France. Cette année, nous avons douze challenges qui concernent l’économie d’énergie, le diagnostic médical, la prédiction en finance, l’analyse de questionnaires, la reconnaissance d’images de célébrités, la prédiction de mesures physiques ou de scores de matchs de basketball. Je tiens à remercier Mathieu Andreux, Tomas Anglès, Georgios Exarchakis, Louis Thy, John Zarka et Sixin Zhang, qui ont organisé ces challenges, ainsi que l’École normale supérieure pour son soutien. Questions sociétales Le dernier point que je voudrais évoquer est l’impact des technologies des sciences des données sur notre société. Dans les médias, on parle souvent d’intelligence artificielle pour désigner les applications de l’apprentissage
statistique. De nombreuses applications ayant un impact positif sont actuellement développées, pour la médecine, l’économie d’énergie, les transports et de nombreux services. Cependant, comme toutes les technologies puissantes, ces découvertes sont aussi porteuses de dérives potentielles qu’il faut savoir contrôler. Je mentionnerai notamment la protection de la vie privée et la nécessité de mieux comprendre les impacts de ces technologies sur l’évolution du marché du travail. Ces questions importantes sont déjà abondamment discutées, comme l’illustre un rapport récent de la Commission nationale de l’informatique et des libertés (CNIL). Trois principes émergent de ces analyses : la nécessité d’une plus grande inclusion des citoyens, à travers l’éducation et un meilleur accès aux ressources numériques ; le besoin de transparence sur l’utilisation des données ou l’élaboration des algorithmes ; et enfin l’éthique des applications, pas seulement dans le domaine sécuritaire. Derrière ces questions de principe se cachent des problèmes difficiles. Ainsi, le droit de recours nécessite de pouvoir expliquer une décision prise sur la base d’indicateurs fournis par un système d’apprentissage. Pour cela, il faut donc avoir la capacité d’expliquer une prédiction, or cela peut aussi se heurter à la malédiction de la grande dimension. La notion d’explication sous-tend l’existence d’un petit nombre de variables compréhensibles, qui domineraient le phénomène. Ce n’est pas le cas lorsque l’on considère des phénomènes complexes. Comme on l’a vu, c’est alors l’agrégation de nombreux attributs ayant un faible pouvoir discriminant qui permet de calculer des indicateurs forts. Or, des agrégations de milliers d’attributs sont difficilement explicables car elles mélangent des variables très différentes. De même, on sait qu’il peut être compliqué d’expliquer pourquoi on apprécie une œuvre d’art, ou pourquoi un typhon va se former dans une semaine en Australie. Certes, on peut le justifier avec une « histoire crédible », mais il ne s’agit pas forcément d’une explication valide. On voit ici qu’il est nécessaire que cette discipline soit comprise hors des cercles scientifiques, afin de pouvoir réguler l’utilisation de ces technologies de façon constructive. Un héritage Je terminerai sur une note plus personnelle, en témoignant de l’héritage dont je suis porteur. Je tiens d’abord à rendre hommage à ma directrice de
thèse, Ruzena Bajcsy, qui est une femme véritablement exceptionnelle. Ruzena Bajcsy a survécu au nazisme en Slovénie ; elle est ensuite partie avec l’arrivée de la répression soviétique à Prague en 1968 ; elle a enfin été l’une des premières professeures d’informatique aux États-Unis. Pour elle, la recherche n’est pas un travail, mais une vocation, une passion qui donne du sens à l’existence, et qu’elle poursuit à 84 ans à Berkeley, en développant des systèmes de télé-immersion pour la médecine à distance. Cette passion, elle nous l’a transmise avec chaleur, à nous ses étudiants, et je lui en suis infiniment redevable. Ma seconde rencontre déterminante fut celle d’Yves Meyer. Yves Meyer a profondemment marqué toute une génération de jeunes mathématiciens français, par sa vision et son nomadisme libre à travers les mathématiques et les applications. Ce sont ces deux talents et personnalités extraordinaires qui m’ont inoculé le virus de la recherche, et je leur en suis affectueusement et profondément reconnaissant. Ma recherche, je l’ai menée essentiellement en collaboration avec mes étudiants, et je les remercie pour tout ce que j’ai reçu et appris à leur contact, surtout dans ces moments où rien ne marche. Avec Christophe Bernard, Jérôme Kalifa et Erwan Le Pennec, nous avons poussé l’aventure jusqu’à créer une start-up de traitement d’images à partir d’un résultat mathématique, avec toute la naïveté créative de ceux qui n’y connaissent rien. C’est aussi grâce à cette prise de distance passionnante avec le monde académique que j’ai pris pleinement conscience de la chance que j’avais de pouvoir enseigner et faire de la recherche. Mais, au fond, un entrepreneur n’est pas si différent d’un chercheur, il taille son parcours dans la jungle avec quelques collègues, il se perd, tourne, doute, et poursuit une vision, en tentant de convaincre le reste du monde, un peu comme j’ai essayé de le faire aujourd’hui. Encourager les allers-retours entre ces deux mondes apporte de l’air frais à tous. Enfin, comme une dernière poupée russe, la fin de cette conférence est un grand remerciement à ma fille Milena, à ma compagne Lydie et à ma famille, qui sont toujours présents à mes côtés avec une chaleur pleine de vie, et je voudrais dédier cette leçon inaugurale à la mémoire de mon père.
1. https://challengedata.ens.fr
RÉFÉRENCES
[1] D. Donoho et I. Johnstone, « Minimax estimation via wavelet shrinkage », Annals of Statistics, vol. 26, no 3, 1998, p. 879-921. [2] E. Candès, J. Romberge et T. Tao, « Stable signal recovery from incomplete and inaccurate measurements », Communications in Pure and Applied Mathematics, vol. 59, no 8, 2006, p. 1207-1223. [3] T. Hastie, R. Tibshirani et J. Friedman, The Elements of Statistical Learning, New York, Springer, « Series in Statistics », 2009. [4] I. Goodfellow, J. Pouget-Abadie, M. Mirza, B. Xu, D. Warde-Farley, S. Ozair, A. Courville et Y. Bengio, « Generative adversarial nets », Proceedings of the 27th International Conference on Neural Information Processing Systems (NIPS 2014), vol. 2, 2014, p. 2672-2680. [5] Y. LeCun, Y. Bengio et G. Hinton, « Deep learning », Nature, vol. 521, no 7553, 2015, p. 436-444. [6] Y. LeCun, B. Boser, J. Denker, D. Henderson, R. Howard, W. Hubbard et L. Jackelt, « Handwritten digit recognition with a back-propagation network », Advances in Neural Information Processing Systems (NIPS 1989), vol. 2, 1989, p. 396-404. [7] S. Mallat, « A theory for multiresolution signal decomposition: the wavelet representation », IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 11, no 7, 1989, p. 674-693. [8] S. Mallat, A Wavelet Tour of Signal Processing: The Sparse Way, Londres, Academic Press, 2001. [9] S. Mallat, « Understanding deep convolutional networks », Philosophical Transactions of the Royal Society A, vol. 374, no 2065, 2016. [10] Y. Meyer, Ondelettes et opérateurs, Paris, Hermann, 1990. [11] P. Olver, Equivalence, Invariants and Symmetry, Cambridge, Cambridge University Press, 1995.
[12] H. Simon, « The architecture of complexity », Proceedings of the American Philosophical Society, vol. 106, no 6, 1962, p. 467-482. [13] S. Shalev-Shwartz et S. Ben-David, Understanding Machine Learning: From Theory to Algorithms, Cambridge, Cambridge University Press, 2014. [14] W. Youyoua, M. Kosinskib et D. Stillwella, « Computer-based personality judgments are more accurate than those made by humans », Proceedings of the National Academy of Sciences, vol. 112, no 2, 2015, p. 1036-1040.
Les leçons inaugurales du Collège de France Depuis sa fondation en 1530, le Collège de France a pour principale mission d’enseigner, non des savoirs constitués, mais « le savoir en train de se faire » : la recherche scientifique et intellectuelle elle-même. Les cours y sont ouverts à tous, gratuitement, sans inscription ni délivrance de diplôme. Conformément à sa devise (Docet omnia, « Il enseigne toutes choses »), le Collège de France est organisé en cinquante-deux chaires couvrant un vaste ensemble de disciplines. Les professeurs sont choisis librement par leurs pairs, en fonction de l’évolution des sciences et des connaissances. À l’arrivée de chaque nouveau professeur, une chaire nouvelle est créée qui peut ou bien reprendre, au moins en partie, l’héritage d’une chaire antérieure, ou bien instaurer un enseignement neuf. Plusieurs chaires thématiques annuelles (Création artistique, Informatique et sciences numériques, Innovation technologique) et pluriannuelles permettent également d’accueillir des professeurs invités. Le premier cours d’un nouveau professeur est sa leçon inaugurale. Solennellement prononcée en présence de ses collègues et d’un large public, elle est pour lui l’occasion de situer ses travaux et son enseignement par rapport à ceux de ses prédécesseurs et aux développements les plus récents de la recherche. Non seulement les leçons inaugurales dressent un tableau de l’état de nos connaissances et contribuent ainsi à l’histoire de chaque discipline, mais elles nous introduisent, en outre, dans l’atelier du savant et du chercheur. Beaucoup d’entre elles ont constitué, dans leur domaine et en leur temps, des événements marquants, voire retentissants. Elles s’adressent à un large public éclairé, soucieux de mieux comprendre les évolutions de la science et de la vie intellectuelle contemporaines.
Les leçons inaugurales publiées dans la collection Collège de France / Fayard Depuis 2003, les Leçons inaugurales du Collège de France sont publiées dans la collection Collège de France / Fayard. Quelques leçons antérieures y ont été également republiées. 164. Serge HAROCHE Physique quantique (2001) 165. Jacques LIVAGE Chimie de la matière condensée (2002) 166. John SCHEID Religions, institutions et société de la Rome antique (2002) 167. Roland RECHT L’objet de l’histoire de l’art (2002) 169. Christine PETIT Génétique et physiologie cellulaire (2002) 170. Édouard BARD Évolution du climat et de l’océan (2003) 171. Stuart EDELSTEIN Les mécanismes de la transduction du signal en biologie (2003) 172. Mireille DELMAS-MARTY Études juridiques comparatives et internationales du droit (2003)
173. Pierre-Louis LIONS Équations aux dérivées partielles et applications (2003) 174. Jayant Vishnu NARLIKAR Faits et spéculations en cosmologie (2003) 175. Michael EDWARDS Étude de la création littéraire en langue anglaise (2003) 176. Theodor BERCHEM Tradition et progrès. La mission de l’Université (2004) 177. Henry LAURENS Histoire du monde arabe contemporain (2004) 178. Denis KNOEPFLER Apports récents des inscriptions grecques à l’histoire de l’Antiquité (2004) 179. Jean-Louis MANDEL Gènes et maladies : les domaines de la génétique humaine (2004) 180. Celâl ŞENGÖR Une autre histoire de la tectonique (2004) 181. Sandro STRINGARI L’aventure des gaz ultra-froids : condensation de Bose-Einstein et superfluidité (2005) 182. Gabriele VENEZIANO Gravitation, relativité, mécanique quantique : la grande synthèse est-elle proche ? (2005) 183. Christian de PORTZAMPARC Architecture : figures du monde, figures du temps (2006) 184. Maurice BLOCH L’anthropologie cognitive à l’épreuve du terrain. L’exemple de la théorie de l’esprit (2006) 185. Thomas PAVEL Comment écouter la littérature ? (2006) 186. Stanislas DEHAENE
Vers une science de la vie mentale (2006) 187. Jon ELSTER Raison et raisons (2006) 188. Antoine COMPAGNON La littérature, pour quoi faire ? (2006) 189. Daniele VITALI Les Celtes d’Italie (2006) 190. Jean-Paul CLOZEL La biotechnologie : de la science au médicament (2007) 191. Pascal DUSAPIN Composer. Musique, paradoxe, flux (2007) 192. Guy ORBAN La vision, mission du cerveau. Les trois révolutions des neurosciences cognitives (2007) 193. Michel DEVORET De l’atome aux machines quantiques (2007) 194. Alain PROCHIANTZ Géométries du vivant (2007) 195. Roger CHARTIER Écouter les morts avec les yeux (2007) 197. Gérard BERRY Pourquoi et comment le monde devient numérique (2008) 198. PIERRE MAGISTRETTI
La neuroénergétique : de la synapse à l’image (2008) 199. Michel BRUNET Origine et histoire des hominidés. Nouveaux paradigmes (2008) 200. Philippe SANSONETTI Des microbes et des hommes. Guerre et paix aux surfaces muqueuses (2008) 201. Anne CHENG
La Chine pense-t-elle ? (2008) 202. Esther DUFLO Expérience, science et lutte contre la pauvreté (2009) 203. Pierre-Laurent AIMARD Rôle et responsabilités de l’interprète aujourd’hui (2009) 204. Mathias FINK Renversement du temps, ondes et innovation (2009) 205. Henri LERIDON De la croissance zéro au développement durable (2009) 206. Thomas RÖMER Les Cornes de Moïse. Faire entrer la Bible dans l’histoire (2009) 207. Marc FONTECAVE Chimie des processus biologiques : une introduction (2009) 208. Gérard BERRY Penser, modéliser et maîtriser le calcul informatique (2009) 209. Antoine GEORGES De l’atome au matériau. Les phénomènes quantiques collectifs (2009) 210. Peter PIOT L’épidémie du sida. Mondialisation des risques, transformations de la santé publique et développement (2010) 211. Patrick COUVREUR Les nanotechnologies peuvent-elles contribuer à traiter des maladies sévères ? (2010) 212. Nicholas STERN Gérer les changements climatiques. Climat, croissance, développement et équité (2010) 213. Jacques NICHET Le théâtre n’existe pas (2010) 214. Ismail SERAGELDIN Mobiliser le savoir pour éradiquer la faim (2010)
215. Anselm KIEFER L’art survivra à ses ruines (2010) 216. Jean-Marie TARASCON L’énergie : stockage électrochimique et développement durable (2010) 217. Elias ZERHOUNI Les grandes tendances de l’innovation biomédicale au XXI e siècle (2011) 218. Clément SANCHEZ Chimie des matériaux hybrides (2011) 219. Martin ABADI La sécurité informatique (2011) 220. Claudine TIERCELIN La connaissance métaphysique (2011) 221. Barbara ROMANOWICZ Physique de l’intérieur de la Terre (2011) 222. Gilles CLÉMENT Jardins, paysage et génie naturel (2011) 223. Paul COLONNA Le carbone renouvelable dans les systèmes alimentaires, énergétiques et chimiques (2011) 224. Jean-Paul LAUMOND La robotique : une récidive d’Héphaïstos (2012) 225. Jean-Noël ROBERT La hiéroglossie japonaise (2012) 226. Serge ABITEBOUL Sciences des données : de la logique du premier ordre à la Toile (2012) 227. Manuela CARNEIRO DA CUNHA Savoirs autochtones : quelle nature, quels apports ? (2012) 228. Jean-Pierre BRUN Techniques et économies de la Méditerranée antique (2012)
229. Bernard CHAZELLE L’algorithmique et les sciences (2012) 230. Karol BEFFA Comment parler de musique ? (2012) 231. Alain SUPIOT Grandeur et misère de l’État social (2012) 232. Edith HEARD Épigénétique et mémoire cellulaire (2012) 233. Yves BRÉCHET La science des matériaux : du matériau de rencontre au matériau sur mesure (2013) 234. Dominique KEROUEDAN Géopolitique de la santé mondiale (2013) 235. Anny CAZENAVE La Terre et l’environnement observés depuis l’espace (2013) 236. Gérard BERRY L’informatique du temps et des événements (2013) 237. Jean DALIBARD Atomes et rayonnement (2013) 238. Tony CRAGG Sculpture et langage (2013) 239. Frantz GRENET Recentrer l’Asie centrale (2013) 240. Sanjay SUBRAHMANYAM Aux origines de l’histoire globale (2013) 241. Gilles BOEUF La biodiversité, de l’océan à la cité (2013) 242. Pierre-Michel MENGER La différence, la concurrence et la disproportion. Sociologie du travail créateur
(2014) 243. Jean-Marie TARASCON Chimie du solide et énergie. Exemples et avenir d’une science millénaire (2014) 244. Alain de LIBERA Où va la philosophie médiévale ? (2014) 245. Philippe WALTER Sur la palette de l’artiste. La physico-chimie dans la création artistique (2014) 246. François BOURGUIGNON Pauvreté et développement dans un monde globalisé (2014) 247. Nicolas AYACHE Des images médicales au patient numérique (2014) 248. Alain FISCHER Médecine expérimentale (2014) 249. Dominique CHARPIN Comment peut-on être assyriologue ? (2014) 250. Bernard MEUNIER Innovations thérapeutiques : tendances et évolution (2014) 251. Françoise COMBES La matière noire dans l’Univers (2014) 252. Hugues de THÉ L’oncologie : de l’empirisme à la biologie intégrée (2015) 253. Georges CALAS Les ressources minérales, enjeu majeur du développement durable (2015) 254. Marie-Paule CANI Façonner l’imaginaire. De la création numérique 3D aux mondes virtuels animés (2015) 255. François DÉROCHE La voix et le calame. Les chemins de la canonisation du Coran (2015) 256. Philippe AGHION Repenser la croissance économique (2015)
257. Thomas STERNER Les instruments de la politique environnementale (2015) 258. Bernard DERRIDA Physique statistique. La flèche du temps et le hasard (2015) 259. Patrick BOUCHERON Ce que peut l’histoire (2015) 260. Jean-Luc FOURNET Ces lambeaux, gardiens de la mémoire des hommes. Papyrus et culture de l’Antiquité tardive (2016) 261. José-Alain SAHEL Rapprocher les regards. Autour de la restauration visuelle (2016) 263. Alain MABANCKOU Lettres noires : des ténèbres à la lumière (2016) 264. Claire VOISIN Topologie des variétés algébriques complexes (2016) 265. Jean-Louis COHEN Architecture, modernité, modernisation (2014) 266. Jean-Jacques HUBLIN Biologie de la culture. Paléoanthropologie du genre Homo (2014) 267. Philippe MANOURY L’invention de la musique (2017) 268. Didier ROUX Découvertes, inventions et innovations (2017) 269. Jean-Daniel BOISSONNAT Géométrie algorithmique : des données géométriques à la géométrie des données (2017) 270. Bénédicte SAVOY Objets du désir, désir d’objets (2017) 271. Alain WIJFFELS Le droit européen a-t-il une histoire ? En a-t-il besoin ? (2017)
272. Thomas LECUIT Dynamiques du vivant (2017) 273. Claire MATHIEU L’algorithmique (2017) 274. Vinciane PIRENNE-DELFORGE Religion, histoire et société dans le monde grec antique (2017) 275. Edhem ELDEM L’Empire ottoman et la Turquie face à l’Occident (2017) 277. Victor STOICHITA Les Fileuses de Velázquez. Textes, textures, images (2018)