Learning mechanisms to account for the speed, selectivity and invariance of responses in the visual - Page 1 - test Tous nos livres sont imprimés dans les règles environnementales les plus strictes Il est interdit de reproduire intégralement ou partiellement la présente publication sans autorisation du Centre Français d’exploitation du droit de Copie (CFC) – 20 rue des GrandsAugustins – 75006 PARIS – Tél. : 01 44 07 47 70 / Fax : 01 46 34 67 19. © Éditions Edilivre – Collection Universitaire – 2008 ISBN : 978-2-35607-651-9 Dépôt légal : Août 2008 Tous droits de reproduction, d’adaptation et de traduction, intégrale ou partielle réservés pour tous pays. Université Toulouse III – Paul Sabatier U.F.R. Sciences de la Vie et de la Terre Thèse pour obtenir le grade de Docteur de l’Université de Toulouse Délivré par l’Université Toulouse III – Paul Sabatier Discipline : Neurosciences Cognitives présentée et soutenue publiquement par Timothée Masquelier le 15 février 2008 Learning mechanisms to account for the speed, selectivity and invariance of responses in the visual cortex Jury Gustavo Deco Olivier Faugeras Yves Frégnac Martin Giurfa Pascal Mamassian Simon Thorpe Rapporteur Examinateur Rapporteur Examinateur Examinateur Directeur de thèse There may be only a few basic learning mechanisms underlying all this complex [brain] activity. The final explanation is likely to be in terms of the basic patterns of connections laid down in normal development, plus the key learning algorithms that modify those connections and other neural parameters. Thus the neocortex may well have an underlying simplicity, not at the level at which the mature brain behaves but at the way by which it arrives at that intricate behavior, based on its innate structure and guided by its rich experience of the world. Francis Crick. The Astonishing Hypothesis. 1994. Touchstone. Abstract In this thesis I propose various learning mechanisms that could account for the speed, selectivity and invariance of the neuronal responses in the visual cortex. I also present the results of a relevant psychophysical experiment demonstrating that familiarity can accelerate visual processing. In Chapter 2, I demonstrate that, in a feedforward neural model of the ventral stream, a combination of a temporal coding scheme, where the most strongly activated neurons fire first, with Spike Timing Dependent Plasticity (STDP) leads to a situation where neurons in higher order visual areas will gradually become selective to frequently occurring feature combinations. At the same time, their responses become more and more rapid. I firmly believe that such mechanisms are a key to understanding the remarkable efficiency of the primate visual system. In Chapter 3, I present a second study, not restricted to vision, where one receiving STDP neuron integrates spikes from a continuously firing neuron population. It turns out, somewhat surprisingly, that STDP is able to find repeating spatio-temporal spike patterns and to track back through them, even when embedded in equally dense ‘distractor’ spike trains – a computationally difficult problem. STDP thus enables some form of temporal coding, even in the absence of an explicit time reference. Given that the mechanism exposed here is simple and cheap it is hard to believe that the brain did not evolve to use it. One interesting prediction of the STDP models of Chapters 2 and 3 is that visual responses’ latencies should decrease after repeated presentations of a same stimulus. In Chapter 4 I tested this prediction experimentally by inferring the visual processing times through behavioral measures. I used a saccadic forced-choice paradigm. The target was always the same repeating image (an interior scene), while the distractors (other interior scenes) were changing. The experiment revealed a familiarity-induced speed-up effect of about 100 ms. Most of it can be attributed to the learning of the task but a ∼25 ms effect corresponds to the familiarity with a given image, and is reached after a few hundred presentations. Of course this does not mean iii that the STDP models of Chapters 2 and 3 are true – only that they are plausible. In Chapter 5, I investigated the learning mechanisms that could account for the invariance of certain neuronal responses to some stimulus properties such as location or scale. It has been proposed that the appropriate connectivity could be learnt by passive exposure to smooth transformation sequences, and the use of a learning rule that takes into account the recent past activity of the cells: the ‘trace rule’. I proposed a new variant of the trace rule that only reinforces the synapses between the most active cells, and therefore can handle cluttered environments. I applied it on V1 complex cells in the HMAX model, and demonstrated that, after exposure to natural videos, the learning rule was indeed able to form pools of simple cells with the same preferred orientation but with shifted receptive fields. Taken together, these simulations suggest how the visual cortex could wire itself. While still speculative at the time of writing the models presented here all rely on widely accepted biophysical phenomena and are thus biologically plausible. The psychophysical results of Chapter 4 are compatible with the STDP models of Chapter 2 and 3. Those last two models also demonstrate how the brain could easily make use of information encoded in the spike times. Whether these spike times contain additional information with respect to the averaged firing rates – a theory referred to as ‘temporal coding’ – is controversial. Given that the mechanisms proposed here are simple, efficient, and satisfy the known temporal constraints coming from the experimental literature, they provide a strong argument in favor of the use of temporal coding, at least when rapid processing is involved. Keywords: vision, object recognition, ultra-rapid visual categorization, learning, temporal coding, spiking neurons, Spike Timing Dependent Plasticity (STDP) Résumé Dans cette thèse je propose plusieurs mécanismes d’apprentissage qui pourraient expliquer la rapidité, la sélectivité et l’invariance des réponses neuronales dans le cortex visuel. J’expose également les résultats d’une expérience de psychophysique pertinente, qui montrent que la familiarité peut accélérer les traitements visuels. Au Chapitre 2, je démontre que, au sein d’un model neuronal de la voie ventrale de type ‘feedfoward’, la combinaison d’une part d’un schéma de codage temporel dans lequel les neurones les plus stimulés déchargent en premier, et d’autre part de la Spike Timing Dependent Plasticity (STDP), amène à une situation dans laquelle les neurones des aires de haut niveau deviennent graduellement sélectifs à des combinaisons fréquentes de primitives visuelles. En outre, les réponses de ces neurones deviennent de plus en plus rapides. Je crois fermement que de tels mécanismes sont à la base de la remarquable efficacité du système visuel du primate. Au Chapitre 3 je présente une autre étude, non spécifique à la vision, dans laquelle un unique neurone reçoit des potentiels d’action (ou ‘spikes’) provenant d’une population d’afférents qui déchargent continuellement. Il s’avère, étonnamment, que la STDP permet de détecter puis de remonter des patterns de spikes spatio-temporels même s’ils sont insérés dans des trains de spikes ‘distracteurs’ de même densité – un problème computationnellement complexe. La STDP permet donc l’utilisation d’un codage temporel, même en l’absence d’une date de référence explicite. Etant donné que le mécanisme présenté ici est simple et peu coûteux, il est difficile de croire que le cerveau n’a pas évolué pour l’utiliser. Une prédiction intéressante des modèles STDP des Chapitres 2 et 3 est que les latences des réponses visuelles devraient diminuer après présentations répétées d’un même stimulus. Au Chapitre 4 j’ai testé expérimentalement cette prédiction, en inférant les temps de traitement visuels à partir de mesures comportementales. J’ai utilisé un paradigme de choix forcé saccadique, avec comme cible toujours la même image répétée (une scène d’intérieur), alors que les distracteurs (également des scènes d’intérieur) changeaient. Les v résultats mettent en évidence une accélération des temps de traitement de l’ordre de 100 ms. La majeur partie de cet effet est imputable à l’apprentissage de la tâche, mais environ 25 ms correspondent a de la familiarité avec une image donnée. Ces 25 ms sont gagnées au bout de quelques centaines de présentations. Bien sûr cela ne veut pas dire que les modèles STDP des Chapitres 2 et 3 sont vrais – seulement qu’ils sont plausibles. Au Chapitre 5 j’ai recherché les mécanismes d’apprentissage qui pourraient expliquer l’invariance de certaines réponses neuronales à certaines propriétés du stimulus visuel comme la position ou la taille. Il a été proposé que la connectivité appropriée pourrait être apprise à partir d’exposition passive à des séquences de transformations continues, et d’une règle d’apprentissage qui prend en compte l’activité de la cellule moyennée sur un passé récent : la ‘trace rule’. Je propose une nouvelle variante de cette ‘trace rule’ qui renforce uniquement les synapses entre les cellules les plus actives, ce qui lui permet de fonctionner dans des environnements chargés. Je l’ai appliquée sur les cellules complexes de V1 dans le modèle HMAX, et on voit que, après exposition à des vidéos naturelles, la loi d’apprentissage forme des ensemble de cellules simples dont l’orientation préférée est la même, mais dont les champs récepteurs sont décalés. Les simulations présentées ici suggèrent comment le cortex visuel pourrait s’auto-organiser. Même s’ils sont spéculatifs aujourd’hui, les modèles proposés s’appuient tous sur des mécanismes biophysiques communément admis – ils sont donc biologiquement plausibles. Les résultats de psychophysique du Chapitre 4 sont compatibles avec les modèles STDP des Chapitres 2 et 3. Ces deux derniers modèles démontrent aussi comment le cerveau pourrait facilement tirer profit de l’information contenue dans les dates de spikes. Si ces dates contiennent d’avantage d’information par rapport au taux de décharge moyen – la théorie dite du ‘codage temporel’ – est controversé. Etant donné que les mécanismes proposés ici sont à la fois simples, efficaces, et satisfont les contraintes temporelles provenant de la littérature expérimentale, ils constituent un argument fort en faveur de l’utilisation de codage temporel, du moins dans les traitements rapides. Mots-clefs : vision, reconnaissance d’objets, catégorisation visuelle ultrarapide, apprentissage, codage temporel, neurones impulsionnels, Spike Timing Dependent Plasticity (STDP) Acknowledgments I would like to acknowledge first my advisor Dr. Simon Thorpe (DR1 CNRS, France) for the quality of his supervision, his permanent enthusiasm, his creative ideas and his broad scientific curiosity. His open-mindedness pushed him to take me in his team although I had very little experience nor training in neuroscience. I would like to thank all the team of SpikeNet Technology Inc. (http: //www.spikenet-technology.com/) for their support and for allowing me to do both applied and fundamental research. In particular the interactions with the R&D engineers Jong-Mo Allegraud and Nicolas Guilbaud were smooth and I think profitable for both parts. It was also a pleasure to work with them. I also acknowledge the Association Nationale pour la Recherche Technique (ANRT), which provided the other half of my funding through a Conventions Industrielles de Formation par la Recherche (CIFRE). I would like to thank all the CERCO team for making the CERCO such a nice place to work, and in particular: Dr. Rufin Van Rullen (CR1 CNRS, France) for keeping an eye on my work, reading and commenting all my manuscripts before I submitted them, and giving me pointers to relevant literature; my predecessor and collaborator Dr. Rudy Guyonneau who first introduced me to Spike Timing Dependent Plasticity; Sébastien Crouzet for his precious help on psychophysical issues; Dr. Jean-Michel Hupé (CR1 CNRS) for his expertise and rigor on statistics. Many thanks to my friends and collaborators at MIT: Thomas Serre (McGovern Institute, MIT), first – for convincing me to join the field of neuroscience, for the numerous brainstorms we had during my PhD, and for the profitable collaboration we had on invariance learning – and Prof. Tomaso Poggio (McGovern Institute, MIT) for welcoming me in his brilliant group in summer 2006 and spring 2007, and for the pertinent feedback he gave on my work. I aknowledge the members of my thesis committee for their interest in my work: Prof. Dr. Gustavo Deco (ICREA, Spain), Dr. Olivier Faugeras (DR INRIA, France), Dr. Yves Frégnac (DR1 CNRS, France), Prof. Dr. Martin vii Giurfa (UPS, France) and Dr. Pascal Mamassian (DR2 CNRS, France). Contents Abstract Résumé Acknowledgments Contents 1 Introduction 1.1 Learning is the key . . . . . . . . . . . . . . . . . . . . . . . . 1.2 Object recognition in the primate’s visual cortex . . . . . . . . 1.2.1 Selectivity & invariance in the ventral stream . . . . . 1.2.2 Speed . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.3 Learning and plasticity in the visual cortex . . . . . . . . . . . 1.4 Theoretical neuroscience . . . . . . . . . . . . . . . . . . . . . 1.4.1 Rate coding, temporal coding and population coding . 1.4.2 Randomness, noise, and unknown sources of variability 1.4.3 Neuronal models . . . . . . . . . . . . . . . . . . . . . 1.5 Evidence for temporal coding in the brain . . . . . . . . . . . 1.6 Models of object recognition in cortex . . . . . . . . . . . . . . 1.6.1 Feedforward and feedback . . . . . . . . . . . . . . . . 1.6.2 Static, single spike wave and mean field approximations 1.6.3 Weight-sharing . . . . . . . . . . . . . . . . . . . . . . 1.7 Spike Timing Dependent Plasticity (STDP) . . . . . . . . . . 1.7.1 Experimental evidence . . . . . . . . . . . . . . . . . . 1.7.2 Previous modeling work . . . . . . . . . . . . . . . . . 1.8 Original contributions . . . . . . . . . . . . . . . . . . . . . . 1.8.1 STDP-based visual feature learning . . . . . . . . . . . 1.8.2 STDP-based spike pattern learning . . . . . . . . . . . 1.8.3 Visual learning experiment . . . . . . . . . . . . . . . . 1.8.4 Invariance learning . . . . . . . . . . . . . . . . . . . . ix iii v vii xii 1 1 3 3 7 10 11 11 12 13 15 17 17 19 20 21 21 22 24 24 26 26 27
Learning mechanisms to account for the speed, selectivity and invariance of responses in the visual - Page 1
Learning mechanisms to account for the speed, selectivity and invariance of responses in the visual - Page 2
wobook
edilivre.com