Laboratoire de Biochimie Théorique
UPR 9080 CNRS / UNIVERSITÉ PARIS 7

IBPC, 13 rue Pierre et Marie Curie, F-75005 Paris - France

 

Mécanique moléculaire en coordonnées internes

Dynamique moléculaire en coordonnées internes Optimisation à l'aide de méthodes multi-copies Applications spectroscopiques Réalité virtuelle

 

DÉVELOPPEMENTS MÉTHODOLOGIQUES

Mécanique moléculaire en coordonnées internes

Contraintes géométriques (Richard Lavery, Anne Lebrun, Emmanuel Giudice, Stéphanie Teletchea)

 

 Lors de la simulation du comportement des macromolécules biologiques, il est souvent nécessaire de perturber leur structure de façon contrôlée. Ceci permet d'étudier les changements de conformation qui sont trop lents pour être observés spontanément lors des trajectoires de dynamique moléculaire (quelques nanosecondes) ou d'induire des conformations normalement présentes au sein de complexes macromoléculaires qui sont trop grands pour être simulés directement. Profitant de notre expérience du développement d'outils de modélisation en coordonnées internes et, ainsi, de la manipulation de la géométrie des macromolécules, nous avons mis au point trois types de contraintes applicables à l'étude des acides nucléiques :

i) En collaboration avec S.H. Harvey (Georgia Institute of Technology) nous avons facilité la construction de modèles d'ARN par le biais de contraintes permettant de spécifier quelles bases sont appariées et quelles bases sont empilées. Ces contraintes, qui peuvent être appliquées à la construction de l'ensemble des motifs structuraux qui sont observés au sein des ARN (doubles et triples hélices, boucles, "bulges", pseudo-nœuds, etc.), sont implémentées au sein de notre logiciel de modélisation des acides nucléiques JUMNA. Elles permettent de construire rapidement des modèles tridimensionnels des ARN complexes qui sont optimisés énergétiquement. De tels modèles peuvent servir notamment dans le raffinement des structures obtenues par rayons-X à basse résolution (ce qui est souvent le cas pour les grands ARN, comme par exemple pour les ARN constituant le ribosome).

ii) Nous avons mis au point un logiciel (CONTACT) permettant d'analyser les complexes protéine-acide nucléique et de traduire la structure de l'interface entre les deux macromolécules en un ensemble de contraintes géométriques. Ces contraintes constituent un "moule" moléculaire qui permet de déformer un fragment d'acide nucléique isolé de façon à reproduire le site d'accueil pour la protéine. Ainsi, nous sommes en mesure d'étudier l'énergie de déformation de l'acide nucléique associée avec la formation du complexe, et aussi de bâtir des complexes protéiques avec des fragments d'ADN différents de celui présent dans le complexe d'origine (en longueur et/ou en séquence).

iii) Pour étudier les processus de réparation d'ADN, nous avons modifié le logiciel AMBER (P. Kollman, UCSF) pour permettre l'ouverture d'une base au sein d'une structure en double hélice. La contrainte en question, déjà utilisée au sein du logiciel JUMNA permet d'ouvrir une base en spécifiant un angle formé entre la liaison glycosidique de la base qui s'ouvre et une liaison virtuelle entre les deux atomes C1' de la paire de bases correspondantes. Cet angle est ensuite projeté dans un plan défini par la liaison C1'-C1' et l'axe hélicoïdal local pour éviter que des mouvements de type "buckle" soient interprétés comme l'ouverture de la base. En modifiant l'angle décrit dans le sens des aiguilles d'une montre il est possible d'ouvrir la base vers le petit sillon, tandis qu'une modification dans l'autre sens amène la base dans le grand sillon. Au sein d'AMBER, cette contrainte nous permet d'étudier le profil d'énergie libre de l'ouverture d'une base par une approche de type échantillonnage parapluie.

Modélisation des protéines (Chantal Prevost, Krystyna Zakrzewska, Anne Lebrun, Richard Lavery, Ingrid Lafonaine, Cyril Reboul, Isabelle Navizet)

 

Plusieurs projets du laboratoire ont convergé vers la nécessité de disposer d'un outil d'étude des protéines équivalent à JUMNA pour les acides nucléiques. Comme pour les acides nucléiques, la représentation d'une protéine en variables internes, avec longueurs de liaisons fixes, permet de rendre beaucoup plus efficaces les minimisations énergétiques et de générer divers types de déformations de façon contrôlée. C'est cette représentation qui a été implémentée dans le logiciel LIGAND. Les déformations globales de structures protéiques sont ainsi effectuées par rotations concertées autour des liaisons peptidiques. Les déformations protéiques locales sont plus difficiles à aborder lorsqu'elles impliquent la chaîne principale. Nous avons créé la possibilité de flexibiliser des portions choisies de la chaîne peptidique, le reste de la chaîne étant figé, en introduisant des coupures assorties de contraintes de fermeture. La définition du système de variables et de contraintes permettant la flexibilité de parties choisies de la protéine (chaînes latérales, fragments peptidiques, boucles, domaines) se fait dans le logiciel PCHEM de préparation topologique de la protéine. LIGAND dispose des outils de modélisation présents dans JUMNA : cartographie adiabatique, analyse combinatoire, calcul de modes normaux et contraintes diverses portant sur des caractéristiques locales (distances, angles) ou globales (étirement, torsion,...).

Modèles continus du solvant (Krystyna Zakrzewska) (en collaboration avec K. Sharp, University of Pennsylvania, USA)

 

 La solution numérique de l'équation de Poisson-Boltzmann (PB) est souvent coûteuse. De ce fait de tels calculs sont possibles seulement pour les conformations fixes des macromolécules. Ceci permet néanmoins d'obtenir des valeurs de l'énergie libre pour un système simulé à l'aide de la dynamique moléculaire grâce à des instanés pour lesquels on calcule l'énergie à l'aide d'une formule approximative composée d'une énergie potentielle et l'énergie de solvatation auxquelles on peut ajouter une énergie de cavitation. L'énergie de solvatation est calculée par la méthode PB ou des approximations comme "Generalized Born" (GB). Nous avons voulu comprendre comment un modèle PB se comporte pour l'ADN. En profitant du séjour sabbatique dans notre laboratoire de K. Sharp, un des auteurs principaux du programme DelPhi, nous avons incorporé dans JUMNA la possibilité d’optimiser la structure d'un oligomère grâce à la solution de l'équation PB à chaque pas de minimisation. Cette version, très coûteuse en temps de calcul, nous permet d'étudier pour la première fois l'influence de l'effet diélectrique de l'eau et de la force ionique sur la conformation de l'ADN, et, très important de point de vue pratique, l'influence des paramètres utilisés dans le calcul. Elle nous sert comme référence pour les méthodes simplifiées du type GB.

Nous poursuivons nos efforts pour perfectionner la méthode GB. La paramétrisation qui est employée dans la dernière version d'AMBER ne fourni pas de simulations satisfaisantes des oligomères d'ADN composés exclusivement des bases AT. De telles séquences sont importantes car elles sont souvent présentes dans les séquences reconnues par les protéines impliquées dans la régulation d'expression génétique. En profitant des possibilités offertes par JUMNA pour déformer l'ADN, nous avons constaté que la méthode de GB ne reproduit pas correctement la solution de l'équation PB, notamment pour les déformations de la double hélice qui impliquent des changements de la largeur du petit sillon. Pour les séquences AT, la méthode BG produit une stabilisation des structures à petit sillon très étroit, contrairement à des données PB. Nous espérons que des modifications limitées des paramètres permettront de résoudre ce problème.
 

Calculs d’entropie conformationnelle à l'aide des modes normaux (Krystyna Zakrzewska, Cyril Reboul)

 


Les calculs d'entropie sont rendus complexe par le caractère extensif de cette grandeur. Les recherches méthodologiques actuelles vont principalement dans deux directions. La première est le développement de méthodes de calcul de l'entropie "interne" ou "conformationnnelle" d'une macromolécule. Récemment, nous avons commencé à étudier les changements de l'entropie conformationnelle de l'ADN lors de sa complexation par des protéines. Les calculs sont basés sur l'emploi des modes normaux. La simplicité de tels calculs permet d'étudier un grand nombre de complexes. La deuxième direction est le calcul de l'entropie de solvatation employant de nouveaux modèles continus du solvant. Afin de calculer l'énergie libre associée avec la complexation protéine-ADN, nous avons introduit de telles possibilités de calcul dans le logiciel LIGAND. La combinaison de ces approches nous permet de dépasser des calculs d'enthalpie et d'estimer les composants de l'énergie libre de complexation.

Bornes périodiques pour le traitement des surfaces (Chantal Prevost, Edna Meneses)

 

La difficulté essentielle rencontrée dans l'étude des interactions macromolécule/surface au niveau atomique tient au fait que l'adsorption de macromolécules sur des surfaces s'accompagne souvent de changements conformationnels de grande amplitude. L'étude nécessite ainsi une large exploration de l'espace conformationnel de la macromolécule ainsi que des chaînes de la surface, ce qui est actuellement hors de portée des techniques de simulation par dynamique moléculaire. Ce type d'exploration est par contre abordable par l'intermédiaire du logiciel LIGAND de manipulation de structures protéiques, que nous avons étendu au traitement des surfaces et de leurs interactions avec les macromolécules biologiques.

 Notre représentation privilégie la représentation de surfaces fonctionnalisées, mais permet également de traiter des monocouches de lipides. Seule la couche en contact avec le solvant est représentée explicitement. Elle est modélisée par un ensemble de chaînes dont une extrémité est fixée sur un plan représentant implicitement les couches profondes de la surface. Les paramètres géométriques (distances, angles) des mailles de fixation de ces extrémités, ainsi que l'angle de la première liaison des chaînes avec la surface, sont spécifiés à la construction. Les déformations des chaînes sont régies par un jeu de variables internes. A l'aide de ce développement nous souhaitons étudier, en premier lieu, l'influence d'une monocouche lipidique sur la polymérisation de l'actine, sujet abordé expérimentalement par le groupe de François Amblard (Renault et al., Biophys. J. 1999, 76:1580).

Dynamique moléculaire en coordonnées internes


 Depuis plusieurs années, nous poursuivons le développement de la méthodologie de la dynamique moléculaire en cordonnées internes ("Internal Coordinate Molecular Dynamics" ICMD). La dynamique moléculaire traditionnelle traite des molécules comme des ensembles d'atomes libres en utilisant l'équation de Newton de la mécanique classique. L'ICMD est une approche alternative qui cherche à représenter les gros objets chimiques comme des ensembles de corps rigides articulés. Ainsi, il devient possible de réduire drastiquement le nombre de degrés de liberté. ICMD tire son origine du formalisme d'Euler-Lagrange-Hamilton et elle est très efficace pour les études des macromolécules biologiques car elle permet de réduire considérablement la complexité de l'espace conformationnel ainsi que d'accélérer les calculs. ICMD est néanmoins plus complexe que la dynamique en coordonnées cartésiennes et elle nécessite des algorithmes sophistiqués et souvent récursifs

Le problème de clôture de boucles (Alexey Mazour)

 

 
Pour les algorithmes de l'ICMD il est normalement nécessaire que l'ensemble des corps rigides simulés soit topologiquement équivalent à un ou plusieurs arbres isolés, ce qui exclue la présence de boucles intramoléculaires flexibles. Ceci pose un problème pour le traitement des sucres des acides nucléiques et des grosses boucles formées par l'ADN circulaire ou par les protéines possèdant des ponts disulfures. Ce problème a été résolu en utilisant les contraintes explicites dans le cadre de l'ICMD pour que les propriétés symplectiques des intégrateurs ne soient pas perdues. Ce développement a permis l'utilisation de nos algorithmes d'ICMD pour des études dynamiques de l'ADN décrites en sections E1.2 et E1.3.

Justification Physique de l'ICMD (Alexey Mazour) (en collaboration avec D. Noid, Oak Ridge National Laboratory, USA)


Il est connu depuis quelque temps que les modèles des polymères tenant compte de tous les degrés de liberté atomiques sont "trop chaotiques". Plus précisément, dans ses modèles, les énergies des vibrations des liaisons et des angles de valence peuvent se mélanger librement avec les énergies des autres mouvements, tandis qu'en réalité, à température ambiante, ils doivent occuper les niveaux fondamentaux et, par conséquent, s'échangent peu ou pas du tout. Cet échange artificiel rend les systèmes très chaotiques. Notamment, pour des fréquences élevées, il n'y a plus de trajectoires quasi périodiques stables correspondant aux états stationnaires quantiques et le spectre classique des mouvements internes devient continu, ce qui ne correspond pas à la réalité. L'autre conséquence est que les vitesses de croisement des barrières énergétiques basses, comme les barrières des angles de torsion, sont considérablement surestimées. Dans un travail en collaboration avec le group de D. Noid, nous avons trouvé qu'avec les équations quasi-Hamiltoniennes de l'ICMD le niveau énergétique du chaos est beaucoup plus élevé et qu'à température ambiante on peut observer une dynamique quasi périodique des vibrations torsionelles, en meilleur accord avec l'approximation quasi classique de la mécanique quantique.

 Un modèle "minimal" de la dynamique de l'ADN (Alexey Mazour)

 


La dynamique de l'ADN joue un rôle important en biologie moléculaire. Mais, quoique les premières simulations dynamiques de l'ADN aient été publiées il y a des années, des dynamiques stables et suffisamment proches de résultats expérimentaux n'ont été obtenues que très récemment. Il faut remarquer que ces calculs sont très coûteux et l'application de l'ICMD dans ce domaine serait donc très désirable.

Actuellement, l'approche la plus répandue pour simuler la dynamique des acides nucléiques implique une boîte d'eau avec des contre-ions explicites et des conditions aux limites périodiques. Cette méthode a de nombreux avantages conceptuels, mais elle est très coûteuse et mal adaptée aux simulations des longues chaînes flexibles qui peuvent balayer un volume très important pendant la dynamique. Il est évident que d'autres approches seront très désirables pour l'avenir. Malheureusement, les modèles de l'ADN sans l'eau explicite, tout en étant utiles pour l'analyse conformationnelle par minimisation d'énergie, ne permettent pas d'obtenir des trajectoires stables en dynamique.

Ainsi, nous avons commencé à chercher des conditions pour simuler la dynamique de la double hélice de l'ADN qui serait mieux adaptées aux simulations des très longues chaînes. Après plusieurs essais, nous avons trouvé une approche que nous avons baptisée "l'ADN minimal". Dans ce modèle, un nuage d'eau explicite est placé dans le petit sillon de l'ADN. Le reste de solvant autour de l'ADN est traité implicitement en appliquant une diminution des charges des phosphates et en utilisant une fonction diélectrique dépendant de la distance entre les charges. Cette approche est peu coûteuse, le temps de calcul augmentant linéairement avec la longueur de la séquence. En même temps, elle est suffisamment stable en dynamique, l'eau dans le petit sillon montrant peu de dissociation. On peut dire que cette eau se conduit comme un ligand amorphe plutôt que comme un solvant. Nous avons montré que ce système réduit converge vers des structures très proches de l'ADN-B expérimental et qu'il peut aussi reproduire les effets spécifiques dus à la séquence des bases, tel que l'apparition spontanée d'une courbure statique.

Il faut noter que, malgré ses avantages, "l'ADN minimal" sera remplacé à terme. Son désavantage majeur est qu’en changeant la permittivité diélectrique on modifie assez brutalement les énergies des liaisons hydrogènes qui, dans les champs de force actuels, sont purement électrostatiques. C'est pourquoi nous continuons nos efforts pour trouver de nouvelles approches. Très récemment nous avons proposé une méthode qui permet d'étudier la dynamique de l'ADN submergé dans une goutte d'eau contenant des contre-ions. Pour cela, nous avons développé une nouvelle version de la technique "Particle-Mesh-Ewald" qui permet de calculer les interactions électrostatiques sans troncature. Nous avons néanmoins pu éviter l'emploi des conditions limites périodiques. Ce dernier modèle possède un intérêt physique particulier. Premièrement, il permet d'examiner le rôle des interactions entre les images périodiques, qui sont toujours présentes lors les calculs conventionnels avec la méthode d'Ewald. Deuxièmement, dans notre modèle, la gouttelette d'eau contenant l'ADN peut porter une charge électrique sans que l'énergie du système devienne infinie, comme avec les conditions périodiques. Par conséquent, on peut étudier la dynamique de l'ADN dans l'eau sans contre-ions et clarifier leurs effets sur sa structure. Troisièmement, nous pouvons étudier l'impact de l'interface entre l'eau et le vide sur le comportement de l'ADN.

Nous avons trouvé que la dynamique de l'ADN dans une gouttelette d'eau est assez proche de la dynamique avec des conditions périodiques. Cela confirme que les interactions entre les images périodiques dans les calculs standards avec la méthode d'Ewald ne sont pas cruciales pour la structure de l'ADN, au moins pour des fragments courts étudiés aujourd'hui. Nous avons montré aussi que l'ADN en absence de contre-ions exhibe des modulations de la largeur de petit sillon qui se produisent presque de la même façon que dans la dynamique standard. Ces modulations attirent beaucoup d'intérêt dans le contexte général des études de l'ADN, puisqu'ils sont liés à la courbure de l'ADN, ainsi qu'à la reconnaissance de l'ADN par les protéines. Des études récentes suggèrent que cet effet est lié aux interactions entre l'ADN et des contre-ions. Nos calculs ne soutiennent pas cette interpretation. Finalement, nous avons démontré que des transitions réversibles entre les formes A et B de l'ADN peuvent être induites en changeant la taille de la gouttelette d'eau autour de l'ADN (voir section E1.3).

Optimisation à l'aide de méthodes multi-copies


Développement du logiciel ADAPT (Richard Lavery, Ingrid Lafontaine, Guillaume Paillard)

 

 
En 1998, nous avons eu l'idée d'étendre nos études de la reconnaissance protéine-acide nucléique de façon à pouvoir aborder les problèmes posés par l'ère post-génome. En effet, il est encore difficile de localiser les sites d'interaction de la plupart des facteurs de transcription, compte tenu du fait que beaucoup de ces protéines sont capables de reconnaître plusieurs séquences de base différentes. La localisation de tels sites aide à détecter les gênes et aussi fournit des informations sur les systèmes de contrôle de l'expression génétique.

Notre approche, dénommée ADAPT, a été basée sur une méthodologie ab initio dans le sens où nous analysons la qualité d'un site potentiel par le calcul des énergies plutôt qu'à l'aide d'une fonction lexicographique. Ceci nous oblige à pouvoir calculer les énergies en question de façon très rapide. Nous avons résolu ce problème par l'emploi d'une méthode dite "multi-copie". Elle se base sur la création de nucléotides spéciaux ("lexides") au sein de notre logiciel de modélisation JUMNA. Ces lexides comportent non pas une base, comme un nucléotide classique, mais les quatre bases possibles (adénine, guanine, thymine, cytosine). La contribution de chaque base à l'énergie du système dépend d'un coefficient variable (la somme des coefficients pour les quatre bases d'un lexide étant normalisé à 1.0). Ainsi, il devient possible d'effectuer des optimisations d'énergie non plus dans l'espace de la conformation de l'acide nucléique, mais plutôt dans l'espace défini par sa séquence de bases. Egalement, si nous constituons une matrice contenant l'ensemble des contributions énergétiques impliquant les différentes bases au sein de chaque lexide, il devient possible de calculer l'énergie pour une séquence de base quelconque par simple sommation de éléments appropriés. Cette méthode nous permet de calculer des énergies pour l'ensemble des séquences possibles pour un complexe protéine-ADN (malgré le fait qu'un tel ensemble peut facilement comporter >109 séquences distinctes). Par la même approche, il devient également possible de parcourir une séquence génomique pour localiser les sites d'interaction préférentiels d'une protéine donnée. Cette possibilité peut être vue comme l'adaptation des approches de type "threading", employées dans la prédiction de la structure 3D des protéines, au problème des interactions protéine-ADN.

Initialement, ADAPT se limitait au calcul des énergies de déformation d'ADN (c’est à dire, l'énergie nécessaire pour passer d'un ADN-B canonique à la structure de l'ADN au sein d'un complexe protéine-ADN). Son application a été ainsi limitée au complexes où l'énergie de déformation semblait être le composant dominant dans le processus de reconnaissance (par exemple, dans le cas de la TATA-box binding protein qui, en se liant dans le petit sillon de l'ADN, induit des déformations majeures). Désormais, les calculs avec ADAPT portent non seulement sur cette énergie de déformation, mais aussi sur l'énergie d'interaction entre la protéine et l'ADN. Ceci nous permet d'aborder l'étude de l'ensemble des complexes protéiques. Nous avons également travaillé sur l'analyse des résultats en terme d'indices qui permet de définir le rôle des deux composants impliqués dans la reconnaissance protéine-ADN (déformation et interaction) de façon quantitative. Ces résultats sont décrits dans la section E3.4.

Amarrage flexible de macromolécules : logiciel MC2 (Chantal Prevost, Karine Bastard, Aurélien Thureau, David Giganti)

 


Nous avons mis au point un logiciel d'amarrage ("docking"), MC2, qui permet la prise en compte de la flexibilité lors de l'amarrage de macromolécules (protéines ou ADN). Les logiciels d'amarrage actuellement disponibles ne permettent de tenir compte que des réajustements de chaînes latérales protéiques. Dans ces logiciels, la recherche des surfaces d'interaction de chaque partenaire est basée en première approximation sur une complémentarité de surface. De ce fait, ils échouent en général à prédire des complexes macromoléculaires de géométrie correcte lorsque la conformation d'un fragment protéique dans la protéine isolée diffère de sa conformation au sein du complexe. Il arrive également que la structure d'une boucle protéique ne soit pas définie, soit parce que la boucle n'est pas structurée dans la protéine isolée, soit parce que la structure provient de reconstruction par homologie de séquence. Le logiciel MC2 représente donc une avancée méthodologique certaine dans la prédiction d'assemblages macromoléculaires.

La méthode que nous avons élaborée repose sur le couplage entre la technique des copies multiples pour représenter le fragment ou boucle flexibles et un processus de Monte Carlo pour explorer l’espace accessible au partenaire d'association et aux chaînes latérales protéiques, représentées par un jeu de variables internes. Les copies de la boucle correspondent à des conformations rigides distinctes de la chaîne peptidique, choisies de manière à ce que l'ensemble recouvre l'espace conformationnel accessible à la boucle. Le couplage est assuré par un processus itératif d'ajustement du poids des copies au cours de cycles de Monte Carlo. Les copies s’opposant à l’arrimage ou interagissant médiocrement avec le partenaire d'association sont successivement éliminées, tandis que le partenaire ajuste sa position à l'ensemble des copies restantes.

 

 

 

 

 Figure 1.
Principe de la méthode MC2, illustrée sur le système formé par le domaine prd de la protéine Pax et son ADN cible. La boucle protéique flexible (en noir) est considérée comme un ensemble de copies multiples pendant l'amarrage protéine-ADN. Le poids des copies varie pendant l'amarrage de manière à favoriser les copies interagissant au mieux avec l'ADN.

 

Le logiciel a été validé sur un système d'étude simple, formé par le domaine prd de la protéine Pax en interaction avec son ADN cible (voir la Figure 1). Pour les besoins de l'étude, une boucle de la protéine contactant l'ADN par insertion dans son petit sillon a été supposée flexible et toute information sur sa géométrie a été délibérément ignorée. Nous avons pu reconstruire le complexe natif avec une très bonne approximation et une fréquence proche de 50%. La conformation de la boucle était correctement prédite dans près de 90% des cas. Les meilleures prédictions retrouvent la quasi totalité des interactions par liaison hydrogène protéine/ ADN présentes dans la structure cristallographique.

 

Applications spectroscopiques

 

Prédiction des spectres IR à l'aide des modes normaux (Krystyna Zakrzewska) (en collaboration avec M. Bykhovskaia, University of Virginia, USA)

 


Nous avons développé une méthode de calcul qui permet d'utiliser des modes normaux en coordonnées internes pour interpréter des spectres infra-rouge de très basse fréquence. L'expression analytique de la dépendance de l'absorption IR de la fréquence contient les fréquences et l'activité optique de chaque mode. Afin d'évaluer l'activité d'un mode particulier nous calculons l'amplitude des vibrations du moment dipolaire. Cette méthode a été appliquée aux fragments d'ADN ayant des séquences AT alternées et homopolymériques et a fourni des résultats en bon accord avec des spectres expérimentaux.

Développement de méthodes d'aide à l'attribution : FIREMAN (Thérèse Malliavin) (en collaboration avec M.-A. Delsuc et J.-L. Pons, CBS, Montpellier)

 


La détermination de structure de protéines par RMN doit actuellement faire face à deux goulots d'étranglement: (i) l'obtention d'échantillons suffisamment stables et concentrés pour être étudiés par RMN multidimensionelle, et (ii) l'attribution des spectres RMN enregistrés sur ces échantillons. Nous avons abordé ce deuxième problème en mettant au point des méthodes d'analyse automatique des spectres 3D 15N HMQC-NOESY, en utilisant des données expérimentales enregistrées sur les protéines oncogènes humaines P8MTCP1 et P13MTCP1. Ce sont des protéines de 68 et 117 acides aminés, dont les structures ont été déterminées par RMN au Centre de Biochimie Structurale. La structure tertiaire de P8 présente un motif topologique a ``coiled-coil'', qui se compose de trois hélices a, reliées par trois ponts disulfures. La structure tertiaire de P13 consiste en un tonneau b orthogonal, composé de 8 brins b anti-parallèles.

Nous avons cherché à obtenir directement à partir des spectres 3D HMQC-NOESY de P8 et P13, un paramètre de corrélation entre les bandes spectrales contenant les pics de corrélation entre l'hydrogène amide d'un résidu donné, et les autres hydrogènes de la protéine. Les résultats obtenus pour les deux protéines P8 et P13 à l'aide de ce paramètre sont comparés à la matrice de distances entre résidus. Pour les deux protéines, des paramètres de corrélation artéfactuels sont observés entre des résidus trop éloignés dans l'espace pour présenter des pics de corrélation entre eux. Cependant, pour P8, les matrices de distance et de corrélation sont assez similaires, tandis que pour P13, il est plus difficile de distinguer les corrélations qui ont une signification réelle des corrélations artéfactuelles

Pour tester la méthode, le calcul de valeurs de match a été aussi effectué sur des expériences simulées à partir de fichiers de structures PDB et des fichiers de déplacements chimiques BRMB. Cette étude a permis de mieux cerner les limites de la méthode, et de mettre en évidence qu'elle détectait environ 70 % des corrélations séquentielles et 40 % des corrélations à moyenne portée.

Les matrices de match calculés sur la protéine P8, couplées à des prédictions des types d'acides aminés de la protéine à partir des valeurs de déplacements chimiques de leurs noyaux, ont été utilisées pour effectuer un calcul automatique de la structure de cette protéine, à partir des données mesurées sur deux expériences RMN 3D 15N-1H HSQC-TOCSY et 15N-1H HSQC-NOESY. Le calcul a été effectué en deux étapes: (i) le tri des résidus observés sur les spectres afin de les positionner dans la séquence (ii) le calcul des coordonnées atomiques à partir des contraintes de distances des matrices de match et du tri effectué dans l'étape (i). La première étape a été réalisée à l'aide d'un algorithme de Metropolis minimisant l'ensemble des contraintes sur les types d'acides aminés, ainsi que sur les distances entre acides aminés, afin de positionner chaque résidu observé sur les spectres dans la séquence de la protéine. La procédure utilisée a été nommée FIREMAN.

 

Géométrie de distances et génomique structurale à haut débit par RMN (Thérèse Malliavin, Antoine Marin) (en collaboration avec M.-A. Delsuc ,CBS, Montpellier et B. Mourrain, INRIA, Nice)

 


Dans le cadre du programme Bioinformatique, axe "Recherche informatique et/ou mathématique en biologie", un projet réunissant les laboratoires: Centre de Biochimie Structurale (CBS) - UMR 5048 CNRS, GALAAD - INRIA - Sophia-Antipolis, Laboratoire de Biochimie Théorique (LBT) - CNRS - PARIS, Unité de Biochimie et Biologie Moléculaire des Céréales (UBBMC) - INRA - Montpellier et Unité de Bioinformatique Structurale (UBS) - Institut Pasteur - Paris, se propose d'utiliser les méthodes de géométrie algébrique développées au laboratoire GALAAD pour prendre en compte l'ambiguïté des données RMN produisant les proximités artéfactuelles observées sur les matrices de corrélation).

La biologie structurale a été profondément modifiée, par l'arrivée massive d'informations issues des projets de génomique. Une approche nouvelle des problèmes structuraux, est apparue, la génomique structurale, où il s'agit de déterminer rapidement la structure d'un grand nombre de protéines. Les outils sont ceux de la biologie structurale : RMN et radiocristallographie. Mais modifiés, car le besoin de rapidité de l'analyse est primordial, en effet il s'agit ici de traiter rapidement de nombreuses structures, et l'outil bioinformatique est incontournable. La RMN est défavorisée par rapport à la radiocristallographie pour ce genre d'étude, du fait que l'analyse complète des spectres nécessite une longue étape d'attribution des spectres.

Le projet consiste à développer des méthodes de détermination rapide de structure de protéine à partir des spectres de RMN non interprétés, et de rendre ces méthodes accessibles sur Internet sous forme d'outils disponibles pour la communauté scientifique. Il s'appuie sur les compétences croisées des différents labo­ratoires partenaires: i) expression de contraintes géométriques sous forme d'équations polynomiales pour l'équipe GALAAD (Sophia-Antipolis); ii) interprétation et attribution automatique de spectres de RMN pour l'équipe du LBT (Paris), l'UBS (Paris) et le CBS (Montpellier); iii) détermination de structures moléculaires et la gestion des ambiguïtés des données RMN grâce au logiciel ARIA pour l'UBS; iv) le développement d'outils de traitement de données et construction d'interfaces Internet pour le CBS; v) surexpression et purification de protéines recombinantes dans la levure et marquage isotopique pour l'équipe de l'UBBMC (Montpellier).

Antoine Marin (bourse post-doctoral GALAAD du projet Bioinformatique) a travaillé sur le développement de méthode de prédiction des types d'acides aminés à partir des valeurs de déplacements chimiques de leurs noyaux. Une approche probabiliste, basée sur le théorème de Bayes, a permis d'améliorer les résultats obtenus auparavant avec la méthode RESCUE, basée sur une réseau de neurones (Pons et Delsuc, 1999, J. Bio. NMR 15,15-26). Le taux de succès de la prédiction des acides aminés est maintenant de 80% ou 50% suivant que l'on utilise les déplacements chimiques des hydrogènes ou ceux de 15N, HN, Ha, Hb. Il était auparavant avec RESCUE, de 63 et 34%. La méthode utilisée a aussi permis de déterminer les corrélations statistiques entre les valeurs de déplacements chimiques des différents noyaux. Les valeurs de ces coefficients de corrélation montrent que les valeurs de déplacements chimiques des noyaux sont corrélées entre elles, mais que ces corrélations ne varient pas beaucoup d'un acide aminé à l'autre.

 

Réalité virtuelle - SHAMAN: graphisme interactif et manipulation d'objets nanoscopiques (Marc Baaden, Chantal Prevost, Richard Lavery)

 

Le projet SHAMAN (Système HAptique pour MAnipulation Nanoscopique) vise à mettre au point un système matériel et logiciel de réalité virtuelle permettant la manipulation et l'exploration d'objets biologiques complexes à l'échelle moléculaire.

Notre meilleur outil pour reconnaître et manipuler les objets complexes est le cerveau humain. SHAMAN devra constituer pour le chercheur une porte d'entrée dans l'espace théorique d'une simulation moléculaire du système qu'il étudie lui permettant l'utilisation de ses sens (vision, audition, toucher). Cet outil serait accessible aussi bien aux expérimentateurs qu'aux théoriciens et vise à encourager des interactions entre chimistes, physiciens et biologistes intéressés par les nano-objets. Cette approche nous semble particulièrement adaptée pour étudier des gros changements conformationnels, tels qu'ils sont entre autre observés dans les moteurs moléculaires ou dans le cas du récepteur des lipoprotéines de faible densité (voir ci-dessous).

Le premier travail effectué a été la mise en place du matériel de réalité virtuelle (bras haptique "Phantom", système de positionnement "Spaceball" et système de visualisation stéréoscopique). En particulier nous avons apporté des modifications à la librairie de gestion de matériel de réalité virtuelle VRPN. Ces modifications étaient nécessaires afin d'interfacer le bras haptique avec des logiciels existants (et futurs), dont fait partie le programme de visualisation VMD. Après des tests de performance il s'imposait de séparer la gestion du bras et la visualisation sur deux stations de travail distinctes pour améliorer l'interactivité. Ceci doit permettre un fonctionnement en temps réel du moins pour des systèmes de petite taille (centaines d'atomes).

Des essais de dynamique moléculaire en temps réel avec les logiciels VMD et NAMD ont permis de vérifier notre installation matérielle et de prendre un premier contact avec cette nouvelle technique. Nous avons ensuite démarré le développement logiciel du projet dont la première phase vise à doter le logiciel «LIGAND» développé au laboratoire d'un module graphique interactif impliquant le bras haptique. Nous avons bien progressé dans cette première phase et il est actuellement possible de suivre visuellement les calculs effectués par LIGAND (voir section D1) en temps réel.

Figure 2. Le bras "haptique" Phantom (Sensible Technologies, USA) permettant de "ressentir" des forces atomiques

L'extension du logiciel mis au point nous permettra prochainement d'introduire l'interactivité dans le calcul et de développer des applications aux systèmes d'intérêt physico-chimique et biologique. Pour ce faire il faudra implémenter l'échange et le traitement des forces calculées par mécanique moléculaire et de celles enregistrées par le bras haptique pour permettre à l'utilisateur d'intervenir sur le calcul moléculaire en cours. Des améliorations de performance du logiciel LIGAND seront également nécessaires pour pouvoir traiter les macromolécules de grande taille à une vitesse adaptée.

Retour index