{ListeTraductions,#GET{ListeTraductions},#ARRAY{#LANG,#URL_ARTICLE}} {ListeTraductions,#GET{ListeTraductions},#ARRAY{#LANG,#URL_ARTICLE}}
 

High-dimensional inference with correlated data : statistical modeling of protein sequences beyond structural prediction
Alice Coucke (LPT)

Grâce aux progrès des techniques de séquençage, les bases de données
génomiques ont connu une croissance exponentielle depuis la fin des années
1990. Un grand nombre d’outils statistiques ont été développés à
l’interface entre bioinformatique, apprentissage automatique et physique
statistique, dans le but d’extraire de l’information de ce déluge de
données. Plusieurs approches de physique statistique ont été récemment
introduites dans le contexte précis de la modélisation de séquences de
protéines, dont l’analyse en couplages directs. Cette méthode d’inférence
statistique globale fondée sur le principe d’entropie maximale, s’est
récemment montrée d’une efficacité redoutable pour prédire la structure
tridimensionnelle de protéines, à partir de considérations purement
statistiques.

Dans cette thèse, nous présentons les méthodes d’inférence en question, et
encouragés par leur succès, explorons d’autres domaines complexes dans
lesquels elles pourraient être appliquées, comme la prédiction de
repliement de protéines ou la détection d’homologies. Contrairement à la
prédiction des contacts entre résidus qui se limite à une information
topologique sur le réseau d’interactions, ces nouveaux champs
d’application exigent des considérations énergétiques globales et donc un
modèle plus quantitatif et détaillé. À travers une étude approfondie sur
des données artificielles et biologiques, nous proposons une meilleure
interpretation des paramètres centraux de ces méthodes d’inférence,
jusqu’ici mal compris, notamment dans le cas d’un échantillonnage limité.
Enfin, nous présentons une nouvelle procédure plus précise d’inférence de
modèles génératifs, menant à des avancées importantes pour des données
réelles en quantité limitée.