Alignement multiple

L'alignement multiple permet en particulier de repérer des séquences fortement conservées dans des protéines d'une même famille, qui ont donc une importance particulière dans la fonction de celles-ci. L'algorithme basique consistant à essayer tous les alignements étant bien sûr exponentiel, CLUSTAL [21] propose une méthode astucieuse en trois étapes :

1-
On effectue un alignement de toutes les séquences deux à deux, ce qui permet d'obtenir un score pour chaque paire, et donc une matrice des scores.
2-
En utilisant cette matrice des scores, on construit un dendrogramme : un arbre qui organise les séquences en fonction de leurs mutations par rapport à la séquence originelle supposée. Le dendrogramme est lié au concept de phylogénie que nous développerons en partie II, et c'est donc un algorithme basique de phylogénie, UPGMA (voir section 8.1.1), qui est utilisé pour construire ce dendrogramme.
3-
On itère le processus suivant : on aligne les deux séquences les plus proches, deux feuilles-soeurs du dendrogramme de profondeur maximale, (en utilisant 4 scores pour acides aminés différents : 0 si misappariement avec deux acides aminés "très différents", 1 si misappariement avec deux acides aminés "proches", 2 si consensus sur un acide aminé peu significatif, 3 si consensus sur un acide aminé significatif : Cys, Phe, Trp, Tyr) puis on en effectue un consensus, en mettant des X aux positions des misappariements, et on réinjecte ce consensus dans le dendrogramme.

Chacune de ces étapes est effectuée de façon indépendante, et des résultats intermédiaires sont disponibles à la fin de chaque étape. Le dendrogramme, notamment, a un intérêt certain : on peut y identifier les spéciations et les duplications de gènes. En effet, les protéines similaires peuvent l'être de deux manières : les orthologues sont des protéines similaires chez deux animaux d'espèce différente, qui ont dérivé de leur ancêtre commun par une spéciation, alors que les paralogues sont des protéines similaires au sein d'une même espèce, qui ont donc dérivé suite à une duplication au sein du gêne de leur ancêtre commun.

La deuxième étape de l'algorithme CLUSTAL présente toutefois un point faible, détaillé en section 8.1.1, qui incite à envisager s'utiliser un algorithme plus robuste pour construire le dendrogramme.

Philippe Gambette 2005-06-30