L'alignement multiple permet en particulier de repérer des séquences fortement conservées dans des protéines d'une même famille, qui ont donc une importance particulière dans la fonction de celles-ci. L'algorithme basique consistant à essayer tous les alignements étant bien sûr exponentiel, CLUSTAL [21] propose une méthode astucieuse en trois étapes :
Chacune de ces étapes est effectuée de façon indépendante, et des résultats intermédiaires sont disponibles à la fin de chaque étape. Le dendrogramme, notamment, a un intérêt certain : on peut y identifier les spéciations et les duplications de gènes. En effet, les protéines similaires peuvent l'être de deux manières : les orthologues sont des protéines similaires chez deux animaux d'espèce différente, qui ont dérivé de leur ancêtre commun par une spéciation, alors que les paralogues sont des protéines similaires au sein d'une même espèce, qui ont donc dérivé suite à une duplication au sein du gêne de leur ancêtre commun.
La deuxième étape de l'algorithme CLUSTAL présente toutefois un point faible, détaillé en section 8.1.1, qui incite à envisager s'utiliser un algorithme plus robuste pour construire le dendrogramme.
Philippe Gambette 2005-06-30