Profils

Le profil se fonde de façon plus directe sur la notion de consensus, en gardant toutes les possibilités d'acides aminés présentes dans l'alignement multiple trouvé précédemment. On peut donc stocker ces profils dans des banques (PROSITE, PRINTS, PFAM). En outre, on peut remarquer que l'on trouve dans ces profils des acides aminés à plusieurs endroits avec un score différent. Il faudrait donc trouver un modèle permettant d'associer un score aux nucléotides en tenant compte de leur position.

C'est ce que fait PSI-BLAST [4], en utilisant la méthode suivante :

1-
on commence par un BLAST.
2-
on fait un alignement multiple.
3-
on calcule une nouvelle matrice de comparaison qui dépend de la position.
4-
on refait un BLAST en utilisant cette matrice, et on repart à l'étape 2.

Avec cet algorithme, on trouve donc les protéines par paliers au cours des multiples itérations : une famille est identifiée, puis on repère par hasard une protéine éloignée, donc on identifie toute sa famille, et ainsi de suite... PSI-BLAST a été utilisé pour construire la base de données IMPALA.

Philippe Gambette 2005-06-30