Objectifs d’apprentissage
- Expliquer la variation de taille des génomes procaryotes et les ORF
En génétique moléculaire, un cadre de lecture ouvert (ORF) est la partie d’un cadre de lecture qui ne contient pas de codons stop. Le site de pause de terminaison de la transcription est situé après l’ORF, au-delà du codon stop de traduction, car si la transcription devait cesser avant le codon stop, une protéine incomplète serait fabriquée pendant la traduction.
Normalement, les inserts qui interrompent le cadre de lecture d’une région ultérieure au codon de départ provoquent une mutation de la séquence par décalage de cadre et disloquent les séquences pour les codons stop.
Les cadres de lecture ouverts sont utilisés comme un élément de preuve pour aider à la prédiction des gènes. Les ORF longs sont souvent utilisés, avec d’autres preuves, pour identifier initialement les régions candidates au codage des protéines dans une séquence d’ADN. La présence d’un ORF ne signifie pas nécessairement que la région est traduite. Par exemple, dans une séquence d’ADN générée au hasard avec un pourcentage égal de chaque nucléotide, on s’attendrait à trouver un codon stop tous les 21 codons. Un algorithme simple de prédiction de gènes pour les procaryotes pourrait rechercher un codon de départ suivi d’un cadre de lecture ouvert suffisamment long pour coder une protéine typique, où l’utilisation des codons de cette région correspond à la fréquence caractéristique des régions codantes de l’organisme donné. Même un long cadre de lecture ouvert ne constitue pas en soi une preuve concluante de la présence d’un gène.
Si une partie d’un génome a été séquencée (par exemple 5′-ATCTAAAATGGGTGCC-3′), les ORF peuvent être localisés en examinant chacun des trois cadres de lecture possibles sur chaque brin. Dans cette séquence, deux des trois cadres de lecture possibles sont entièrement ouverts, ce qui signifie qu’ils ne contiennent pas de codon stop :
…A TCT AAA ATG GGT GCC…
…AT CTA AAA TGG GTG CC…
…ATC TAA AAT GGG TGC C…
Les codons stop possibles dans l’ADN sont « TGA », « TAA » et « TAG ». Ainsi, le dernier cadre de lecture de cet exemple contient un codon stop (TAA), contrairement aux deux premiers.
Les génomes bactériens présentent des variations de taille, même entre les souches d’une même espèce. Ces micro-organismes ont très peu d’ADN non codant ou répétitif, la variation de la taille de leur génome reflétant généralement des différences dans le répertoire des gènes. Certaines espèces, en particulier les parasites et les symbiotes bactériens, ont subi une réduction massive de leur génome et contiennent simplement un sous-ensemble des gènes présents chez leurs ancêtres.
Cependant, chez les bactéries libres, une telle perte de gènes ne peut expliquer les disparités observées dans la taille des génomes, car les génomes ancestraux auraient dû contenir un nombre improbable de gènes. De manière surprenante, une fraction substantielle de la différence de contenu des gènes chez les bactéries vivant librement est due à la présence d’ORFans, c’est-à-dire de cadres de lecture ouverts (ORF) qui n’ont pas d’homologues connus et n’ont par conséquent aucune fonction connue.
Le nombre élevé d’ORFans dans les génomes bactériens indique que, à l’exception des espèces dont les génomes sont très réduits, une grande partie de la diversité observée dans les inventaires de gènes ne résulte ni de la perte de gènes ancestraux ni du transfert à partir d’organismes bien caractérisés (processus qui entraînent une distribution inégale d’orthologues mais pas de gènes uniques) ou de duplications récentes (qui donneraient probablement des homologues au sein du même génome ou d’un génome étroitement apparenté).
Points clés
- Les cadres de lecture ouverts sont utilisés comme un élément de preuve pour aider à la prédiction des gènes.
- Si une partie d’un génome a été séquencée, les ORF peuvent être localisés en examinant chacun des trois cadres de lecture possibles sur chaque brin.
- Les génomes bactériens présentent des variations de taille, même entre les souches d’une même espèce.
Termes clés
- Gène : Une unité d’hérédité ; un segment d’ADN ou d’ARN qui est transmis d’une génération à l’autre. Il porte l’information génétique telle que la séquence d’acides aminés pour une protéine.
- Codons : Le code génétique est l’ensemble des règles par lesquelles les informations codées au sein du matériel génétique (séquences d’ADN ou d’ARNm) sont traduites en protéines (séquences d’acides aminés) par les cellules vivantes. Le décodage biologique est accompli par le ribosome, qui relie les acides aminés dans un ordre spécifié par l’ARNm, en utilisant des molécules d’ARN de transfert (ARNt) pour transporter les acides aminés et lire l’ARNm trois nucléotides à la fois. Le code génétique est très similaire chez tous les organismes et peut être exprimé dans un simple tableau de 64 entrées.
- Cadre de lecture ouvert : Une séquence de triplets d’ADN, entre les codons initiateur et terminateur, qui peut être transcrite en ARNm et plus tard traduite en protéine.
.