L’analyse complète des N-terminaux des protéines humaines permet d’évaluer diverses formes de protéines

Enrichissement en profondeur des peptides N-terminaux

Afin de caractériser le statut des protéines dans les cellules, nous avons réalisé un enrichissement  » en profondeur  » des peptides N-terminaux (Nrich) dans la lignée cellulaire HEK293T sur la base d’une méthode de sélection négative (Fig. 1, Méthodes). Nrich a consisté en trois étapes expérimentales majeures : 1) la première étape consistait à distinguer les Nα -acétylés endogènes des N-terminaux libres endogènes. Ceci a été réalisé en bloquant les amines primaires α et ε des protéines avec de l’anhydride propionique (PA) ou de l’anhydride acétique D6 (D6). 2) Les protéines bloquées par les amines ont été digérées par la trypsine ou la GluC-endoprotéase selon les méthodes FASP19 pour l’élimination du réactif de blocage de l’azote et l’échange de tampon. 3) Les peptides internes nouvellement générés contenant de l’α-amine libre ont été éliminés avec une résine d’agarose activée par le N-hydroxysuccinimide (NHS). Par conséquent, on s’attendait à ce que les peptides de la fraction de flux dans les expériences de trypsine aient un schéma de digestion de type ArgC en raison de la propionylation ou de la trideutéroacétylation de l’ε-amine de la lysine. Comme prévu, il y a eu un enrichissement des peptides Nα -acétylés endogènes (N-terminaux Nt-acétylés) et des peptides Nα-propionylés ou Nα-D3-acétylés in vitro (N-terminaux libres). Le flux de NHS-agarose a été séparé par fractionnement en phase inverse à pH élevé avant LC-MS/MS. Les données spectrales de masse ont été recherchées dans la base de données UniProtKB à l’aide de MS-GF+ et Comet, puis validées avec percolateur. Par la suite, les spectres non identifiés provenant de deux moteurs de recherche ont été réanalysés par l’algorithme MODi (Fig. 1). Nous avons utilisé tous les peptides trouvés dans un seul moteur de recherche.

Figure 1
figure1

Outline de la méthode Nrich et du schéma de découverte du N-terminome. Les protéines sont marquées par l’anhydride acétique D6 ou l’anhydride propionique pour distinguer l’acétylation N-terminale endogène de l’acétylation/propionylation N-terminale artificielle. Après la préparation des échantillons à l’aide d’un filtre (FASP) et la digestion avec la trypsine ou l’endoprotéase GluC, les peptides internes sont éliminés à l’aide de billes NHS réactives aux amines. Les peptides N-terminaux enrichis (cercle rouge) sont divisés en 6 fractions par fractionnement en phase inverse à pH élevé. Ensuite, les 6 fractions sont soumises à une analyse LC-MS/MS. Les spectres MS en tandem sont initialement recherchés dans la base de données UniProtKB avec les moteurs de recherche MS-GF+ et Comet. Les spectres non identifiés sont ensuite sélectionnés pour rechercher des modifications plus diverses à l’aide du moteur de recherche MODi spécifique aux modifications. Les spectres non identifiés après une recherche dans la base de données UniProtKB combinée à l’exploration des trois moteurs de recherche ont ensuite été placés dans le même flux de recherche après avoir remplacé la base de données conventionnelle par une nouvelle base de données personnalisée, NtermDB. Toutes les identifications sur la base de données UniProtKB ont été nommées  » N-termini « , tandis que les nouvelles identifications sur NtermDB ont été nommées  » Novel N-termini. »

L’efficacité de l’enrichissement pour les peptides bloqués en N-terminal a été observée à 79% (±2) dans PA-Trypsine, 70% (±2) dans PA-GluC, 68% (±2) dans D6-Trypsine et 57% (±7) dans D6-GluC. Les correspondances de spectres de peptides (PSM) pour les peptides bloqués au niveau de l’extrémité N-terminale ont été dénombrées en moyenne à 74 456 dans PA-Trypsine, 31 053 dans PA-GluC, 86 115 dans D6-Trypsine et 28 257 dans D6-GluC au taux de fausse découverte (FDR) ≤0,01 (Fig. 2A). Le nombre de N-termini identifiés a varié en fonction de la nature des réactifs bloqueurs de N et des endoprotéases, bien qu’il soit reproductible pour chaque montage expérimental. Les N-terminaux identifiés étaient constitués de Nt-acétylés et de N-terminaux libres. Bien que Nrich ait incorporé une étape d’élimination et d’inactivation de PA ou de D6 avant la digestion par endoprotéase, nous avons trouvé des peptides internes bloqués par PA ou D6 ayant des sites spécifiques aux protéases aux deux extrémités. Ces peptides peuvent avoir été générés pendant la digestion par des traces de réactifs (provenant d’une étape antérieure). Par conséquent, les peptides marqués au PA ou au D6 avec des sites spécifiques aux protéases ont été exclus de la liste finale, à l’exception des peptides trouvés simultanément dans les deux expériences trypsine et GluC. Finalement, nous avons obtenu 6 209 N-terminaux de protéines dans PA-Trypsine, 3 496 dans PA-GluC, 7 583 dans D6-Trypsine et 2 481 dans D6-GluC. Nous avons observé une quantité presque égale de N-terminaux Nt-acétylés (44%) et libres (56%) dans toutes les expériences (Fig. 2B). Notre méthode a pu enrichir les peptides N-terminaux avec des efficacités similaires indépendamment des réactifs bloquant les N-terminaux ou des endoprotéases. Cette observation est assez similaire aux résultats obtenus par TAILS17, 20. Notamment, notre analyse complète, utilisant deux réactifs bloquant l’azote et deux endoprotéases, a considérablement augmenté la couverture du N-terminome. Au total, 13 095 N-termini de protéines ont été identifiés comme une somme dans notre étude. Parmi ces produits, 62% ont été trouvés exclusivement par une seule méthode (Fig. 2C). Les quatre méthodes différentes ont été réalisées en triplicatas biologiques et techniques, et les valeurs des coefficients de variation du nombre de N-termini se situaient dans les 20 %. Par rapport à la méthode la plus fréquemment détectée, la D6-Trypsine, le nombre total de tous les N-terminaux de protéines identifiés a augmenté de 73 %. Dans l’ensemble, le nombre de tous les N-terminaux de protéines, trouvés par les quatre méthodes, a augmenté d’environ 60 % par rapport à une seule expérience. En outre, nous avons calculé le degré d’acétylation pour chacun des N-terminaux de la protéine en fonction du nombre de PSM (Fig. 2D). La plupart des N-terminaux de protéines ont été identifiés comme acétylés ou libres, et les N-terminaux de protéines d’acétylation partielle ont rarement été trouvés. En outre, la corrélation du degré d’acétylation entre chaque méthode différente était significativement élevée (0,83~0,94, Fig. 2E). Ces résultats nous amènent à la conclusion que l’état cellulaire des N-terminaux des protéines peut être déterminé indépendamment de la nature des réactifs bloqueurs de N et des endoprotéases. Cependant, la couverture du N-terminome peut être considérablement augmentée en combinant les résultats de différentes méthodes d’enrichissement.

Figure 2
figure2

Propriétés du N-terminome découvert. (A) Nombre de PSMs identifiés sur chaque ensemble d’expérience Nrich. Dans tous les cas, le N-terminome traité à la trypsine a plus de PSMs que le N-terminome traité au GluC. Dans le cas des réactifs bloquant l’azote, l’anhydride propionique (PA) a montré une efficacité supérieure de plus de 10% par rapport à l’anhydride acétique D6 (D6). Cependant, en ce qui concerne le nombre de PSM, les échantillons traités par D6 avaient des valeurs plus élevées que celles des échantillons traités par PA. (B) Proportions de PSMs pour les N-terminaux acétylés de façon endogène (bleu) et les N-terminaux libres de façon endogène (orange). Environ 44% des PSMs correspondent à des N-terminaux acétylés. (C) Diagramme de Venn des N-terminaux de protéines découverts en fonction des différentes configurations expérimentales. (D) Statut d’acétylation des N-terminaux des protéines découvertes. Le degré d’acétylation a été calculé sur la base du nombre de PSMs. (E) N-termini de protéines découverts communément entre chaque paire de montages expérimentaux et la corrélation du degré d’acétylation.

Classification du N-terminome

Les N-termini identifiés par Nrich proviennent de deux types différents de N-termini de protéines, par ex, Nt-acétylés et N-terminaux libres (Nα-propionylés ou Nα-D3-acétylés). Nous avons identifié 6 525 N-terminaux acétylés (ou partiellement acétylés) et 6 570 N-terminaux libres. Les données du N-terminome peuvent être classées en fonction de leur emplacement, ainsi que des séquences protéiques correspondantes déposées dans la base de données des protéines16, 17, 20, 21. Sur la base d’études antérieures, nous avons d’abord divisé les 13 095 N-termini de 5 727 protéines en 2 992 N-termini de protéines annotés (23 %) et 10 103 N-termini de protéines non annotés (77 %) (Fig. 3A). Les N-terminaux annotés comprenaient les sites d’initiation de la traduction annotés par UniProtKB (dbTIS) et les N-terminaux des protéines aux sites après l’élimination du peptide signal ou de transit par des processus post-traductionnels (tableau supplémentaire S1). Les dbTIS peuvent être subdivisés en N-terminaux de protéines, commençant par un Met initiateur (iMet retenu) et en N-terminaux de protéines commençant au deuxième résidu sans Met initiateur généré par une modification co-traductionnelle (iMet retiré), ou ceux appartenant à la  » catégorie des résidus non terminaux « , c’est-à-dire pour les séquences de protéines dans la base de données UniProtKB qui ne commencent pas par une méthionine. Quatre-vingt-quinze pour cent des dbTIS provenaient de séquences de protéines canoniques et 5 % de protéines isoformes. En général, les isoformes de protéines sont produites par épissage alternatif ou initiation alternative de la traduction. Un exemple intéressant est l’identification du peptide N-terminal acétylé de la GSR (Glutathione réductase, P00390-2). L’isoforme est dépourvue des 43 premiers résidus de sa séquence canonique. Selon l’annotation UniProt, la localisation subcellulaire de l’isoforme (cytoplasme) est différente de celle de sa forme canonique (mitochondrie). Les N-terminaux des protéines de la catégorie dbTIS ont été comparés avec l’algorithme « Terminus « 22. En conséquence, l’état de 74% des N-terminaux de protéines s’est avéré être le même que celui prédit par le Terminus (tableau supplémentaire S1).

Figure 3
figure3

Classification des N-terminaux découverts et leurs positions le long des séquences protéiques. (A) Classification des N-terminaux des protéines. dbTIS : site d’initiation de la traduction annoté par UniProtKB ; résidu non terminal : N-terminaux des protéines commençant par le premier, mais pas le résidu méthionine dans la base de données UniProtKB ; Propeptide/Signal/Transit : N-terminaux des protéines survenant après l’élimination du pro-, signal- ou transit-peptide ; aTIS putatif : site alternatif putatif d’initiation de la traduction. (B) Un certain nombre de N-termini de protéines identifiés selon leurs positions le long des séquences protéiques.

Les N-termini de protéines non annotés représentaient la majorité de nos données sur le N-terminome. Leurs positions le long des séquences protéiques correspondantes étaient supérieures à deux (tableau supplémentaire S2). Cependant, les peptides signaux ou autres propeptides éliminés lors de la maturation des protéines ne sont pas connus (Fig. 3B). Il existe certains indices selon lesquels de tels N-terminaux non annotés pourraient être interprétés comme suggérant la possibilité d’aTIS ou de sites de clivage d’événements protéolytiques. Par exemple, nous pouvons considérer 495 N-terminaux non annotés comme des aTIS car ces N-terminaux ont été observés soit à partir de la méthionine interne, soit immédiatement après, et 45 % d’entre eux étaient acétylés. En outre, 412 N-termini ont été mis en correspondance avec des protéoformes trouvées dans des bases de données telles que Degrabase23, la base de données TopFIND24, 25 et Proteoform Repository (http://repository.topdownproteomics.org/). Bien qu’elle nécessite un examen plus approfondi, notre interprétation est tout à fait plausible puisque nos données partagent de nombreuses similitudes avec d’autres enquêtes précédentes16, 17, 20, 23, 26,27,28.

Caractéristiques des N-terminaux de protéines annotés

Nous avons ensuite analysé le statut des N-terminaux de protéines en comptant le nombre de PSM et en calculant les fréquences d’acides aminés des résidus terminaux (Fig. 4). L’ensemble de données dbTIS, à l’exception de la  » catégorie des résidus non terminaux  » (2 730 N-terminaux), a montré que la préférence pour les acides aminés était différente entre les N-terminaux acétylés et les N-terminaux libres des protéines, et également entre les iMet retirés et conservés. Le degré d’acétylation semblait similaire entre les iMet retirés et conservés (Fig. 4A). Nous avons trouvé une forte prévalence d’alanine et de sérine en position P1′ des N-terminaux sans iMet acétylée, alors que les acides aminés préférés pour les N-terminaux de protéines libres étaient respectivement la proline, l’alanine, la valine et la glycine. Dans le cas des N-terminaux avec iMet, l’iMet acétylé était principalement suivi par de grands résidus polaires (glutamate, aspartate). En outre, la lysine était le principal résidu qui suivait l’iMet libre (Fig. 4B). Plusieurs études ont précédemment étudié la Nt-acétylation dans la lignée cellulaire humaine29, la peau de souris30 et les plaquettes humaines27. La préférence des acides aminés des extrémités N-terminales de nos protéines acétylées dbTIS est cohérente avec ces études. Il est intéressant de noter que la proline, la valine et la glycine dans les N-terminaux étaient rarement acétylées, comme cela a également été observé dans des études distinctes sur Drosophila melanogaster31. Selon cette étude, une proline assise à l’extrémité N-terminale ou en deuxième position empêche la réaction d’acétylation des acétyltransférases Nα-terminales (NATs).

Figure 4
figure4

Caractéristiques des N-terminaux des protéines. (A) Distribution des N-terminaux acétylés et des N-terminaux libres en fonction du type de N-terminaux. Les données sont présentées en valeurs de pourcentage, et les nombres exacts de protéines-N-termini sont indiqués dans les barres. (B) La fréquence des acides aminés au niveau du second résidu des N-terminaux de protéines acétylées ou libres. Le ‘second résidu’ signifie le résidu suivant la méthionine initiatrice. (C) Fréquence des acides aminés dans la région flanquante des peptides signaux et des peptides de transit. Les logos des séquences de protéines ont été générés à l’aide du progiciel iceLogo avec correction de l’abondance naturelle des acides aminés. Les flèches rouges indiquent les sites de clivage observés.

La Nt-acétylation se produit généralement de manière co-traductionnelle par les NATs avec l’acétyl-coenzyme A pendant la synthèse des protéines. Chez l’homme, différents NATs sont exprimés tels que hNatA, hNatB, hNatC, hNatD, hNatE et hNatF5, 32, 33. Ces NATs diffèrent par la spécificité de leur substrat, et chaque NAT acétyle une ou plusieurs séquences d’acides aminés N-terminales. En particulier, NatA acétyle les N-terminaux après l’élimination de l’iMet par la méthionine aminopeptidase. Elle acétyle également les N-terminaux Asp- et Glu- des actines matures de manière post-traductionnelle. Le tableau 1 montre le nombre de N-termini pour chaque NAT. Sur les 2 172 N-terminaux de protéines acétylées, 1 986 ont été cartographiés comme substrats des TAN, et 67% des N-terminaux cartographiés ont été prédits comme substrats de NatA. Les substrats des NATs ont été identifiés comme des formes acétylées et libres. Ainsi, nous avons déterminé le niveau relatif de Nt-acétylation basé sur le nombre de PSM de chaque substrat. Le niveau relatif de Nt-acétylation pour les substrats NatA était de 76,7% en moyenne. Il était de 92,8% pour NatB, 72,2% pour NatD et 45,3% pour NatC/E/F. Les résultats ont montré que la plupart des substrats NAT étaient présents dans l’état d’acétylation. Cependant, l’efficacité de l’acétylation était différente entre les NATs et même entre les substrats de chaque NAT. Gly et Val parmi les substrats NatA et ML, MW, MK et MA parmi les substrats NatC/E/F ont été détectés moins acétylés que les autres substrats. Il est intéressant de noter que les N-terminaux des protéines commençant par Gly et Val ont été observés principalement libres par rapport aux autres substrats de NatA. En outre, d’autres articles publiés précédemment ont montré des résultats similaires31, 34, 35. Bien qu’il semble y avoir peu de connaissances sur l’efficacité de NatA sur chacun de ses substrats, il est clair que les efficacités d’acétylation à Gly et Val sont beaucoup plus faibles que l’acétylation à d’autres substrats de NatA.

Tableau 1 Classification des N-terminaux des protéines dbTIS1 selon le type de substrat des acétyltransférases N-α-terminales chez l’homme (NATs).

Puis, nous avons recherché les sites de clivage des peptides signal/transit et des propeptides. Nous avons observé que la plupart des N-terminaux exposés par l’élimination du peptide signal/transit ou du propeptide étaient dans des états non acétylés. Visualisation des motifs dans les séquences peptidiques en générant un iceLogo36 pour les 30 résidus entre P15 et P15′. Les résultats montrent le plus fort enrichissement pour les résidus d’arginine aux positions P3 et P2 du peptide de transit et les résidus de leucine à la position P15-P6 du peptide signal (Fig. 4C), comme probablement observé à partir d’études antérieures23.

Identification des sites alternatifs d’initiation de la traduction

Dans les eucaryotes, l’initiation de la traduction ribosomale peut se produire alternativement en amont de la séquence codante annotée ou en aval des codons ATG in-frame37, 38. Le profilage du ribosome est un outil utile qui repose sur le séquençage des sites potentiels de début de traduction de l’ARNm39, 40. Afin de découvrir les aTIS putatifs au niveau des protéines, nous avons analysé nos données MS en utilisant non seulement la base de données UniProtKB mais aussi une base de données personnalisée contenant les 5′-UTRs in-silico-translated. En particulier pour la traduction des 5′-UTR, nous étions intéressés par la recherche d’indices protéomiques pour l’expression possible de gènes à partir de pseudo-codons de départ. Tout d’abord, 495 N-termini de protéines non annotées ont été déduits comme étant des aTIS putatifs en aval du site de départ canonique. Il s’agissait de protéines N-terminales commençant par une méthionine interne, qu’elles soient acétylées (223) ou libres (272) et que la méthionine soit conservée (234) ou supprimée (261). Nous avons utilisé iceLogo pour comparer les fréquences des acides aminés après iMet au niveau du dbTIS et du aTIS putatif en utilisant toutes les séquences d’acides aminés après tout Met dans la base de données Swiss-Prot humaine pour établir les fréquences des acides aminés de base. Les deux logos ont montré des préférences élevées pour l’alanine et la sérine à la position immédiatement après iMet et des préférences ultérieures pour principalement l’alanine (Fig. 5A). Dans la catégorie des aTIS putatifs, les deux acides aminés ont été identifiés avec une fréquence totale de 32 % à la première position suivant l’iMet (figure supplémentaire S2). Les séquences nucléotidiques consensus qui entouraient le codon ATG du dbTIS et de l’aTIS putatif présentaient un schéma similaire de séquences Kozak41,42,43 (Fig. 5B). D’autre part, 77 des 495 aTIS putatifs ont été mis en correspondance avec l’iMet le plus élevé des transcrits d’épissage alternatif dans la base de données d’épissage alternatif ECgene (tableau supplémentaire S3)44, ce qui implique que ces aTIS putatifs peuvent ne pas être de véritables aTIS, mais agir comme des TIS canoniques dans le cas d’un événement d’épissage alternatif générant des transcrits plus courts. Compte tenu de ces interprétations, il semble que les N-terminaux des protéines de notre catégorie d’aTIS putatifs proviennent d’une initiation de traduction alternative ou d’une traduction après un épissage alternatif.

Figure 5
figure5

Sites d’initiation de traduction alternative putative. (A) Diagrammes iceLogo pour les occurrences d’acides aminés entre dbTIS et aTIS putatifs. Les fréquences des acides aminés après toute méthionine (soit iMet ou Met interne) dans la base de données Swiss-Prot humaine (version 2015. 1) ont été déterminées pour être utilisées comme correction de fond. Les séquences commencent immédiatement après la méthionine. (B) Séquences nucléotidiques dans la région flanquante du résidu méthionine initiateur. L’ATG central est le codon de la méthionine initiatrice de dbTIS (à gauche) et d’aTIS putatif (à droite). (C) La conception de NtermDB. Il est conçu pour permettre une recherche de nouveaux terminaux N de protéines dans une région UTR en amont. Les blocs orange représentent les régions UTR, et les blocs verts représentent les régions de séquence codante (CDS). On a supposé que le N-terminus d’une nouvelle protéine commençait au codon de départ (« ATG ») ou à un pseudo-codon de départ dans le même cadre que celui du CDS correspondant. Nous avons choisi le (pseudo) site de départ le plus en amont et traduit in-silico le modèle de transcription. Voir les méthodes pour plus de détails. (D) Utilisation des codons dans les nouveaux N-terminaux identifiés. Les séquences nucléotidiques correspondant au premier résidu des peptides 5′-UTR identifiés sont présentées. (E) Nombre de PSM pour les peptides 5′-UTR acétylés ou libres N-terminaux commençant par des codons non initiaux.

Alors que les aTIS en aval de dbTIS peuvent être identifiés à l’aide de la base de données UniProtKB, les événements commençant en amont de dbTIS ne peuvent pas être découverts à l’aide des bases de données de protéines de référence actuelles. Par conséquent, nous avons construit une nouvelle base de données de séquences de protéines,  » NtermDB  » (détaillée dans Méthodes), qui comprenait les séquences in-silico-transcrites des 5′-UTR des régions de séquence codante (CDS) connues à partir du site d’un codon de départ (ATG) ou de ses variantes mononucléotidiques, les pseudo-codons de départ (CTG, TTG, GTG, AGG, ACG, AAG, ATC, ATA et ATT) (Fig. 5C). Ces aTIS putatifs ont été cartographiés à 67 % des transcrits totaux dans la base de données Ensembl (http://www.ensembl.org/index.html). Les sites étaient répartis uniformément entre 23 chromosomes, à l’exception du chromosome Y. Les spectres MS/MS non appariés lors de la première recherche à l’aide de la base de données UniProtKB ont ensuite été recherchés par rapport à la NtermDB. Nous avons ainsi identifié 261 nouveaux N-terminaux de protéines (à partir de 394 transcrits). Parmi ces transcrits, cinq transcrits se sont avérés être identiques à ceux des données Ribo-seq de Lee, S. et al.40. Ils ont tous été transcrits au niveau du 5′-UTR en utilisant les codons de pseudo départ (tableau supplémentaire S4). Les N-terminaux des protéines ont été trouvés sur tous les chromosomes, à l’exception du chromosome Y et du chromosome 21. De plus, les terminaisons N des protéines étaient principalement distribuées sur le chromosome 1 (figure supplémentaire S3a). Parmi les 261 nouveaux terminaux N de protéines, 46 ont été identifiés dans le 5′-UTR avec un pseudo-codon de départ acétylé ou libre (Fig. 5D ; Fig. S3b supplémentaire ; Tableau S4 supplémentaire). Les 214 autres N-termini de protéines ont été trouvés avec un autre (pseudo) codon de départ, plus précisément, les N-termini ont été trouvés associés à quatre codons c’est-à-dire GCT, GCA, GCC et GCG, qui codent l’alanine (46 termini ; Fig. 5E, Supplementary Fig. S3c, Supplementary Table S4). La plupart de ces protéines N-terminales commençant par une alanine ont été identifiées comme acétylées et, à une seule exception près, il n’y avait pas de codon stop intermédiaire jusqu’au début du CDS. Sur les 46 N-terminaux commençant par une alanine, 72% ont été identifiés avec des peptides chevauchant la région CDS canonique. Par conséquent, nous sommes convaincus d’avoir identifié de nouveaux N-termini. En outre, 39% avaient un pseudo codon de départ avant l’alanine. Dans la plupart des cas, comme dans l’étude actuelle et d’autres recherches antérieures, lorsque l’iMet est suivi par l’alanine, l’iMet est clivé et l’alanine nouvellement exposée est acétylée. Pour cette raison, il est très probable que les N-terminaux des protéines qui ont une alanine au premier résidu et un pseudo codon de départ à son résidu précédent sont des sites alternatifs d’initiation de la traduction dans le 5′-UTR.

Sites de traitement inconnus

Sur 10 103 N-terminaux de protéines, seuls 5 % sont prédits comme des aTIS putatifs, et les 95 % restants sont issus de traitements jusqu’ici inconnus. Nous étions très préoccupés par la recherche d’un moyen de distinguer les N-termini libres dans les cellules des sites internes exposés lors du traitement des échantillons afin d’attribuer des caractéristiques aux N-termini non annotés. Le marquage chimique des groupes aminés au niveau de la protéine est nécessaire pour distinguer non seulement les N-terminaux endogènes Nt-acétylés des N-terminaux libres endogènes, mais aussi le peptide N-terminal des peptides internes de la protéine. Cependant, si l’inactivation du réactif N-bloquant n’est pas complète, il est possible que l’α-amine du peptide interne sur le résidu N-terminal soit marquée par des traces de réactif N-bloquant restant après ou pendant la digestion et ces peptides internes pourraient être faussement identifiés comme des N-terminaux de protéine. Par conséquent, au cours de l’expérience, nous avons effectué une étape d’inactivation du marquage chimique avec de l’hydroxylamine suivie d’une digestion FASP, et après une recherche dans la base de données MS, nous avons sélectionné les N-terminaux de protéines sans site spécifique de protéase à l’extrémité N-terminale du peptide identifié. L’hydroxylamine a également un effet bénéfique pour inverser l’O-acylation indésirable qui pourrait se produire pendant la réaction de marquage13. Il est intéressant de noter que près de la moitié des N-terminaux de protéines de catégorie de traitement inconnue (43%) ont été identifiés comme des formes acétylées. La plupart des terminaisons N de protéines non annotées ont également été identifiées chez les eucaryotes, que les chercheurs aient utilisé des méthodes d’enrichissement négatives17, 20 ou positives23. Si nous avons comparé notre ensemble de données à la base de données générée par Crawford et al. (‘Degrabase’), en nous concentrant sur les N-terminaux libres des protéines aux positions 3-65, nous avons observé une grande similarité des modèles de fréquences d’acides aminés (Fig. S4 supplémentaire). Ainsi, il nous semble probable que les N-terminaux libres des protéines sont des sites N-terminaux nouvellement exposés obtenus après l’élimination des signaux putatifs ou des peptides de transit (selon l’interprétation de Crawford et al.). Les événements de ragage par les aminopeptidases pourraient modifier les produits de clivage initialement générés. Lorsque nous avons comparé les N-terminaux des protéines aux positions >65 à ceux des positions 3-65, les données ont montré une distribution similaire des acides aminés aux positions P1 et P1′ (Fig. 6A), avec une prédominance de l’arginine à P1. D’après ces résultats, nous soupçonnons que le clivage du peptide signal/transit et la dégradation des protéines sont principalement causés par la trypsine-like.

Figure 6
figure6

Caractérisation des terminaisons N des protéines de la catégorie de traitement inconnu. (A) Distributions d’acides aminés aux positions P1 et P1′ des N-terminaux de protéines identifiés aux résidus 3-65 (bleu) et >65 (rouge) le long des séquences de protéines. (B) Nombre de protéines en fonction de la proportion de PSMs dbTIS. ‘1’ pour la valeur de l’axe des x signifie que tous les PSMs sont appariés à dbTIS, ‘0’ signifie que la protéine a été identifiée uniquement avec des PSMs correspondant à la catégorie de traitement inconnu, et les valeurs intermédiaires signifient que la protéine a été identifiée avec les deux types de PSMs. (C) Distribution des N-terminaux de protéines acétylés et libres appartenant à la catégorie de traitement inconnu.

Les N-terminaux de protéines pour un total de 5 727 protéines ont été caractérisés dans notre étude. Parmi elles, 2 591 protéines ont conservé une séquence N-terminale intacte (dbTIS), tandis que 3 968 protéines ont été trouvées sous des formes tronquées sans séquence signal/transit ou propeptide connue. De telles protéines tronquées ont également été signalées principalement par la méthode TAILS. Il est intéressant de noter que 83% des 5 537 protéines des deux catégories ont été trouvées avec des séquences intactes (28%, catégorie ‘1’) ou tronquées (53%, catégorie ‘0’), mais pas avec les deux caractéristiques (Fig. 6B). Ceci suggère que la dégradation des protéines n’est pas la cause principale de la troncature. Plutôt, une telle troncature semble avoir une influence sur la diversité fonctionnelle dans le protéome humain, et une quantité considérable de N-terminaux de protéines dans la catégorie de traitement inconnu peut représenter des formes physiologiques matures dans la cellule HEK293T.

Nous avons également observé la fréquence des résidus N-terminaux entre les N-terminaux de protéines acétylés et libres (Fig. 6C). Il y avait une préférence pour le glutamate et l’aspartate dans les N-terminaux des protéines acétylées et la sérine et la proline dans les N-terminaux des protéines libres. La dégradation des protéines dans les cellules eucaryotes est principalement effectuée par le système ubiquitine/protéasome et régulée par la règle N-end. Récemment, Lange et al. ont suggéré une règle N-end modifiée sur la base de la fréquence observée des acides aminés et du statut de Nt-acétylation des extrémités N-terminales des protéines internes dans les érythrocytes humains20. Le glutamate et l’aspartate ont été classés comme « stabilisés par acétylation » ou « non-déstabilisés par acétylation », tandis que la sérine a été classée comme « déstabilisée par acétylation ». Les deux résidus acides sont définis comme des résidus secondaires par la règle Arg/N-end. Ainsi, l’acétylation du glutamate et de l’aspartate N-terminaux inhiberait la déstabilisation de l’arginylation, ce qui augmenterait la stabilité des protéines. En revanche, on a observé que la proline était libre au niveau des N-terminaux, ce qui reflète le fait bien connu que la proline interfère structurellement avec l’acétylation et rend les N-terminaux libres. Ainsi, ces différentes séquences d’acides aminés observées dans les N-terminaux des protéines de catégorie de traitement inconnue semblent être dérivées de la stabilité des protéines par l’état Nt-acétylé.

L’acétylation N-terminale se produit de manière co-traductionnelle par les NATs, cependant, alors que le mécanisme exact de la Nt-acétylation post-traductionnelle est encore inconnu, une caractéristique de la Nt-acétylation post-traductionnelle chez la levure a été rapportée26. Nous avons identifié 4 088 N-terminaux de protéines acétylés à la position >2 (Fig. 4A). Parmi ceux-ci, environ 50 % ont des terminaisons spécifiques à la trypsine ou à la GluC. Nous avons contrôlé l’acylation au cours de l’expérience, nous ne connaissons donc pas la cause exacte de ce phénomène. Une explication possible est la mauvaise annotation entre l’acétylation N-terminale et l’ε-acétylation de la lysine interne puisque nous avons forcé l’acylation à toutes les ε-amines des résidus lysine pendant la recherche dans la base de données. À l’exception des extrémités N-terminales avec des sites spécifiques aux enzymes, le glutamate a été principalement observé en position P1` (figure supplémentaire S5). Il existe un rapport selon lequel les actines matures acétylées portant des résidus Asp- ou Glu- sur les extrémités N-terminales sont produites par une modification post-traductionnelle45. Bien que notre résultat soit considéré comme affecté par chaque enzyme en position P1, il est toujours possible que l’acétylation soit régulée par une modification post-traductionnelle. Pour évaluer davantage nos données N-terminome traitées inconnues, nous avons exploité les informations d’un ensemble de données publiées29 et de la base de données TopFIND (http://clipserve.clip.ubc.ca/topfind/). Dans le cas de la Nt-acétylation au niveau des dbTIS, la plupart des N-terminaux des protéines, indépendamment du type d’échantillons et des méthodes expérimentales, ont été identifiés dans le protéome humain. Plus de 50 % des dbTIS identifiées se chevauchent entre deux ensembles de données (figure supplémentaire S6a). Contrairement à cette protéine N-terminale en position 1 ou 2, il y avait une disparité significative entre les données des protéines N-terminales en position >2. Dans l’article utilisant COFRADIC16, les informations sur les N-terminaux acétylés des protéines en position >2 n’étaient pas disponibles et n’ont pas pu être comparées, alors qu’un nombre considérable de N-terminaux de protéines a été rapporté par un article utilisant la méthode TAILS25 (figure supplémentaire S6a). Les terminaisons N des protéines aux positions >2 dans le protéome de la pulpe dentaire17 ont été identifiées dans des proportions similaires dans notre étude. Cependant, très peu de protéines N-terminales en position >2 ont été communément trouvées dans les deux études (figure supplémentaire S6b). De manière intéressante, l’analyse ontologique a révélé que la  » grande sous-unité ribosomique « , le  » mélanosome « , le  » chromosome nucléaire  » et la  » partie mitochondriale  » étaient principalement enrichis en protéines N-terminales des positions >2 (figure supplémentaire S7). Par conséquent, nous en déduisons que la Nt-acétylation post-traductionnelle est plus affectée par le type ou le statut de l’échantillon que la Nt-acétylation co-traductionnelle.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *