Umfassende Analyse der N-Termini menschlicher Proteine ermöglicht die Beurteilung verschiedener Proteinformen

Deep-Down-Anreicherung von N-terminalen Peptiden

Um den Status von Proteinen in Zellen zu charakterisieren, führten wir eine „Deep-Down“-Anreicherung von N-terminalen Peptiden (Nrich) in der HEK293T-Zelllinie durch, basierend auf einer Negativselektionsmethode (Abb. 1, Methoden). Nrich bestand aus drei großen experimentellen Schritten: 1) Der erste Schritt war die Unterscheidung zwischen endogenen Nα -acetylierten und endogenen freien N-Termini. Dies geschah durch Blockierung der α- und ε-Primäramine von Proteinen mit Propionsäureanhydrid (PA) oder D6-Essigsäureanhydrid (D6). 2) Amin-blockierte Proteine wurden mit Trypsin oder GluC-Endoprotease unter Anwendung der FASP-Methode19 verdaut, um N-blockierende Reagenzien zu entfernen und Puffer auszutauschen. 3) Neu entstandene interne Peptide, die freies α-Amin enthalten, wurden mit einem N-Hydroxysuccinimid (NHS)-aktivierten Agaroseharz entfernt. Infolgedessen wurde erwartet, dass die Peptide der Durchflussfraktion in Trypsin-Experimenten aufgrund der Propionylierung oder Trideuteroacetylierung des ε-Amins von Lysin ein ArgC-ähnliches Verdauungsmuster aufweisen. Wie erwartet kam es zu einer Anreicherung von endogenen Nα -acetylierten Peptiden (Nt-acetylierte N-Termini) und in vitro Nα-propionylierten oder Nα-D3-acetylierten Peptiden (freie N-Termini). Der Durchfluss von NHS-Agarose wurde vor der LC-MS/MS durch Hoch-PH-Reversed-Phase-Fraktionierung getrennt. Die massenspektralen Daten wurden mit MS-GF+ und Comet gegen die UniProtKB-Datenbank durchsucht, gefolgt von einer Validierung mit Perkolator. Anschließend wurden die nicht identifizierten Spektren aus zwei Suchmaschinen mit dem MODi-Algorithmus erneut analysiert (Abb. 1). Wir verwendeten alle Peptide, die in einer Suchmaschine gefunden wurden.

Abbildung 1
Abbildung 1

Übersicht über die Nrich-Methode und das Schema zur Entdeckung des N-Terminoms. Proteine werden mit D6-Essigsäureanhydrid oder Propionsäureanhydrid markiert, um endogene N-terminale Acetylierung von künstlicher N-terminaler Acetylierung/Propionylierung zu unterscheiden. Nach der Filter Aided Sample Preparation (FASP) und dem Verdau mit Trypsin oder GluC-Endoprotease werden die internen Peptide mit Hilfe von aminreaktiven NHS-Beads abgereichert. Die angereicherten N-terminalen Peptide (roter Kreis) werden durch Hoch-pH-Reversed-Phase-Fraktionierung in 6 Fraktionen aufgeteilt. Anschließend wurden alle 6 Fraktionen einer LC-MS/MS-Analyse unterzogen. Die Tandem-MS-Spektren werden zunächst mit MS-GF+ und Comet-Suchmaschinen gegen die UniProtKB-Datenbank durchsucht. Nicht identifizierte Spektren werden dann ausgewählt, um mit der modifikationsspezifischen Suchmaschine MODi nach weiteren Modifikationen zu suchen. Nicht identifizierte Spektren nach einer Suche in der UniProtKB-Datenbank in Kombination mit der Exploration der drei Suchmaschinen wurden dann in den gleichen Such-Workflow eingesetzt, nachdem die konventionelle Datenbank durch eine angepasste neuartige Datenbank, NtermDB, ersetzt wurde. Alle Identifizierungen in der UniProtKB-Datenbank wurden als „N-Termini“ bezeichnet, während die neuartigen Identifizierungen in NtermDB als „Novel N-termini“ bezeichnet wurden.“

Die Anreicherungseffektivität für N-terminal blockierte Peptide wurde bei 79 % (±2) in PA-Trypsin, 70 % (±2) in PA-GluC, 68 % (±2) in D6-Trypsin und 57 % (±7) in D6-GluC beobachtet. Peptidspektrum-Matches (PSMs) für N-terminal blockierte Peptide wurden im Durchschnitt 74.456 in PA-Trypsin, 31.053 in PA-GluC, 86.115 in D6-Trypsin und 28.257 in D6-GluC bei einer Falschentdeckungsrate (FDR) ≤0,01 gezählt (Abb. 2A). Die Anzahl der identifizierten N-Termini variierte in Abhängigkeit von der Art der N-blockierenden Reagenzien und Endoproteasen, war jedoch für jeden Versuchsaufbau reproduzierbar. Die identifizierten N-Termini setzten sich aus Nt-acetylierten und freien N-Termini zusammen. Obwohl Nrich einen Schritt zur Entfernung und Inaktivierung von PA oder D6 vor der Endoprotease-Verdauung vorsieht, fanden wir PA- oder D6-blockierte interne Peptide mit proteasespezifischen Stellen an beiden Enden. Solche Peptide könnten während des Verdaus durch Reagenzienspuren (die von einem vorherigen Schritt übertragen wurden) erzeugt worden sein. Daher wurden PA- oder D6-markierte Peptide mit proteasespezifischen Stellen aus der endgültigen Liste ausgeschlossen, mit Ausnahme der Peptide, die gleichzeitig in beiden Trypsin- und GluC-Experimenten gefunden wurden. Schließlich erhielten wir 6.209 Protein-N-Termini in PA-Trypsin, 3.496 in PA-GluC, 7.583 in D6-Trypsin und 2.481 in D6-GluC. Wir beobachteten in allen Experimenten die fast gleiche Menge an Nt-acetylierten (44%) und freien (56%) N-Termini (Abb. 2B). Unsere Methode konnte N-terminale Peptide mit ähnlichen Effizienzen anreichern, unabhängig von N-blockierenden Reagenzien oder Endoproteasen. Diese Beobachtung ist den Ergebnissen von TAILS17, 20 sehr ähnlich. Bemerkenswert ist, dass unsere umfassende Analyse unter Verwendung von zwei N-blockierenden Reagenzien und zwei Endoproteasen die Abdeckung des N-Terminoms stark erhöhte. Insgesamt wurden in unserer Studie 13.095 Protein-N-Termini als Summe identifiziert. Von diesen Produkten wurden 62 % ausschließlich mit einer einzigen Methode gefunden (Abb. 2C). Alle vier verschiedenen Methoden wurden in biologischen und technischen Triplikaten durchgeführt, und die Variationskoeffizienten der N-Termini-Anzahl lagen innerhalb von 20%. Verglichen mit der am häufigsten detektierten Methode, D6-Trypsin, stieg die Gesamtzahl aller identifizierten Protein-N-Termini um 73 %. Insgesamt erhöhte sich die Anzahl aller Protein-N-Termini, die von den vier Methoden gefunden wurden, um etwa 60 % im Vergleich zu einem einzelnen Experiment. Zusätzlich berechneten wir den Grad der Acetylierung für jeden der Protein-N-Termini basierend auf der Anzahl der PSMs (Abb. 2D). Die meisten Protein-N-Termini wurden als acetyliert oder frei identifiziert, und Protein-N-Termini mit partieller Acetylierung wurden selten gefunden. Außerdem war die Korrelation des Acetylierungsgrades zwischen den verschiedenen Methoden signifikant hoch (0,83~0,94, Abb. 2E). Diese Ergebnisse lassen den Schluss zu, dass der In-Zell-Status von Protein-N-Termini unabhängig von der Art der N-blockierenden Reagenzien und Endoproteasen bestimmt werden kann. Die Abdeckung des N-Terminoms kann jedoch durch die Kombination der Ergebnisse verschiedener Anreicherungsmethoden deutlich erhöht werden.

Abbildung 2
Abbildung2

Eigenschaften des entdeckten N-Terminoms. (A) Anzahl der identifizierten PSMs für jeden Satz von Nrich-Experimenten. In allen Fällen haben die Trypsin-behandelten N-Terminome mehr PSMs als die GluC-behandelten N-Terminome. Bei den N-blockierenden Reagenzien zeigte Propionsäureanhydrid (PA) eine um mehr als 10% höhere Effizienz im Vergleich zu D6-Essigsäureanhydrid (D6). Im Hinblick auf die PSM-Zahlen wiesen die mit D6 behandelten Proben jedoch höhere Werte auf als die mit PA behandelten Proben. (B) Anteile der PSMs für endogen acetylierte N-Termini (blau) und endogen freie N-Termini (orange). Etwa 44% der PSMs entsprachen acetylierten N-Termini. (C) Venn-Diagramm der entdeckten Protein-N-Termini nach verschiedenen Versuchsaufbauten. (D) Acetylierungsstatus der entdeckten Protein-N-Termini. Der Grad der Acetylierung wurde anhand der Anzahl der PSMs berechnet. (E) Gemeinsam entdeckte Protein-N-Termini zwischen jedem Paar von Versuchsaufbauten und die Korrelation des Acetylierungsgrades.

Klassifizierung des N-Terminoms

Die von Nrich identifizierten N-Termini stammen von zwei verschiedenen Arten von Protein-N-Termini, z.B., Nt-acetylierte und freie N-Termini (Nα-propionyliert oder Nα-D3-acetyliert). Wir identifizierten 6.525 acetylierte (oder teilweise acetylierte) und 6.570 freie N-Termini. Die N-Terminom-Daten können anhand ihrer Lage klassifiziert werden, zusammen mit den entsprechenden Proteinsequenzen, die in der Protein-Datenbank hinterlegt sind16, 17, 20, 21. Basierend auf früheren Studien unterteilten wir zunächst die 13.095 N-Termini von 5.727 Proteinen in 2.992 annotierte (23 %) und 10.103 nicht annotierte (77 %) Protein-N-Termini (Abb. 3A). Die annotierten N-Termini umfassten UniProtKB-annotierte Translationsinitiationsstellen (dbTIS) und Protein-N-Termini an Stellen nach der Entfernung von Signal- oder Transitpeptiden durch posttranslationale Prozesse (ergänzende Tabelle S1). Die dbTIS konnten weiter unterteilt werden in Protein-N-Termini, die mit Initiator-Met beginnen (iMet retained) und Protein-N-Termini, die am zweiten Rest ohne ein Initiator-Met beginnen, das durch co-translationale Modifikation erzeugt wurde (iMet removed), oder solche, die zur Kategorie der „nicht-terminalen Reste“ gehören, d. h. für diejenigen Proteinsequenzen in der UniProtKB-Datenbank, die nicht mit Methionin beginnen. Fünfundneunzig Prozent der dbTIS stammten von kanonischen Proteinsequenzen und fünf Prozent von isoformen Proteinen. Im Allgemeinen werden Protein-Isoformen durch alternatives Spleißen oder alternative Translationsinitiierung erzeugt. Ein interessantes Beispiel ist die Identifizierung des acetylierten N-terminalen Peptids von GSR (Glutathion-Reduktase, P00390-2). Der Isoform fehlen die ersten 43 Reste ihrer kanonischen Sequenz. Gemäß der UniProt-Annotation unterscheidet sich der subzelluläre Ort der Isoform (Zytoplasma) von dem ihrer kanonischen Form (Mitochondrien). Die Protein-N-Termini der dbTIS-Kategorie wurden mit dem ‚Terminus‘-Algorismus22 verglichen. Als Ergebnis wurde festgestellt, dass der Zustand von 74 % der Protein-N-Termini mit dem vom Terminus vorhergesagten übereinstimmt (ergänzende Tabelle S1).

Abbildung 3
Abbildung3

Klassifizierung der entdeckten N-Termini und deren Positionen entlang der Proteinsequenzen. (A) Klassifizierung von Protein-N-Termini. dbTIS: UniProtKB-annotierte Translations-Initiationsstelle; Nicht-terminaler Rest: Protein-N-Termini, die mit dem ersten, aber nicht mit dem Methionin-Rest in der UniProtKB-Datenbank beginnen; Propeptid/Signal/Transit: Protein-N-Termini, die nach Entfernung des Pro-, Signal- oder Transit-Peptids entstehen; putative aTIS: putative alternative Translations-Initiationsstelle. (B) Eine Anzahl von Protein-N-Termini, die anhand ihrer Positionen entlang der Proteinsequenzen identifiziert wurden.

Die unannotierten Protein-N-Termini machten den Großteil unserer N-Terminom-Daten aus. Ihre Positionen entlang der entsprechenden Proteinsequenzen waren größer als zwei (ergänzende Tabelle S2). Allerdings sind die Signalpeptide oder andere Propeptide, die während der Proteinreifung entfernt werden, nicht bekannt (Abb. 3B). Es gibt einige Hinweise darauf, dass solche nicht annotierten N-Termini als mögliche aTISs oder Spaltstellen proteolytischer Ereignisse interpretiert werden könnten. Zum Beispiel können wir 495 unannotierte N-Termini als aTIS betrachten, da diese N-Termini entweder mit oder unmittelbar nach internem Methionin beginnend beobachtet wurden und 45% davon acetyliert waren. Darüber hinaus wurden 412 N-Termini auf Proteoformen abgebildet, die in Datenbanken wie Degrabase23, TopFIND database24, 25 und Proteoform Repository (http://repository.topdownproteomics.org/) gefunden wurden. Obwohl es weiterer Untersuchungen bedarf, ist unsere Interpretation durchaus plausibel, da unsere Daten viele Ähnlichkeiten mit anderen früheren Untersuchungen aufweisen16, 17, 20, 23, 26,27,28.

Merkmale der annotierten Protein-N-Termini

Wir haben den Status der Protein-N-Termini weiter analysiert, indem wir die Anzahl der PSMs gezählt und die Aminosäurehäufigkeiten der terminalen Reste berechnet haben (Abb. 4). Der dbTIS-Datensatz, mit Ausnahme der Kategorie „nicht-terminale Reste“ (2.730 N-Termini), zeigte, dass die Aminosäurepräferenz zwischen acetylierten und freien Protein-N-Termini und auch zwischen entferntem und zurückgehaltenem iMet unterschiedlich war. Der Grad der Acetylierung schien zwischen entferntem und zurückgehaltenem iMet ähnlich zu sein (Abb. 4A). Wir fanden eine hohe Prävalenz von Alanin und Serin an der P1′-Position von N-Termini ohne acetyliertes iMet, während die bevorzugten Aminosäuren für freie Protein-N-Termini Prolin, Alanin, Valin bzw. Glycin waren. Im Falle von N-Termini mit iMet folgten auf acetyliertes iMet meist große polare Reste (Glutamat, Aspartat). Darüber hinaus war Lysin der Hauptrest, der auf freies iMet folgte (Abb. 4B). Mehrere Studien haben zuvor die Nt-Acetylierung in menschlichen Zelllinien29, Mäusehaut30 und menschlichen Blutplättchen27 untersucht. Die Aminosäurepräferenz unserer dbTIS-acetylierten Protein-N-Termini stimmt mit diesen Studien überein. Es ist erwähnenswert, dass Prolin, Valin und Glycin in den N-Termini nur selten acetyliert wurden, wie auch in separaten Studien mit Drosophila melanogaster beobachtet wurde31. Demnach verhindert ein Prolin, das am N-Terminus oder an der zweiten Position sitzt, die Acetylierungsreaktion der Nα-terminalen Acetyltransferasen (NATs).

Abbildung 4
Abbildung4

Merkmale von Protein-N-Termini. (A) Verteilung der acetylierten N-Termini und der freien N-Termini nach der Art der N-Termini. Die Daten sind in Prozentwerten dargestellt, und die genaue Anzahl der Protein-N-Termini ist in den Balken angegeben. (B) Die Aminosäurehäufigkeit am zweiten Rest von acetylierten oder freien Protein-N-Termini. Der zweite Rest“ bedeutet den Rest neben dem Initiator-Methionin. (C) Die Aminosäurehäufigkeit an der flankierenden Region von Signalpeptiden und Transitpeptiden. Die Proteinsequenz-Logos wurden mit dem Softwarepaket iceLogo mit Korrektur für die natürliche Aminosäurehäufigkeit generiert. Die roten Pfeile zeigen beobachtete Spaltstellen an.

Nt-Acetylierung erfolgt im Allgemeinen co-translational durch NATs mit Acetyl-Coenzym A während der Proteinsynthese. Beim Menschen werden verschiedene NATs exprimiert wie hNatA, hNatB, hNatC, hNatD, hNatE und hNatF5, 32, 33. Diese NATs unterscheiden sich in ihrer Substratspezifität, und jede NAT acetyliert an einer oder mehreren N-terminalen Aminosäuresequenzen. Insbesondere NatA acetyliert N-Termini, nachdem iMet durch Methionin-Aminopeptidase entfernt wurde. Es acetyliert auch Asp- und Glu- N-Termini von reifen Aktinen posttranslational. Tabelle 1 zeigt die Anzahl der N-Termini für jede NAT. Von 2.172 acetylierten Protein-N-Termini wurden 1.986 als Substrate von NATs kartiert, und 67 % der kartierten N-Termini wurden als NatA-Substrate vorhergesagt. Die Substrate von NATs wurden als acetylierte und freie Formen identifiziert. So bestimmten wir den relativen Grad der Nt-Acetylierung basierend auf der Anzahl der PSMs jedes Substrats. Der relative Grad der Nt-Acetylierung für NatA-Substrate betrug im Durchschnitt 76,7 %. Bei NatB waren es 92,8 %, bei NatD 72,2 % und bei NatC/E/F 45,3 %. Die Ergebnisse zeigten, dass die meisten der NAT-Substrate im Zustand der Acetylierung vorlagen. Allerdings war die Acetylierungseffizienz zwischen den NATs und sogar zwischen den Substraten der einzelnen NATs unterschiedlich. Gly und Val unter den NatA-Substraten und ML, MW, MK und MA unter den NatC/E/F-Substraten wurden weniger acetyliert nachgewiesen als andere Substrate. Interessanterweise wurden Protein-N-Termini, die mit Gly und Val beginnen, im Vergleich zu anderen Substraten von NatA meist frei beobachtet. Darüber hinaus zeigten andere zuvor veröffentlichte Arbeiten ähnliche Ergebnisse31, 34, 35. Während es anscheinend wenig Wissen über die Effizienz von NatA an jedem seiner Substrate gibt, ist es klar, dass die Acetylierungseffizienzen an Gly und Val viel geringer sind als die Acetylierung an anderen Substraten von NatA.

Tabelle 1 Klassifizierung der N-terminalen Proteine von dbTIS1 nach dem Substrattyp der N-α-terminalen Acetyltransferasen des Menschen (NATs).

Als nächstes haben wir nach Spaltstellen von Signal-/Transitpeptiden und Propeptiden gesucht. Die meisten der N-Termini, die durch die Entfernung des Signal-/Transitpeptids oder Propeptids freigelegt wurden, befanden sich in nicht-acetyliertem Zustand. Visualisierte Muster in den Peptidsequenzen durch Generierung eines iceLogo36 für die 30 Reste zwischen P15 und P15′. Die Ergebnisse zeigen die stärkste Anreicherung für Argininreste an den P3- und P2-Positionen des Transitpeptids und Leucinreste an der P15-P6-Position des Signalpeptids (Abb. 4C), wie sie wahrscheinlich in früheren Studien23 beobachtet wurden.

Identifizierung alternativer Translationsinitiationsstellen

In Eukaryoten kann die ribosomale Translationsinitiation alternativ stromaufwärts der annotierten Kodierungssequenz oder stromabwärts von In-Frame-ATG-Codons37, 38 erfolgen. Das Ribosomen-Profiling ist ein nützliches Werkzeug, das auf der Sequenzierung potenzieller Translationsstartstellen der mRNA basiert39, 40. Um putative aTIS auf Proteinebene zu entdecken, analysierten wir unsere MS-Daten nicht nur mit der UniProtKB-Datenbank, sondern auch mit einer kundenspezifischen Datenbank, die in-silico-translatierte 5′-UTRs enthält. Speziell für die 5′-UTR-Übersetzung waren wir daran interessiert, proteomische Hinweise auf die mögliche Expression von Genen aus Pseudo-Startcodons zu finden. Zunächst wurden 495 der unannotierten Protein-N-Termini als putative aTIS stromabwärts der kanonischen Startstelle abgeleitet. Dazu gehörten Protein-N-Termini, die mit internem Methionin beginnen, egal ob sie acetyliert (223) oder frei (272) sind und egal ob das Methionin beibehalten (234) oder entfernt (261) wurde. Wir haben iceLogo verwendet, um die Aminosäurehäufigkeiten nach iMet an dbTIS und an putativen aTIS zu vergleichen, indem wir alle Aminosäuresequenzen nach irgendeinem Met in der menschlichen Swiss-Prot-Datenbank verwendet haben, um die Hintergrund-Aminosäurehäufigkeiten zu ermitteln. Beide Logos zeigten hohe Präferenzen für Alanin und Serin an der Position unmittelbar nach iMet und anschließende Präferenzen für hauptsächlich Alanin (Abb. 5A). In der putativen aTIS-Kategorie wurden die beiden Aminosäuren mit einer Gesamthäufigkeit von 32 % an der ersten Position nach iMet identifiziert (Supplementary Fig. S2). Die Nukleotid-Konsensussequenzen, die das ATG-Codon von dbTIS und putativem aTIS umgaben, zeigten ein ähnliches Muster von Kozak-Sequenzen41,42,43 (Abb. 5B). Andererseits wurden 77 von 495 putativen aTIS dem obersten iMet von alternativen Spleißtranskripten in der ECgene-Datenbank für alternatives Spleißen zugeordnet (ergänzende Tabelle S3)44 , was bedeutet, dass diese putativen aTIS möglicherweise keine echten aTIS sind, sondern als kanonische TIS im Falle eines alternativen Spleißereignisses fungieren, das kürzere Transkripte erzeugt. Angesichts dieser Interpretationen scheint es, dass die Protein-N-Termini in unserer putativen aTIS-Kategorie aus der alternativen Translationsinitiierung oder aus der Translation nach dem alternativen Spleißen stammen.

Abbildung 5
Abbildung 5

Putative alternative Translationsinitiationsstellen. (A) iceLogo-Diagramme für Aminosäurehäufigkeiten zwischen dbTIS und putativen aTIS. Zur Verwendung als Hintergrundkorrektur wurden die Aminosäurehäufigkeiten nach jedem Methionin (entweder iMet oder internes Met) in der humanen Swiss-Prot-Datenbank (Release 2015. 1) ermittelt. Die Sequenzen beginnen unmittelbar nach dem Methionin. (B) Nukleotidsequenzen in der flankierenden Region des Initiator-Methionin-Restes. Das zentrale ATG ist das Codon für das Initiator-Methionin von dbTIS (links) und putativem aTIS (rechts). (C) Das Design von NtermDB. Sie ist so konzipiert, dass sie eine Suche nach neuartigen Protein-N-Termini innerhalb einer stromaufwärts gelegenen UTR-Region ermöglicht. Orange Blöcke stellen UTR-Regionen dar, und grüne Blöcke stellen kodierende Sequenzregionen (CDS) dar. Es wurde angenommen, dass ein neuartiger Protein-N-Terminus am Startcodon („ATG“) oder einem Pseudo-Startcodon entlang des gleichen Rahmens wie der des passenden CDS beginnt. Wir wählten die am weitesten stromaufwärts gelegene (Pseudo-)Startstelle und übersetzten das Transkriptmodell in-silico. Siehe Methoden für weitere Details. (D) Codon Usage in den identifizierten neuartigen N-Termini. Die Nukleotidsequenzen, die dem ersten Rest der identifizierten 5′-UTR-Peptide entsprechen, sind dargestellt. (E) Anzahl der PSMs für acetylierte oder freie N-terminale 5′-UTR-Peptide, die mit Nicht-Start-Codons beginnen.

Während aTIS stromabwärts von dbTIS mit der UniProtKB-Datenbank identifiziert werden können, können solche Ereignisse, die stromaufwärts von dbTIS beginnen, nicht mit den aktuellen Referenzprotein-Datenbanken entdeckt werden. Daher haben wir eine neuartige Proteinsequenz-Datenbank, ‚NtermDB‘ (detailliert in Methoden), konstruiert, die in-silico-translatierte Sequenzen von 5′-UTRs bekannter kodierender Sequenz (CDS)-Regionen von der Stelle eines Startcodons (ATG) oder seiner Ein-Nukleotid-Varianten, Pseudo-Startcodons (CTG, TTG, GTG, AGG, ACG, AAG, ATC, ATA und ATT), enthält (Abb. 5C). Diese putativen aTISs wurden auf 67 % der gesamten Transkripte in der Ensembl-Datenbank (http://www.ensembl.org/index.html) gemappt. Die Stellen waren gleichmäßig auf 23 Chromosomen verteilt, mit Ausnahme von Chromosom Y. MS/MS-Spektren, die bei der ersten Suche mit der UniProtKB-Datenbank nicht übereinstimmten, wurden anschließend gegen die NtermDB gesucht. Als Ergebnis identifizierten wir 261 neue Protein-N-Termini (aus 394 Transkripten). Von diesen Transkripten erwiesen sich fünf Transkripte als identisch mit denen der Ribo-seq-Daten von Lee, S. et al.40. Diese wurden alle an der 5′-UTR unter Verwendung der Pseudo-Startcodons transkribiert (ergänzende Tabelle S4). Die N-Termini der Proteine wurden auf allen Chromosomen gefunden, mit Ausnahme des Y-Chromosoms und des Chromosoms 21. Außerdem waren die Protein-N-Termini hauptsächlich auf Chromosom 1 verteilt (ergänzende Abb. S3a). Von den 261 neuartigen Protein-N-Termini wurden 46 in der 5′-UTR mit einem acetylierten oder freien Pseudo-Startcodon identifiziert (Abb. 5D; Ergänzende Abb. S3b; Ergänzende Tabelle S4). Die restlichen 214 Protein-N-Termini wurden mit anderen (Pseudo-)Startcodons gefunden, genauer gesagt wurden die N-Termini mit vier Codons gefunden, nämlich GCT, GCA, GCC und GCG, die Alanin codieren (46 Termini; Abb. 5E, ergänzende Abb. S3c, ergänzende Tabelle S4). Die meisten dieser Protein-N-Termini, die mit Alanin beginnen, wurden als acetyliert identifiziert und mit nur einer Ausnahme gab es kein dazwischenliegendes Stoppcodon bis zum Beginn des CDS. Von den 46 N-Termini, die mit Alanin beginnen, wurden 72 % mit Peptiden identifiziert, die die kanonische CDS-Region überlappen. Daher sind wir zuversichtlich, dass wir neuartige N-Termini identifiziert haben. Außerdem hatten 39 % ein Pseudo-Startcodon vor Alanin. In den meisten Fällen, wie in der aktuellen Studie und anderen früheren Untersuchungen, wenn iMet von Alanin gefolgt wird, wird iMet gespalten und dann wird das neu exponierte Alanin acetyliert. Aus diesem Grund ist es sehr wahrscheinlich, dass die Protein-N-Termini, die ein Alanin am ersten Rest und ein Pseudo-Startcodon am vorangehenden Rest haben, alternative Translationsinitiationsstellen in der 5′-UTR sind.

Unbekannte Prozessierungsstellen

Von 10.103 Protein-N-Termini werden nur 5 % als putative aTIS vorhergesagt, und die restlichen 95 % stammen von bisher unbekannten Prozessierungen. Wir waren sehr darauf bedacht, einen Weg zu finden, um zwischen freien N-Termini in Zellen und internen Stellen, die während der Probenverarbeitung freigelegt wurden, zu unterscheiden, um den unannotierten N-Termini Eigenschaften zuzuschreiben. Die chemische Markierung von Amingruppen auf Proteinebene ist erforderlich, um nicht nur zwischen endogenen Nt-acetylierten N-Termini und endogenen freien N-Termini, sondern auch zwischen dem N-terminalen Peptid und internen Peptiden des Proteins zu unterscheiden. Wenn jedoch die Inaktivierung des N-Blockierungsreagenzes nicht vollständig ist, ist es möglich, dass das α-Amin des internen Peptids am N-terminalen Rest durch Spuren des N-Blockierungsreagenzes, die nach oder während des Verdaus verbleiben, markiert wird und diese internen Peptide fälschlicherweise als Protein-N-Termini identifiziert werden könnten. Daher führten wir während des Experiments einen Inaktivierungsschritt der chemischen Markierung mit Hydroxylamin durch, gefolgt von einem FASP-Verdau, und nach einer MS-Datenbanksuche wurden Protein-N-Termini ohne eine proteasespezifische Stelle am N-terminalen Ende des identifizierten Peptids herausgesucht. Hydroxylamin hat auch den Vorteil, dass es unerwünschte O-Acylierungen rückgängig macht, die während der Markierungsreaktion auftreten können13. Interessanterweise wurden fast die Hälfte der resultierenden Protein-N-Termini unbekannter Prozessierungskategorie (43 %) als acetylierte Formen identifiziert. Die meisten nicht-annotierten Protein-N-Termini wurden auch in Eukaryoten identifiziert, unabhängig davon, ob die Forscher negative17, 20 oder positive23 Anreicherungsmethoden verwendeten. Wenn wir unseren Datensatz mit der von Crawford et al. generierten Datenbank („Degrabase“) verglichen, die sich auf freie Protein-N-Termini an den Positionen 3-65 konzentriert, beobachteten wir eine hohe Ähnlichkeit der Muster der Aminosäurehäufigkeiten (Supplementary Fig. S4). Daher erscheint es uns wahrscheinlich, dass es sich bei den freien Protein-N-Termini um neu exponierte N-terminale Stellen handelt, die nach der Entfernung von putativen Signalen oder Transitpeptiden entstanden sind (entsprechend der Interpretation von Crawford et al.). Aminopeptidase-Ragging-Ereignisse könnten die ursprünglich erzeugten Spaltprodukte verändern. Als wir die N-Termini der Proteine an den Positionen >65 mit denen an den Positionen 3-65 verglichen, zeigten die Daten eine ähnliche Aminosäureverteilung an den Positionen P1 und P1′ (Abb. 6A), mit einer Dominanz von Arginin an P1. Aus den Ergebnissen vermuten wir, dass die Spaltung des Signal-/Transitpeptids und der Abbau der Proteine hauptsächlich durch Trypsin-ähnliches verursacht wird.

Abbildung 6
Abbildung 6

Charakterisierung der Protein-N-Termini aus der Kategorie der unbekannten Verarbeitung. (A) Aminosäureverteilungen an P1 und P1′-Positionen von Protein-N-Termini, die an den Resten 3-65 (blau) und >65 (rot) entlang der Proteinsequenzen identifiziert wurden. (B) Anzahl der Proteine nach dem Anteil der dbTIS-PSMs. 1″ für den Wert auf der x-Achse bedeutet, dass alle PSMs mit dbTIS übereinstimmen, „0“ bedeutet, dass das Protein nur mit PSMs identifiziert wurde, die der unbekannten Verarbeitungskategorie entsprechen, und die Zwischenwerte bedeuten, dass das Protein mit beiden Arten von PSMs identifiziert wurde. (C) Verteilung der acetylierten und freien Protein-N-Termini, die zur unbekannten Prozessierungskategorie gehören.

In unserer Studie wurden Protein-N-Termini für insgesamt 5.727 Proteine charakterisiert. Davon behielten 2.591 Proteine eine intakte N-terminale Sequenz (dbTIS), während 3.968 Proteine in verkürzter Form ohne bekannte Signal-/Transit- oder Propeptidsequenz gefunden wurden. Solche verkürzten Proteine wurden auch hauptsächlich mit der TAILS-Methode nachgewiesen. Es ist bemerkenswert, dass 83 % der 5.537 Proteine in den beiden Kategorien entweder mit intakten (28 %, Kategorie „1“) oder trunkierten (53 %, Kategorie „0“) Sequenzen gefunden wurden, aber nicht mit beiden Merkmalen (Abb. 6B). Dies legt nahe, dass der Proteinabbau nicht die Hauptursache für die Trunkierung ist. Vielmehr scheint eine solche Trunkierung einen Einfluss auf die funktionelle Diversität im menschlichen Proteom zu haben, und eine beträchtliche Menge an Protein-N-Termini in der Kategorie ‚unknown processing‘ könnte reife physiologische Formen in HEK293T-Zellen darstellen.

Wir beobachteten auch die Häufigkeit von N-terminalen Resten zwischen acetylierten und freien Protein-N-Termini (Abb. 6C). Es zeigte sich eine Präferenz für Glutamat und Aspartat in acetylierten Protein-N-Termini und Serin und Prolin in freien Protein-N-Termini. Der Proteinabbau in eukaryotischen Zellen wird hauptsächlich durch das Ubiquitin/Proteasom-System durchgeführt und durch die N-End-Regel reguliert. Kürzlich schlugen Lange et al. eine modifizierte N-End-Regel vor, die auf der beobachteten Aminosäurehäufigkeit und dem Nt-Acetylierungsstatus interner Protein-N-Termini in menschlichen Erythrozyten basiert20. Glutamat und Aspartat wurden als „acetylierungsstabilisiert“ oder „frei nicht destabilisierend“ klassifiziert, während Serin als „acetylierungsdestabilisiert“ eingestuft wurde. Die beiden sauren Reste werden durch die Arg/N-End-Regel als sekundäre Reste definiert. Somit würde eine Acetylierung an N-terminalem Glutamat und Aspartat die Destabilisierung der Arginylierung hemmen, was wiederum die Stabilität der Proteine erhöht. Im Gegensatz dazu wurde beobachtet, dass Prolin an den N-Termini frei ist, was die bekannte Tatsache widerspiegelt, dass Prolin strukturell mit der Acetylierung interferiert und einen freien N-Terminus bildet. Somit scheinen diese unterschiedlichen Aminosäuresequenzen, die in den Protein-N-Termini der unbekannten Prozessierungskategorie gesehen werden, von der Proteinstabilität durch den Nt-acetylierten Zustand abgeleitet zu sein.

Die N-terminale Acetylierung erfolgt co-translational durch NATs, doch während der genaue Mechanismus für die post-translationale Nt-Acetylierung noch unbekannt ist, wurde ein Merkmal der post-translationalen Nt-Acetylierung in Hefe berichtet26. Wir identifizierten 4.088 acetylierte Protein-N-Termini an >2 Position (Abb. 4A). Von diesen haben etwa 50 % Trypsin- oder GluC-spezifische Termini. Wir haben die Acylierung im Verlauf des Experiments kontrolliert, so dass wir die genaue Ursache für dieses Phänomen nicht kennen. Eine mögliche Erklärung ist die Fehlannotation zwischen der N-terminalen Acetylierung und der ε-Acetylierung des internen Lysins, da wir bei der Datenbanksuche die Acylierung zwangsweise an allen ε-Aminen der Lysinreste gesetzt haben. Außer an den N-Termini mit enzymspezifischen Stellen wurde Glutamat hauptsächlich in P1`-Position beobachtet (Supplementary Fig. S5). Es gibt einen Bericht, dass acetylierte reife Aktine, die Asp- oder Glu- an den N-Termini aufweisen, durch posttranslationale Modifikation entstehen45. Obwohl unser Ergebnis als von jedem Enzym in P1-Position beeinflusst angesehen wird, ist es immer noch möglich, dass die Acetylierung durch posttranslationale Modifikation reguliert wurde. Um unsere unbekannten verarbeiteten N-Terminom-Daten weiter zu bewerten, nutzten wir die Informationen aus einem Satz veröffentlichter Daten29 und aus der TopFIND-Datenbank (http://clipserve.clip.ubc.ca/topfind/). Im Fall der Nt-Acetylierung an dbTIS wurden die meisten der Protein-N-Termini, unabhängig von der Art der Proben und experimentellen Methoden, im menschlichen Proteom identifiziert. Mehr als 50 % der identifizierten dbTIS überlappten sich zwischen zwei Datensätzen (Ergänzende Abb. S6a). Im Gegensatz zu diesen Protein-N-Termini an Position 1 oder 2 gab es eine signifikante Diskrepanz zwischen den Daten von Protein-N-Termini an Position >2. In der Arbeit, die COFRADIC16 verwendet, waren die Informationen der acetylierten Protein-N-Termini an den Positionen >2 nicht verfügbar und konnten nicht verglichen werden, während eine beträchtliche Anzahl von Protein-N-Termini von einer Arbeit berichtet wurde, die die TAILS-Methode25 verwendet (ergänzende Abb. S6a). Die Protein-N-Termini an den Positionen >2 im Zahnpulpa-Proteom17 wurden in unserer Studie in ähnlichen Anteilen identifiziert. Allerdings wurden nur sehr wenige Protein-N-Termini an Position >2 in beiden Studien gemeinsam gefunden (ergänzende Abb. S6b). Interessanterweise zeigte die Ontologie-Analyse, dass die „große ribosomale Untereinheit“, das „Melanosom“, das „Kernchromosom“ und der „mitochondriale Teil“ am meisten mit Protein-N-Termini der Position >2 angereichert waren (Ergänzende Abb. S7). Daraus schließen wir, dass die posttranslationale Nt-Acetylierung stärker vom Typ oder Status der Probe beeinflusst wird als die co-translationale Nt-Acetylierung.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.