Analisi completa della proteina umana N-termini consente la valutazione di varie forme proteiche

Deep-down arricchimento di peptidi N-terminali

Al fine di caratterizzare lo stato delle proteine nelle cellule, abbiamo eseguito “deep-down” N-terminal peptide enrichment (Nrich) in HEK293T linea cellulare basata su un metodo di selezione negativa (Fig. 1, metodi). Nrich consisteva in tre fasi sperimentali principali: 1) il primo passo è stato quello di distinguere tra Nα -acetilato endogeno e N-termini liberi endogeni. Questo è stato fatto bloccando le ammine primarie α ed ε delle proteine con anidride propionica (PA) o anidride D6-acetica (D6). 2) Le proteine bloccate con ammine sono state digerite con tripsina o GluC-endoproteasi usando i metodi FASP19 per la rimozione del reagente N-bloccante e lo scambio di tamponi. 3) I peptidi interni appena generati contenenti α-ammina libera sono stati rimossi con una resina di agarosio N-hydroxysuccinimide (NHS) attivato. Di conseguenza, i peptidi della frazione flow-through in esperimenti tripsina ci si aspettava di avere un ArgC-come modello di digestione a causa della propionilazione o trideuteroacetilazione della ε-amina della lisina. Come previsto, c’è stato un arricchimento dei peptidi Nα-acetilati endogeni (Nt-acetilato N-termini) e in vitro Nα-propionilato o Nα-D3-acetilato peptidi (libero N-termini). Il flow-through di NHS-agarosio è stato separato mediante frazionamento in fase inversa ad alta pH prima della LC-MS/MS. Dati spettrali di massa sono stati cercati contro il database UniProtKB utilizzando MS-GF + e Comet seguita da convalida con percolatore. Successivamente, gli spettri non identificati da due motori di ricerca sono stati ri-analizzati dall’algoritmo MODi (Fig. 1). Abbiamo usato tutti i peptidi trovati in ogni motore di ricerca.

Figura 1
figura1

Schema del metodo Nrich e dello schema di scoperta dell’N-terminoma. Le proteine sono etichettate con anidride D6-acetica o anidride propionica per distinguere l’acetilazione N-terminale endogena dall’acetilazione/propionilazione N-terminale artificiale. Seguito da Filter Aided Sample Preparation (FASP) e la digestione con tripsina o endoproteasi GluC, peptidi interni sono impoveriti utilizzando amino-reattiva perline NHS. I peptidi arricchiti N-terminale (cerchio rosso) sono divisi in 6 frazioni da alta pH in fase inversa frazionamento. Poi, tutte le 6 frazioni sono stati sottoposti a LC-MS/MS analisi. Gli spettri MS tandem sono inizialmente cercato contro UniProtKB database con MS-GF + e motori di ricerca Comet. Spettri non identificati sono poi selezionati per la ricerca di modifiche più diverse utilizzando modifica-specifica motore di ricerca MODi. Spettri non identificati a seguito di una ricerca UniProtKB database combinato con l’esplorazione dei tre motori di ricerca sono stati poi messi nello stesso flusso di lavoro di ricerca dopo aver sostituito il database convenzionale con un nuovo database personalizzato, NtermDB. Tutte le identificazioni sul database UniProtKB sono state chiamate “N-termini”, mentre le nuove identificazioni su NtermDB sono state chiamate “Novel N-termini.”

L’efficacia di arricchimento per i peptidi N-terminalmente bloccati è stata osservata al 79% (±2) in PA-Trypsin, 70% (±2) in PA-GluC, 68% (±2) in D6-Trypsin e 57% (±7) in D6-GluC. Peptide spettro corrisponde (PSMs) per N-terminalmente bloccato peptidi sono stati contati in media come 74.456 in PA-Trypsin, 31.053 in PA-GluC, 86.115 in D6-Trypsin e 28.257 in D6-GluC al tasso di falsa scoperta (FDR) ≤ 0,01 (Fig. 2A). Il numero di N-termini identificati variava a seconda della natura dei reagenti N-blocco e endoproteasi, anche se era riproducibile per ogni impostazione sperimentale. Il N-termini identificati consisteva di Nt-acetilato e libero N-termini. Anche se Nrich incorporato un passo per la rimozione e l’inattivazione di PA o D6 prima endoproteasi-digestione, abbiamo trovato PA- o D6-bloccato peptidi interni con proteasi-specifici siti ad entrambe le estremità. Tali peptidi possono essere stati generati durante la digestione da tracce di reagente (portato da un passo precedente). Pertanto, PA- o D6-etichettati peptidi con siti proteasi-specifici sono stati esclusi dalla lista finale ad eccezione dei peptidi trovati contemporaneamente in entrambi gli esperimenti tripsina e GluC. Infine, abbiamo ottenuto 6.209 proteine N-termini in PA-Tripsina, 3.496 in PA-GluC, 7.583 in D6-Tripsina e 2.481 in D6-GluC. Abbiamo osservato la quantità quasi uguale di Nt-acetilato (44%) e libero (56%) N-termini in tutti gli esperimenti (Fig. 2B). Il nostro metodo potrebbe arricchire i peptidi N-terminali con efficacia simile indipendentemente dai reagenti N-blocking o endoproteasi. Questa osservazione è abbastanza simile ai risultati ottenuti da TAILS17, 20. In particolare, la nostra analisi completa, utilizzando due reagenti N-blocking e due endoproteasi, notevolmente aumentato la copertura del N-terminome. Un totale di 13.095 proteine N-termini sono stati identificati come somma nel nostro studio. Di questi prodotti, il 62% è stato trovato esclusivamente con un solo metodo (Fig. 2C). Tutti e quattro i diversi metodi sono stati eseguiti in triplice copia biologica e tecnica, e i coefficienti di variazione dei valori del numero di N-termini erano entro il 20%. Rispetto al metodo più frequentemente rilevato, D6-Tripsina, il numero totale di tutti gli N-termini di proteine identificati è aumentato del 73%. Nel complesso, il numero di tutti gli N-termini delle proteine, trovati dai quattro metodi, è aumentato di circa il 60% rispetto a un singolo esperimento. Inoltre, abbiamo calcolato il grado di acetilazione per ciascuna delle proteine N-termini in base al numero di PSM (Fig. 2D). La maggior parte della proteina N-termini sono stati identificati come acetilato o libero, e proteine N-termini di acetilazione parziale sono stati trovati raramente. Inoltre, la correlazione del grado di acetilazione tra ogni metodo diverso era significativamente alta (0,83 ~ 0,94, Fig. 2E). Questi risultati ci portano alla conclusione che lo stato in cellule di proteine N-termini può essere determinato indipendentemente dalla natura dei reagenti N-blocking e endoproteasi. Tuttavia, la copertura di N-terminome può essere significativamente aumentata combinando i risultati da diversi metodi di arricchimento.

Figura 2
figura2

Proprietà di scoperto N-terminome. (A) Numero di PSMs identificati su ogni set di esperimento Nrich. In tutti i casi, il N-terminoma trattato con tripsina ha più PSMs rispetto al N-terminoma trattato con GluC. Nel caso dei reagenti N-bloccanti, anidride propionica (PA) ha mostrato una maggiore efficienza di oltre il 10% rispetto all’anidride D6-acetica (D6). Tuttavia, per quanto riguarda i conteggi di PSM, i campioni trattati con D6 hanno avuto valori più alti di quelli dei campioni trattati con PA. (B) Proporzioni di PSM per N-termini acetilati endogeni (blu) e N-termini liberi endogeni (arancione). Circa il 44% dei PSM corrispondeva a N-termini acetilati. (C) diagramma di Venn della proteina scoperta N-termini secondo la configurazione sperimentale diversa. (D) stato di acetilazione della proteina scoperta N-termini. Il grado di acetilazione è stato calcolato in base al numero di PSM. (E) Proteine N-termini scoperte comunemente tra ogni coppia di setup sperimentali e la correlazione del grado di acetilazione.

Classificazione del N-terminoma

I N-termini identificati da Nrich provengono da due diversi tipi di proteine N-termini, ad es, Nt-acetilato e N-termini liberi (Nα-propionilato o Nα-D3-acetilato). Abbiamo identificato 6.525 acetilati (o parzialmente acetilati) e 6.570 N-termini liberi. I dati dell’N-terminoma possono essere classificati in base alla loro posizione, insieme alle corrispondenti sequenze proteiche depositate nel database delle proteine16, 17, 20, 21. Sulla base di studi precedenti, abbiamo prima diviso i 13.095 N-termini di 5.727 proteine in 2.992 annotati (23%) e 10.103 unannotated (77%) proteina N-termini (Fig. 3A). Gli N-termini annotati includevano i siti di inizio della traduzione annotati da UniProtKB (dbTIS) e gli N-termini delle proteine nei siti dopo la rimozione del segnale o del peptide di transito da processi post-traslazionali (Tabella supplementare S1). I dbTIS potrebbero essere ulteriormente suddivisi in proteina N-termini, iniziando con Met iniziatore (iMet mantenuto) e proteina N-termini a partire dal secondo residuo senza un Met iniziatore generato da modifica co-translazionale (iMet rimosso), o quelli appartenenti alla ‘categoria residuo non terminale’ cioè, per quelle sequenze di proteine nel database UniProtKB che non iniziano con metionina. Il 95% delle dbTIS provengono da sequenze di proteine canoniche e il 5% da proteine isoforme. Generalmente, le isoforme proteiche sono prodotte dallo splicing alternativo o dall’iniziazione alternativa della traduzione. Un esempio interessante è l’identificazione del peptide acetilato N-terminale di GSR (Glutathione reductase, P00390-2). L’isoforma manca dei primi 43 residui della sua sequenza canonica. Secondo l’annotazione UniProt, la posizione subcellulare dell’isoforma (citoplasma) è diversa da quella della sua forma canonica (mitocondri). Gli N-termini delle proteine della categoria dbTIS sono stati confrontati con l’algoritmo ‘Terminus’22. Come risultato, lo stato del 74% delle proteine N-termini è risultato essere lo stesso di quello predetto dal Terminus (Tabella supplementare S1).

Figura 3
figura3

Classificazione degli N-termini scoperti e le loro posizioni lungo le sequenze delle proteine. (A) Classificazione degli N-termini delle proteine. dbTIS: sito di inizio della traduzione annotato da UniProtKB; residuo non terminale: N-termini delle proteine che iniziano con il primo, ma non con il residuo di metionina nel database UniProtKB; propeptide/segnale/transito: N-termini delle proteine che sorgono dopo la rimozione del pro-, segnale-, o peptide di transito; aTIS putativo: sito alternativo putativo di inizio della traduzione. (B) Un certo numero di proteine N-termini identificate in base alle loro posizioni lungo le sequenze proteiche.

Le proteine N-termini non annotate rappresentano la maggior parte dei nostri dati N-terminome. Le loro posizioni lungo le sequenze proteiche corrispondenti erano maggiori di due (Tabella supplementare S2). Tuttavia, i peptidi di segnale o altri propeptidi rimossi durante la maturazione della proteina non sono noti (Fig. 3B). Ci sono alcuni suggerimenti che tali N-termini non annotati potrebbero essere interpretati come suggerendo la possibilità di aTISs o siti di scissione di eventi proteolitici. Per esempio, possiamo considerare 495 N-termini non annotati come aTIS perché questi N-termini sono stati osservati o iniziando con o immediatamente dopo la metionina interna e il 45% di questi erano acetilati. Inoltre, 412 N-termini sono stati mappati alle proteoforme trovate in database come Degrabase23, TopFIND database24, 25 e Proteoform Repository (http://repository.topdownproteomics.org/). Anche se richiede un ulteriore esame, la nostra interpretazione è abbastanza plausibile dal momento che i nostri dati condividono molte somiglianze con altre indagini precedenti16, 17, 20, 23, 26,27,28.

Caratteristiche delle proteine annotate N-termini

Abbiamo ulteriormente analizzato lo stato delle proteine N-termini contando il numero di PSMs e calcolando le frequenze degli aminoacidi dei residui terminali (Fig. 4). Il dataset dbTIS, ad eccezione della “categoria dei residui non terminali” (2.730 N-termini), ha mostrato che la preferenza aminoacidica era diversa tra N-termini di proteine acetilate e libere, e anche tra iMet rimossi e mantenuti. Il grado di acetilazione è apparso simile tra iMet rimossi e conservati (Fig. 4A). Abbiamo trovato un’alta prevalenza di alanina e serina nella posizione P1′ di N-termini senza iMet acetilato, mentre gli aminoacidi preferiti per la proteina libera N-termini erano prolina, alanina, valina e glicina, rispettivamente. Nel caso di N-termini con iMet, l’iMet acetilato era per lo più seguito da grandi residui polari (glutammato, aspartato). Inoltre, la lisina era il residuo principale che seguiva iMet libero (Fig. 4B). Diversi studi hanno precedentemente indagato Nt-acetilazione in linea cellulare umana29, pelle di topo30, e piastrine umane27. La preferenza aminoacido della nostra proteina dbTIS acetilato N-termini è coerente con questi studi. Vale la pena notare che prolina, valina e glicina nel N-termini erano raramente acetilati, come osservato anche in studi separati Drosophila melanogaster31. Secondo lo studio, una prolina seduta all’N-terminale o la seconda posizione impedisce la reazione di acetilazione delle acetiltransferasi Nα-terminali (NATs).

Figura 4
figura4

Caratteristiche delle proteine N-termini. (A) Distribuzione di N-termini acetilati e N-termini liberi secondo il tipo di N-termini. I dati sono presentati in valori percentuali, e i numeri esatti di proteine-N-termini sono indicati all’interno delle barre. (B) La frequenza aminoacidica al secondo residuo di N-termini di proteine acetilate o libere. Per “secondo residuo” si intende il residuo successivo alla metionina iniziatrice. (C) La frequenza degli amminoacidi nella regione di accompagnamento dei peptidi di segnale e di transito. I loghi di sequenza della proteina sono stati generati utilizzando il pacchetto software IceLogo con la correzione per l’abbondanza naturale di aminoacidi. Le frecce rosse indicano i siti di scissione osservati.

Nt-acetilazione generalmente avviene co-translazionalmente da NATs con acetil-coenzima A durante la sintesi proteica. Negli esseri umani, sono espressi vari NAT come hNatA, hNatB, hNatC, hNatD, hNatE e hNatF5, 32, 33. Questi NAT differiscono nella specificità del substrato, e ogni NAT acetilato a una o più sequenze di aminoacidi N-terminali. In particolare, NatA acetilati N-termini dopo iMet viene rimosso da metionina aminopeptidasi. Inoltre acetilati Asp- e Glu- N-termini di actine mature post-translationally. La tabella 1 mostra i conteggi degli N-termini per ogni NAT. Su 2.172 N-termini di proteine acetilate, 1.986 sono stati mappati come substrati di NATs, e il 67% degli N-termini mappati sono stati predetti come substrati di NatA. I substrati di NATs sono stati identificati come forme acetilate e libere. Così, abbiamo determinato il livello relativo di Nt-acetilazione basato sul numero di PSM di ogni substrato. Il livello relativo di Nt-acetilazione per i substrati NatA era in media del 76,7%. Era 92,8% per NatB, 72,2% in NatD e 45,3% in NatC/E/F. I risultati hanno mostrato che la maggior parte dei substrati NAT erano presenti nello stato di acetilazione. Tuttavia, l’efficienza di acetilazione era diversa tra le NAT e anche tra i substrati di ogni NAT. Gly e Val tra i substrati NatA e ML, MW, MK e MA tra i substrati NatC/E/F sono stati rilevati meno acetilati di altri substrati. È interessante notare che gli N-termini delle proteine che iniziano con Gly e Val sono stati osservati per lo più liberi rispetto ad altri substrati di NatA. Inoltre, altri articoli pubblicati in precedenza hanno mostrato risultati simili31, 34, 35. Mentre sembra esserci poca conoscenza dell’efficienza di NatA su ciascuno dei suoi substrati, è chiaro che le efficienze di acetilazione a Gly e Val sono molto più basse rispetto all’acetilazione in altri substrati di NatA.

Tabella 1 Classificazione degli N-termini della proteina dbTIS1 secondo il tipo di substrato delle acetiltransferasi N-α-terminali umane (NATs).

In seguito, abbiamo cercato i siti di scissione dei peptidi di segnale/transito e dei propeptidi. La maggior parte degli N-termini esposti dalla rimozione del peptide di segnale/transito o del propeptide sono stati osservati essere in stati non acetilati. Modelli visualizzati nelle sequenze di peptidi generando un iceLogo36 per i 30 residui tra P15 e P15′. I risultati mostrano il più forte arricchimento per i residui di arginina a P3 e P2 posizioni del peptide di transito e residui di leucina in posizione P15-P6 del peptide segnale (Fig. 4C), come probabilmente osservato da studi precedenti23.

Identificazione dei siti di iniziazione traduzione alternativa

In eucarioti, iniziazione traduzione ribosomiale può verificarsi alternativamente a monte della sequenza di codifica annotata o a valle di in-frame codoni ATG37, 38. La profilazione del ribosoma è un utile strumento che si basa sul sequenziamento dei potenziali siti di inizio della traduzione dell’mRNA39, 40. Al fine di scoprire putativo aTIS a livello di proteina, abbiamo analizzato i nostri dati MS utilizzando non solo UniProtKB database ma anche un database personalizzato contenente in-silico-translated 5′-UTR. Soprattutto per la traduzione 5′-UTR, eravamo interessati a trovare indizi proteomici per la possibile espressione di geni da pseudo codoni di inizio. Prima di tutto, 495 di proteina non annotata N-termini sono stati dedotti per essere putativo aTIS a valle del sito di inizio canonico. Questi includevano proteine N-termini che iniziano con metionina interna, non importa che siano acetilate (223) o libere (272) e non importa che la metionina sia stata mantenuta (234) o rimossa (261). Abbiamo usato iceLogo per confrontare le frequenze degli aminoacidi dopo iMet al dbTIS e all’aTIS putativo usando tutte le sequenze di aminoacidi dopo qualsiasi Met nel database umano Swiss-Prot per stabilire le frequenze degli aminoacidi di fondo. Entrambi i loghi hanno mostrato alte preferenze per l’alanina e la serina nella posizione immediatamente dopo iMet e successive preferenze per l’alanina principalmente (Fig. 5A). Nella categoria putativa aTIS, i due amminoacidi sono stati identificati con una frequenza totale del 32% nella prima posizione dopo iMet (Fig. supplementare S2). Le sequenze di consenso nucleotidico che circondavano il codone ATG della dbTIS e della aTIS putativa hanno mostrato un modello simile di sequenze Kozak41,42,43 (Fig. 5B). D’altra parte, 77 delle 495 aTIS putative sono state mappate all’iMet superiore delle trascrizioni di splicing alternativo nel database di splicing alternativo ECgene (Tabella supplementare S3)44, implicando che queste aTIS putative potrebbero non essere vere aTIS, ma agire come TIS canoniche in caso di un evento di splicing alternativo che genera trascrizioni più corte. Date queste interpretazioni, sembra che gli N-termini delle proteine nella nostra categoria di aTIS putativi abbiano avuto origine dall’inizio della traduzione alternativa o dalla traduzione dopo lo splicing alternativo.

Figura 5
figura5

Siti di inizio di traduzione alternativa putativa. (A) diagrammi iceLogo per le occorrenze di aminoacidi tra dbTIS e aTIS putativo. Le frequenze degli aminoacidi dopo qualsiasi metionina (sia iMet che Met interno) nel database umano Swiss-Prot (release 2015. 1) sono state determinate per essere utilizzate come correzione di fondo. Le sequenze iniziano immediatamente dopo la metionina. (B) Sequenze nucleotidiche nella regione fiancheggiatrice del residuo di metionina iniziatore. L’ATG centrale è il codone per la metionina iniziatrice della dbTIS (a sinistra) e della aTIS putativa (a destra). (C) Il design di NtermDB. È stato progettato per consentire la ricerca di nuove proteine N-termini all’interno di una regione UTR a monte. I blocchi arancioni rappresentano le regioni UTR, e i blocchi verdi rappresentano le regioni di sequenza codificante (CDS). Il nuovo N-terminus della proteina è stato assunto per iniziare al codone di inizio (“ATG”) o uno pseudo codone di inizio lungo lo stesso frame di quello del CDS corrispondente. Abbiamo scelto il più lontano a monte (pseudo) sito di inizio e in-silico tradotto il modello di trascrizione. Vedi i metodi per maggiori dettagli. (D) Uso del codone nel romanzo identificato N-termini. Sequenze nucleotidiche corrispondenti al primo residuo dei peptidi 5′-UTR identificati sono presentati. (E) Numero di PSM per i peptidi N-terminali 5′-UTR acetilati o liberi che iniziano con codoni non iniziali.

Mentre gli aTIS a valle di dbTIS possono essere identificati utilizzando il database UniProtKB, quegli eventi che iniziano a monte di dbTIS non possono essere scoperti utilizzando gli attuali database delle proteine di riferimento. Pertanto, abbiamo costruito un nuovo database di sequenze proteiche, ‘NtermDB’ (dettagliato in Metodi), che includeva sequenze in-silico-tradotte di 5′-UTR di regioni note di sequenza codificante (CDS) dal sito di un codone di inizio (ATG) o le sue varianti mononucleotidiche, pseudo codoni di inizio (CTG, TTG, GTG, AGG, ACG, AAG, ATC, ATA e ATT) (Fig. 5C). Questi aTIS putativi sono stati mappati al 67% dei trascritti totali nel database Ensembl (http://www.ensembl.org/index.html). I siti erano distribuiti uniformemente tra 23 cromosomi, con l’eccezione del cromosoma Y. Gli spettri MS/MS non abbinati nella prima ricerca utilizzando il database UniProtKB sono stati successivamente cercati nel NtermDB. Come risultato, abbiamo identificato 261 nuove proteine N-termini (da 394 trascrizioni). Di queste trascrizioni, cinque trascrizioni sono stati trovati per essere identici a quelli di Ribo-seq dati di Lee, S. et al.40. Tutti questi sono stati trascritti al 5′-UTR utilizzando i codoni pseudo start (Tabella supplementare S4). La proteina N-termini sono stati trovati su tutti i cromosomi, con l’eccezione del cromosoma Y e cromosoma 21. Inoltre, gli N-termini delle proteine sono stati distribuiti principalmente sul cromosoma 1 (Fig. S3a supplementare). Dei 261 nuovi N-termini della proteina, 46 è stato identificato nel 5′-UTR con un codone di inizio pseudo acetilato o libero (Fig. 5D; Fig. supplementare S3b; Tabella supplementare S4). Il restante 214 proteina N-termini sono stati trovati con altri (pseudo) codone di inizio, più precisamente, il N-termini sono stati trovati per essere associato a quattro codoni cioè, GCT, GCA, GCC e GCG, che codifica alanina (46 termini; Fig. 5E, Supplementary Fig. S3c, Tabella supplementare S4). La maggior parte di tali proteine N-termini che iniziano con l’alanina sono stati identificati come acetilati e con una sola eccezione non vi era alcun codone di stop intermedio fino all’inizio del CDS. Dei 46 N-termini che iniziano con l’alanina, il 72% è stato identificato con peptidi che si sovrappongono alla regione CDS canonica. Pertanto, siamo sicuri di aver identificato nuovi N-termini. Inoltre, il 39% aveva uno pseudo codone di inizio prima dell’alanina. Nella maggior parte dei casi, come lo studio attuale e altre indagini precedenti, quando iMet è seguito da alanina, iMet viene scisso e poi l’alanina appena esposta viene acetilata. Per questo motivo, è altamente probabile che le proteine N-termini che hanno un’alanina al primo residuo e pseudo codone di inizio al suo residuo precedente siano siti alternativi di inizio della traduzione in 5′-UTR.

Siti di elaborazione sconosciuti

Su 10.103 proteine N-termini, solo il 5% sono predetti come aTIS putativi, e il restante 95% sono derivati dall’elaborazione finora sconosciuta. Eravamo molto preoccupati di trovare un modo per distinguere tra gli N-termini liberi nelle cellule e i siti interni esposti durante l’elaborazione dei campioni, al fine di attribuire caratteristiche agli N-termini non annotati. L’etichettatura chimica dei gruppi amminici a livello della proteina è necessaria per discriminare non solo tra gli Nt-acetilati endogeni e gli N-termini liberi endogeni ma anche tra il peptide N-terminale e i peptidi interni della proteina. Tuttavia, se l’inattivazione del reagente N-bloccante non è completa, è possibile che l’α-ammina del peptide interno sul residuo N-terminale è etichettato da traccia N-bloccante reagente rimanendo dopo o durante la digestione e questi peptidi interni potrebbero essere falsamente identificati come proteine N-termini. Pertanto, durante l’esperimento, abbiamo eseguito una fase di inattivazione dell’etichetta chimica con idrossilammina seguita da digestione FASP, e dopo la ricerca di database MS, abbiamo scelto proteina N-termini senza un sito proteasi-specifico all’estremità N-terminale del peptide identificato. Idrossilammina ha anche un effetto benefico per revertire indesiderati O-acylation che potrebbe accadere durante la reazione di etichettatura 13. È interessante notare che quasi la metà della proteina risultante N-termini di categoria di elaborazione sconosciuto (43%) sono stati identificati come forme acetilate. La maggior parte delle proteine non annotate N-termini sono stati identificati anche in eucarioti, non importa se i ricercatori hanno usato negativo17, 20 o positivo23 metodi di arricchimento. Se abbiamo confrontato il nostro set di dati con il database generato da Crawford et al. (‘Degrabase’), concentrandosi sulla proteina libera N-termini a posizioni 3-65, abbiamo osservato una grande somiglianza dei modelli di frequenze di amminoacidi (Fig. supplementare S4). Quindi, ci sembra probabile che gli N-termini liberi della proteina siano siti N-terminali appena esposti ottenuti dopo la rimozione di segnali putativi o peptidi di transito (secondo l’interpretazione di Crawford et al.). Gli eventi di ragging delle aminopeptidasi potrebbero alterare i prodotti di scissione inizialmente generati. Quando abbiamo confrontato la proteina N-termini in posizioni >65 a quelli in posizioni 3-65, i dati hanno mostrato una distribuzione aminoacidica simile alle posizioni P1 e P1′ (Fig. 6A), con predominanza di arginina a P1. Dai risultati, sospettiamo che la scissione del peptide di segnale/transito e la degradazione delle proteine sia causata principalmente dalla tripsina.

Figura 6
figura6

Caratterizzazione di proteine N-termini dalla categoria di elaborazione sconosciuta. (A) Distribuzioni di amminoacidi nelle posizioni P1 e P1′ delle proteine N-termini identificate al residuo 3-65 (blu) e >65 (rosso) lungo le sequenze delle proteine. (B) Un numero di proteine secondo la proporzione di dbTIS PSMs. ‘1’ per il valore dell’asse x significa che tutti i PSMs sono abbinati a dbTIS, ‘0’ significa che la proteina è stata identificata solo con PSMs corrispondente alla categoria di elaborazione sconosciuta, e i valori intermedi significano che la proteina è stata identificata con entrambi i tipi di PSMs. (C) Distribuzione degli N-termini delle proteine acetilate e libere appartenenti alla categoria di elaborazione sconosciuta.

I N-termini delle proteine per un totale di 5.727 proteine sono stati caratterizzati nel nostro studio. Di queste, 2.591 proteine hanno mantenuto una sequenza N-terminale intatta (dbTIS), mentre 3.968 proteine sono state trovate in forme troncate senza sequenza nota di segnale/transito o propeptide. Tali proteine troncate sono state anche segnalate principalmente con il metodo TAILS. È degno di nota che l’83% delle 5.537 proteine nelle due categorie sono state trovate con sequenze intatte (28%, categoria ‘1’) o troncate (53%, categoria ‘0’), ma non con entrambe le caratteristiche (Fig. 6B). Questo suggerisce che la degradazione della proteina non è la causa principale del troncamento. Piuttosto, tale troncamento sembra avere un’influenza sulla diversità funzionale nel proteoma umano, e una notevole quantità di proteine N-termini nella categoria di elaborazione sconosciuta può rappresentare forme fisiologiche mature nella cellula HEK293T.

Abbiamo anche osservato la frequenza di residui N-terminali tra N-termini di proteine acetilate e libere (Fig. 6C). C’era una preferenza per il glutammato e l’aspartato negli N-termini delle proteine acetilate e la serina e la prolina negli N-termini delle proteine libere. La degradazione delle proteine nelle cellule eucariotiche è principalmente effettuata dal sistema ubiquitina/proteasoma e regolata dalla regola N-end. Recentemente, Lange et al. hanno suggerito una regola N-end modificata basata sulla frequenza aminoacidica osservata e lo stato di Nt-acetilazione di proteine interne N-termini in eritrociti umani20. Glutammato e aspartato sono stati classificati come “acetilazione-stabilizzato” o “libero non destabilizzante”, mentre la serina è stata classificata come “acetilazione destabilizzata”. I due residui acidi sono definiti come residui secondari dalla regola Arg/N-end. Così, l’acetilazione al glutammato e all’aspartato N-terminali inibirebbe la destabilizzazione dell’arginilazione, che a sua volta aumenta la stabilità delle proteine. Al contrario, la prolina è stata osservata essere libera all’N-terminale, riflettendo il fatto ben noto che la prolina interferisce strutturalmente con l’acetilazione e rendere libero N-terminale. Così, queste diverse sequenze di amminoacidi visto nella proteina N-termini di categoria di elaborazione sconosciuta sembrano essere derivati dalla stabilità della proteina dallo stato Nt-acetilato.

N-terminale acetilazione avviene co-translazionalmente da NATs, tuttavia, mentre il meccanismo esatto per post-translazionale Nt-acetilazione è ancora sconosciuto, una caratteristica di post-translazionale Nt-acetilazione in lievito è stato riportato26. Abbiamo identificato 4.088 proteine acetilate N-termini a > posizione 2 (Fig. 4A). Di questi, circa il 50% hanno terminali specifici trypsin o GluC. Abbiamo controllato l’acilazione nel corso dell’esperimento, quindi non sappiamo la causa esatta di questo fenomeno. Una possibile spiegazione è l’errata annotazione tra l’acetilazione N-terminale e l’ε-acetilazione della lisina interna, poiché abbiamo forzatamente impostato l’acilazione a tutte le ε-amine dei residui di lisina durante la ricerca del database. Tranne che per gli N-termini con siti specifici dell’enzima, il glutammato è stato osservato principalmente in posizione P1` (Fig. supplementare S5). C’è un rapporto che acetilato maturo actine harboring Asp- o Glu- su N-termini sono prodotti da post-translational modificatio45. Anche se il nostro risultato è visto come influenzato da ogni enzima in posizione P1, è ancora possibile che l’acetilazione è stata regolata da modifica post-translazionale. Per valutare ulteriormente i nostri dati N-terminome elaborati sconosciuti, abbiamo sfruttato le informazioni da un insieme di dati pubblicati29 e dal database TopFIND (http://clipserve.clip.ubc.ca/topfind/). Nel caso della Nt-acetilazione a dbTIS, la maggior parte degli N-termini delle proteine, indipendentemente dal tipo di campioni e dai metodi sperimentali, sono stati identificati nel proteoma umano. Più del 50% dei dbTIS identificati si sono sovrapposti tra due serie di dati (Fig. S6a supplementare). In contrasto con questa proteina N-termini in posizione 1 o 2, c’era una disparità significativa tra i dati di proteine N-termini in posizioni > 2. Nella carta utilizzando COFRADIC16, le informazioni di proteine acetilate N-termini alle posizioni >2 non era disponibile e non poteva essere confrontato, mentre un numero considerevole di proteine N-termini sono stati riportati da una carta utilizzando TAILS metodo25 (Supplementary Fig. S6a). Le proteine N-termini alle posizioni >2 nel proteoma della polpa dentaria17 sono state identificate in proporzioni simili nel nostro studio. Tuttavia, pochissime proteine N-termini in posizione >2 sono state comunemente trovate in entrambi gli studi (Fig. supplementare S6b). È interessante notare che l’analisi ontologica ha rivelato che la “grande subunità ribosomiale”, “melanosoma”, “cromosoma nucleare” e “parte mitocondriale” erano per lo più arricchiti in proteine N-termini di posizioni >2 (Fig. supplementare S7). Pertanto, deduciamo che l’Nt-acetilazione post-translazionale è più influenzata dal tipo o dallo stato del campione rispetto alla Nt-acetilazione co-translazionale.

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *