Brede analyse van menselijke eiwitten N-termini maakt beoordeling van verschillende eiwitvormen

Diepe-down verrijking van N-terminale peptiden

Om de status van eiwitten in cellen te karakteriseren, voerden we “deep-down” N-terminale peptide verrijking (Nrich) in HEK293T cellijn op basis van een negatieve selectie methode (Fig. 1, Methods). Nrich bestond uit drie belangrijke experimentele stappen: 1) de eerste stap was om onderscheid te maken tussen endogene Nα -geacetyleerde en endogene vrije N-termini. Dit werd gedaan door α- en ε- primaire amines van eiwitten te blokkeren met propionzuuranhydride (PA) of D6-azijnzuuranhydride (D6). 2) Amine geblokkeerde eiwitten werden gedigesteerd met trypsine of GluC-endoprotease met behulp van FASP-methoden19 voor N-blokkerende reagens verwijderen en buffer uitwisseling. 3) Nieuw gegenereerde interne peptiden die vrije α-amine bevatten werden verwijderd met een N-hydroxysuccinimide (NHS)-geactiveerde agarosehars. Als gevolg hiervan werd verwacht dat de peptiden van de doorstroomfractie in trypsine-experimenten een ArgC-achtig verteringspatroon zouden hebben als gevolg van de propionylering of trideuteroacetylering van de ε-amine van lysine. Zoals verwacht was er een verrijking van endogene Nα-geacetyleerde peptiden (Nt-geacetyleerde N-termini) en in vitro Nα-gepropionyleerde of Nα-D3-geacetyleerde peptiden (vrije N-termini). De flow-through van NHS-agarose werd gescheiden door hoog-pH reversed-phase fractionering vóór LC-MS/MS. Massaspectrale gegevens werden met MS-GF+ en Comet vergeleken met de UniProtKB database, gevolgd door validatie met percolator. Vervolgens werden de ongeïdentificeerde spectra van twee zoekmachines opnieuw geanalyseerd met het MODi-algoritme (Fig. 1). We gebruikten alle peptiden die in een zoekmachine werden gevonden.

Figure 1
figure1

Outline van de Nrich-methode en het N-terminome ontdekkingssysteem. Eiwitten worden gelabeld met D6-azijnzuuranhydride of propionzuuranhydride om endogene N-terminale acetylering te onderscheiden van kunstmatige N-terminale acetylering/propionylering. Na filter Aided Sample Preparation (FASP) en digestie met trypsine of GluC-endoprotease worden de interne peptiden verwijderd met behulp van amine-reactieve NHS-korrels. De verrijkte N-terminale peptiden (rode cirkel) zijn verdeeld in 6 fracties door hoge pH reversed-phase fractionering. Vervolgens werden alle 6 fracties onderworpen aan LC-MS/MS-analyse. De tandem MS spectra zijn eerst doorzocht tegen UniProtKB database met MS-GF+ en Comet zoekmachines. Ongeïdentificeerde spectra worden vervolgens geselecteerd om te zoeken naar meer diverse modificaties met modificatiespecifieke zoekmachine MODi. Ongeïdentificeerde spectra na een UniProtKB database search gecombineerd met exploratie van de drie zoekmachines werden vervolgens in dezelfde zoekworkflow geplaatst na vervanging van de conventionele database door een aangepaste nieuwe database, NtermDB. Alle identificaties in de UniProtKB database werden “N-termini” genoemd, terwijl de nieuwe identificaties in de NtermDB “Novel N-termini” werden genoemd.”

De verrijkingsefficiëntie voor N-terminaal geblokkeerde peptiden werd vastgesteld op 79% (±2) in PA-Trypsine, 70% (±2) in PA-GluC, 68% (±2) in D6-Trypsine en 57% (±7) in D6-GluC. Peptide spectrum matches (PSMs) voor N-terminaal geblokkeerde peptiden werden gemiddeld geteld als 74.456 in PA-Trypsin, 31.053 in PA-GluC, 86.115 in D6-Trypsin en 28.257 in D6-GluC bij de false discovery rate (FDR) ≤0,01 (Fig. 2A). Het aantal geïdentificeerde N-termini varieerde afhankelijk van de aard van de N-blokkerende reagentia en endoproteasen, hoewel het reproduceerbaar was voor elke experimentele opstelling. De geïdentificeerde N-termini bestond uit Nt-geacetyleerde en vrije N-termini. Hoewel Nrich een stap voor verwijdering en inactivering van PA of D6 vóór endoprotease-digestie opgenomen, vonden we PA-of D6- geblokkeerde interne peptiden met protease-specifieke sites aan beide uiteinden. Dergelijke peptiden kunnen zijn gegenereerd tijdens de digestie door reagens sporen (overgebracht van een eerdere stap). Daarom PA-of D6-gelabelde peptiden met protease-specifieke sites werden uitgesloten van de uiteindelijke lijst, behalve voor de peptiden gelijktijdig gevonden in zowel trypsine en GluC experimenten. Tot slot verkregen we 6.209 eiwit N-termini in PA-Trypsine, 3.496 in PA-GluC, 7.583 in D6-Trypsine en 2.481 in D6-GluC. We zagen een bijna gelijke hoeveelheid Nt-geacetyleerde (44%) en vrije (56%) N-termini in alle experimenten (Fig. 2B). Onze methode kon N-terminale peptiden met vergelijkbare efficiëntie verrijken, ongeacht N-blokkerende reagentia of endoproteasen. Deze observatie is zeer vergelijkbaar met resultaten verkregen door TAILS17, 20. Met name onze uitgebreide analyse, met behulp van twee N-blokkering reagentia en twee endoproteasen, sterk verhoogde de dekking van het N-terminoom. Een totaal van 13.095 eiwit N-termini werden geïdentificeerd als een som in onze studie. Van deze producten, werden 62% gevonden uitsluitend door een enkele methode (Fig. 2C). Alle vier verschillende methoden werden uitgevoerd in biologische en technische triplicaten, en variatiecoëfficiënten waarden van de N-termini aantal waren binnen 20%. Vergeleken met de meest gedetecteerde methode, D6-Trypsine, nam het totale aantal van alle geïdentificeerde eiwit N-termini toe met 73%. In totaal nam het aantal van alle eiwit N-termini, gevonden door de vier methoden, toe met ongeveer 60% vergeleken met een enkel experiment. Bovendien berekenden we de mate van acetylatie voor elk van eiwit N-termini op basis van het aantal PSMs (Fig. 2D). De meeste van de eiwit N-termini werden geïdentificeerd als geacetyleerd of vrij, en eiwit N-termini van gedeeltelijke acetylatie werden zelden gevonden. Bovendien was de correlatie van de mate van acetylatie tussen elke verschillende methode significant hoog (0,83 ~ 0,94, Fig. 2E). Deze resultaten leiden ons tot de conclusie dat de in cellen status van eiwit N-termini kan worden bepaald, ongeacht de aard van N-blokkerende reagentia en endoproteasen. De dekking van N-terminome kan echter aanzienlijk worden verhoogd door het combineren van de resultaten van verschillende verrijkingsmethoden.

Figure 2
figure2

Eigenschappen van ontdekt N-terminome. (A) Aantal geïdentificeerde PSM’s voor elke reeks Nrich-experimenten. In alle gevallen heeft het met trypsine behandelde N-terminoom meer PSM’s dan het met GluC behandelde N-terminoom. In het geval van de N-blokkerende reagentia, propionzuuranhydride (PA) toonde een hogere efficiëntie met meer dan 10% in vergelijking met D6-azijnzuuranhydride (D6). Wat de PSM-tellingen betreft, hadden de met D6 behandelde monsters echter hogere waarden dan die van de met PA behandelde monsters. (B) Verhoudingen van PSM’s voor endogeen geacetyleerde N-termini (blauw) en endogeen vrije N-termini (oranje). Ongeveer 44% van de PSMs kwam overeen met geacetyleerde N-termini. (C) Venn diagram van ontdekte eiwit N-termini volgens verschillende experimentele opzet. (D) Acetylatie status van de ontdekte eiwit N-termini. De mate van acetylatie werd berekend op basis van het aantal PSMs. (E) Eiwit N-termini ontdekt vaak tussen elk paar van experimentele setups en de correlatie van de mate van acetylatie.

Classificatie van het N-terminome

De door Nrich geïdentificeerde N-termini zijn afkomstig van twee verschillende type eiwit N-termini, bijv, Nt-geacetyleerde en vrije N-termini (Nα-propionylated of Nα-D3-acetylated). Wij identificeerden 6.525 geacetyleerde (of gedeeltelijk geacetyleerde) en 6.570 vrije N-termini. De N-terminome gegevens kunnen worden ingedeeld op basis van hun locatie, samen met de bijbehorende eiwit sequenties gedeponeerd in de eiwit-database16, 17, 20, 21. Gebaseerd op eerdere studies, verdeelden we eerst de 13.095 N-termini van 5.727 eiwitten in 2.992 geannoteerde (23%) en 10.103 niet-geannoteerde (77%) eiwit N-termini (Fig. 3A). De geannoteerde N-termini omvatten UniProtKB-geannoteerde translatie initiatie plaatsen (dbTIS) en eiwit N-termini op plaatsen na signaal of transit peptide verwijdering door post-translationele processen (Supplementary Table S1). De dbTIS konden verder worden onderverdeeld in eiwit N-termini, beginnend met initiërend Met (iMet behouden) en eiwit N-termini beginnend bij het tweede residu zonder een initiërend Met gegenereerd door co-translationele modificatie (iMet verwijderd), of diegenen die behoren tot de ‘niet-terminale residu categorie’, d.w.z. voor die eiwitsequenties in de UniProtKB database die niet beginnen met methionine. Vijfennegentig procent van de dbTIS is afkomstig van canonieke eiwitsequenties en 5% van isovorm-eiwitten. Over het algemeen worden eiwit-isovormen geproduceerd door alternatieve splicing of alternatieve translatie-initiatie. Een interessant voorbeeld is de identificatie van het geacetyleerde N-terminale peptide van GSR (Glutathione reductase, P00390-2). De isovorm mist de eerste 43 residuen van zijn canonieke sequentie. Volgens de UniProt-annotatie verschilt de subcellulaire locatie van de isovorm (cytoplasma) van die van zijn canonieke vorm (mitochondria). Eiwit N-termini van dbTIS categorie werden vergeleken met het ‘Terminus’ algorisme22. Het resultaat was dat de toestand van 74% van de N-termini van eiwitten gelijk bleek te zijn aan die welke door de Terminus werd voorspeld (aanvullende tabel S1).

Figuur 3
figure3

Classificatie van ontdekte N-termini en hun posities langs de eiwitsequenties. (A) Indeling van eiwit-N-termini. dbTIS: door UniProtKB geannoteerde translatie-initiatieplaats; niet-terminaal residu: eiwit-N-termini die beginnen met het eerste, maar niet methionine residu in de UniProtKB database; propeptide/signaal/transit: eiwit-N-termini die ontstaan na verwijdering van pro-, signaal-, of transit-peptide; putatieve aTIS: putatieve alternatieve translatie-initiatieplaats. (B) Een aantal eiwit-N-termini geïdentificeerd op basis van hun posities langs de eiwitsequenties.

De niet-geannoteerde eiwit-N-termini vormden de meerderheid van onze N-terminome-gegevens. Hun posities langs de corresponderende eiwitsequenties waren groter dan twee (supplementaire tabel S2). Echter, de signaal peptiden of andere propeptiden die verwijderd worden tijdens de eiwit rijping zijn niet bekend (Fig. 3B). Er zijn aanwijzingen dat dergelijke niet-geannoteerde N-termini geïnterpreteerd zouden kunnen worden als mogelijke aTISs of splitsingsplaatsen van proteolytische gebeurtenissen. We kunnen bijvoorbeeld 495 niet-geannoteerde N-termini als aTIS beschouwen omdat deze N-termini werden waargenomen beginnend met of onmiddellijk na intern methionine en 45% van deze geacetyleerd waren. Bovendien werden 412 N-termini in kaart gebracht met proteovormen die voorkomen in databases als Degrabase23, TopFIND database24, 25 en Proteoform Repository (http://repository.topdownproteomics.org/). Hoewel het nader onderzoek vereist, is onze interpretatie zeer plausibel, omdat onze gegevens veel overeenkomsten vertonen met andere eerdere onderzoeken16, 17, 20, 23, 26,27,28.

Features of annotated protein N-termini

We analyseerden verder de status van eiwit N-termini door het aantal PSMs te tellen en door de aminozuurfrequenties van de terminale residuen te berekenen (Fig. 4). De dbTIS dataset, met uitzondering van de ‘niet-terminale residu categorie’ (2.730 N-termini), liet zien dat de aminozuur voorkeur verschillend was tussen geacetyleerde en vrije eiwit N-termini, en ook tussen verwijderd en behouden iMet. De mate van acetylering bleek vergelijkbaar tussen verwijderde en behouden iMet (Fig. 4A). We vonden een hoge prevalentie van alanine en serine op de P1′-positie van N-termini zonder geacetyleerd iMet, terwijl de voorkeursaminozuren voor vrije eiwit N-termini respectievelijk proline, alanine, valine, en glycine waren. In het geval van N-termini met iMet, werd geacetyleerd iMet meestal gevolgd door grote polaire residuen (glutamaat, aspartaat). Bovendien was lysine het belangrijkste residu dat vrije iMet volgde (Fig. 4B). Verschillende studies hebben eerder Nt-acetylatie onderzocht in menselijke cellijn29, muizenhuid30, en menselijke bloedplaatjes27. De aminozuur voorkeur van onze dbTIS geacetyleerde eiwit N-termini is consistent met deze studies. Het is vermeldenswaard dat proline, valine en glycine in de N-termini zelden geacetyleerd werden, zoals ook werd waargenomen in afzonderlijke studies van Drosophila melanogaster31. Volgens de studie verhindert een proline op de N-terminus of op de tweede positie de acetyleringsreactie van Nα-terminale acetyltransferases (NATs).

Figure 4
figure4

Features of protein N-termini. (A) Verdeling van geacetyleerde N-termini en vrije N-termini volgens het type N-termini. De gegevens worden gepresenteerd in procenten, en de exacte aantallen eiwit-N-termini zijn aangegeven binnen de staven. (B) De aminozuurfrequentie bij het tweede residu van geacetyleerde of vrije eiwit-N-termini. Met “het tweede residu” wordt het residu naast het initiërende methionine bedoeld. (C) De aminozuurfrequentie in de flankerende regio van signaalpeptiden en transitpeptiden. De eiwitsequentie logo’s werden gegenereerd met behulp van het softwarepakket IceLogo met correctie voor natuurlijke aminozuur abundantie. De rode pijlen geven de waargenomen splitsingsplaatsen aan.

Nt-acetylering gebeurt over het algemeen co-translationeel door NATs met acetyl-co-enzym A tijdens de eiwitsynthese. Bij de mens komen verschillende NATs tot expressie, zoals hNatA, hNatB, hNatC, hNatD, hNatE en hNatF5, 32, 33. Deze NAT’s verschillen in substraatspecificiteit, en elke NAT acetyleert aan één of meer N-terminale aminozuurreeksen. NatA acetyleert met name N-termini nadat iMet is verwijderd door methionine-aminopeptidase. Het acetyleert ook Asp- en Glu-N-termini van rijpe actines post-translationeel. Tabel 1 toont de tellingen van N-termini voor elke NAT. Van de 2.172 geacetyleerde eiwit-N-termini werden er 1.986 in kaart gebracht als de substraten van NATs, en 67% van de in kaart gebrachte N-termini werden voorspeld als NatA-substraten. De substraten van NATs werden geïdentificeerd als geacetyleerde en vrije vormen. Zo bepaalden we het relatieve niveau van Nt-acetylatie op basis van het aantal PSMs van elk substraat. Het relatieve niveau van Nt-acetylering voor NatA substraten was gemiddeld 76,7%. Het was 92,8% voor NatB, 72,2% voor NatD en 45,3% voor NatC/E/F. De resultaten toonden aan dat de meeste NAT-substraten aanwezig waren in de staat van acetylatie. De acetylatie-efficiëntie was echter verschillend tussen NATs en zelfs tussen substraten van elke NAT. Gly en Val bij NatA substraten en ML, MW, MK en MA bij NatC/E/F substraten werden minder geacetyleerd gedetecteerd dan andere substraten. Interessant is dat N-termini van eiwitten die beginnen met Gly en Val meestal vrij werden waargenomen in vergelijking met andere substraten van NatA. Bovendien toonden andere eerder gepubliceerde papers gelijkaardige resultaten31, 34, 35. Hoewel er weinig kennis blijkt te zijn over de efficiëntie van NatA op elk van zijn substraten, is het duidelijk dat de acetylatie-efficiënties bij Gly en Val veel lager zijn dan de acetylatie bij andere substraten van NatA.

Tabel 1 Classificatie van dbTIS1-eiwit N-termini volgens het substraattype van N-α-terminale acetyltransferases bij de mens (NATs).

Naar aanleiding hiervan hebben we gekeken naar splitsingsplaatsen van signaal/transit-peptiden en propeptiden. De meeste N-termini die door verwijdering van het signaal/transit peptide of propeptide werden blootgelegd, bleken in een niet-geacetyleerde toestand te verkeren. Patronen in de peptidesequenties gevisualiseerd door het genereren van een iceLogo36 voor de 30 residuen tussen P15 en P15′. De resultaten tonen de sterkste verrijking voor arginine residuen op P3 en P2 posities van het transit peptide en leucine residuen op de P15-P6 positie van het signaal peptide (Fig. 4C), zoals waarschijnlijk waargenomen uit eerdere studies23.

Identificatie van alternatieve translatie initiatie sites

In eukaryoten, kan ribosomale translatie initiatie afwisselend plaatsvinden stroomopwaarts van de geannoteerde coderende sequentie of stroomafwaarts van in-frame ATG codons37, 38. Ribosoom profilering is een nuttig instrument dat is gebaseerd op sequencing potentiële vertaling startplaatsen van mRNA39, 40. Om putatieve aTIS op eiwitniveau te ontdekken, analyseerden we onze MS gegevens met behulp van niet alleen UniProtKB database, maar ook een aangepaste database met in-silico-getranslate 5′-UTRs. Vooral voor 5′-UTR translatie waren we geïnteresseerd in het vinden van proteomische aanwijzingen voor de mogelijke expressie van genen van pseudo start codons. Ten eerste, 495 van niet-geannoteerde eiwit N-termini werden afgeleid als putatieve aTIS stroomafwaarts van de canonieke start site. Deze omvatten N-termini van eiwitten die beginnen met intern methionine, ongeacht of ze geacetyleerd (223) of vrij (272) zijn en ongeacht of het methionine behouden (234) of verwijderd (261) is. We gebruikten iceLogo om de aminozuur frequenties na iMet bij dbTIS en bij putatieve aTIS te vergelijken, waarbij we alle aminozuur sequenties na een Met in de menselijke Swiss-Prot database gebruikten om achtergrond aminozuur frequenties vast te stellen. Beide logos vertoonden een hoge voorkeur voor alanine en serine op de positie onmiddellijk na iMet en daaropvolgende voorkeuren voor hoofdzakelijk alanine (Fig. 5A). In de putatieve aTIS categorie werden de twee aminozuren geïdentificeerd met een totale frequentie van 32% op de eerste positie na iMet (Supplementary Fig. S2). De nucleotide consensus sequenties die het ATG codon van dbTIS en putatief aTIS omgeven, vertoonden een vergelijkbaar patroon van Kozak sequenties41,42,43 (Fig. 5B). Anderzijds werden 77 van de 495 putatieve aTIS toegewezen aan de bovenste iMet van alternatieve splicing transcripten in de ECgene alternatieve splicing database (supplementaire tabel S3)44, wat impliceert dat deze putatieve aTIS misschien geen echte aTIS zijn, maar fungeren als canonieke TIS in het geval van een alternatieve splicing gebeurtenis die kortere transcripten genereert. Gezien deze interpretaties lijkt het erop dat de N-termini van eiwitten in onze putatieve aTIS-categorie hun oorsprong vinden in alternatieve translatie-initiatie of in translatie na alternatieve splicing.

Figure 5
figure5

Putatieve alternatieve translatie-initiatieplaatsen. (A) Diagrammen met ijslogo’s voor aminozuur-voorkomens tussen dbTIS en putatieve aTIS. De aminozuurfrequenties na een methionine (hetzij iMet of interne Met) in de menselijke Swiss-Prot database (release 2015. 1) werden bepaald voor gebruik als achtergrondcorrectie. De sequenties beginnen onmiddellijk na methionine. (B) Nucleotidesequenties in de flankerende regio van het initiërende methionineresidu. Het centrale ATG is het codon voor het initiërende methionine van dbTIS (links) en putatief aTIS (rechts). (C) Het ontwerp van NtermDB. Het is ontworpen om een zoektocht naar nieuwe eiwit N-termini binnen een upstream UTR regio mogelijk te maken. Oranje blokken vertegenwoordigen UTR regio’s, en groene blokken vertegenwoordigen coderende sequentie regio’s (CDS). Nieuwe eiwit N-terminus werd verondersteld te beginnen bij het startcodon (“ATG”) of een pseudo startcodon in hetzelfde frame als dat van de overeenkomende CDS. We kozen de verste stroomopwaartse (pseudo) startplaats en vertaalden in-silico het transcriptmodel. Zie methoden voor meer details. (D) Codon gebruik in de geïdentificeerde nieuwe N-termini. Nucleotide sequenties die overeenkomen met het eerste residu van de geïdentificeerde 5′-UTR peptiden worden gepresenteerd. (E) Aantal PSM’s voor geacetyleerde of vrije N-terminale 5′-UTR-peptiden die beginnen met niet-startcodons.

TIS die stroomafwaarts van dbTIS beginnen, kunnen met behulp van de UniProtKB-database worden geïdentificeerd, maar die gebeurtenissen die stroomopwaarts van dbTIS beginnen, kunnen niet met behulp van de huidige referentie-eiwitdatabases worden ontdekt. Daarom construeerden we een nieuwe eiwitsequentiedatabase, ‘NtermDB’ (gedetailleerd in Methoden), die in-silico-translated sequenties van 5′-UTRs van bekende coderende sequentie (CDS) regio’s bevatte vanaf de plaats van een startcodon (ATG) of zijn single-nucleotide varianten, pseudo startcodons (CTG, TTG, GTG, AGG, ACG, AAG, ATC, ATA en ATT) (Fig. 5C). Deze vermoedelijke aTISs werden in kaart gebracht op 67% van de totale transcripten in de Ensembl database (http://www.ensembl.org/index.html). De sites waren gelijkmatig verdeeld over 23 chromosomen, met uitzondering van chromosoom Y. MS/MS spectra die niet overeenkwamen in de eerste zoekactie met behulp van de UniProtKB database werden vervolgens doorzocht met behulp van de NtermDB. Het resultaat was dat we 261 nieuwe eiwit N-termini (van 394 transcripten) identificeerden. Van deze transcripten bleken er vijf identiek te zijn aan die van Ribo-seq gegevens van Lee, S. et al.40. Al deze werden getranscribeerd aan de 5′-UTR met behulp van de pseudo startcodons (Supplementary Table S4). De eiwit N-termini werden gevonden op alle chromosomen, met uitzondering van het Y-chromosoom en chromosoom 21. Bovendien waren de eiwit N-termini het meest verspreid op chromosoom 1 (supplementaire Fig. S3a). Van de 261 nieuwe eiwit N-termini, werd 46 geïdentificeerd in de 5′-UTR met een geacetyleerd of vrij pseudo startcodon (Fig. 5D; Aanvullende Fig. S3b; Aanvullende Tabel S4). De overige 214 eiwit N-termini werden gevonden met een ander (pseudo) startcodon, meer precies, de N-termini bleken geassocieerd te zijn met vier codons, te weten, GCT, GCA, GCC en GCG, die alanine coderen (46 termini; Fig. 5E, Supplementary Fig. S3c, Supplementary Table S4). De meeste van deze eiwit N-termini beginnend met alanine werden geïdentificeerd als geacetyleerd en met slechts één uitzondering was er geen tussenliggend stopcodon tot het begin van CDS. Van de 46 N-termini die met alanine beginnen, werd 72% geïdentificeerd met peptiden die de canonieke CDS-regio overlappen. Daarom zijn we ervan overtuigd dat we nieuwe N-termini hebben geïdentificeerd. Bovendien had 39% een pseudo startcodon voorafgaand aan alanine. In de meeste gevallen, zoals in de huidige studie en andere eerdere onderzoeken, wanneer iMet gevolgd wordt door alanine, wordt iMet gesplitst en vervolgens wordt het nieuw blootgelegde alanine geacetyleerd. Daarom is het zeer waarschijnlijk dat de eiwit N-termini die een alanine aan het eerste residu hebben en een pseudo startcodon aan het voorafgaande residu, alternatieve translatie-initiatieplaatsen zijn in 5′-UTR.

Onbekende verwerkingsplaatsen

Van de 10.103 eiwit N-termini, is slechts 5% voorspeld als putatieve aTIS, en de resterende 95% is afkomstig van tot nu toe onbekende verwerking. We waren erg bezorgd over het vinden van een manier om onderscheid te maken tussen vrije N-termini in cellen en interne sites blootgesteld tijdens de verwerking van monsters, om kenmerken toe te schrijven aan de niet-geannoteerde N-termini. Chemische labeling van aminegroepen op eiwitniveau is nodig om niet alleen onderscheid te maken tussen endogene Nt-geacetyleerde N-termini en endogene vrije N-termini, maar ook tussen het N-terminale peptide en interne peptiden van het eiwit. Echter, als de inactivering van de N-blokkering reagens niet volledig is, is het mogelijk dat de α-amine van de interne peptide op N-terminale residu wordt gelabeld door sporen N-blokkering reagens resterende na of tijdens de spijsvertering en deze interne peptiden kunnen ten onrechte worden geïdentificeerd als eiwit N-termini. Daarom, tijdens het experiment, voerden we een inactiveringsstap van het chemische label met hydroxylamine, gevolgd door FASP spijsvertering, en na MS-database zoeken, we uitgezocht eiwit N-termini zonder een protease-specifieke site aan de N-terminale einde van de geïdentificeerde peptide. Hydroxylamine heeft ook een gunstig effect op ongewenste O-acylering die kunnen gebeuren tijdens de etikettering reactie 13 om te keren. Interessant is dat bijna de helft van de resulterende eiwit N-termini van onbekende verwerking categorie (43%) werden geïdentificeerd als geacetyleerde vormen. De meeste niet-geannoteerde eiwit N-termini werden ook geïdentificeerd in eukaryoten, ongeacht of onderzoekers negatieve17, 20 of positieve23 verrijkingsmethoden gebruikten. Als we onze dataset vergeleken met de database gegenereerd door Crawford et al. (‘Degrabase’), gericht op vrije eiwit N-termini op posities 3-65, zagen we een grote overeenkomst in de patronen van aminozuur frequenties (Supplementary Fig. S4). Het lijkt ons dus waarschijnlijk dat de vrije N-termini van eiwitten nieuw blootgestelde N-terminale plaatsen zijn, verkregen na verwijdering van vermoedelijke signalen of transit-peptiden (volgens de interpretatie van Crawford et al.). Aminopeptidase ragging gebeurtenissen zouden oorspronkelijk gegenereerde splitsingsproducten kunnen veranderen. Toen we de N-termini van proteïnen op posities >65 vergeleken met die op posities 3-65, toonden de gegevens een vergelijkbare aminozuurverdeling op de P1 en P1′ posities (Fig. 6A), met overheersing van arginine op P1. Uit de resultaten vermoeden wij dat splitsing van signaal/transit peptide en afbraak van eiwitten voornamelijk veroorzaakt wordt door trypsine-achtige.

Figuur 6
figure6

Karakterisering van eiwit-N-termini uit de categorie van onbekende verwerking. (A) Aminozuurverdelingen op P1- en P1′-posities van eiwit-N-termini geïdentificeerd op residu 3-65 (blauw) en >65 (rood) langs de eiwitsequenties. (B) Een aantal eiwitten volgens het aandeel van dbTIS PSMs. ‘1’ voor x-as waarde betekent dat alle PSMs zijn gematcht met dbTIS, ‘0’ betekent dat het eiwit alleen werd geïdentificeerd met PSMs die overeenkomen met onbekende verwerking categorie, en de tussenliggende waarden betekenen dat het eiwit werd geïdentificeerd met beide type PSMs. (C) Verdeling van geacetyleerde en vrije N-termini van eiwitten die behoren tot onbekende verwerkingscategorie.

Eiwit N-termini voor een totaal van 5.727 eiwitten werden gekarakteriseerd in onze studie. Van hen behielden 2.591 eiwitten een intacte N-terminale sequentie (dbTIS), terwijl 3.968 eiwitten werden aangetroffen in afgekapte vorm zonder bekende signaal/transit of propeptide sequentie. Dergelijke afgeknotte proteïnen zijn ook voornamelijk met de TAILS-methode gerapporteerd. Opmerkelijk is dat 83% van de 5.537 eiwitten in de twee categorieën werden gevonden met ofwel intacte (28%, categorie ‘1’) ofwel afgeknotte (53%, categorie ‘0’) sequenties, maar niet met beide kenmerken (fig. 6B). Dit suggereert dat eiwitafbraak niet de belangrijkste oorzaak is van truncatie. Integendeel, dergelijke truncatie lijkt een invloed te hebben op de functionele diversiteit in het menselijk proteoom, en een aanzienlijke hoeveelheid eiwit N-termini in de onbekende verwerking categorie kan volwassen fysiologische vormen in HEK293T cel vertegenwoordigen.

We observeerden ook de frequentie van N-terminale residuen tussen geacetyleerde en vrije eiwit N-termini (Fig. 6C). Er was een voorkeur voor glutamaat en aspartaat in geacetyleerde eiwit N-termini en serine en proline in vrije eiwit N-termini. Eiwitafbraak in eukaryote cellen wordt voornamelijk uitgevoerd door het ubiquitine/proteasoom systeem en gereguleerd door de N-eind regel. Onlangs stelden Lange et al. een aangepaste N-eind regel voor gebaseerd op de waargenomen aminozuur frequentie en Nt-acetylatie status van interne eiwit N-termini in menselijke erytrocyten20. Glutamaat en aspartaat werden geclassificeerd als “acetylatie-gestabiliseerd” of “vrij niet-destabiliserend,” terwijl serine werd geclassificeerd als “acetylatie-gestabiliseerd”. De twee zure residuen worden gedefinieerd als secundaire residuen door de Arg/N-end regel. Zo zou acetylatie aan N-terminale glutamaat en aspartaat de destabilisatie van arginylatie afremmen, wat op zijn beurt de stabiliteit van eiwitten verhoogt. In tegenstelling hiermee werd proline vrij waargenomen aan de N-termini, wat het welbekende feit weerspiegelt dat proline structureel interfereert met acetylering en vrije N-terminus maakt. Dus, deze verschillende aminozuursequenties gezien in de eiwit N-termini van onbekende verwerkingscategorie lijken te worden afgeleid van eiwitstabiliteit door de Nt-geacetyleerde toestand.

N-terminale acetylering gebeurt co-translationeel door NATs, echter, terwijl het exacte mechanisme voor post-translationele Nt-acetylering nog onbekend is, is een kenmerk van post-translationele Nt-acetylering in gist gerapporteerd26. We identificeerden 4.088 geacetyleerde eiwit N-termini op >2 positie (Fig. 4A). Van deze, ongeveer 50% hebben trypsine of GluC specifieke terminals. We controleerden de acylering in de loop van het experiment, dus we weten niet wat de exacte oorzaak van dit fenomeen is. Een mogelijke verklaring is de misannotatie tussen de N-terminale acetylering en de ε-acetylering van interne lysine, aangezien we acylering op alle ε-amine van lysine residuen geforceerd hebben ingesteld tijdens het zoeken in de database. Behalve voor de N-termini met enzym-specifieke sites, werd glutamaat voornamelijk waargenomen in P1` positie (Supplementary Fig. S5). Er is een rapport dat geacetyleerde rijpe actines harboring Asp- of Glu- op N-termini worden geproduceerd door post-translationele modificatio45. Hoewel ons resultaat wordt gezien als beïnvloed door elk enzym in P1 positie, is het nog steeds mogelijk dat de acetylering werd gereguleerd door post-translationele modificatie. Om onze onbekende bewerkte N-terminome gegevens verder te evalueren, hebben we gebruik gemaakt van de informatie uit een reeks gepubliceerde gegevens29 en uit de TopFIND database (http://clipserve.clip.ubc.ca/topfind/). In het geval van Nt-acetylatie bij dbTIS werden de meeste N-termini van eiwitten, ongeacht het type monsters en experimentele methoden, geïdentificeerd in het humane proteoom. Meer dan 50% van de geïdentificeerde dbTIS overlapte tussen twee sets van gegevens (Supplementary Fig. S6a). In tegenstelling tot deze eiwit N-termini op positie 1 of 2, was er een aanzienlijke ongelijkheid tussen de gegevens van eiwit N-termini op posities >2. In het artikel dat COFRADIC16 gebruikte, was de informatie van geacetyleerde eiwit N-termini op posities >2 niet beschikbaar en kon niet worden vergeleken, terwijl een aanzienlijk aantal eiwit N-termini werden gerapporteerd door een artikel dat TAILS methode25 gebruikte (Supplementary Fig. S6a). De eiwit N-termini op posities >2 in de tandpulp proteoom17 werden geïdentificeerd in vergelijkbare proporties in onze studie. Echter, zeer weinig eiwit N-termini op positie >2 werden algemeen gevonden in beide studies (Supplementary Fig. S6b). Interessant is dat ontologie analyse onthulde dat de “grote ribosomale subeenheid,” “melanosoom,” “nucleair chromosoom” en “mitochondriaal deel” meestal verrijkt waren in eiwit N-termini van posities >2 (Supplementary Fig. S7). Daarom concluderen wij dat de post-translationele Nt-acetylatie meer beïnvloed wordt door het type of de status van het monster dan de co-translationele Nt-acetylatie.

Geef een reactie

Het e-mailadres wordt niet gepubliceerd. Vereiste velden zijn gemarkeerd met *