Deep-down enrichment of N-terminal peptides
W celu scharakteryzowania statusu białek w komórkach, przeprowadziliśmy „deep-down” wzbogacanie N-terminalnych peptydów (Nrich) w linii komórkowej HEK293T w oparciu o metodę selekcji negatywnej (Rys. 1, Metody). Nrich składał się z trzech głównych etapów eksperymentalnych: 1) pierwszym krokiem było rozróżnienie endogennych Nα -acetylowanych i endogennych wolnych N-końców. Dokonywano tego poprzez blokowanie α i ε pierwszorzędowych amin białek bezwodnikiem propionowym (PA) lub bezwodnikiem D6-octowym (D6). 2) Zablokowane aminami białka trawiono trypsyną lub GluC-endoproteazą przy użyciu metod FASP19 w celu usunięcia odczynnika blokującego N i wymiany buforu. 3) Nowo wytworzone peptydy wewnętrzne zawierające wolną α-aminę usuwano za pomocą żywicy agarozowej aktywowanej N-hydroksysukcynimidem (NHS). W rezultacie oczekiwano, że peptydy frakcji przepływowej w eksperymentach z trypsyną będą miały wzór trawienia podobny do ArgC z powodu propionylacji lub trideuteroacetylacji ε-aminy lizyny. Zgodnie z oczekiwaniami, nastąpiło wzbogacenie endogennych Nα -acetylowanych peptydów (Nt-acetylowane N-końce) i in vitro Nα-propionylowanych lub Nα-D3-acetylowanych peptydów (wolne N-końce). Przepływ z NHS-agarozy był rozdzielany przez frakcjonowanie w fazie odwróconej o wysokim pH przed LC-MS/MS. Dane widm masowych były przeszukiwane względem bazy danych UniProtKB przy użyciu MS-GF+ i Comet, a następnie walidowane przy użyciu perkolatora. Następnie, niezidentyfikowane widma z dwóch wyszukiwarek zostały ponownie przeanalizowane algorytmem MODi (Rys. 1). Wykorzystano wszystkie peptydy znalezione w jednej wyszukiwarce.
Skuteczność wzbogacania dla N-terminalnie zablokowanych peptydów zaobserwowano na poziomie 79% (±2) w PA-Trypsin, 70% (±2) w PA-GluC, 68% (±2) w D6-Trypsin i 57% (±7) w D6-GluC. Dopasowania widma peptydowego (PSMs) dla N-końcowych zablokowanych peptydów liczono średnio jako 74 456 w PA-Trypsin, 31 053 w PA-GluC, 86 115 w D6-Trypsin i 28 257 w D6-GluC przy współczynniku fałszywego odkrycia (FDR) ≤0,01 (Ryc. 2A). Liczba zidentyfikowanych N-końcówek zmieniała się w zależności od charakteru odczynników blokujących N i endoproteaz, chociaż była powtarzalna dla każdej konfiguracji eksperymentalnej. Zidentyfikowane N-końcówki składały się z Nt-acetylowanych i wolnych N-końcówek. Chociaż Nrich zawierał etap usuwania i inaktywacji PA lub D6 przed trawieniem endoproteaz, znaleźliśmy wewnętrzne peptydy zablokowane PA lub D6, posiadające specyficzne dla proteazy miejsca na obu końcach. Takie peptydy mogły zostać wygenerowane podczas trawienia przez śladowe ilości odczynników (przeniesione z poprzedniego etapu). Dlatego peptydy znakowane PA- lub D6 z miejscami specyficznymi dla proteazy zostały wykluczone z ostatecznej listy, z wyjątkiem peptydów znalezionych jednocześnie w obu eksperymentach trypsyny i GluC. Ostatecznie uzyskaliśmy 6 209 N-końców białek w PA-Trypsin, 3 496 w PA-GluC, 7 583 w D6-Trypsin i 2 481 w D6-GluC. We wszystkich eksperymentach zaobserwowaliśmy prawie równą ilość N-końców acetylowanych (44%) i wolnych (56%) (ryc. 2B). Nasza metoda może wzbogacać N-końcowe peptydy z podobną wydajnością, niezależnie od odczynników blokujących N-końce i endoproteaz. Obserwacja ta jest dość podobna do wyników uzyskanych przez TAILS17, 20. Warto zauważyć, że nasza kompleksowa analiza, wykorzystująca dwa odczynniki blokujące N i dwie endoproteazy, znacznie zwiększyła pokrycie N-terminomu. W sumie 13 095 N-końców białek zostało zidentyfikowanych jako suma w naszym badaniu. Spośród tych produktów, 62% zostało znalezionych wyłącznie za pomocą jednej metody (Rys. 2C). Wszystkie cztery różne metody zostały wykonane w biologicznych i technicznych potrojeniach, a wartości współczynników zmienności liczby N-końcówek mieściły się w granicach 20%. W porównaniu z najczęściej wykrywaną metodą, D6-Trypsyną, całkowita liczba wszystkich zidentyfikowanych N-końców białek wzrosła o 73%. Ogólnie, liczba wszystkich N-końcówek białek, wykrytych czterema metodami, wzrosła o około 60% w porównaniu z pojedynczym eksperymentem. Dodatkowo obliczono stopień acetylacji dla każdego z N-końców białek na podstawie liczby PSM (Rys. 2D). Większość N-końców białek została zidentyfikowana jako acetylowana lub wolna, a N-końce białek o częściowej acetylacji były rzadko znajdowane. Co więcej, korelacja stopnia acetylacji pomiędzy poszczególnymi metodami była znacząco wysoka (0,83~0,94, Rys. 2E). Wyniki te prowadzą nas do wniosku, że status N-końców białek w komórkach może być określany niezależnie od charakteru odczynników blokujących N-końce i endoproteaz. Jednakże, pokrycie N-terminomu może być znacząco zwiększone poprzez połączenie wyników z różnych metod wzbogacania.
Klasyfikacja N-terminomu
N-terminy zidentyfikowane przez Nrich pochodziły z dwóch różnych typów N-terminów białek, np, Nt-acetylowane i wolne N-końce (Nα-propionylowane lub Nα-D3-acetylowane). Zidentyfikowaliśmy 6 525 acetylowanych (lub częściowo acetylowanych) i 6 570 wolnych N-końców. Dane dotyczące N-terminomu mogą być klasyfikowane w oparciu o ich lokalizację, wraz z odpowiadającymi im sekwencjami białek zdeponowanymi w bazie danych białek16, 17, 20, 21. W oparciu o poprzednie badania, najpierw podzieliliśmy 13 095 N-końcówek 5 727 białek na 2 992 anotowane (23%) i 10 103 nieanotowane (77%) N-końcówki białek (Rys. 3A). N-końcówki opatrzone adnotacjami zawierały miejsca inicjacji translacji (dbTIS) oznaczone przez UniProtKB oraz N-końcówki białek w miejscach po usunięciu peptydów sygnałowych lub tranzytowych w procesach potranslacyjnych (Tabela Dodatkowa S1). N-końcówki dbTIS można było dalej podzielić na N-końcówki białek rozpoczynające się od inicjatora Met (iMet retained) i N-końcówki białek rozpoczynające się od drugiej reszty bez inicjatora Met wytworzonej w wyniku modyfikacji potranslacyjnej (iMet removed) lub należące do „kategorii reszt niekońcowych”, tj. dla tych sekwencji białkowych w bazie danych UniProtKB, które nie rozpoczynają się od metioniny. Dziewięćdziesiąt pięć procent dbTIS pochodziło z kanonicznych sekwencji białkowych, a 5% z izoform białkowych. Generalnie, izoformy białek powstają w wyniku alternatywnego splicingu lub alternatywnej inicjacji translacji. Ciekawym przykładem jest identyfikacja acetylowanego N-końcowego peptydu GSR (reduktaza glutationu, P00390-2). Izoforma ta pozbawiona jest pierwszych 43 reszt swojej kanonicznej sekwencji. Zgodnie z anotacją UniProt, lokalizacja subkomórkowa tej izoformy (cytoplazma) jest inna niż jej formy kanonicznej (mitochondria). N-końcówki białek kategorii dbTIS zostały porównane za pomocą algorytmu 'Terminus’22. W rezultacie okazało się, że stan 74% N-końcówek białek jest taki sam jak przewidywany przez Terminus (Supplementary Table S1).
Nieanotowane N-końcówki białek stanowiły większość naszych danych dotyczących N-terminomu. Ich pozycje wzdłuż odpowiadających im sekwencji białkowych były większe niż dwa (Tabela uzupełniająca S2). Jednakże, peptydy sygnałowe lub inne propeptydy usuwane podczas dojrzewania białka nie są znane (Rys. 3B). Istnieją pewne wskazówki, że takie nieanotowane N-końce mogą być interpretowane jako sugerujące możliwość istnienia aTIS lub miejsc rozszczepienia zdarzeń proteolitycznych. Na przykład, możemy uznać 495 nieopisanych N-końców za aTIS, ponieważ te N-końce były obserwowane albo zaczynając od lub bezpośrednio po wewnętrznej metioninie i 45% z nich było acetylowanych. Ponadto, 412 N-końcówek zostało zmapowanych do proteoform znalezionych w takich bazach danych jak Degrabase23, TopFIND database24, 25 i Proteoform Repository (http://repository.topdownproteomics.org/). Chociaż wymaga to dalszych badań, nasza interpretacja jest dość prawdopodobna, ponieważ nasze dane wykazują wiele podobieństw z innymi wcześniejszymi badaniami16, 17, 20, 23, 26,27,28.
Właściwości anotowanych N-końców białek
Ponadto przeanalizowaliśmy status N-końców białek poprzez policzenie liczby PSM i obliczenie częstotliwości aminokwasowych reszt końcowych (Rys. 4). Zbiór danych dbTIS, z wyjątkiem „kategorii reszt niekońcowych” (2,730 N-końcówek), wykazał, że preferencje aminokwasowe były różne pomiędzy acetylowanymi i wolnymi N-końcówkami białek, a także pomiędzy usuniętym i zachowanym iMet. Stopień acetylacji okazał się podobny pomiędzy usuniętym i zachowanym iMet (Rys. 4A). Stwierdziliśmy wysoką przewagę alaniny i seryny w pozycji P1′ N-końców bez acetylowanego iMet, podczas gdy preferowanymi aminokwasami dla wolnych N-końców białek były odpowiednio prolina, alanina, walina i glicyna. W przypadku N-końców z iMetem, za acetylowanym iMetem najczęściej występowały duże reszty polarne (glutaminian, asparaginian). Ponadto, lizyna była główną resztą, która podążała za wolnym iMetem (Rys. 4B). Kilka badań wcześniej badało Nt-acetylację w ludzkiej linii komórkowej29, skórze myszy30 i ludzkich płytkach krwi27. Preferencje aminokwasowe naszych dbTIS acetylowanych N-końców białek są zgodne z tymi badaniami. Warto zauważyć, że prolina, walina i glicyna w N-końcach były rzadko acetylowane, co również zaobserwowano w oddzielnych badaniach Drosophila melanogaster31. Według tych badań, prolina siedząca na N-końcu lub w drugiej pozycji zapobiega reakcji acetylacji przez Nα-końcowe acetylotransferazy (NATs).
Nt-acetylacja generalnie zachodzi ko-translacyjnie przez NAT z acetylo-koenzymem A podczas syntezy białka. U ludzi dochodzi do ekspresji różnych NAT, takich jak hNatA, hNatB, hNatC, hNatD, hNatE i hNatF5, 32, 33. Te NAT różnią się specyficznością substratową, a każda NAT acetyluje jedną lub więcej N-końcowych sekwencji aminokwasowych. W szczególności, NatA acetyluje N-końcowe sekwencje po usunięciu iMet przez aminopeptydazę metioninową. Acetyluje również Asp- i Glu- N-końce dojrzałych aktyn w sposób posttranslacyjny. Tabela 1 przedstawia liczbę N-końcówek dla każdego NAT. Spośród 2172 acetylowanych N-końców białek, 986 zostało zmapowanych jako substraty NATs, a 67% zmapowanych N-końców było przewidywanych jako substraty NatA. Substraty NAT zostały zidentyfikowane jako formy acetylowane i wolne. W związku z tym określiliśmy względny poziom acetylacji Nt na podstawie liczby PSM każdego substratu. Względny poziom Nt-acetylacji dla substratów NatA wynosił średnio 76,7%. Dla NatB wynosił on 92,8%, dla NatD 72,2%, a dla NatC/E/F 45,3%. Uzyskane wyniki wskazują, że większość substratów NAT była obecna w stanie acetylacji. Jednakże wydajność acetylacji była różna pomiędzy NAT, a nawet pomiędzy substratami poszczególnych NAT. Gly i Val wśród substratów NatA oraz ML, MW, MK i MA wśród substratów NatC/E/F były wykrywane jako mniej acetylowane niż inne substraty. Co ciekawe, N-końce białek rozpoczynające się od Gly i Val były w większości wolne w porównaniu z innymi substratami NatA. Ponadto, inne prace opublikowane wcześniej wykazały podobne wyniki31, 34, 35. Chociaż wiedza na temat wydajności NatA na każdym z substratów wydaje się być niewielka, jasne jest, że wydajność acetylacji na Gly i Val jest znacznie niższa niż acetylacji na innych substratach NatA.
Następnie poszukiwaliśmy miejsc rozszczepienia peptydów sygnałowych/tranzytowych i propeptydów. Większość N-końcówek odsłoniętych przez usunięcie peptydu sygnałowego/przejściowego lub propeptydu zaobserwowano w stanie nieacetylowanym. Zwizualizowano wzorce w sekwencjach peptydowych poprzez wygenerowanie IceLogo36 dla 30 reszt pomiędzy P15 i P15′. Wyniki wskazują na najsilniejsze wzbogacenie dla reszt argininowych w pozycjach P3 i P2 peptydu tranzytowego oraz reszt leucynowych w pozycjach P15-P6 peptydu sygnałowego (Rys. 4C), co prawdopodobnie zaobserwowano w poprzednich badaniach23.
Identyfikacja alternatywnych miejsc inicjacji translacji
W eukariotach inicjacja translacji rybosomalnej może zachodzić alternatywnie w kierunku upstream od anotowanej sekwencji kodującej lub downstream od kodonów ATG in-frame37, 38. Profilowanie rybosomów jest użytecznym narzędziem, które opiera się na sekwencjonowaniu potencjalnych miejsc startu translacji mRNA39, 40. W celu odkrycia putative aTIS na poziomie białka, przeanalizowaliśmy nasze dane MS używając nie tylko bazy danych UniProtKB, ale także dostosowanej bazy danych zawierającej in-silico-translated 5′-UTRs. Szczególnie w przypadku translacji 5′-UTR, byliśmy zainteresowani znalezieniem proteomicznych wskazówek dotyczących możliwej ekspresji genów z pseudo-kodonów startowych. Przede wszystkim, 495 nieanotowanych N-końców białek zostało uznanych za putative aTIS downstream od kanonicznego miejsca startu. Wśród nich znalazły się N-końce białek rozpoczynające się od wewnętrznej metioniny, niezależnie od tego, czy są acetylowane (223), czy wolne (272) i niezależnie od tego, czy metionina została zachowana (234), czy usunięta (261). Użyliśmy iceLogo do porównania częstotliwości aminokwasów po iMet w dbTIS i w putative aTIS, używając wszystkich sekwencji aminokwasów po jakiejkolwiek Met w ludzkiej bazie danych Swiss-Prot do ustalenia częstotliwości aminokwasów tła. Oba logotypy wykazywały wysokie preferencje dla alaniny i seryny w pozycji bezpośrednio po iMet, a następnie preferencje głównie dla alaniny (Rys. 5A). W kategorii putative aTIS, te dwa aminokwasy zostały zidentyfikowane z łączną częstością 32% w pierwszej pozycji po iMet (Supplementary Fig. S2). Nukleotydowe sekwencje konsensusowe otaczające kodon ATG dbTIS i putative aTIS wykazywały podobny wzór sekwencji Kozaka41,42,43 (Rys. 5B). Z drugiej strony, 77 z 495 putatywnych aTIS zostało zmapowanych do najwyższego iMet transkryptów o alternatywnym splicingu w bazie danych alternatywnego splicingu ECgene (Supplementary Table S3)44, co sugeruje, że te putatywne aTIS mogą nie być prawdziwymi aTIS, ale działać jako kanoniczne TIS w przypadku zdarzenia alternatywnego splicingu generującego krótsze transkrypty. Biorąc pod uwagę te interpretacje, wydaje się, że N-końce białek w naszej kategorii putative aTIS pochodzą z alternatywnej inicjacji translacji lub z translacji po alternatywnym splicingu.
Podczas gdy aTIS w downstreamie dbTIS może być zidentyfikowany przy użyciu bazy danych UniProtKB, te zdarzenia rozpoczynające się w upstreamie dbTIS nie mogą być odkryte przy użyciu obecnych baz danych białek referencyjnych. Dlatego skonstruowaliśmy nową bazę danych sekwencji białek, 'NtermDB' (szczegóły w Metodach), która zawierała in-silico-translated sekwencje 5′-UTRs znanych regionów sekwencji kodującej (CDS) od miejsca kodonu startu (ATG) lub jego jednonukleotydowych wariantów, pseudo-kodonów startu (CTG, TTG, GTG, AGG, ACG, AAG, ATC, ATA i ATT) (Rys. 5C). Te putatywne aTIS zostały zmapowane do 67% wszystkich transkryptów w bazie danych Ensembl (http://www.ensembl.org/index.html). Miejsca te były równomiernie rozmieszczone w 23 chromosomach, z wyjątkiem chromosomu Y. Widma MS/MS niedopasowane w pierwszym wyszukiwaniu w bazie UniProtKB były następnie przeszukiwane w NtermDB. W rezultacie zidentyfikowaliśmy 261 nowych N-końcówek białek (z 394 transkryptów). Spośród tych transkryptów, pięć transkryptów okazało się identycznych z tymi z danych Ribo-seq Lee, S. i wsp.40. Wszystkie one były transkrybowane w 5′-UTR przy użyciu pseudo kodonów startowych (Tabela S4). N-końcówki białek znaleziono na wszystkich chromosomach, z wyjątkiem chromosomu Y i chromosomu 21. Ponadto, N-końcówki białek były najczęściej rozmieszczone na chromosomie 1 (Supplementary Fig. S3a). Spośród 261 nowych N-końców białek, 46 zidentyfikowano w 5′-UTR z acetylowanym lub wolnym pseudo-kodonem startowym (Fig. 5D; Supplementary Fig. S3b; Supplementary Table S4). Pozostałe 214 N-końców białek znaleziono z innymi (pseudo) kodonami startu, a dokładniej N-końce były związane z czterema kodonami tj. GCT, GCA, GCC i GCG, które kodują alaninę (46 terminów; Rys. 5E, Supplementary Fig. S3c, Supplementary Table S4). Większość takich N-końcówek białek rozpoczynających się od alaniny zidentyfikowano jako acetylowane i tylko z jednym wyjątkiem nie było w nich interweniującego kodonu stop aż do początku CDS. Spośród 46 N-terminów rozpoczynających się od alaniny, 72% zidentyfikowano z peptydami pokrywającymi się z kanonicznym regionem CDS. Dlatego jesteśmy pewni, że zidentyfikowaliśmy nowe N-końce. Ponadto, 39% miało pseudo kodon startowy przed alaniną. W większości przypadków, jak w obecnym badaniu i innych poprzednich, kiedy po iMet następuje alanina, iMet jest rozszczepiany, a następnie nowo odsłonięta alanina jest acetylowana. Z tego powodu jest wysoce prawdopodobne, że N-końce białek, które mają alaninę na pierwszej reszcie i pseudo kodon startu na reszcie poprzedzającej, są alternatywnymi miejscami inicjacji translacji w 5′-UTR.
Nieznane miejsca przetwarzania
Z 10,103 N-końców białek, tylko 5% jest przewidywanych jako putative aTIS, a pozostałe 95% pochodzi z dotychczas nieznanego przetwarzania. Bardzo zależało nam na znalezieniu sposobu rozróżnienia pomiędzy wolnymi N-końcami w komórkach a wewnętrznymi miejscami odsłoniętymi podczas przetwarzania próbek, aby przypisać cechy nieanotowanym N-końcom. Chemiczne znakowanie grup aminowych na poziomie białka jest wymagane do rozróżnienia nie tylko pomiędzy endogennymi Nt-acetylowanymi N-końcami a endogennymi wolnymi N-końcami, ale także pomiędzy N-końcowym peptydem a wewnętrznymi peptydami białka. Jednakże, jeśli inaktywacja odczynnika blokującego N nie jest całkowita, możliwe jest, że α-amina wewnętrznego peptydu na resztach N-końcowych jest znakowana przez śladowy odczynnik blokujący N pozostały po lub podczas trawienia i te wewnętrzne peptydy mogą być fałszywie zidentyfikowane jako N-końcowe białka. Dlatego podczas eksperymentu wykonaliśmy etap inaktywacji etykiety chemicznej hydroksyloaminą, a następnie trawienie FASP, a po przeszukaniu bazy danych MS wybraliśmy N-końcówki białek bez miejsca specyficznego dla proteazy na N-końcowym końcu zidentyfikowanego peptydu. Hydroksyloamina ma również korzystny wpływ na odwrócenie niepożądanej O-acylacji, która może nastąpić podczas reakcji znakowania13. Co ciekawe, prawie połowa z otrzymanych N-końców białek o nieznanej kategorii przetwarzania (43%) została zidentyfikowana jako formy acetylowane. Większość niezanotowanych N-końców białek została zidentyfikowana również u eukariotów, niezależnie od tego, czy badacze stosowali metody wzbogacania negatywnego17, 20 czy pozytywnego23. Jeśli porównamy nasz zestaw danych z bazą wygenerowaną przez Crawforda i wsp. („Degrabase”), skupiającą się na wolnych N-końcach białek w pozycjach 3-65, zaobserwujemy duże podobieństwo wzorców częstotliwości aminokwasów (Supplementary Fig. S4). Wydaje nam się więc prawdopodobne, że wolne N-końce białek są nowo odsłoniętymi miejscami N-końcowymi, uzyskanymi po usunięciu putatywnych sygnałów lub peptydów tranzytowych (zgodnie z interpretacją Crawforda i in.). Zdarzenia związane z ragowaniem aminopeptydaz mogą zmieniać pierwotnie powstałe produkty rozszczepienia. Kiedy porównaliśmy N-końce białek w pozycjach >65 do tych w pozycjach 3-65, dane wykazały podobny rozkład aminokwasów w pozycjach P1 i P1′ (Rys. 6A), z przewagą argininy w pozycji P1. Na podstawie uzyskanych wyników podejrzewamy, że za rozszczepienie peptydu sygnałowego/przejściowego i degradację białek odpowiedzialna jest głównie trypsyna.
W naszym badaniu scharakteryzowano N-końcówki białek dla łącznie 5 727 białek. Spośród nich, 2 591 białek zachowało nienaruszoną sekwencję N-końcową (dbTIS), podczas gdy 3 968 białek znaleziono w okrojonych formach bez znanej sekwencji sygnałowej/przejściowej lub propeptydowej. Takie okrojone białka były również raportowane głównie metodą TAILS. Warto zauważyć, że 83% z 5337 białek w tych dwóch kategoriach znaleziono albo z nienaruszoną (28%, kategoria „1”), albo z obciętą (53%, kategoria „0”) sekwencją, ale nie z obiema cechami (Rys. 6B). Sugeruje to, że degradacja białka nie jest główną przyczyną truncacji. Wydaje się raczej, że takie obcięcie ma wpływ na funkcjonalną różnorodność w ludzkim proteomie, a znaczna ilość N-końcówek białek w kategorii nieznanego przetwarzania może reprezentować dojrzałe formy fizjologiczne w komórkach HEK293T.
Obserwowaliśmy również częstotliwość występowania N-końcowych reszt pomiędzy acetylowanymi i wolnymi N-końcówkami białek (Rys. 6C). Stwierdzono preferencję dla glutaminianu i asparaginianu w acetylowanych N-końcach białek oraz seryny i proliny w wolnych N-końcach białek. Degradacja białek w komórkach eukariotycznych odbywa się głównie przez system ubikwityna/proteasom i regulowana jest przez regułę N-końca. Ostatnio Lange i wsp. zaproponowali zmodyfikowaną regułę N-końca w oparciu o obserwowaną częstotliwość aminokwasów i status Nt-acetylacji wewnętrznych N-końców białek w ludzkich erytrocytach20. Glutaminian i asparaginian zostały sklasyfikowane jako „stabilizowane acetylacją” lub „wolne niedestabilizujące”, podczas gdy seryna została sklasyfikowana jako „destabilizowana acetylacją”. Dwie reszty kwasowe są zdefiniowane jako reszty drugorzędowe według reguły Arg/N-end. Tak więc, acetylacja na N-końcu glutaminianu i asparaginianu hamowałaby destabilizację arginylacji, co z kolei zwiększałoby stabilność białek. W przeciwieństwie do tego, prolina była obserwowana jako wolna na N-końcach, odzwierciedlając dobrze znany fakt, że prolina strukturalnie zakłóca acetylację i tworzy wolny N-końcowy. Tak więc, te różne sekwencje aminokwasów obserwowane w N-końcach białek o nieznanej kategorii przetwarzania wydają się być pochodną stabilności białek przez stan Nt-acetylacji.
N-końcowa acetylacja zachodzi współtranslacyjnie przez NATs, jednakże, podczas gdy dokładny mechanizm post-translacyjnej Nt-acetylacji nie jest jeszcze znany, cecha post-translacyjnej Nt-acetylacji w drożdżach została zgłoszona26. Zidentyfikowaliśmy 4088 acetylowanych N-końców białek w pozycji >2 (Rys. 4A). Spośród nich, około 50% ma terminale specyficzne dla trypsyny lub GluC. Kontrolowaliśmy acylację w trakcie eksperymentu, więc nie znamy dokładnej przyczyny tego zjawiska. Jednym z możliwych wyjaśnień jest błędna adnotacja między acetylacją N-końca a ε-acetylacją wewnętrznej lizyny, ponieważ podczas przeszukiwania bazy danych siłą rzeczy ustawiliśmy acylację przy wszystkich ε-aminach reszt lizyny. Z wyjątkiem N-końców z miejscami specyficznymi dla enzymów, glutaminian obserwowano głównie w pozycji P1` (Supplementary Fig. S5). Istnieją doniesienia, że acetylowane dojrzałe aktyny zawierające Asp- lub Glu- na N-końcach powstają w wyniku modyfikacji posttranslacyjnej45. Chociaż nasz wynik jest postrzegany jako zaburzony przez każdy enzym w pozycji P1, nadal jest możliwe, że acetylacja była regulowana przez modyfikację posttranslacyjną. W celu dalszej oceny naszych nieznanych, przetworzonych danych N-terminomu, wykorzystaliśmy informacje z zestawu opublikowanych danych29 oraz z bazy danych TopFIND (http://clipserve.clip.ubc.ca/topfind/). W przypadku Nt-acetylacji w dbTIS, większość N-końcówek białek, niezależnie od rodzaju próbek i metod eksperymentalnych, została zidentyfikowana w ludzkim proteomie. Ponad 50% zidentyfikowanych dbTIS pokrywało się pomiędzy dowolnymi dwoma zestawami danych (Supplementary Fig. S6a). W przeciwieństwie do tego N-końca białek w pozycji 1 lub 2, istniała znaczna rozbieżność pomiędzy danymi dotyczącymi N-końców białek w pozycjach >2. W pracy wykorzystującej COFRADIC16 informacje o acetylowanych N-końcach białek w pozycjach >2 nie były dostępne i nie mogły być porównane, natomiast znaczną liczbę N-końców białek podała praca wykorzystująca metodę TAILS25 (Supplementary Fig. S6a). N-końcówki białek na pozycjach >2 w proteomie miazgi zębowej17 zostały zidentyfikowane w podobnych proporcjach w naszym badaniu. Jednakże, bardzo niewiele N-końcówek białek w pozycji >2 było powszechnie znalezionych w obu badaniach (Supplementary Fig. S6b). Co ciekawe, analiza ontologiczna ujawniła, że „duża podjednostka rybosomalna”, „melanosom”, „chromosom jądrowy” i „część mitochondrialna” były w większości wzbogacone w N-końcówki białek o pozycji >2 (Supplementary Fig. S7). Dlatego wnioskujemy, że na potranslacyjną Nt-acetylację większy wpływ ma typ lub status próbki niż ko-translacyjna Nt-acetylacja.