Análise exaustiva da proteína humana N-termini permite a avaliação de várias formas de proteínas

Enriquecimento profundo dos peptídeos N-terminais

A fim de caracterizar o estado das proteínas nas células, realizámos o enriquecimento “profundo” dos peptídeos N-terminais (Nrich) na linha de células HEK293T com base num método de selecção negativo (Fig. 1, Métodos). Nrich consistiu em três grandes etapas experimentais: 1) o primeiro passo foi distinguir entre N-termini endógeno Nα -acetilado e N-termini livre de endógenos. Isto foi feito através do bloqueio de α e ε aminas primárias de proteínas com anidrido propiónico (PA) ou anidrido acético D6 (D6). 2) As proteínas bloqueadas por aminas foram digeridas com tripsina ou GluC-endoprotease utilizando métodos FASP19 para remoção de reagentes com N-bloqueio e troca de tampão. 3) Os peptídeos internos recém-gerados contendo α-amina livre foram removidos com uma resina de agarose activada com N-hidroxissuccinimida (NHS). Como resultado, os péptidos da fracção de fluxo nas experiências com tripsina deveriam ter um padrão de digestão tipo ArgC devido à propionilação ou trideuteroacetylação da ε-amina de lisina. Como esperado, houve enriquecimento de peptídeos endógenos Nα-acetilados (Nt-acetylated N-termini) e in vitro Nα-propionlated ou Nα-D3-acetylated peptides (N-termini livre). O fluxo de NHS-agarose foi separado por fraccionamento de fase inversa de alta HP antes de LC-MS/MS. Os dados espectrais de massa foram pesquisados na base de dados UniProtKB usando MS-GF+ e Comet, seguidos de validação com percolador. Subsequentemente, os espectros não identificados de dois motores de busca foram re-analisados pelo algoritmo MODi (Fig. 1). Utilizámos todos os peptídeos encontrados em qualquer motor de busca.

Figure 1
figure1

Outline of the Nrich method and the N-terminome discovery scheme. As proteínas são rotuladas por anidrido acético D6 ou anidrido propiónico para distinguir a acetilação endógena N-terminal da acetilação/propionação artificial N-terminal. Seguido de Preparação de Amostra Auxiliada por Filtro (FASP) e digestão com tripsina ou endoprotease de GluC, os peptídeos internos são esgotados através da utilização de contas de NHS reactivas a aminas. Os peptídeos N-terminais enriquecidos (círculo vermelho) são divididos em 6 fracções por fraccionamento de pH elevado em fase inversa. Em seguida, todas as 6 fracções foram submetidas a análise LC-MS/MS. Os espectros de MS tandem são inicialmente pesquisados na base de dados UniProtKB com motores de busca MS-GF+ e Comet. Espectros não identificados são então seleccionados para procurar modificações mais diversas utilizando o motor de busca específico de modificação MODi. Espectros não identificados após uma pesquisa na base de dados UniProtKB combinada com a exploração dos três motores de busca foram então colocados no mesmo fluxo de trabalho de pesquisa após a substituição da base de dados convencional por uma base de dados nova e personalizada, NtermDB. Todas as identificações na base de dados UniProtKB foram designadas “N-termini”, enquanto as novas identificações no NtermDB foram designadas “Novel N-termini”.”

A eficácia do enriquecimento dos peptídeos N-terminalmente bloqueados foi observada em 79% (±2) em PA-Trypsin, 70% (±2) em PA-GluC, 68% (±2) em D6-Trypsin e 57% (±7) em D6-GluC. As combinações do espectro de peptídeos (PSMs) para peptídeos N-terminalmente bloqueados foram contadas em média como 74.456 em PA-Trypsin, 31.053 em PA-GluC, 86.115 em D6-Trypsin e 28.257 em D6-GluC à taxa de falsas descobertas (FDR) ≤0.01 (Fig. 2A). O número de N-termini identificados variou em função da natureza dos reagentes de bloqueio N e dos endoproteases, embora fosse reprodutível para cada instalação experimental. Os N-termini identificados consistiam em N-cetilados e N-termini livres. Embora Nrich tenha incorporado uma etapa para remoção e inactivação de PA ou D6 antes da endoprotease, encontrámos peptídeos internos de PA ou D6-bloqueados com sítios protease-específicos em ambas as extremidades. Estes peptídeos podem ter sido gerados durante a digestão por vestígios de reagentes (transportados de uma etapa anterior). Por conseguinte, os peptídeos marcados com PA ou D6 com sítios específicos de proteases foram excluídos da lista final, excepto os peptídeos encontrados simultaneamente em ambas as experiências de tripsina e GluC. Finalmente, obtivemos 6,209 proteínas N-termini em PA-Trypsin, 3,496 em PA-GluC, 7,583 em D6-Trypsin e 2,481 em D6-GluC. Observámos a quantidade quase igual de N-termini livre (44%) e N-termini livre (56%) em todas as experiências (Fig. 2B). O nosso método poderia enriquecer os peptídeos N-terminais com eficácia semelhante, independentemente dos reagentes N-bloqueadores ou endoproteases. Esta observação é bastante semelhante aos resultados obtidos por TAILS17, 20. Notavelmente, a nossa análise abrangente, utilizando dois reagentes de bloqueio N e dois endoproteases, aumentou grandemente a cobertura do N-terminome. Um total de 13.095 proteínas N-termini foram identificadas como uma soma no nosso estudo. Destes produtos, 62% foram encontrados exclusivamente através de um único método (Fig. 2C). Todos os quatro métodos diferentes foram realizados em triplicações biológicas e técnicas, e os coeficientes de valores de variação do número de N-termini estavam dentro de 20%. Em comparação com o método mais frequentemente detectado, D6-Trypsin, o número total de todas as proteínas N-termini identificadas aumentou em 73%. Globalmente, o número de todos os N-termini de proteínas, encontrados pelos quatro métodos, aumentou cerca de 60% em comparação com uma única experiência. Além disso, calculámos o grau de acetilação para cada um dos N-termini proteicos com base no número de PSM (Fig. 2D). A maioria dos N-termini proteicos foram identificados como acetilados ou livres, e os N-termini proteicos de acetilação parcial raramente foram encontrados. Além disso, a correlação do grau de acetilação entre cada método diferente foi significativamente elevada (0,83~0,94, Fig. 2E). Estes resultados levam-nos a concluir que o estado em células da proteína N-termini pode ser determinado independentemente da natureza dos reagentes N-bloqueadores e endoproteases. Contudo, a cobertura do N-terminoma pode ser significativamente aumentada através da combinação dos resultados de diferentes métodos de enriquecimento.

Figure 2
figure2

Propriedades do N-terminoma descoberto. (A) Número de PSMs identificados em cada conjunto de experiências Nrich. Em todos os casos, os N-terminome tratados com tripsina têm mais PSMs do que os N-terminome tratados com GluC. No caso dos reagentes de bloqueio N, o anidrido propiónico (PA) mostrou uma eficiência superior a 10% em comparação com o anidrido acético D6 (D6). No entanto, no aspecto das contagens de PSM, as amostras tratadas com D6 tinham valores mais elevados do que as amostras tratadas com PA. (B) Proporções de PSM para N-termini endogenamente acetilados (azul) e N-termini endogenamente livre (laranja). Cerca de 44% dos PSMs correspondiam a N-termini acetilados. (C) Diagrama venn da proteína N-termini descoberta, de acordo com diferentes configurações experimentais. (D) Estado de acetilação dos N-termini proteicos descobertos. O grau de acetilação foi calculado com base no número de PSMs. (E) Proteína N-termini descoberta habitualmente entre cada par de configurações experimentais e a correlação do grau de acetilação.

Classificação do N-terminome

Os N-termini identificados por Nrich tiveram origem em dois tipos diferentes de proteína N-termini, por exemplo N-termini livre e N-termini livre (Nα-propionilado ou Nα-D3-acetilado). Identificámos 6,525 acetilados (ou parcialmente acetilados) e 6,570 N-termini livres. Os dados N-terminome podem ser classificados com base na sua localização, juntamente com as sequências de proteínas correspondentes depositadas na base de dados de proteínas16, 17, 20, 21. Com base em estudos anteriores, dividimos primeiro os 13.095 N-termini de 5.727 proteínas em 2.992 proteínas anotadas (23%) e 10.103 proteínas N-termini não anotadas (77%) (Fig. 3A). Os N-termini anotados incluíam UniProtKB-anotados de iniciação de tradução (dbTIS) e proteínas N-termini em locais após remoção do sinal ou peptídeo de trânsito por processos pós-tradução (Tabela Suplementar S1). O dbTIS poderia ser ainda subdividido em proteínas N-termini, começando com o iniciador Met (iMet retido) e proteínas N-termini a partir do segundo resíduo sem um iniciador Met gerado por modificação co-tradicional (iMet removido), ou aqueles pertencentes à “categoria de resíduo não-terminal”, ou seja, para as sequências de proteínas na base de dados UniProtKB que não comecem com a metionina. Noventa e cinco por cento dos dbTIS têm origem em sequências proteicas canónicas e 5% em proteínas isoforma. Geralmente, as isoformas proteicas são produzidas por emendas alternativas ou por iniciação de tradução alternativa. Um exemplo interessante é a identificação do peptídeo N-terminal acetilado de GSR (Glutationa redutase, P00390-2). Faltam à isoforma os primeiros 43 resíduos da sua sequência canónica. De acordo com a anotação UniProt, a localização subcelular da isoforma (citoplasma) é diferente da da sua forma canónica (mitocôndria). Proteína N-termini da categoria dbTIS foram comparados com o algoritmo “Terminus “22. Como resultado, verificou-se que o estado de 74% de proteína N-termini era o mesmo que o previsto pelo Terminus (Tabela Suplementar S1).

Figure 3
figure3

Classificação dos N-termini descobertos e as suas posições ao longo das sequências de proteínas. (A) Classificação dos N-termini proteicos. dbTIS: UniProtKB-anotado sítio de iniciação de tradução; resíduo não-terminal: N-termini proteicos começando com o primeiro, mas não resíduo de metionina na base de dados UniProtKB; Propeptido/Sinal/Transito: N-termini proteicos surgindo após a remoção do pro-, sinal-, ou trânsito-peptido; aTIS putativo: sítio de iniciação de tradução putativo alternativo. (B) Vários N-termini proteicos identificados de acordo com as suas posições ao longo das sequências proteicas.

Os N-termini proteicos não anotados foram responsáveis pela maioria dos nossos dados N-terminome. As suas posições ao longo das sequências de proteínas correspondentes eram superiores a duas (Tabela Suplementar S2). Contudo, os peptídeos de sinal ou outros propeptídeos removidos durante a maturação da proteína não são conhecidos (Fig. 3B). Há algumas pistas que tais N-termini não anotados podem ser interpretados como sugerindo a possibilidade de aTISs ou sítios de clivagem de eventos proteolíticos. Por exemplo, podemos considerar 495 N-termini não anotados como aTIS porque estes N-termini foram observados a partir ou imediatamente após a metionina interna e 45% destes foram acetilados. Além disso, 412 N-termini foram mapeados para proteoformas encontradas em bases de dados como Degrabase23, base de dados TopFIND24, 25 e Proteoform Repository (http://repository.topdownproteomics.org/). Embora requeira um exame mais aprofundado, a nossa interpretação é bastante plausível, uma vez que os nossos dados partilham muitas semelhanças com outras investigações anteriores16, 17, 20, 23, 26,27,28.

Características da proteína N-termini anotada

Analisamos ainda o estado da proteína N-termini contando o número de PSMs e calculando as frequências de aminoácidos dos resíduos terminais (Fig. 4). O conjunto de dados dbTIS, excepto a “categoria de resíduos não terminais” (2.730 N-termini), mostrou que a preferência dos aminoácidos era diferente entre os N-termini acetilados e os N-termini livres da proteína, e também entre os iMet removidos e retidos. O grau de acetilação pareceu semelhante entre iMet removido e retido (Fig. 4A). Encontrámos uma elevada prevalência de alanina e serina na posição P1′ de N-termini sem iMet acetilado, enquanto os aminoácidos preferidos para a proteína livre N-termini eram prolina, alanina, valina, e glicina, respectivamente. No caso dos N-termini com iMet, o iMet acetilado foi sobretudo seguido por grandes resíduos polares (glutamato, aspartato). Além disso, a lisina foi o principal resíduo que seguiu o iMet livre (Fig. 4B). Vários estudos investigaram anteriormente a acetilação de Nt-acetylation na linha celular humana29, pele de rato30, e plaquetas humanas27. A preferência por aminoácidos da nossa proteína N-termini acetilada dbTIS é consistente com estes estudos. É de notar que a prolina, valina, e glicina nos N-termini raramente foram acetilados, como também observado em estudos separados da Drosophila melanogaster31. De acordo com o estudo, uma prolina sentada em N-terminus ou a segunda posição impede a reacção de acetilação de Nα acetiltransferases terminais (NATs).

Figure 4
figure4

Características da proteína N-termini. (A) Distribuição de N-termini acetilados e N-termini livres de acordo com o tipo de N-termini. Os dados são apresentados em valores percentuais, e os números exactos de N-termini proteicos são indicados dentro de barras. (B) A frequência dos aminoácidos no segundo resíduo de N-termini acetilados ou livres de proteínas. O segundo resíduo significa o resíduo ao lado da metionina iniciadora. (C) A frequência de aminoácidos na região de flanco dos peptídeos de sinal e dos peptídeos de trânsito. Os logótipos da sequência proteica foram gerados utilizando o pacote de software IceLogo com correcção para a abundância de aminoácidos naturais. As setas vermelhas indicam os sítios de clivagem observados.

Nt-acetylation geralmente ocorre co-traduzida por NATs com acetil-coenzima A durante a síntese proteica. Nos humanos, vários NATs são expressos tais como hNatA, hNatB, hNatC, hNatD, hNatE e hNatF5, 32, 33. Estes NAT diferem na especificidade do substrato, e cada NAT acetilatos em uma ou mais sequências de aminoácidos N-terminais. Em particular, os acetilatos NatA N-termini após iMet são removidos por metionina aminopeptidase. Também acetilatos Asp- e Glu- N-termini de actinas maduras pós-tradução. O quadro 1 mostra as contagens de N-termini para cada NAT. Dos 2.172 N-termini de proteínas acetiladas, 1.986 foram mapeados como substratos de NAT, e 67% dos N-termini mapeados foram previstos como substratos de NatA. Os substratos de NATs foram identificados como formas acetiladas e livres. Assim, determinámos o nível relativo de acetilação de N-termini com base no número de PSM de cada substrato. O nível relativo de Acetilação de N para substratos NatA foi, em média, de 76,7%. Foi de 92,8% para NatB, 72,2% em NatD e 45,3% em NatC/E/F. Os resultados mostraram que a maioria dos substratos NAT estavam presentes no estado de acetilação. No entanto, a eficiência da acetilação foi diferente entre NATs e mesmo entre os substratos de cada NAT. Gly e Val entre os substratos NatA e ML, MW, MK e MA entre os substratos NatC/E/F foram detectados menos acetilados do que outros substratos. Curiosamente, foram observadas proteínas N-termini começando com Gly e Val na sua maioria livres em comparação com outros substratos da NatA. Além disso, outros trabalhos publicados anteriormente mostraram resultados semelhantes31, 34, 35. Embora pareça haver pouco conhecimento sobre a eficiência da NatA em cada um dos seus substratos, é evidente que a eficiência de acetilação em Gly e Val é muito inferior à de acetilação em outros substratos da NatA.

Tabela 1 Classificação da proteína N-termini dbTIS1 de acordo com o tipo de substrato de N-α-terminal acetiltransferases em humanos (NATs).

P>Próximo, procurámos locais de clivagem de peptídeos de sinal/trânsito e propeptídeos. A maioria dos N-termini expostos pela remoção do peptídeo de sinal/trânsito ou propéptido foram observados em estados não acetilados. Padrões visualizados nas sequências do peptídeo gerando um logótipo de gelo36 para os 30 resíduos entre P15 e P15′. Os resultados mostram o enriquecimento mais forte para resíduos de arginina nas posições P3 e P2 do peptídeo de trânsito e resíduos de leucina na posição P15-P6 do peptídeo de sinal (Fig. 4C), como provavelmente observado em estudos anteriores23.

Identificação de sítios alternativos de iniciação de tradução

Em eucariotas, a iniciação de tradução ribossómica pode ocorrer alternadamente a montante da sequência de codificação anotada ou a jusante dos códões ATG dentro da estrutura37, 38. O perfil do ribossoma é uma ferramenta útil que se baseia na sequenciação de potenciais sítios de início de tradução de mRNA39, 40. A fim de descobrir aTIS putativa a nível proteico, analisámos os nossos dados de EM utilizando não só a base de dados UniProtKB, mas também uma base de dados personalizada contendo 5′-UTRs in-silico-traduzidos. Especialmente para a tradução de 5′-UTR, estávamos interessados em encontrar pistas proteómicas para a possível expressão de genes de pseudo-códones iniciais. Em primeiro lugar, 495 de N-termini proteicos não anotados foram inferidos como sendo aTIS putativos a jusante do sítio de início canónico. Estes incluíam a proteína N-termini começando com metionina interna, independentemente de estarem acetilados (223) ou livres (272) e independentemente de a metionina ter sido retida (234) ou removida (261). Utilizámos o iceLogo para comparar as frequências de aminoácidos após iMet em dbTIS e em aTIS putativo utilizando todas as sequências de aminoácidos após qualquer Met na base de dados humana Swiss-Prot para estabelecer as frequências de fundo de aminoácidos. Ambos os logótipos mostraram preferências elevadas para alanina e serina na posição imediatamente após o iMet e preferências subsequentes para principalmente alanina (Fig. 5A). Na categoria aTIS putativa, os dois aminoácidos foram identificados com uma frequência total de 32% na primeira posição após o iMet (Fig. S2 Suplementar). As sequências de consenso de nucleótidos que rodeavam o códon ATG do dbTIS e o aTIS putativo mostraram um padrão semelhante de sequências Kozak41,42,43 (Fig. 5B). Por outro lado, 77 dos 495 aTIS putativos foram mapeados para o iMet mais alto do iMet de transcrições de emendas alternativas na base de dados de emendas alternativas ECgene (Quadro suplementar S3)44, o que implica que estes aTIS putativos podem não ser verdadeiros aTIS, mas agir como TIS canónicos no caso de um evento de emenda alternativo gerar transcrições mais curtas. Dadas estas interpretações, parece que a proteína N-termini na nossa categoria aTIS putativa teve origem na iniciação de tradução alternativa ou na tradução após emendas alternativas.

Figure 5
figure5

Putativos locais alternativos de iniciação translacional. (A) diagramas do iceLogo para ocorrências de amino-ácidos entre dbTIS e aTIS putativo. As frequências de aminoácidos após qualquer metionina (iMet ou Met interna) na base de dados humana Swiss-Prot (lançamento 2015. 1) foram determinadas para utilização como correcção de fundo. As sequências começam imediatamente após a metionina. (B) Sequências de nucleótidos na região de flanco do resíduo de metionina do iniciador. O ATG central é o códon para a metionina iniciadora do dbTIS (esquerda) e o aTIS putativo (direita). (C) O desenho do NtermDB. Foi concebido para permitir a pesquisa de novos N-termini de proteínas dentro de uma região UTR a montante. Os blocos laranja representam regiões UTR, e os blocos verdes representam regiões de sequência de codificação (CDS). Assumiu-se que os novos termos proteicos N-terminus começavam no códão inicial (“ATG”) ou um pseudo códão inicial ao longo do mesmo quadro que o do CDS correspondente. Escolhemos o sítio de início mais a montante (pseudo) e in-silico traduzimos o modelo de transcrição. Ver métodos para mais detalhes. (D) Utilização do códon no romance N-termini identificado. São apresentadas sequências de nucleótidos correspondentes aos primeiros resíduos dos peptídeos 5′-UTR identificados. (E) Número de PSMs para N-terminais acetilados ou livres 5′-UTR peptídeos começando com códones não iniciais.

Enquanto o aTIS a jusante do dbTIS pode ser identificado utilizando a base de dados UniProtKB, os eventos que começam a montante do dbTIS não podem ser descobertos utilizando as bases de dados de proteínas de referência actuais. Por conseguinte, construímos uma nova base de dados de sequência proteica, ‘NtermDB’ (detalhada em Métodos), que incluía sequências traduzidas em silício de 5′-UTRs de regiões de sequência de codificação conhecida (CDS) a partir do site de um códão inicial (ATG) ou das suas variantes de um único nucleótido, pseudo códões iniciais (CTG, TTG, GTG, AGG, ACG, AAG, ATC, ATA e ATT) (Fig. 5C). Estes aTIS putativos foram mapeados para 67% do total de transcrições na base de dados Ensembl (http://www.ensembl.org/index.html). Os sítios foram distribuídos uniformemente entre 23 cromossomas, com excepção dos espectros do cromossoma Y. MS/MS inigualáveis na primeira pesquisa utilizando a base de dados UniProtKB foram posteriormente pesquisados em relação ao NtermDB. Como resultado, identificámos 261 novas proteínas N-termini (de 394 transcrições). Destas transcrições, foram encontradas cinco transcrições idênticas às dos dados Ribo-seq de Lee, S. et al.40. Todas elas foram transcritas em 5′-UTR, utilizando os pseudo-códones de início (Tabela suplementar S4). As proteínas N-termini foram encontradas em todos os cromossomas, com excepção do cromossoma Y e do cromossoma 21. Além disso, as proteínas N-termini foram distribuídas na sua maioria no cromossoma 1 (Tabela Suplementar S3a). Das 261 novas proteínas N-termini, 46 foram identificadas no 5′-UTR com um pseudo códão de início acetilado ou livre (Fig. 5D; Suplemento Fig. S3b; Suplemento Tabela S4). As restantes 214 proteínas N-termini foram encontradas com outros (pseudo) códones de início, mais precisamente, os N-termini foram associados a quatro códones, ou seja, GCT, GCA, GCC e GCG, que codificam alanina (46 termini; Fig. 5E, Suplemento Fig. S3c, Suplemento Tabela S4). A maioria destas proteínas N-termini começando com alanina foram identificadas como acetiladas e, com apenas uma excepção, não houve intervenção de códão de paragem até ao início do CDS. Dos 46 N-termini começando por alanina, 72% foram identificados com peptídeos que se sobrepõem à região canónica do CDS. Por conseguinte, estamos confiantes de que identificámos os novos N-termini. Além disso, 39% tinham pseudo-códon de início antes da alanina. Na maioria dos casos, como o estudo actual e outras investigações anteriores, quando o iMet é seguido de alanina, o iMet é clivado e depois a alanina recém-exposta é acetilada. Por esta razão, é altamente provável que a proteína N-termini que tem uma alanina no primeiro resíduo e o pseudo-códon inicial no seu resíduo anterior sejam sítios alternativos de iniciação de tradução em 5′-UTR.

Sítios de processamento desconhecidos

Out de 10.103 proteínas N-termini, apenas 5% são previstos como aTIS putativo, e os restantes 95% são derivados de processamento até então desconhecido. Estávamos muito preocupados em encontrar uma forma de distinguir entre N-termini livres em células e locais internos expostos durante o processamento da amostra, a fim de atribuir características aos N-termini não anotados. A rotulagem química dos grupos de aminas a nível proteico é necessária para discriminar não só entre N-termini endógeno acetilado e N-termini endógeno livre, mas também entre o peptídeo N-terminal e os peptídeos internos da proteína. Contudo, se a inactivação do reagente N-bloqueador não for completa, é possível que a α-amina do peptídeo interno do resíduo N-terminal seja rotulada por um reagente N-bloqueador residual após ou durante a digestão e estes peptídeos internos possam ser falsamente identificados como peptídeos N-termini proteicos. Portanto, durante a experiência, realizámos uma etapa de inactivação do rótulo químico com hidroxilamina seguida de digestão FASP, e após a pesquisa na base de dados de EM, escolhemos a proteína N-termini sem um sítio específico de proteínas na extremidade N-terminal do peptídeo identificado. A hidroxilamina tem também um efeito benéfico para reverter a relação O-acylation indesejada que pode ocorrer durante a reacção de rotulagem13. Curiosamente, quase metade das proteínas N-termini resultantes da categoria de processamento desconhecida (43%) foram identificadas como formas acetiladas. A maioria dos N-termini proteicos não anotados foram também identificados em eucariotas, independentemente de os investigadores terem utilizado métodos de enriquecimento negativos17, 20 ou positivos23. Se comparássemos o nosso conjunto de dados com a base de dados gerada por Crawford et al. (“Degrabase”), concentrando-nos na proteína N-termini livre nas posições 3-65, observámos uma elevada semelhança dos padrões de frequências de aminoácidos (Suplemento Fig. S4). Assim, parece-nos provável que as proteínas N-termini livres sejam locais N-terminais recentemente expostos, obtidos após a remoção de sinais putativos ou péptidos de trânsito (de acordo com uma interpretação de Crawford et al.). Os eventos de ragging da aminopeptidase podem alterar os produtos de clivagem inicialmente gerados. Quando comparámos as proteínas N-termini nas posições >65 com as posições 3-65, os dados mostraram uma distribuição semelhante de aminoácidos nas posições P1 e P1′ (Fig. 6A), com predominância de arginina em P1. A partir dos resultados, suspeitamos que a clivagem do peptídeo sinal/trânsito e a degradação das proteínas é principalmente causada por uma espécie de tripsina.

Figure 6
figure6

Caracterização da proteína N-termini da categoria de processamento desconhecido. (A) Distribuições de aminoácidos em P1 e P1′ posições de proteínas N-termini identificadas no resíduo 3-65 (azul) e >65 (vermelho) ao longo das sequências de proteínas. (B) Um número de proteínas de acordo com a proporção de dbTIS PSMs. 1′ para o valor do eixo x significa que todos os PSMs são compatíveis com dbTIS, ‘0’ significa que a proteína foi identificada apenas com PSMs correspondentes à categoria de processamento desconhecida, e os valores intermédios significam que a proteína foi identificada com ambos os tipos de PSMs. (C) Distribuição da proteína N-termini acetilada e livre pertencente à categoria de processamento desconhecida.

Proteína N-termini para um total de 5.727 proteínas foram caracterizadas no nosso estudo. Destas, 2.591 proteínas mantiveram intactas a sequência N-terminal (dbTIS), enquanto 3.968 proteínas foram encontradas em formas truncadas, sem sinal/trânsito conhecido ou sequência de propéptidos. Tais proteínas truncadas também foram relatadas principalmente pelo método TAILS. É de salientar que 83% das 5.537 proteínas das duas categorias foram encontradas com sequências intactas (28%, categoria ‘1’) ou truncadas (53%, categoria ‘0’), mas não com ambas as características (Fig. 6B). Isto sugere que a degradação das proteínas não é a principal causa de truncagem. Pelo contrário, tal truncagem parece ter influência na diversidade funcional do proteoma humano, e uma quantidade considerável de N-termini proteicos na categoria de processamento desconhecida pode representar formas fisiológicas maduras na célula HEK293T.

Observamos também a frequência de resíduos N-terminais entre os N-termini proteicos acetilados e os N-termini proteicos livres (Fig. 6C). Houve uma preferência pelo glutamato e aspartato na proteína N-termini acetilada e serina e prolina na proteína N-termini livre. A degradação da proteína em células eucarióticas é realizada principalmente pelo sistema ubiquitina/proteasome e regulada pela regra N-end. Recentemente, Lange et al. sugeriram uma regra de N-end modificada baseada na frequência de aminoácidos observada e no estado de Nt-acetylation dos N-termini proteicos internos nos eritrócitos humanos20. O glutamato e o aspartato foram classificados como “acetilação-estabilizada” ou “livre não-estabilizadora”, enquanto que a serina foi classificada como “acetilação-desestabilizada”. Os dois resíduos ácidos são definidos como resíduos secundários pela regra Arg/N-end. Assim, a acetilação em N-terminal glutamato e aspartato inibiria a desestabilização da arginilação, o que por sua vez aumentaria a estabilidade das proteínas. Em contraste, observou-se que a prolina estava livre no N-termini, reflectindo o facto bem conhecido de a prolina interferir estruturalmente com a acetilação e tornar livre o N-terminus. Assim, estas diferentes sequências de aminoácidos observadas na proteína N-termini de categoria de processamento desconhecida parecem derivar da estabilidade proteica pelo estado N-termocetilado.

N-terminal acetylation occurs co-translationally by NATs, contudo, enquanto o mecanismo exacto para N-termocetilação pós-tradicional é ainda desconhecido, uma característica da N-termocetilação pós-tradicional em levedura foi relatada26. Identificámos 4.088 proteínas N-termini acetiladas em >2 posição (Fig. 4A). Destes, aproximadamente 50% têm terminais específicos de trypsin ou GluC. Controlamos a acylation no decurso da experiência, pelo que não conhecemos a causa exacta deste fenómeno. Uma explicação possível é o erro de nota entre a acetilação N-terminal e a acetilação de ε-acetilação da lisina interna, uma vez que forçamos a acitilação a tudo ε-amina de resíduos de lisina durante a pesquisa na base de dados. Com excepção dos N-termini com sítios específicos de enzimas, o glutamato foi principalmente observado na posição P1` (Fig. S5 suplementar). Há um relatório de que actinas maduras acetiladas que abrigam Asp- ou Glu- em N-termini são produzidas por modificatio pós-tradicional45. Embora o nosso resultado seja visto como afectado por cada enzima na posição P1, é ainda possível que a acetilação tenha sido regulada por modificação pós-tradlacional. Para avaliar melhor os nossos dados N-terminome processados desconhecidos, explorámos a informação de um conjunto de dados publicados29 e da base de dados TopFIND (http://clipserve.clip.ubc.ca/topfind/). No caso de Nt-acetylation no dbTIS, a maior parte das proteínas N-termini, independentemente do tipo de amostras e métodos experimentais, foram identificadas no proteoma humano. Mais de 50% dos dbTIS identificados sobrepuseram-se entre quaisquer dois conjuntos de dados (Suplemento Fig. S6a). Em contraste com esta proteína N-termini na posição 1 ou 2, houve uma disparidade significativa entre os dados da proteína N-termini nas posições >2. No artigo que utiliza COFRADIC16, a informação da proteína N-termini acetilada nas posições >2 não estava disponível e não podia ser comparada, enquanto que um número considerável de N-termini proteicos foram relatados por um artigo que utiliza o método TAILS25 (Suplementar Fig. S6a). As proteínas N-termini em posições >2 no proteoma da polpa dentária17 foram identificadas em proporções semelhantes no nosso estudo. No entanto, muito poucas proteínas N-termini na posição >2 foram normalmente encontradas em ambos os estudos (Suplemento Fig. S6b). Curiosamente, a análise ontológica revelou que as “grandes subunidades ribossómicas”, “melanosoma”, “cromossoma nuclear” e “parte mitocondrial” foram maioritariamente enriquecidas em proteínas N-termini de posições >2 (Suplemento Fig. S7). Portanto, inferimos que o N-termo pós-tradução é mais afectado pelo tipo ou estatuto da amostra do que o N-termo co-tradução.

Deixe uma resposta

O seu endereço de email não será publicado. Campos obrigatórios marcados com *