El análisis exhaustivo de los N-terminales de las proteínas humanas permite evaluar varias formas de proteínas

Enriquecimiento profundo de péptidos N-terminales

Para caracterizar el estado de las proteínas en las células, realizamos un enriquecimiento «profundo» de péptidos N-terminales (Nrich) en la línea celular HEK293T basado en un método de selección negativa (Fig. 1, Métodos). El Nrich consistió en tres pasos experimentales principales: 1) el primer paso fue distinguir entre los Nα -acetilados endógenos y los N-terminales libres endógenos. Esto se hizo bloqueando las aminas primarias α y ε de las proteínas con anhídrido propiónico (PA) o anhídrido acético D6 (D6). 2) Las proteínas bloqueadas por aminas se digirieron con tripsina o GluC-endoproteasa utilizando los métodos FASP19 para la eliminación del reactivo de bloqueo N y el intercambio de tampón. 3) Los péptidos internos recién generados que contenían α-amina libre se eliminaron con una resina de agarosa activada con N-hidroxisuccinimida (NHS). Como resultado, se esperaba que los péptidos de la fracción de flujo en los experimentos con tripsina tuvieran un patrón de digestión similar al de ArgC debido a la propionilación o trideuteroacetilación de la ε-amina de la lisina. Como se esperaba, hubo un enriquecimiento de péptidos endógenos Nα-acetilados (Nt-acetylated N-termini) y de péptidos in vitro Nα-propionilados o Nα-D3-acetilados (N-termini libres). El flujo de la agarosa NHS se separó mediante un fraccionamiento en fase inversa de alto pH antes de la LC-MS/MS. Los datos de los espectros de masas se buscaron en la base de datos UniProtKB utilizando MS-GF+ y Comet, seguido de una validación con percolador. Posteriormente, los espectros no identificados de dos motores de búsqueda se volvieron a analizar mediante el algoritmo MODi (Fig. 1). Se utilizaron todos los péptidos encontrados en cualquiera de los motores de búsqueda.

Figura 1
figure1

Resumen del método Nrich y del esquema de descubrimiento del N-terminoma. Las proteínas se etiquetan con anhídrido acético D6 o anhídrido propiónico para distinguir la acetilación N-terminal endógena de la acetilación/propionilación N-terminal artificial. Tras la preparación de la muestra con ayuda de un filtro (FASP) y la digestión con tripsina o endoproteasa GluC, los péptidos internos se eliminan utilizando perlas NHS reactivas a la amina. Los péptidos N-terminales enriquecidos (círculo rojo) se dividen en 6 fracciones mediante el fraccionamiento en fase inversa de alto pH. A continuación, las 6 fracciones se someten al análisis LC-MS/MS. Los espectros de MS en tándem se buscan inicialmente en la base de datos UniProtKB con los motores de búsqueda MS-GF+ y Comet. A continuación, se seleccionan los espectros no identificados para buscar modificaciones más diversas mediante el motor de búsqueda de modificaciones específicas MODi. Los espectros no identificados tras una búsqueda en la base de datos UniProtKB combinada con la exploración de los tres motores de búsqueda se pusieron entonces en el mismo flujo de trabajo de búsqueda tras sustituir la base de datos convencional por una nueva base de datos personalizada, NtermDB. Todas las identificaciones en la base de datos UniProtKB se denominaron «N-termini», mientras que las nuevas identificaciones en NtermDB se denominaron «Novel N-termini.»

Se observó que la eficacia del enriquecimiento para los péptidos bloqueados N-terminales era del 79% (±2) en PA-Trypsin, del 70% (±2) en PA-GluC, del 68% (±2) en D6-Trypsin y del 57% (±7) en D6-GluC. Las coincidencias del espectro peptídico (PSMs) para los péptidos bloqueados N-terminales se contaron en promedio como 74,456 en PA-Trypsin, 31,053 en PA-GluC, 86,115 en D6-Trypsin y 28,257 en D6-GluC en la tasa de falso descubrimiento (FDR) ≤0.01 (Fig. 2A). El número de N-terminales identificados varió dependiendo de la naturaleza de los reactivos bloqueadores de N y de las endoproteasas, aunque fue reproducible para cada configuración experimental. Los N-terminales identificados consistían en Nt-acetilados y N-terminales libres. Aunque Nrich incorporó un paso para la eliminación e inactivación de PA o D6 antes de la digestión por endoproteasas, encontramos péptidos internos bloqueados por PA o D6 que tenían sitios específicos de la proteasa en ambos extremos. Dichos péptidos pueden haber sido generados durante la digestión por restos de reactivos (arrastrados de un paso anterior). Por lo tanto, los péptidos marcados con PA o D6 con sitios específicos de la proteasa se excluyeron de la lista final, excepto los péptidos encontrados simultáneamente en los experimentos con tripsina y GluC. Finalmente, obtuvimos 6.209 proteínas N-termini en PA-Tripsina, 3.496 en PA-GluC, 7.583 en D6-Tripsina y 2.481 en D6-GluC. Observamos una cantidad casi igual de Nt-acetilados (44%) y N-terminales libres (56%) en todos los experimentos (Fig. 2B). Nuestro método pudo enriquecer los péptidos N-terminales con una eficacia similar, independientemente de los reactivos bloqueadores de N o de las endoproteasas. Esta observación es bastante similar a los resultados obtenidos por TAILS17, 20. En particular, nuestro análisis exhaustivo, utilizando dos reactivos de bloqueo de N y dos endoproteasas, aumentó en gran medida la cobertura del N-terminoma. En nuestro estudio se identificaron un total de 13.095 N-terminales de proteínas como suma. De estos productos, el 62% fueron encontrados exclusivamente por un solo método (Fig. 2C). Los cuatro métodos diferentes se realizaron por triplicado biológico y técnico, y los valores de los coeficientes de variación del número de N-termini estuvieron dentro del 20%. En comparación con el método más frecuentemente detectado, D6-Tripsina, el número total de todos los N-termini de proteínas identificados aumentó en un 73%. En general, el número de todos los N-termini de proteínas, encontrados por los cuatro métodos, aumentó en aproximadamente un 60% en comparación con un solo experimento. Además, calculamos el grado de acetilación de cada N-terminal de proteína basándonos en el número de PSMs (Fig. 2D). La mayoría de los N-terminales de las proteínas se identificaron como acetilados o libres, y rara vez se encontraron N-terminales de proteínas con acetilación parcial. Además, la correlación del grado de acetilación entre cada método diferente fue significativamente alta (0,83~0,94, Fig. 2E). Estos resultados nos llevan a la conclusión de que el estado de los N-terminales de las proteínas en las células puede determinarse independientemente de la naturaleza de los reactivos de bloqueo de N y de las endoproteasas. Sin embargo, la cobertura del N-terminoma puede incrementarse significativamente combinando los resultados de diferentes métodos de enriquecimiento.

Figura 2
figure2

Propiedades del N-terminoma descubierto. (A) Número de PSMs identificados en cada conjunto de experimento Nrich. En todos los casos, el N-terminoma tratado con tripsina tiene más PSMs que el N-terminoma tratado con GluC. En el caso de los reactivos de bloqueo de N, el anhídrido propiónico (PA) mostró una mayor eficiencia en más de un 10% en comparación con el anhídrido acético D6 (D6). Sin embargo, en el aspecto de los recuentos de PSM, las muestras tratadas con D6 tuvieron valores más altos que los de las muestras tratadas con PA. (B) Proporciones de PSMs para N-terminales endógenos acetilados (azul) y N-terminales endógenos libres (naranja). Alrededor del 44% de los PSMs correspondieron a N-terminales acetilados. (C) Diagrama de Venn de los N-terminales de proteínas descubiertos según las diferentes configuraciones experimentales. (D) Estado de acetilación de los N-terminales de proteínas descubiertos. El grado de acetilación se calculó en base al número de PSMs. (E) N-terminos de proteínas descubiertos comúnmente entre cada par de configuraciones experimentales y la correlación del grado de acetilación.

Clasificación del N-terminoma

Los N-terminos identificados por Nrich se originaron a partir de dos tipos diferentes de N-terminos de proteínas, por ejemplo, Nt-acetilados y N-terminales libres (Nα-propionilados o Nα-D3-acetilados). Identificamos 6.525 N-terminales acetilados (o parcialmente acetilados) y 6.570 N-terminales libres. Los datos del N-terminoma pueden clasificarse en función de su ubicación, junto con las correspondientes secuencias de proteínas depositadas en la base de datos de proteínas16, 17, 20, 21. Basándonos en estudios anteriores, primero dividimos los 13.095 N-terminales de 5.727 proteínas en 2.992 N-terminales anotados (23%) y 10.103 N-terminales no anotados (77%) (Fig. 3A). Los N-termini anotados incluían los sitios de iniciación de la traducción anotados por UniProtKB (dbTIS) y los N-termini de las proteínas en los sitios después de la eliminación de péptidos de señal o de tránsito por procesos postraduccionales (Tabla Suplementaria S1). Los dbTIS podrían subdividirse en N-terminales de proteínas que comienzan con Met iniciador (iMet retenido) y N-terminales de proteínas que comienzan en el segundo residuo sin Met iniciador generado por modificación cotraduccional (iMet eliminado), o los que pertenecen a la «categoría de residuos no terminales», es decir, para aquellas secuencias de proteínas de la base de datos UniProtKB que no comienzan con metionina. El 95% de los dbTIS proceden de secuencias de proteínas canónicas y el 5% de proteínas isoformes. Por lo general, las isoformas de proteínas se producen por splicing alternativo o por iniciación alternativa de la traducción. Un ejemplo interesante es la identificación del péptido N-terminal acetilado de la GSR (glutatión reductasa, P00390-2). A esta isoforma le faltan los primeros 43 residuos de su secuencia canónica. Según la anotación de UniProt, la localización subcelular de la isoforma (citoplasma) es diferente a la de su forma canónica (mitocondria). Los N-terminales de las proteínas de la categoría dbTIS se compararon con el algoritmo «Terminus «22. Como resultado, se encontró que el estado del 74% de los N-termini de las proteínas era el mismo que el predicho por el Terminus (Tabla Suplementaria S1).

Figura 3
figure3

Clasificación de los N-terminales descubiertos y sus posiciones a lo largo de las secuencias de proteínas. (A) Clasificación de los N-termini de las proteínas. dbTIS: sitio de iniciación de la traducción anotado en UniProtKB; residuo no-terminal: N-termini de las proteínas que comienza con el primer residuo de metionina, pero no en la base de datos de UniProtKB; propéptido/señal/tránsito: N-termini de las proteínas que surgen tras la eliminación del propéptido, señal o tránsito; aTIS putativo: sitio alternativo putativo de iniciación de la traducción. (B) Un número de N-terminales de proteínas identificados según sus posiciones a lo largo de las secuencias de proteínas.

Los N-terminales de proteínas no anotados representaron la mayoría de nuestros datos del N-terminoma. Sus posiciones a lo largo de las correspondientes secuencias de proteínas eran mayores que dos (Tabla Suplementaria S2). Sin embargo, no se conocen los péptidos señal u otros propéptidos eliminados durante la maduración de la proteína (Fig. 3B). Hay algunos indicios de que tales N-terminales no anotados podrían interpretarse como sugerentes de la posibilidad de aTISs o sitios de corte de eventos proteolíticos. Por ejemplo, podemos considerar 495 N-terminales no anotados como aTIS porque estos N-terminales se observaron comenzando o inmediatamente después de la metionina interna y el 45% de ellos estaban acetilados. Además, 412 N-termini fueron mapeados a proteoformas encontradas en bases de datos como Degrabase23, la base de datos TopFIND24, 25 y Proteoform Repository (http://repository.topdownproteomics.org/). Aunque requiere un examen más detallado, nuestra interpretación es bastante plausible ya que nuestros datos comparten muchas similitudes con otras investigaciones anteriores16, 17, 20, 23, 26,27,28.

Características de los N-terminales de proteínas anotados

Analizamos además el estado de los N-terminales de proteínas contando el número de PSMs y calculando las frecuencias de aminoácidos de los residuos terminales (Fig. 4). El conjunto de datos dbTIS, excepto la «categoría de residuos no terminales» (2.730 N-termini), mostró que la preferencia de aminoácidos era diferente entre los N-termini de proteínas acetilados y los libres, y también entre los iMet eliminados y los retenidos. El grado de acetilación parecía similar entre la iMet eliminada y la retenida (Fig. 4A). Encontramos una alta prevalencia de alanina y serina en la posición P1′ de los N-terminales sin iMet acetilado, mientras que los aminoácidos preferidos para los N-terminales de proteínas libres fueron prolina, alanina, valina y glicina, respectivamente. En el caso de los N-terminales con iMet, el iMet acetilado fue seguido mayoritariamente por residuos polares grandes (glutamato, aspartato). Además, la lisina fue el principal residuo que siguió a la iMet libre (Fig. 4B). Varios estudios han investigado previamente la Nt-acetilación en líneas celulares humanas29, piel de ratón30 y plaquetas humanas27. La preferencia de aminoácidos de nuestros N-terminales de proteínas acetiladas por dbTIS es consistente con estos estudios. Cabe destacar que la prolina, la valina y la glicina en los N-terminales fueron raramente acetilados, como también se observó en estudios separados de Drosophila melanogaster31. Según el estudio, una prolina situada en el N-terminal o en la segunda posición impide la reacción de acetilación de las acetiltransferasas Nα-terminales (NATs).

Figura 4
figure4

Características de los N-terminales de las proteínas. (A) Distribución de N-terminales acetilados y N-terminales libres según el tipo de N-terminal. Los datos se presentan en valores porcentuales, y los números exactos de proteínas N-terminales se indican dentro de las barras. (B) La frecuencia de aminoácidos en el segundo residuo de las N-terminales de proteínas acetiladas o libres. Por «segundo residuo» se entiende el residuo siguiente a la metionina iniciadora. (C) La frecuencia de aminoácidos en la región de flanqueo de los péptidos señal y de tránsito. Los logotipos de las secuencias de proteínas se generaron utilizando el paquete de software iceLogo con corrección para la abundancia natural de aminoácidos. Las flechas rojas indican los sitios de corte observados.

La acetilación de Nt generalmente ocurre de forma cotranslacional por NATs con acetil-coenzima A durante la síntesis de proteínas. En los seres humanos, se expresan varias NATs como hNatA, hNatB, hNatC, hNatD, hNatE y hNatF5, 32, 33. Estas NATs difieren en la especificidad del sustrato, y cada NAT acetila en una o más secuencias de aminoácidos N-terminales. En particular, NatA acetila los N-terminales después de que la iMet sea eliminada por la metionina aminopeptidasa. También acetila los N-terminales Asp- y Glu- de las actinas maduras de forma postraduccional. La tabla 1 muestra los recuentos de N-terminales para cada NAT. De los 2.172 N-terminales de proteínas acetiladas, 1.986 fueron mapeados como sustratos de NATs, y el 67% de los N-terminales mapeados fueron predichos como sustratos de NatA. Los sustratos de las NATs se identificaron como formas acetiladas y libres. Así, determinamos el nivel relativo de Nt-acetilación en función del número de PSMs de cada sustrato. El nivel relativo de Nt-acetilación para los sustratos de NatA fue del 76,7% de media. Fue del 92,8% para NatB, del 72,2% en NatD y del 45,3% en NatC/E/F. Los resultados mostraron que la mayoría de los sustratos NAT estaban presentes en el estado de acetilación. Sin embargo, la eficiencia de acetilación era diferente entre los NATs e incluso entre los sustratos de cada NAT. Gly y Val entre los sustratos de NatA y ML, MW, MK y MA entre los sustratos de NatC/E/F se detectaron menos acetilados que otros sustratos. Curiosamente, los N-terminales de las proteínas que comienzan con Gly y Val se observaron mayormente libres en comparación con otros sustratos de NatA. Además, otros trabajos publicados anteriormente mostraron resultados similares31, 34, 35. Aunque parece haber poco conocimiento sobre la eficiencia de NatA en cada uno de sus sustratos, está claro que las eficiencias de acetilación en Gly y Val son mucho menores que la acetilación en otros sustratos de NatA.

Tabla 1 Clasificación de los N-terminales de la proteína dbTIS1 según el tipo de sustrato de las acetiltransferasas N-α-terminales en humanos (NATs).

A continuación, buscamos los sitios de corte de los péptidos señal/tránsito y los propéptidos. Se observó que la mayoría de los N-terminales expuestos por la eliminación del péptido señal/tránsito o del propéptido estaban en estados no acetilados. Se visualizaron patrones en las secuencias peptídicas generando un iceLogo36 para los 30 residuos entre P15 y P15′. Los resultados muestran el mayor enriquecimiento para los residuos de arginina en las posiciones P3 y P2 del péptido de tránsito y los residuos de leucina en la posición P15-P6 del péptido señal (Fig. 4C), como probablemente se observó en estudios anteriores23.

Identificación de sitios alternativos de iniciación de la traducción

En eucariotas, la iniciación de la traducción ribosómica puede ocurrir alternativamente aguas arriba de la secuencia de codificación anotada o aguas abajo de los codones ATG in-frame37, 38. El perfil del ribosoma es una herramienta útil que se basa en la secuenciación de los posibles sitios de inicio de la traducción del ARNm39, 40. Para descubrir aTIS putativos a nivel de proteínas, analizamos nuestros datos de EM utilizando no sólo la base de datos UniProtKB, sino también una base de datos personalizada que contiene 5′-UTRs traducidos. Especialmente para la traducción de los 5′-UTRs, estábamos interesados en encontrar pistas proteómicas para la posible expresión de los genes de los pseudo codones de inicio. En primer lugar, 495 de los N-terminales de las proteínas no anotadas se dedujeron para ser putativo aTIS aguas abajo del sitio de inicio canónico. Éstas incluían proteínas N-termini que comenzaban con metionina interna sin importar que estuvieran acetiladas (223) o libres (272) y sin importar que la metionina fuera retenida (234) o eliminada (261). Utilizamos iceLogo para comparar las frecuencias de aminoácidos después de iMet en dbTIS y en aTIS putativo utilizando todas las secuencias de aminoácidos después de cualquier Met en la base de datos Swiss-Prot humana para establecer las frecuencias de aminoácidos de fondo. Ambos logotipos mostraron altas preferencias por la alanina y la serina en la posición inmediatamente posterior a iMet y preferencias posteriores por la alanina principalmente (Fig. 5A). En la categoría putativa aTIS, los dos aminoácidos se identificaron con una frecuencia total del 32% en la primera posición después de iMet (Fig. Suplementaria S2). Las secuencias consenso de nucleótidos que rodeaban el codón ATG de dbTIS y aTIS putativo mostraron un patrón similar de secuencias Kozak41,42,43 (Fig. 5B). Por otra parte, 77 de los 495 aTIS putativos fueron mapeados en el iMet superior de los transcritos de splicing alternativo en la base de datos de splicing alternativo ECgene (Tabla Suplementaria S3)44, lo que implica que estos aTIS putativos pueden no ser verdaderos aTIS, sino que actúan como TIS canónicos en caso de un evento de splicing alternativo que genera transcritos más cortos. Dadas estas interpretaciones, parece que los N-terminales de las proteínas de nuestra categoría de aTIS putativos se originaron a partir de la iniciación de la traducción alternativa o de la traducción después del splicing alternativo.

Figura 5
figure5

Sitios de iniciación de traducción alternativa putativa. (A) Diagramas iceLogo para las ocurrencias de aminoácidos entre dbTIS y aTIS putativos. Se determinaron las frecuencias de aminoácidos después de cualquier metionina (ya sea iMet o Met interna) en la base de datos Swiss-Prot humana (versión 2015. 1) para su uso como corrección de fondo. Las secuencias comienzan inmediatamente después de la metionina. (B) Secuencias de nucleótidos en la región que flanquea al residuo de metionina iniciador. El ATG central es el codón de la metionina iniciadora del dbTIS (izquierda) y del putativo aTIS (derecha). (C) El diseño de NtermDB. Está diseñado para permitir la búsqueda de nuevos N-terminales de proteínas dentro de una región UTR aguas arriba. Los bloques naranjas representan regiones UTR, y los bloques verdes representan regiones de secuencia codificante (CDS). Se asumió que el N-terminal de la nueva proteína comienza en el codón de inicio («ATG») o en un pseudo-codón de inicio a lo largo del mismo marco que el de la CDS correspondiente. Elegimos el sitio de inicio (pseudo) más lejano aguas arriba y tradujimos in-silico el modelo de transcripción. Consulte los métodos para obtener más detalles. (D) Uso de codones en los nuevos N-terminales identificados. Se presentan las secuencias de nucleótidos correspondientes al primer residuo de los péptidos 5′-UTR identificados. (E) Número de PSMs para péptidos N-terminales acetilados o libres que comienzan con codones no iniciales.

Mientras que los aTIS aguas abajo de dbTIS pueden ser identificados utilizando la base de datos UniProtKB, aquellos eventos que comienzan aguas arriba de dbTIS no pueden ser descubiertos utilizando las bases de datos de proteínas de referencia actuales. Por lo tanto, construimos una nueva base de datos de secuencias de proteínas, ‘NtermDB’ (detallado en Métodos), que incluía secuencias in-silico-traducidas de 5′-UTRs de regiones de secuencias codificantes (CDS) conocidas desde el sitio de un codón de inicio (ATG) o sus variantes de un solo nucleótido, pseudo-codones de inicio (CTG, TTG, GTG, AGG, ACG, AAG, ATC, ATA y ATT) (Fig. 5C). Estos aTIS putativos fueron mapeados en el 67% del total de transcritos en la base de datos Ensembl (http://www.ensembl.org/index.html). Los sitios se distribuyeron uniformemente entre 23 cromosomas, con la excepción del cromosoma Y. Los espectros MS/MS no coincidentes en la primera búsqueda utilizando la base de datos UniProtKB se buscaron posteriormente en la NtermDB. Como resultado, identificamos 261 nuevos N-terminales de proteínas (de 394 transcritos). De estas transcripciones, cinco resultaron ser idénticas a las de los datos de Ribo-seq de Lee, S. et al.40. Todos ellos se transcribieron en el 5′-UTR utilizando los pseudocodones de inicio (Tabla Suplementaria S4). Los N-terminales de las proteínas se encontraron en todos los cromosomas, con la excepción del cromosoma Y y el cromosoma 21. Además, los N-terminales de las proteínas se distribuyeron mayoritariamente en el cromosoma 1 (Fig. Suplementaria S3a). De los 261 nuevos N-terminales de proteínas, 46 se identificaron en el 5′-UTR con un pseudocodón de inicio acetilado o libre (Fig. 5D; Fig. S3b suplementaria; Tabla S4 suplementaria). Los restantes 214 N-terminales de proteínas se encontraron con otro (pseudo) codón de inicio, más concretamente, los N-terminales se encontraron asociados a cuatro codones, es decir, GCT, GCA, GCC y GCG, que codifican alanina (46 terminales; Fig. 5E, Fig. Suplementaria S3c, Tabla Suplementaria S4). La mayoría de estos N-terminales de proteínas que comienzan con alanina se identificaron como acetilados y, con una sola excepción, no había ningún codón de parada intermedio hasta el comienzo de la CDS. De los 46 N-termini que empezaban con alanina, el 72% se identificaron con péptidos que se solapaban con la región CDS canónica. Por lo tanto, estamos seguros de haber identificado nuevos N-termini. Además, el 39% tenía un pseudocodón de inicio antes de la alanina. En la mayoría de los casos, como en el presente estudio y en otras investigaciones anteriores, cuando la iMet va seguida de la alanina, la iMet se escinde y luego la alanina recién expuesta se acetila. Por esta razón, es muy probable que los N-terminales de proteínas que tienen una alanina en el primer residuo y un pseudocodón de inicio en su residuo precedente sean sitios alternativos de iniciación de la traducción en el 5′-UTR.

Sitios de procesamiento desconocidos

De los 10.103 N-terminales de proteínas, sólo el 5% se predicen como aTIS putativos, y el 95% restante se derivan de un procesamiento hasta ahora desconocido. Nos preocupaba mucho encontrar una forma de distinguir entre los N-terminales libres en las células y los sitios internos expuestos durante el procesamiento de las muestras para poder atribuir características a los N-terminales no anotados. El etiquetado químico de los grupos aminos a nivel de la proteína es necesario para discriminar no sólo entre los N-terminales endógenos acetilados y los N-terminales libres endógenos, sino también entre el péptido N-terminal y los péptidos internos de la proteína. Sin embargo, si la inactivación del reactivo bloqueador de N no es completa, es posible que la α-amina del péptido interno en el residuo N-terminal esté marcada por los restos de reactivo bloqueador de N que quedan después o durante la digestión y estos péptidos internos podrían ser identificados falsamente como N-terminales de la proteína. Por lo tanto, durante el experimento, realizamos un paso de inactivación de la etiqueta química con hidroxilamina seguido de la digestión con FASP, y después de la búsqueda en la base de datos de MS, escogimos los N-terminales de proteínas sin un sitio específico de la proteasa en el extremo N-terminal del péptido identificado. La hidroxilamina también tiene un efecto beneficioso para revertir la O-acilación no deseada que podría ocurrir durante la reacción de etiquetado13. Curiosamente, casi la mitad de los N-terminales de proteínas resultantes de categoría de procesamiento desconocida (43%) se identificaron como formas acetiladas. La mayoría de los N-terminales de proteínas no anotados también se identificaron en eucariotas, independientemente de que los investigadores utilizaran métodos de enriquecimiento negativo17, 20 o positivo23. Si comparamos nuestro conjunto de datos con la base de datos generada por Crawford et al. («Degrabase»), centrándonos en los N-terminales de proteínas libres en las posiciones 3-65, observamos una gran similitud de los patrones de frecuencias de aminoácidos (Fig. Suplementaria S4). Por lo tanto, nos parece probable que los N-terminales libres de las proteínas sean sitios N-terminales recién expuestos, obtenidos tras la eliminación de señales putativas o péptidos de tránsito (según la interpretación de Crawford et al.). Los eventos de ragamiento de aminopeptidasas podrían alterar los productos de escisión generados inicialmente. Cuando comparamos los N-terminales de la proteína en las posiciones >65 con los de las posiciones 3-65, los datos mostraron una distribución de aminoácidos similar en las posiciones P1 y P1′ (Fig. 6A), con predominio de arginina en P1. A partir de los resultados, sospechamos que la escisión del péptido señal/tránsito y la degradación de las proteínas es causada principalmente por la tripsina-like.

Figura 6
figure6

Caracterización de los N-terminales de proteínas de la categoría de procesamiento desconocido. (A) Distribuciones de aminoácidos en las posiciones P1 y P1′ de los N-terminales de proteínas identificados en los residuos 3-65 (azul) y >65 (rojo) a lo largo de las secuencias de proteínas. (B) Número de proteínas según la proporción de PSMs de dbTIS. El valor ‘1’ del eje x significa que todos los PSMs coinciden con dbTIS, ‘0’ significa que la proteína fue identificada sólo con PSMs correspondientes a la categoría de procesamiento desconocida, y los valores intermedios significan que la proteína fue identificada con ambos tipos de PSMs. (C) Distribución de N-terminales de proteínas acetiladas y libres pertenecientes a la categoría de procesamiento desconocido.

En nuestro estudio se caracterizaron los N-terminales de un total de 5.727 proteínas. De ellas, 2.591 proteínas conservaron la secuencia N-terminal intacta (dbTIS), mientras que 3.968 proteínas se encontraron en formas truncadas sin señal/tránsito o secuencia de propéptidos conocida. Este tipo de proteínas truncadas también han sido notificadas principalmente por el método TAILS. Cabe destacar que el 83% de las 5.537 proteínas de las dos categorías se encontraron con secuencias intactas (28%, categoría «1») o truncadas (53%, categoría «0»), pero no con ambas características (Fig. 6B). Esto sugiere que la degradación de la proteína no es la causa principal del truncamiento. Más bien, dicho truncamiento parece tener una influencia en la diversidad funcional en el proteoma humano, y una cantidad considerable de N-terminales de proteínas en la categoría de procesamiento desconocido puede representar formas fisiológicas maduras en la célula HEK293T.

También observamos la frecuencia de residuos N-terminales entre los N-terminales de proteínas acetiladas y libres (Fig. 6C). Hubo una preferencia por el glutamato y el aspartato en los N-terminales de las proteínas acetiladas y por la serina y la prolina en los N-terminales de las proteínas libres. La degradación de las proteínas en las células eucariotas se lleva a cabo principalmente por el sistema ubiquitina/proteasoma y está regulada por la regla del extremo N. Recientemente, Lange et al. sugirieron una regla N-end modificada basada en la frecuencia de aminoácidos observada y el estado de Nt-acetilación de los N-terminales internos de las proteínas en los eritrocitos humanos20. El glutamato y el aspartato se clasificaron como «acetilados» o «no desestabilizados», mientras que la serina se clasificó como «desestabilizada». Los dos residuos ácidos se definen como residuos secundarios por la regla Arg/N-end. Así, la acetilación en el glutamato y el aspartato N-terminales inhibiría la desestabilización de la arginilación, lo que a su vez aumentaría la estabilidad de las proteínas. Por el contrario, se observó que la prolina estaba libre en los N-terminales, lo que refleja el hecho bien conocido de que la prolina interfiere estructuralmente con la acetilación y hace que los N-terminales estén libres. Por lo tanto, estas diferentes secuencias de aminoácidos observadas en los N-terminales de proteínas de categoría de procesamiento desconocida parecen derivarse de la estabilidad de la proteína por el estado Nt-acetilado.

La acetilación N-terminal se produce de forma co-traduccional por NATs, sin embargo, mientras que el mecanismo exacto para la Nt-acetilación post-traduccional se desconoce todavía, se ha informado de una característica de Nt-acetilación post-traduccional en la levadura26. Hemos identificado 4.088 N-terminales de proteínas acetiladas en la posición >2 (Fig. 4A). De estos, aproximadamente el 50% tienen terminales específicos de tripsina o GluC. Controlamos la acilación en el transcurso del experimento, por lo que desconocemos la causa exacta de este fenómeno. Una posible explicación es el error de anotación entre la acetilación N-terminal y la ε-acetilación de la lisina interna, ya que fijamos forzosamente la acilación en todos los residuos de ε-amina de la lisina durante la búsqueda en la base de datos. Excepto en los N-terminales con sitios específicos de la enzima, el glutamato se observó principalmente en la posición P1` (Fig. Suplementaria S5). Existe un informe que indica que las actinas maduras acetiladas que albergan Asp- o Glu- en los N-terminales se producen por modificación post-translacional45. Aunque nuestro resultado se ve como afectado por cada enzima en posición P1, todavía es posible que la acetilación fuera regulada por una modificación post-translacional. Para evaluar aún más nuestros datos del N-terminoma procesado desconocido, explotamos la información de un conjunto de datos publicados29 y de la base de datos TopFIND (http://clipserve.clip.ubc.ca/topfind/). En el caso de la Nt-acetilación en dbTIS, la mayoría de los N-terminales de proteínas, independientemente del tipo de muestras y de los métodos experimentales, fueron identificados en el proteoma humano. Más del 50% de los dbTIS identificados se solaparon entre dos conjuntos de datos (Fig. Suplementaria S6a). En contraste con esta proteína N-termini en la posición 1 o 2, hubo una disparidad significativa entre los datos de proteínas N-termini en las posiciones >2. En el artículo que utilizaba COFRADIC16, la información de los N-terminales de proteínas acetiladas en las posiciones >2 no estaba disponible y no pudo compararse, mientras que un artículo que utilizaba el método TAILS25 informó de un número considerable de N-terminales de proteínas (Fig. S6a suplementaria). Los N-terminales de proteínas en las posiciones >2 en el proteoma de la pulpa dental17 se identificaron en proporciones similares en nuestro estudio. Sin embargo, muy pocos N-terminales de proteínas en la posición >2 se encontraron comúnmente en ambos estudios (Supplementary Fig. S6b). Curiosamente, el análisis ontológico reveló que la «gran subunidad ribosómica», el «melanosoma», el «cromosoma nuclear» y la «parte mitocondrial» estaban mayormente enriquecidos en proteínas N-termini de posiciones >2 (Fig. Suplementaria S7). Por lo tanto, deducimos que la Nt-acetilación postraduccional se ve más afectada por el tipo o el estado de la muestra que la Nt-acetilación cotraduccional.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *