El análisis exhaustivo de los N-terminales de las proteínas humanas permite evaluar varias formas de proteínas
Enriquecimiento profundo de péptidos N-terminales
Para caracterizar el estado de las proteínas en las células, realizamos un enriquecimiento «profundo» de péptidos N-terminales (Nrich) en la línea celular HEK293T basado en un método de selección negativa (Fig. 1, Métodos). El Nrich consistió en tres pasos experimentales principales: 1) el primer paso fue distinguir entre los Nα -acetilados endógenos y los N-terminales libres endógenos. Esto se hizo bloqueando las aminas primarias α y ε de las proteínas con anhídrido propiónico (PA) o anhídrido acético D6 (D6). 2) Las proteínas bloqueadas por aminas se digirieron con tripsina o GluC-endoproteasa utilizando los métodos FASP19 para la eliminación del reactivo de bloqueo N y el intercambio de tampón. 3) Los péptidos internos recién generados que contenían α-amina libre se eliminaron con una resina de agarosa activada con N-hidroxisuccinimida (NHS). Como resultado, se esperaba que los péptidos de la fracción de flujo en los experimentos con tripsina tuvieran un patrón de digestión similar al de ArgC debido a la propionilación o trideuteroacetilación de la ε-amina de la lisina. Como se esperaba, hubo un enriquecimiento de péptidos endógenos Nα-acetilados (Nt-acetylated N-termini) y de péptidos in vitro Nα-propionilados o Nα-D3-acetilados (N-termini libres). El flujo de la agarosa NHS se separó mediante un fraccionamiento en fase inversa de alto pH antes de la LC-MS/MS. Los datos de los espectros de masas se buscaron en la base de datos UniProtKB utilizando MS-GF+ y Comet, seguido de una validación con percolador. Posteriormente, los espectros no identificados de dos motores de búsqueda se volvieron a analizar mediante el algoritmo MODi (Fig. 1). Se utilizaron todos los péptidos encontrados en cualquiera de los motores de búsqueda.
Se observó que la eficacia del enriquecimiento para los péptidos bloqueados N-terminales era del 79% (±2) en PA-Trypsin, del 70% (±2) en PA-GluC, del 68% (±2) en D6-Trypsin y del 57% (±7) en D6-GluC. Las coincidencias del espectro peptídico (PSMs) para los péptidos bloqueados N-terminales se contaron en promedio como 74,456 en PA-Trypsin, 31,053 en PA-GluC, 86,115 en D6-Trypsin y 28,257 en D6-GluC en la tasa de falso descubrimiento (FDR) ≤0.01 (Fig. 2A). El número de N-terminales identificados varió dependiendo de la naturaleza de los reactivos bloqueadores de N y de las endoproteasas, aunque fue reproducible para cada configuración experimental. Los N-terminales identificados consistían en Nt-acetilados y N-terminales libres. Aunque Nrich incorporó un paso para la eliminación e inactivación de PA o D6 antes de la digestión por endoproteasas, encontramos péptidos internos bloqueados por PA o D6 que tenían sitios específicos de la proteasa en ambos extremos. Dichos péptidos pueden haber sido generados durante la digestión por restos de reactivos (arrastrados de un paso anterior). Por lo tanto, los péptidos marcados con PA o D6 con sitios específicos de la proteasa se excluyeron de la lista final, excepto los péptidos encontrados simultáneamente en los experimentos con tripsina y GluC. Finalmente, obtuvimos 6.209 proteínas N-termini en PA-Tripsina, 3.496 en PA-GluC, 7.583 en D6-Tripsina y 2.481 en D6-GluC. Observamos una cantidad casi igual de Nt-acetilados (44%) y N-terminales libres (56%) en todos los experimentos (Fig. 2B). Nuestro método pudo enriquecer los péptidos N-terminales con una eficacia similar, independientemente de los reactivos bloqueadores de N o de las endoproteasas. Esta observación es bastante similar a los resultados obtenidos por TAILS17, 20. En particular, nuestro análisis exhaustivo, utilizando dos reactivos de bloqueo de N y dos endoproteasas, aumentó en gran medida la cobertura del N-terminoma. En nuestro estudio se identificaron un total de 13.095 N-terminales de proteínas como suma. De estos productos, el 62% fueron encontrados exclusivamente por un solo método (Fig. 2C). Los cuatro métodos diferentes se realizaron por triplicado biológico y técnico, y los valores de los coeficientes de variación del número de N-termini estuvieron dentro del 20%. En comparación con el método más frecuentemente detectado, D6-Tripsina, el número total de todos los N-termini de proteínas identificados aumentó en un 73%. En general, el número de todos los N-termini de proteínas, encontrados por los cuatro métodos, aumentó en aproximadamente un 60% en comparación con un solo experimento. Además, calculamos el grado de acetilación de cada N-terminal de proteína basándonos en el número de PSMs (Fig. 2D). La mayoría de los N-terminales de las proteínas se identificaron como acetilados o libres, y rara vez se encontraron N-terminales de proteínas con acetilación parcial. Además, la correlación del grado de acetilación entre cada método diferente fue significativamente alta (0,83~0,94, Fig. 2E). Estos resultados nos llevan a la conclusión de que el estado de los N-terminales de las proteínas en las células puede determinarse independientemente de la naturaleza de los reactivos de bloqueo de N y de las endoproteasas. Sin embargo, la cobertura del N-terminoma puede incrementarse significativamente combinando los resultados de diferentes métodos de enriquecimiento.
Clasificación del N-terminoma
Los N-terminos identificados por Nrich se originaron a partir de dos tipos diferentes de N-terminos de proteínas, por ejemplo, Nt-acetilados y N-terminales libres (Nα-propionilados o Nα-D3-acetilados). Identificamos 6.525 N-terminales acetilados (o parcialmente acetilados) y 6.570 N-terminales libres. Los datos del N-terminoma pueden clasificarse en función de su ubicación, junto con las correspondientes secuencias de proteínas depositadas en la base de datos de proteínas16, 17, 20, 21. Basándonos en estudios anteriores, primero dividimos los 13.095 N-terminales de 5.727 proteínas en 2.992 N-terminales anotados (23%) y 10.103 N-terminales no anotados (77%) (Fig. 3A). Los N-termini anotados incluían los sitios de iniciación de la traducción anotados por UniProtKB (dbTIS) y los N-termini de las proteínas en los sitios después de la eliminación de péptidos de señal o de tránsito por procesos postraduccionales (Tabla Suplementaria S1). Los dbTIS podrían subdividirse en N-terminales de proteínas que comienzan con Met iniciador (iMet retenido) y N-terminales de proteínas que comienzan en el segundo residuo sin Met iniciador generado por modificación cotraduccional (iMet eliminado), o los que pertenecen a la «categoría de residuos no terminales», es decir, para aquellas secuencias de proteínas de la base de datos UniProtKB que no comienzan con metionina. El 95% de los dbTIS proceden de secuencias de proteínas canónicas y el 5% de proteínas isoformes. Por lo general, las isoformas de proteínas se producen por splicing alternativo o por iniciación alternativa de la traducción. Un ejemplo interesante es la identificación del péptido N-terminal acetilado de la GSR (glutatión reductasa, P00390-2). A esta isoforma le faltan los primeros 43 residuos de su secuencia canónica. Según la anotación de UniProt, la localización subcelular de la isoforma (citoplasma) es diferente a la de su forma canónica (mitocondria). Los N-terminales de las proteínas de la categoría dbTIS se compararon con el algoritmo «Terminus «22. Como resultado, se encontró que el estado del 74% de los N-termini de las proteínas era el mismo que el predicho por el Terminus (Tabla Suplementaria S1).