HOPS: un punteggio quantitativo rivela che la pleiotropia orizzontale pervasiva nella variazione genetica umana è guidata dall’estrema poligenicità dei tratti umani e delle malattie

Definizione della pleiotropia

Definiamo in modo restrittivo l’ambito della pleiotropia come applicabile solo alle varianti genetiche e in particolare alle varianti studiate come parte dei GWAS. Come effetti, stiamo considerando i risultati fenotipici misurati dai GWAS. Secondo la nostra definizione, quindi, la pleiotropia significa che una variante mostra associazioni significative attraverso i GWAS di più tratti. Inoltre, restringiamo l’ambito della pleiotropia che stiamo considerando per includere solo la pleiotropia orizzontale ed escludere la pleiotropia verticale (Fig. 1). Per elaborare questa distinzione, supponiamo di aver identificato una variante che influenza due tratti diversi, il tratto A e il tratto B. Nella pleiotropia verticale, i tratti stessi sono biologicamente correlati, così che l’effetto della variante sul tratto A causa effettivamente l’effetto sul tratto B. Una caratteristica chiave della pleiotropia verticale è che due tratti che sono biologicamente correlati dovrebbero essere correlati indipendentemente da quale gene specifico o variante sta causando l’effetto. Questo induce una correlazione tra le dimensioni degli effetti GWAS sui due tratti attraverso un intero set di varianti. Per esempio, ci aspettiamo che qualsiasi variante che aumenta il colesterolo LDL aumenti anche il rischio di malattia coronarica, perché sospettiamo che sia l’aumento del colesterolo LDL stesso a causare un aumento del rischio di malattia. Questo si traduce in una correlazione tra le dimensioni degli effetti delle varianti per il colesterolo LDL e la malattia coronarica, che è stata rilevata in più studi. La metodologia della randomizzazione mendeliana usa questa correlazione prevista all’interno di un dato insieme delle varianti per formulare un test statistico per le relazioni causali fra i tratti, che ora è ampiamente usato per la scoperta biologica. Noi estendiamo questa metodologia per utilizzare l’intero set di SNVs valutati da GWAS, trattando una correlazione GWAS-wide tra due tratti come prova di una relazione pleiotropica verticale tra questi tratti.

Fig. 1
figura1

Schema dei diversi tipi di pleiotropia. Gli studi precedenti distinguono tra pleiotropia verticale, dove gli effetti su un tratto sono mediati dagli effetti su un altro tratto, e pleiotropia orizzontale, dove gli effetti su più tratti sono indipendenti

Nel caso della pleiotropia orizzontale, una variante individuale agisce sui tratti A e B senza riflettere alcuna relazione a livello di tratto tra loro. A differenza della pleiotropia verticale, poiché non stiamo considerando l’effetto a livello di variante come prova di una relazione tra i due tratti, non possiamo rilevare la pleiotropia orizzontale rilevando le correlazioni tra i tratti. Invece, ogni variante orizzontalmente pleiotropica agisce con un proprio meccanismo unico. Queste particolari varianti pleiotropiche, quindi, dovrebbero mostrare una relazione tra i due tratti che si discosta dalla relazione che dedurremmo dalla correlazione genomica delle dimensioni degli effetti tra loro. Questa deviazione dalla correlazione tra i tratti non è una previsione di nessun tipo di modello di pleiotropia, ma deriva semplicemente dalla nostra definizione del termine “pleiotropia orizzontale”: qualsiasi coppia di tratti le cui dimensioni degli effetti sono correlate tra tutte le varianti è per definizione correlata dalla pleiotropia verticale, mentre qualsiasi variante i cui effetti su due tratti deviano sostanzialmente dalla relazione a livello di tratto tra quei tratti è per definizione esposta alla pleiotropia orizzontale.

Un punteggio quantitativo per la pleiotropia

Abbiamo sviluppato un metodo per misurare la pleiotropia orizzontale utilizzando dati statistici riassuntivi da GWAS su più tratti. Il nostro metodo si basa sull’applicazione di una procedura di sbiancamento statistico a un insieme di associazioni variante-tratto in ingresso, che rimuove le correlazioni tra i tratti causate dalla pleiotropia verticale e normalizza le dimensioni degli effetti su tutti i tratti. Utilizzando i punteggi Z dell’associazione decorrelati, misuriamo due componenti correlate ma distinte della pleiotropia: la grandezza totale dell’effetto sui tratti sbiancati (punteggio “magnitudine”, indicato con Pm) e il numero totale di tratti sbiancati interessati da una variante (punteggio “numero di tratti”, indicato con Pn). Entrambi i punteggi vengono poi scalati per il numero di tratti e moltiplicati per 100, in modo che il punteggio finale rappresenti il valore come sarebbe misurato in un set di dati di 100 tratti. Questo punteggio di pleiotropia quantitativa a due componenti ci permette di misurare sia l’ampiezza (punteggio di ampiezza della pleiotropia Pm) che la quantità (punteggio di pleiotropia del numero di tratti Pn) della pleiotropia orizzontale per tutti gli SNVs nel genoma umano. In linea di principio, queste sono quantità distinte: il punteggio Pm misura la dimensione totale dell’effetto pleiotropico di una variante in tutti i tratti, mentre il punteggio Pn misura il numero di effetti pleiotropici distinti che una variante ha. Una variante con un alto punteggio Pm e un basso punteggio Pn ha un grande effetto distribuito su un piccolo numero di tratti; una variante con un basso punteggio Pm e un alto punteggio Pn ha solo un effetto minore nel complesso, ma tale effetto è distribuito su un gran numero di tratti; e una variante con punteggi elevati su entrambe le componenti ha un grande effetto che è distribuito su un gran numero di tratti. Poiché ci aspettiamo che questi punteggi siano pesantemente influenzati dal linkage disequilibrium (LD), regrediamo Pm e Pn rispetto ai punteggi LD per produrre un punteggio corretto per LD (\( {P}_m^{mathrm{LD}}) e \( {P}_m^{mathrm{LD}}) (Figg. 2 e 3; Metodi).

Fig. 2
figura2

Contributi del linkage disequilibrium (LD) e della poligenicità alla pleiotropia orizzontale. Oltre al senso normale della pleiotropia orizzontale, sia il linkage disequilibrium (LD) che la poligenicità dovrebbero contribuire alla pleiotropia orizzontale. Nel caso della pleiotropia orizzontale indotta da LD, due SNV collegati hanno effetti indipendenti su tratti diversi che appaiono pleiotropici a causa del legame tra gli SNV. Nel caso della pleiotropia orizzontale indotta dalla poligenicità, due tratti altamente poligenici hanno una sovrapposizione nella loro impronta poligenica

Fig. 3
figura3

Metodo di punteggio della pleiotropia a due componenti. Noi (i) raccogliamo le statistiche di associazione dalla UK Biobank, (ii) le elaboriamo usando lo sbiancamento Mahalanobis, (iii) calcoliamo le due componenti del nostro punteggio di pleiotropia (Pm e Pn) sulla base delle statistiche di associazione sbiancate, (iv) usiamo i punteggi LD per correggere la pleiotropia indotta dalla LD (\( {P}_m^{mathrm{LD}} \) e \( {P}_n^{mathrm{LD}} \), e (v) usare valori P basati sulla permutazione per correggere l’architettura poligenica (\( {P}_m^P \) e \( {P}_n^P \))

Calcolo della significatività della pleiotropia

Calcoliamo i valori P per le due componenti del nostro punteggio di pleiotropia usando due procedure diverse, corrispondenti a due diverse aspettative nulle.

  1. I valori P teorici (Raw pleiotropy score o LD-corrected pleiotropy score ), calcolati analogamente ai valori P per gli studi di associazione genetica, compresi i GWAS, basati su uno scenario nullo in cui le varianti non mostrano effetti pleiotropici sui tratti osservati.

  2. Valori P empirici (punteggio di pleiotropia corretto per poligenicità/LD), calcolati per permutazione delle distribuzioni osservate dei tratti sbiancati. Questi valori P si basano su uno scenario nullo in cui le varianti possono avere effetti significativi su uno o più tratti, ma gli effetti di ogni variante su ogni tratto sono indipendenti e il numero di varianti con effetti su più tratti non è superiore a quanto ci si aspetterebbe dal caso.

Questa correzione empirica per la poligenicità è necessaria perché la poligenicità è un fattore importante che può produrre pleiotropia. Per esempio, è stato stimato che circa 100.000 loci indipendenti sono causali per l’altezza negli esseri umani. Se il numero totale di loci indipendenti nel genoma umano è di circa 1 milione, questo corrisponde a circa il 10% del genoma umano che ha un effetto sull’altezza. Se immaginiamo più fenotipi con questa stessa architettura genetica altamente poligenica, dovremmo aspettarci una sostanziale sovrapposizione tra loci causali per più tratti diversi, anche in assenza di una vera relazione causale tra i tratti, con conseguente pleiotropia orizzontale (Fig. 2).

Potere di rilevare la pleiotropia nelle simulazioni

Abbiamo condotto uno studio di simulazione per valutare le prestazioni del nostro punteggio di pleiotropia a due componenti. Abbiamo simulato 800.000 varianti che controllano 100 tratti, variando l’ereditabilità della scala di responsabilità per tratto di tutti i tratti h2 e la proporzione di varianti causali pleiotropiche e non pleiotropiche. Per introdurre LD nelle simulazioni, abbiamo usato l’architettura LD reale da 800.000 SNVs da 1000 Genomi popolazione europea. Abbiamo simulato i punteggi Z indipendentemente per ogni SNV e poi propagato LD per un dato SNV “contaminando” il suo punteggio Z in base ai punteggi Z degli SNV in LD con esso. Nel modello nullo, tutte le associazioni tratto-variante erano indipendenti e non veniva aggiunta alcuna pleiotropia orizzontale. Nei modelli di pleiotropia aggiunta, abbiamo scelto a caso una frazione di varianti causali e le abbiamo forzate ad avere associazioni simultanee con più tratti. Lo studio di simulazione ha mostrato che entrambe le componenti del punteggio di pleiotropia erano ben alimentate per rilevare la pleiotropia orizzontale (Fig. 4) e che la correzione LD riduce drasticamente la dipendenza del punteggio di pleiotropia da LD (file aggiuntivo 1: Figura S1). Sotto l’ipotesi nulla di nessuna pleiotropia orizzontale aggiunta, il tasso di falsi positivi era ben controllato per entrambi i punteggi quando c’era bassa ereditabilità o poche varianti causali. Tuttavia, quando ci sono molte varianti causali e alta ereditabilità per-variante, la LD-corretta punteggio pleiotropia (\( {P}_m^{mathrm{LD}} \) e \( {P}_n^{mathrm{LD}} \) rileva un grande eccesso di varianti pleiotropiche, a causa della sovrapposizione serendipitous tra varianti causali senza pleiotropia esplicitamente indotta. Il valore P empirico corretto per LD/poligenicità (\( {P}_m^P \) e \( {P}_n^P \)) non rileva questa pleiotropia serendipica allo stesso alto tasso.

Fig. 4
figura4

Studio di simulazione che mostra il tasso di falsi positivi (a,b,c,d) e la potenza (e,f,g,h) del punteggio di pleiotropia a due componenti. La riga superiore mostra le prestazioni sulle varianti simulate non pleiotropiche (la linea nera mostra un tasso di falsi positivi del 5%); la riga inferiore mostra le prestazioni sulle varianti pleiotropiche (la linea nera mostra una potenza dell’80%). Le simulazioni sono state eseguite sia per \( {P}_m^{mathrm{LD}} \ (sinistra) che per \( {P}_n^{mathrm{LD}} \ (destra), e sia senza correzione per la poligenicità (a,c,e,g) che con la correzione (b,f,d,h), con ereditabilità per variante che va da 0.0002 a 0,2, proporzione di loci causali non pleiotropici che vanno da 0 a 1%, e proporzione di loci causali pleiotropici che vanno da 0,1 a 1%. Il nostro metodo ha un buon potere di rilevare la pleiotropia per i tratti altamente ereditabili, anche se il suo potere è ridotto dalla poligenicità estrema. La poligenicità estrema aumenta anche il tasso di falsi positivi, anche se questo effetto è corretto dalla nostra correzione della poligenicità

In presenza di pleiotropia orizzontale aggiunta, il nostro approccio è stato alimentato per rilevare la pleiotropia con ereditabilità per variante h2 piccola come 0,002 se non ci sono varianti causali non pleiotropiche. In presenza di entrambe le varianti causali pleiotropiche e non pleiotropiche, rilevare la pleiotropia era più difficile, ma il nostro approccio aveva ancora un potere apprezzabile per rilevare le varianti pleiotropiche, che aumentava con l’aumentare dell’ereditabilità per-variante e diminuiva con l’aumentare del numero di varianti causali non pleiotropiche. L’aggiunta della correzione per l’architettura poligenica (\( {P}_m^P \) e \( {P}_n^P \)) ha ridotto questo potere solo leggermente. La potenza del nostro metodo non è stata sostanzialmente ridotta aumentando il numero di tratti interessati da varianti pleiotropiche (file aggiuntivo 1: Figura S2) o aggiungendo una struttura di correlazione realistica tra i tratti (file aggiuntivo 1: Figura S3).

Genome-wide pleiotropy study (GWPS) rivela una pleiotropia pervasiva

Per applicare il nostro metodo a dati di associazione umani reali, abbiamo utilizzato le statistiche di associazione GWAS per 372 tratti medici ereditabili misurati in 337.119 individui della UK Biobank. Abbiamo calcolato con successo il nostro punteggio di pleiotropia a due componenti per 767.057 varianti genome-wide e abbiamo condotto uno studio di pleiotropia genome-wide (GWPS), per analogia con un GWAS standard (Fig. 3; Metodi). File aggiuntivo 1: Figura S4 mostra i diagrammi quantile-quantile risultanti (diagrammi Q-Q). Abbiamo osservato un’inflazione significativa sia per il punteggio di magnitudine corretta per LD \( {P}_m^{mathrm{LD}} \) che per il numero di tratti \( {P}_n^{mathrm{LD} \) (Mann-Whitney U test P < 10-300 per entrambi). Inoltre, abbiamo osservato in entrambi i punteggi che la pleiotropia orizzontale era ampiamente distribuita in tutto il genoma, piuttosto che essere localizzato a pochi loci specifici (file aggiuntivo 1: Figura S5). Testando una strategia alternativa per il calcolo della matrice fenotipo-correlazione utilizzando tutti gli SNV ha prodotto risultati comparabili (Pearson r = 0.995 e 0.964 per \( {P}_m^{mathrm{LD}} \) e \( {P}_n^{mathrm{LD}} \) alla nostra strategia di utilizzare un set sfrondato di SNV per tenere conto della LD (r2 < 0.1) (File aggiuntivo 1: Figura S6).

La pleiotropia è guidata dalla poligenicità

Abbiamo applicato il calcolo del valore P empirico basato sulla permutazione (punteggio di pleiotropia corretto per poligenicità/LD: \( {P}_m^P \) e \( {P}_n^P \)) per correggere la nota architettura poligenica dei tratti e verificare se qualche loci è pleiotropico in misura maggiore di quanto ci si aspetterebbe a causa della poligenicità. File aggiuntivo 1: Le figure S7 e S8 mostrano i diagrammi Q-Q e Manhattan risultanti. In contrasto con i risultati del punteggio di pleiotropia corretto per LD (\( {P}_m^{mathrm{LD}} \) e \( {P}_n^{mathrm{LD} \)), non troviamo pleiotropia significativamente in eccesso rispetto a quanto ci si aspetterebbe dalla nota architettura poligenica dei tratti: ci sono drammaticamente meno loci con livelli significativi di pleiotropia a livello genomico dopo la correzione per l’architettura poligenica, e la distribuzione a livello genomico del punteggio di pleiotropia mostra meno pleiotropia del previsto (Mann-Whitney U test P < 10-300 per entrambi \( {P}_m^P \) e \( {P}_n^P \)).

Come ulteriore test per verificare se la pleiotropia che osserviamo è guidata dalla poligenicità, abbiamo calcolato la poligenicità degli stessi 372 tratti ereditabili dalla UK Biobank. Abbiamo misurato la poligenicità utilizzando una versione del fattore di inflazione genomica corretto utilizzando il punteggio LD \( {\lambda}_{mathrm{GC}}^c \) . Abbiamo poi stratificato questi tratti per \( {\lambda}_{mathrm{GC}}^c \) dopo aver controllato l’ereditabilità (Metodi) e calcolato il punteggio di pleiotropia corretto per LD a due componenti e i valori P per ogni componente indipendentemente per ogni variante nel genoma utilizzando ciascuno di questi bins di tratti. Abbiamo osservato che entrambi i punteggi sono altamente dipendenti dalla poligenicità, con i bin di poligenicità più bassi in ogni classe di ereditabilità che mostrano un’inflazione molto bassa. (Fig. 5; File aggiuntivo 1: Tabella S1). Presi insieme, questi risultati suggeriscono che la poligenicità estrema guida la pleiotropia orizzontale e che questo ha un effetto estremamente grande sull’architettura genetica dei fenotipi umani.

Fig. 5
figura5

Partite quantili-quantili (Q-Q) che mostrano l’inflazione del punteggio di pleiotropia in funzione della poligenicità. Le varianti sono stratificate in 4 lotti di circa 80 tratti ciascuno in base all’ereditabilità, e poi suddivise in 5 lotti di circa 20 tratti ciascuno in base alla poligenicità, come misurato dal fattore di inflazione genomica corretto \( {\lambda}_{mathrm{GC}}^c \). Le tonalità più scure rappresentano una bassa poligenicità e quelle più chiare un’alta poligenicità. Tutti i pannelli mostrano i valori P trasformati -log10. Le linee nere mostrano il valore atteso sotto l’ipotesi nulla

La distribuzione a livello genomico del punteggio di pleiotropia dà un’idea dell’architettura genetica

Oltre a osservare l’inflazione a livello genomico del punteggio di pleiotropia, possiamo anche ottenere un’idea dalla distribuzione del punteggio di pleiotropia a un livello più granulare.

La figura 6a mostra la distribuzione del punteggio di pleiotropia per SNV indipendenti (LD potato ad una soglia di r2 < 0.1) rispetto all’aspettativa sotto l’ipotesi nulla di nessun effetto pleiotropico. Osserviamo un grande eccesso nel punteggio del numero di tratti \( {P}_n^{\mathrm{LD}} \), e un eccesso più piccolo ma ancora altamente significativo nella grandezza totale dell’effetto pleiotropico \( {P}_m^{\mathrm{LD}} \). Questo eccesso deriva in parte da una lunga coda di loci altamente pleiotropici che superano la soglia di significatività genome-wide (linea tratteggiata in Fig. 6a), ma è principalmente guidato da una debole pleiotropia tra i loci che non raggiungono la significatività genome-wide.

Fig. 6
figura6

Distribuzione del punteggio di pleiotropia tra varianti (a), geni (b) e tratti (c). a La distribuzione globale di \( {P}_m^{mathrm{LD}} \ (sinistra) e \( {P}_n^{mathrm{LD}} \ (destra) per le 767.057 varianti testate. La distribuzione attesa sotto l’ipotesi nulla di assenza di pleiotropia è mostrata in rosso e la distribuzione osservata è mostrata in blu. La linea verticale rappresenta il valore del punteggio di pleiotropia corrispondente alla significatività a livello genomico (P < 5 × 10- 8). Un totale di 1769 (\( {P}_m^{mathrm{LD}} \)) e 643 (\( {P}_n^{mathrm{LD} \)) varianti non sono rappresentati per motivi di chiarezza, perché hanno valori estremi per il punteggio pleiotropia. b La distribuzione del punteggio medio di pleiotropia per le varianti codificanti in ogni gene per \( {P}_m^{\mathrm{LD}}) (sinistra) e \( {P}_n^{\mathrm{LD}) (destra). I primi dieci geni sono rappresentati sul lato destro dei grafici, mentre i geni con un punteggio di pleiotropia di 0 sono rappresentati sul lato sinistro dei grafici. c Il contributo delle varianti pleiotropiche a 82 tratti complessi e malattie. Il contributo delle varianti pleiotropiche è calcolato come il coefficiente di correlazione tra il valore assoluto dei punteggi Z e il punteggio di pleiotropia tra le varianti che sono genoma-significative per il punteggio di pleiotropia (P < 5 × 10- 8 per \( {P}_m^{\mathrm{LD}} \) e \( {P}_n^{\mathrm{LD}}) rispettivamente)

Il punteggio di pleiotropia è correlato alla funzione molecolare e biologica

Per indagare ulteriormente le proprietà delle varianti pleiotropiche, abbiamo esaminato gli effetti di varie annotazioni funzionali e biochimiche sul nostro punteggio di pleiotropia corretto per LD (\( {P}_m^{mathrm{LD}}) e \( {P}_n^{mathrm{LD}}) (Tabella 1; Metodi). Usando le annotazioni da Ensembl Variant Effect Predictor, abbiamo osservato che entrambi i componenti del punteggio di pleiotropia sono più alti in media nelle regioni trascritte (codifica e UTR) che nelle regioni intergeniche non codificanti. Questo risultato è stato confermato e ampliato dalle annotazioni di Roadmap Epigenomics, che ha mostrato che le regioni le cui configurazioni della cromatina erano associate a regioni attivamente trascritte, promotori, enhancer e siti di legame dei fattori di trascrizione avevano livelli significativamente più alti di entrambe le componenti del punteggio di pleiotropia, mentre l’eterocromatina e gli stati di cromatina quiescente avevano livelli significativamente più bassi. Esaminando i singoli segni istonici, abbiamo trovato che sia il segno istonico repressivo H3K27me3 che il segno istonico attivante H3K27ac erano associati a livelli elevati di pleiotropia, anche se il segno attivante H3K27ac aveva un effetto maggiore. Questo può indicare che essere sotto regolazione attiva produce livelli più alti di pleiotropia, sia che la regolazione sia repressiva o attivante.

Tabella 1 Analisi di arricchimento funzionale del punteggio di pleiotropia

Abbiamo anche usato i dati del progetto Genotype-Tissue Expression per misurare la connessione tra effetti trascrizionali e il nostro punteggio di pleiotropia (Tabella 1). Coerentemente con l’osservazione precedente che le regioni funzionali avevano punteggi di pleiotropia più alti, abbiamo trovato che le varianti che sono state identificate come cis eQTLs per qualsiasi gene in qualsiasi tessuto avevano punteggi di pleiotropia più alti in media. All’interno di eQTLs, abbiamo anche osservato correlazioni significative tra il nostro punteggio di pleiotropia e il numero di geni (\( {P}_m^{mathrm{LD}} \): r = 0.036, P < 2.2 × 10- 16; \( {P}_n^{mathrm{LD}} \): r = 0,035, P < 2,2 × 10- 16) e tessuti (\( {P}_m^{\mathrm{LD}} \): r = 0.062, P < 2.2 × 10- 16; \( {P}_n^{mathrm{LD}} \): r = 0.059, P < 2.2 × 10- 16) dove la variante è stata annotata come un eQTL, dimostrando che il nostro punteggio di pleiotropia è legato alle misure trascrizionali di pleiotropia.

Infine, abbiamo trovato che le varianti che sono eQTL per i geni i cui ortologhi sono associati a più fenotipi misurabili nei topi o nel lievito hanno punteggi di pleiotropia più elevati, dimostrando che il nostro punteggio di pleiotropia è anche legato alla pleiotropia negli organismi modello.

Tutti questi risultati sono coerenti quando si usa il punteggio di pleiotropia corretto per poligenicità/LD (\( {P}_m^P \) e \( {P}_n^P\Big) \), indicando che l’associazione della pleiotropia con la funzione molecolare e biologica non è guidata esclusivamente dall’architettura altamente poligenica (file addizionale 2).

Lo studio della pleiotropia a livello genomico identifica nuovi loci biologici

In analogia ai GWAS standard, la nostra metodologia GWPS può identificare le singole varianti che hanno un livello significativo di pleiotropia orizzontale a livello genomico. Utilizzando il punteggio di magnitudo corretto per LD ( {P}_m^{mathrm{LD}}), abbiamo identificato 74.335 varianti in 8093 loci indipendenti con un livello significativo di pleiotropia orizzontale a livello genomico, mentre utilizzando il punteggio di numero di tratti corretto per LD ( {P}_n^{mathrm{LD}) abbiamo identificato 18,393 varianti in 2859 loci indipendenti con un livello significativo a livello genomico di pleiotropia orizzontale, che sono tutti identificati anche dal punteggio di magnitudine corretto per LD ( {P}_m^{mathrm{LD}} \) (Metodi, file aggiuntivo 1: Tabella S2). Applicando la stessa analisi al punteggio di pleiotropia corretto per poligenicità/LD, utilizzando il punteggio di magnitudine corretto per poligenicità/LD \( {P}_m^P \) non ha identificato alcun loci significativo a livello genomico, ma utilizzando il punteggio di poligenicità/LD corretto per numero di tratti \( {P}_n^P \) ha identificato 2674 varianti in 432 loci. Sorprendentemente, la maggioranza dei loci significativi in \( {P}_n^{mathrm{LD}} \ (1519 di 2859) o \( {P}_n^P \) (294 di 432), insieme ad una considerevole minoranza di loci significativi in \( {P}_m^{mathrm{LD}} (2934 di 8093), non hanno alcuna voce nel catalogo GWAS dell’NHGRI-EBI, il che significa che non sono mai stati riportati come un locus associato in nessun GWAS pubblicato. Questi loci rappresentano una classe sotto-riconosciuta di variazione genetica che ha più effetti da deboli a intermedi che sono collettivamente significativi, ma nessun effetto forte specifico su qualsiasi tratto particolare. L’analisi di arricchimento funzionale sui geni vicino a questi loci significativi a livello genomico implica una vasta gamma di funzioni biologiche, tra cui l’adesione cellulare, la modifica post-traslazionale delle proteine, il citoscheletro, i fattori di trascrizione e le cascate di segnalazione intracellulare (file aggiuntivo 3). I loci significativi in \( {P}_n^P \) mostrano un sottoinsieme più mirato di funzioni, con un ruolo maggiore per le proteine nucleari che regolano la trascrizione e lo stato della cromatina, suggerendo che queste sono le funzioni che mostrano una pleiotropia orizzontale oltre il livello di base indotto dalla poligenicità. Il ruolo di questi nuovi loci e di questi processi biologici nella genetica e nella biologia umana può essere un’area fruttuosa per lo studio futuro, con il potenziale per la scoperta biologica.

I loci pleiotropici si replicano in set di dati GWAS indipendenti

Come set di dati di replica, abbiamo usato due fonti aggiuntive di statistiche riassuntive GWAS per calcolare il nostro punteggio di pleiotropia corretto per LD (\( {P}_m^{\mathrm{LD}}) e \( {P}_n^{\mathrm{LD}}): GWAS e meta-analisi pubblicate in precedenza per 73 tratti complessi e malattie umane, che abbiamo raccolto e curato manualmente dalla letteratura (Metodi, file aggiuntivo 1: Tabella S3); e uno studio pubblicato in precedenza su 430 metaboliti del sangue misurati in 7824 adulti europei. Per tutte le varianti coperte dalla UK Biobank, siamo stati in grado di calcolare il nostro punteggio di pleiotropia in modo indipendente utilizzando questi due set di dati (Fig. 7). Nel set di dati dei tratti e delle malattie, abbiamo osservato che il 57% dei loci \( {P}_m^{mathrm{LD}}) e il 38% dei loci \( {P}_n^{mathrm{LD}}) hanno replicato, mentre nel set di dati dei metaboliti del sangue, abbiamo osservato che il 17% dei loci \P}_m^{mathrm{LD} \ e il 12% dei loci \P}_n^{mathrm{LD} \ si sono replicati, rispetto al 5% dei loci \P}_m^{mathrm{LD} \ e al 6% dei loci \P}_n^{mathrm{LD} \ previsti per caso secondo un modello nullo basato sulla permutazione. Questo alto livello di replicazione utilizzando set indipendenti di statistiche riassuntive GWAS suggerisce che il nostro punteggio di pleiotropia sta catturando una proprietà biologica sottostante, piuttosto che un artefatto dello studio UK Biobank.

Fig. 7
figura7

Analisi di replicazione per lo studio di pleiotropia genome-wide. Abbiamo usato 372 tratti medici ereditabili della UK Biobank come set di dati di scoperta, e set di dati indipendenti di 73 tratti complessi e malattie e 430 metaboliti del sangue come set di dati di replica. In ogni caso, la frazione attesa di replicazione è stata determinata empiricamente utilizzando un’analisi di permutazione

La pleiotropia è correlata a specifici tratti complessi e malattie

Per caratterizzare le associazioni fenotipiche di questi loci, abbiamo usato il nostro set di dati di replica delle statistiche riassuntive GWAS pubblicate per 73 tratti quantitativi umani e malattie, più nove tratti aggiuntivi che abbiamo escluso dal nostro set di dati di replica per un totale di 82 (Metodi). Non siamo in grado di calcolare direttamente il grado di pleiotropia esibito da questi tratti, poiché la nostra definizione di pleiotropia orizzontale si applica solo alle varianti individuali e non ai tratti. Tuttavia, possiamo identificare i tratti le cui associazioni di varianti GWAS sono correlate al nostro punteggio di pleiotropia, che in un certo senso rappresenta i tratti che contribuiscono maggiormente al nostro segnale di pleiotropia orizzontale pervasiva. La figura 6c mostra le correlazioni tra il nostro punteggio di pleiotropia corretto per LD (\( {P}_m^{\mathrm{LD}}) e \( {P}_n^{mathrm{LD})) e le statistiche di associazione per questi 82 tratti e malattie. I tratti più fortemente correlati erano tratti antropometrici come l’indice di massa corporea, la circonferenza della vita e dell’anca e l’altezza; alcuni livelli di lipidi nel sangue, tra cui il colesterolo totale e i trigliceridi; e la schizofrenia. Questi sono tutti noti per essere tratti altamente poligenici ed eterogenei. I tratti meno correlati includono diverse misure di sensibilità all’insulina e risposta al glucosio, come l’indice di sensibilità all’insulina (ISI), alcune caratteristiche della morfologia del cervello e il biomarcatore infiammatorio lipoproteina (a). Questo può essere in parte dovuto alla bassa dimensione del campione dei GWAS corrispondenti. Tuttavia, queste correlazioni non sembrano essere guidate esclusivamente dalla dimensione del campione: nei casi in cui più GWAS per lo stesso tratto sono stati eseguiti su sottocampioni della popolazione (per esempio, solo maschi, solo femmine e combinati), la dimensione del campione influenza solo marginalmente la correlazione (file aggiuntivo 1: tabella S4). Un altro fattore che contribuisce può essere l’ereditabilità: l’altezza, in particolare, è tra i tratti più ereditabili che abbiamo esaminato, mentre l’ISI e le caratteristiche della morfologia del cervello sono tra i meno.

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *