HOPS : un score quantitatif révèle une pléiotropie horizontale omniprésente dans la variation génétique humaine est pilotée par une polygénicité extrême des traits humains et des maladies

Définir la pléiotropie

Nous définissons de manière étroite la portée de la pléiotropie comme s’appliquant uniquement aux variants génétiques et en particulier aux variants étudiés dans le cadre des GWAS. En tant qu’effets, nous considérons les résultats phénotypiques mesurés par les GWAS. Selon notre définition, la pléiotropie signifie donc qu’une variante présente des associations significatives dans les GWAS de plusieurs traits. Nous limitons en outre la portée de la pléiotropie que nous considérons pour n’inclure que la pléiotropie horizontale et exclure la pléiotropie verticale (Fig. 1). Pour approfondir cette distinction, supposons que nous ayons identifié une variante qui influence deux traits différents, le trait A et le trait B. Dans le cas de la pléiotropie verticale, les traits eux-mêmes sont biologiquement liés, de sorte que l’effet de la variante sur le trait A provoque en fait l’effet sur le trait B. Une caractéristique clé de la pléiotropie verticale est que deux traits qui sont biologiquement liés devraient être liés indépendamment du gène ou de la variante spécifique qui cause l’effet. Cela induit une corrélation entre les tailles d’effet GWAS sur les deux traits à travers un ensemble complet de variantes. Par exemple, nous nous attendons à ce que toute variante qui augmente le cholestérol LDL augmente également le risque de maladie coronarienne, car nous soupçonnons que c’est l’augmentation du cholestérol LDL elle-même qui entraîne un risque accru de maladie. Il en résulte une corrélation entre les tailles d’effet des variantes pour le cholestérol LDL et les maladies coronariennes, qui a été détectée dans de nombreuses études. La méthodologie de la randomisation mendélienne utilise cette corrélation prédite dans un ensemble donné de variantes pour formuler un test statistique des relations causales entre les traits, qui est maintenant largement utilisé pour la découverte biologique. Nous étendons cette méthodologie pour utiliser l’ensemble des SNV évalués par GWAS, en traitant une corrélation à l’échelle de GWAS entre deux traits comme une preuve d’une relation pléiotropique verticale entre ces traits.

Fig. 1
figure1

Schéma des différents types de pléiotropie. Des études antérieures distinguent la pléiotropie verticale, où les effets sur un trait sont médiés par des effets sur un autre trait, et la pléiotropie horizontale, où les effets sur plusieurs traits sont indépendants

Dans le cas de la pléiotropie horizontale, une variante individuelle agit sur les traits A et B sans refléter aucune relation au niveau du trait entre eux. Contrairement à la pléiotropie verticale, puisque nous ne considérons pas l’effet au niveau de la variante comme la preuve d’une relation entre les deux traits, nous ne pouvons pas détecter la pléiotropie horizontale en détectant les corrélations entre les traits. Au contraire, chaque variante pléiotropique horizontale agit par son propre mécanisme unique. Ces variants pléiotropes particuliers devraient donc montrer une relation entre les deux traits qui s’écarte de la relation que nous pourrions déduire de la corrélation à l’échelle du génome des tailles d’effet entre eux. Cet écart par rapport à la corrélation entre les traits n’est pas une prédiction d’un quelconque modèle de pléiotropie, mais découle simplement de notre définition du terme  » pléiotropie horizontale  » : toute paire de traits dont les tailles d’effet sont corrélées entre toutes les variantes est par définition liée par pléiotropie verticale, tandis que toute variante dont les effets sur deux traits s’écartent sensiblement de la relation au niveau du trait entre ces traits présente par définition une pléiotropie horizontale.

Un score quantitatif pour la pléiotropie

Nous avons développé une méthode pour mesurer la pléiotropie horizontale en utilisant les données statistiques sommaires des GWAS sur plusieurs traits. Notre méthode repose sur l’application d’une procédure de blanchiment statistique à un ensemble d’associations variante-trait d’entrée, qui supprime les corrélations entre les traits causées par la pléiotropie verticale et normalise les tailles d’effet sur tous les traits. En utilisant les Z-scores des associations décorrélées, nous mesurons deux composantes connexes mais distinctes de la pléiotropie : l’ampleur totale de l’effet sur les traits blanchis (score « ampleur », noté Pm) et le nombre total de traits blanchis affectés par une variante (score « nombre de traits », noté Pn). Les deux scores sont ensuite mis à l’échelle par le nombre de traits et multipliés par 100, de sorte que le score final représente la valeur telle qu’elle serait mesurée dans un ensemble de données de 100 traits. Ce score de pléiotropie quantitative à deux composantes nous permet de mesurer à la fois l’ampleur (score d’ampleur de la pléiotropie Pm) et la quantité (score de nombre de traits de la pléiotropie Pn) de la pléiotropie horizontale pour tous les SNV du génome humain. En principe, il s’agit de quantités distinctes : le score de magnitude Pm mesure la taille de l’effet pléiotropique total d’une variante sur tous les traits, tandis que le score du nombre de traits Pn mesure le nombre d’effets pléiotropiques distincts d’une variante. Une variante avec un score Pm élevé et un score Pn faible a un effet important réparti sur un petit nombre de traits ; une variante avec un score Pm faible et un score Pn élevé n’a qu’un effet mineur dans l’ensemble, mais cet effet est réparti sur un grand nombre de traits ; et une variante avec des scores élevés sur les deux composantes a un effet important qui est réparti sur un grand nombre de traits. Comme nous nous attendons à ce que ces scores soient fortement influencés par le déséquilibre de liaison (DL), nous régressons Pm et Pn par rapport aux scores de DL pour produire un score corrigé du DL (\( {P}_m^{\mathrm{LD}} \) et \( {P}_m^{\mathrm{LD}} \)). (Figures 2 et 3 ; Méthodes).

Fig. 2
figure2

Contributions du déséquilibre de liaison (DL) et de la polygénicité à la pléiotropie horizontale. En plus du sens normal de la pléiotropie horizontale, on s’attend à ce que le déséquilibre de liaison (LD) et la polygénicité contribuent tous deux à la pléiotropie horizontale. Dans le cas de la pléiotropie horizontale induite par le déséquilibre de liaison, deux SNV liés ont des effets indépendants sur des caractères différents qui semblent pléiotropiques en raison de la liaison entre les SNV. Dans le cas de la pléiotropie horizontale induite par la polygénicité, deux traits hautement polygéniques ont un chevauchement dans leur empreinte polygénique

Fig. 3
figure3

Méthode du score de pléiotropie à deux composantes. Nous (i) collectons les statistiques d’association de la UK Biobank, (ii) les traitons en utilisant le blanchiment de Mahalanobis, (iii) calculons les deux composantes de notre score de pléiotropie (Pm et Pn) sur la base des statistiques d’association blanchies, (iv) utilisons les scores LD pour corriger la pléiotropie induite par le LD (\( {P}_mathrm{LD} \) et \( {P}_n^{\mathrm{LD} \)), et (v) utiliser des valeurs P basées sur la permutation pour corriger l’architecture polygénique (\( {P}_m^P \) et \( {P}_n^P \))

Calcul de la significativité de la pléiotropie

Nous calculons les valeurs P pour les deux composantes de notre score de pléiotropie en utilisant deux procédures différentes, correspondant à deux attentes nulles différentes.

  1. Les valeurs P théoriques (score de pléiotropie brut ou score de pléiotropie corrigé du LD ), calculées de manière analogue aux valeurs P des études d’association génétique, y compris les GWAS, sur la base d’un scénario nul où les variants ne présentent pas d’effets pléiotropiques sur les traits observés.

  2. Valeurs P empiriques (polygénicité/score de pléiotropie corrigé par la LD ), calculées par permutation des distributions observées des traits blanchis. Ces valeurs P sont basées sur un scénario nul dans lequel les variants peuvent avoir des effets significatifs sur un ou plusieurs traits, mais les effets de chaque variant sur chaque trait sont indépendants et le nombre de variants ayant des effets sur plusieurs traits n’est pas supérieur à ce qui serait attendu par hasard.

Cette correction empirique de la polygénicité est nécessaire car la polygénicité est un facteur majeur qui peut produire la pléiotropie. Par exemple, il a été estimé qu’environ 100 000 loci indépendants sont responsables de la taille chez l’homme . Si le nombre total de loci indépendants dans le génome humain est d’environ 1 million, cela correspond à environ 10 % du génome humain ayant un effet sur la taille. Si nous imaginons de multiples phénotypes avec cette même architecture génétique hautement polygénique, nous devons nous attendre à un chevauchement substantiel entre les loci causaux pour de multiples traits différents, même en l’absence de toute relation causale réelle entre les traits, ce qui entraîne une pléiotropie horizontale (Fig. 2).

Pouvoir de détection de la pléiotropie dans les simulations

Nous avons mené une étude de simulation pour évaluer la performance de notre score de pléiotropie à deux composantes. Nous avons simulé 800 000 variants contrôlant 100 traits, en faisant varier l’héritabilité de l’échelle de responsabilité par trait de tous les traits h2 et la proportion de variants causaux pléiotropiques et non pléiotropiques. Pour introduire le DL dans les simulations, nous avons utilisé l’architecture réelle du DL à partir de 800 000 SNV de la population européenne 1000 Genomes. Nous avons simulé les Z-scores indépendamment pour chaque SNV, puis propagé le DL pour un SNV donné en « contaminant » son Z-score en fonction des Z-scores des SNV en DL avec lui. Dans le modèle nul, toutes les associations trait-variant sont indépendantes, et aucune pléiotropie horizontale n’est ajoutée. Dans les modèles de pléiotropie ajoutée, nous avons choisi au hasard une fraction des variants causaux et les avons forcés à avoir des associations simultanées avec plusieurs traits. L’étude de simulation a montré que les deux composantes du score de pléiotropie avaient une bonne puissance pour détecter la pléiotropie horizontale (figure 4) et que la correction du DL réduit considérablement la dépendance du score de pléiotropie par rapport au DL (fichier supplémentaire 1 : figure S1). Sous l’hypothèse nulle d’absence de pléiotropie horizontale ajoutée, le taux de faux positifs était bien contrôlé pour les deux scores lorsque l’héritabilité était faible ou que les variants causaux étaient peu nombreux. Cependant, lorsqu’il y a beaucoup de variantes causales et une héritabilité élevée par variante, le score de pléiotropie corrigé du DL (\( {P}_m^{\mathrm{LD}} \) et \( {P}_n^{\mathrm{LD}} \)) détecte un grand excès de variantes pléiotropiques, en raison du chevauchement fortuit entre les variantes causales sans pléiotropie explicitement induite. La valeur P empirique corrigée du DL/polygénicité (\( {P}_m^P \) et \( {P}_n^P \)) ne détecte pas cette pléiotropie sérendipiteuse à un taux aussi élevé.

Fig. 4
figure4

Etude de simulation montrant le taux de faux positifs (a,b,c,d) et la puissance (e,f,g,h) du score de pléiotropie à deux composantes. La ligne supérieure montre les performances sur des variantes simulées non pléiotropiques (la ligne noire indique un taux de faux positifs de 5 %) ; la ligne inférieure montre les performances sur des variantes pléiotropiques (la ligne noire indique une puissance de 80 %). Les simulations ont été effectuées à la fois pour \( {P}_m^{\mathrm{LD}} \) (gauche) et \( {P}_n^{\mathrm{LD}} \) (droite), et à la fois sans correction pour la polygénicité (a,c,e,g) et avec la correction (b,f,d,h), avec une héritabilité par variante allant de 0.0002 à 0,2, la proportion de loci causaux non pléiotropiques allant de 0 à 1%, et la proportion de loci causaux pléiotropiques allant de 0,1 à 1%. Notre méthode a un bon pouvoir de détection de la pléiotropie pour les traits hautement héritables, bien que son pouvoir soit réduit par une polygénicité extrême. La polygénicité extrême augmente également le taux de faux positifs, bien que cet effet soit corrigé par notre correction de polygénicité

En présence d’une pléiotropie horizontale ajoutée, notre approche était puissante pour détecter la pléiotropie avec une héritabilité h2 par variable aussi petite que 0,002 s’il n’y a pas de variants causaux non pléiotropiques. En présence de variantes causales pléiotropiques et non pléiotropiques, la détection de la pléiotropie était plus difficile, mais notre approche avait encore une puissance appréciable pour détecter les variantes pléiotropiques, qui augmentait avec l’héritabilité per-variante et diminuait avec l’augmentation du nombre de variantes causales non pléiotropiques. L’ajout de la correction pour l’architecture polygénique (\( {P}_m^P \) et \( {P}_n^P \)) n’a que légèrement réduit cette puissance. La puissance de notre méthode n’a pas été sensiblement réduite en augmentant le nombre de traits affectés par les variants pléiotropes (fichier additionnel 1 : figure S2) ou en ajoutant une structure de corrélation réaliste entre les traits (fichier additionnel 1 : figure S3).

L’étude de pléiotropie à l’échelle du génome (GWPS) révèle une pléiotropie omniprésente

Pour appliquer notre méthode à des données d’association humaines réelles, nous avons utilisé les statistiques d’association GWAS pour 372 traits médicaux héréditaires mesurés chez 337 119 individus de la UK Biobank . Nous avons réussi à calculer notre score de pléiotropie à deux composantes pour 767 057 variantes à l’échelle du génome et avons mené une étude de pléiotropie à l’échelle du génome (GWPS), par analogie avec une GWAS standard (Fig. 3 ; Méthodes). Fichier supplémentaire 1 : La figure S4 montre les diagrammes quantile-quantile résultants (diagrammes Q-Q). Nous avons observé une inflation significative pour le score d’amplitude corrigé du DL \( {P}_m^{\mathrm{LD}} \) et le score du nombre de traits \( {P}_n^{\mathrm{LD}} \) (test U de Mann-Whitney P < 10-300 pour les deux). De plus, nous avons observé pour les deux scores que la pléiotropie horizontale était largement distribuée à travers le génome, plutôt que d’être localisée à quelques loci spécifiques (fichier supplémentaire 1 : figure S5). Le test d’une autre stratégie de calcul de la matrice phénotype-corrélation utilisant tous les SNV a donné des résultats comparables (r de Pearson = 0,995 et 0,964 pour \( {P}_m^{\mathrm{LD}} \) et \( {P}_n^{\mathrm{LD}} \) respectivement) à notre stratégie d’utilisation d’un ensemble élagué de SNV pour tenir compte du DL (r2 < 0.1) (fichier additionnel 1 : figure S6).

La pléiotropie est pilotée par la polygénicité

Nous avons appliqué le calcul de la valeur P empirique basé sur la permutation (score de pléiotropie corrigé du DL : \( {P}_m^P \) et \( {P}_n^P \)) pour corriger l’architecture polygénique connue des traits et tester si certains loci sont pléiotropes dans une plus grande mesure que ce qui serait attendu en raison de la polygénicité. Fichier supplémentaire 1 : Les figures S7 et S8 montrent les graphiques Q-Q et les graphiques de Manhattan qui en résultent. Contrairement aux résultats du score de pléiotropie corrigé du DL (\( {P}_m^{\mathrm{LD}} \) et \( {P}_n^{\mathrm{LD}} \)), nous ne trouvons pas de pléiotropie nettement supérieure à ce que l’on pourrait attendre de l’architecture polygénique connue des caractères : il y a dramatiquement moins de loci avec des niveaux significatifs de pléiotropie à l’échelle du génome après correction de l’architecture polygénique, et la distribution à l’échelle du génome du score de pléiotropie montre moins de pléiotropie que prévu (test U de Mann-Whitney P < 10-300 pour les deux \( {P}_m^P \) et \( {P}_n^P \)).

Comme test supplémentaire pour savoir si la pléiotropie que nous observons est dirigée par la polygénicité, nous avons calculé la polygénicité des mêmes 372 traits héréditaires de la UK Biobank. Nous avons mesuré la polygénicité à l’aide d’une version du facteur d’inflation génomique corrigée par le score LD \( {\lambda}_{\mathrm{GC}}^c \) . Nous avons ensuite stratifié ces caractères par \( {\lambda}_{\mathrm{GC}}^c \) après avoir contrôlé l’héritabilité (Méthodes) et calculé le score de pléiotropie corrigé du DL à deux composantes et les valeurs P pour chaque composante indépendamment pour chaque variant dans le génome en utilisant chacune de ces tranches de caractères. Nous avons observé que les deux scores dépendent fortement de la polygénicité, les bacs de polygénicité la plus faible dans chaque classe d’héritabilité montrant très peu d’inflation. (Fig. 5 ; Fichier supplémentaire 1 : Tableau S1). Pris ensemble, ces résultats suggèrent que la polygénicité extrême entraîne une pléiotropie horizontale et que cela a un effet extrêmement important sur l’architecture génétique des phénotypes humains.

Fig. 5
figure5

Plots quantile-quantile (Q-Q) montrant l’inflation du score de pléiotropie en fonction de la polygénicité. Les variants sont stratifiés en 4 lots d’environ 80 traits chacun par héritabilité, puis subdivisés en 5 lots d’environ 20 traits chacun par polygénicité, mesurée par le facteur d’inflation génomique corrigé \( {\lambda}_{\mathrm{GC}}^c \). Les nuances plus foncées représentent une faible polygénicité et les nuances plus claires une forte polygénicité. Tous les panneaux montrent les valeurs P transformées en -log10. Les lignes noires montrent la valeur attendue sous l’hypothèse nulle

La distribution à l’échelle du génome du score de pléiotropie donne un aperçu de l’architecture génétique

En plus d’observer l’inflation à l’échelle du génome du score de pléiotropie, nous pouvons également obtenir un aperçu de la distribution du score de pléiotropie à un niveau plus granulaire.

La figure 6a montre la distribution du score de pléiotropie pour les SNV indépendants (LD élagué à un seuil de r2 < 0,1) par rapport à l’attente sous l’hypothèse nulle d’absence d’effet pléiotropique. Nous observons un excès important dans le score du nombre de traits \( {P}_n^{\mathrm{LD}} \), et un excès plus faible mais toujours très significatif dans l’ampleur totale de l’effet pléiotropique \( {P}_m^{\mathrm{LD}} \). Cet excès provient en partie d’une longue queue de loci hautement pléiotropiques qui passent le seuil de signification à l’échelle du génome (ligne pointillée dans la figure 6a), mais il est principalement alimenté par une faible pléiotropie parmi les loci qui n’atteignent pas la signification à l’échelle du génome.

Fig. 6
figure6

Distribution du score de pléiotropie parmi les variants (a), les gènes (b) et les traits (c). a La distribution globale de \( {P}_m^{\mathrm{LD}} \) (gauche) et \( {P}_n^{\mathrm{LD}} \) (droite) pour les 767 057 variants testés. La distribution attendue sous l’hypothèse nulle d’absence de pléiotropie est représentée en rouge et la distribution observée est représentée en bleu. La ligne verticale représente la valeur du score de pléiotropie correspondant à la signification à l’échelle du génome (P < 5 × 10- 8). Au total, 1769 (\( {P}_m^{\mathrm{LD}} \)) et 643 (\( {P}_n^{\mathrm{LD}} \)) variants ne sont pas représentés par souci de clarté, car ils présentent des valeurs extrêmes pour le score de pléiotropie. b Distribution du score de pléiotropie moyen pour les variants codants dans chaque gène pour \( {P}_m^{\mathrm{LD}} \) (gauche) et \( {P}_n^{\mathrm{LD}} \) (droite). Les dix gènes les plus importants sont représentés sur le côté droit des graphiques, tandis que les gènes ayant un score de pléiotropie de 0 sont représentés sur le côté gauche des graphiques. c La contribution des variants pléiotropes à 82 traits et maladies complexes. La contribution des variants pléiotropes est calculée comme le coefficient de corrélation entre la valeur absolue des Z-scores et le score de pléiotropie parmi les variants qui sont significatifs à l’échelle du génome pour le score de pléiotropie.largement significatifs pour le score de pléiotropie (P < 5 × 10- 8 pour \( {P}_m^{\mathrm{LD}} \) et \( {P}_n^{\mathrm{LD}} \) respectivement)

.

Le score de pléiotropie est corrélé à la fonction moléculaire et biologique

Pour approfondir les propriétés des variants pléiotropes, nous avons examiné les effets de diverses annotations fonctionnelles et biochimiques sur notre score de pléiotropie corrigé du LD (\( {P}_m^{\mathrm{LD}} \) et \( {P}_n^{\mathrm{LD}} \)). (Tableau 1 ; Méthodes). En utilisant les annotations du Variant Effect Predictor d’Ensemblant, nous avons observé que les deux composantes du score de pléiotropie sont en moyenne plus élevées dans les régions transcrites (codage et UTR) que dans les régions non codantes intergéniques. Ce résultat a été confirmé et élargi par les annotations de Roadmap Epigenomics , qui ont montré que les régions dont les configurations chromatiniennes étaient associées à des régions activement transcrites, des promoteurs, des exhausteurs et des sites de liaison de facteurs de transcription présentaient des niveaux significativement plus élevés des deux composantes du score de pléiotropie, tandis que l’hétérochromatine et les états chromatiniens quiescents présentaient des niveaux significativement plus faibles. En examinant les marques d’histones individuelles, nous avons constaté que la marque d’histone répressive H3K27me3 et la marque d’histone activante H3K27ac étaient associées à des niveaux élevés de pléiotropie, bien que la marque activante H3K27ac ait un effet plus important. Cela peut indiquer que le fait d’être sous une régulation active du tout produit des niveaux plus élevés de pléiotropie, que cette régulation soit répressive ou activatrice.

Tableau 1 Analyse d’enrichissement fonctionnel du score de pléiotropie

Nous avons également utilisé les données du projet Genotype-Tissue Expression pour mesurer le lien entre les effets transcriptionnels et notre score de pléiotropie (tableau 1). Conformément à l’observation précédente selon laquelle les régions fonctionnelles présentaient des scores de pléiotropie plus élevés, nous avons constaté que les variantes identifiées comme eQTLs en cis pour tout gène dans tout tissu présentaient des scores de pléiotropie plus élevés en moyenne. Au sein des eQTL, nous avons également observé des corrélations significatives entre notre score de pléiotropie et le nombre de gènes (\( {P}_m^{\mathrm{LD}} \) : r = 0,036, P < 2.2 × 10- 16 ; \( {P}_n^{\mathrm{LD}} \) : r = 0,035, P < 2,2 × 10- 16) et les tissus (\( {P}_m^{\mathrm{LD} \) : r = 0.062, P < 2,2 × 10- 16 ; \( {P}_n^{\mathrm{LD}} \) : r = 0,059, P < 2,2 × 10- 16) où le variant a été annoté comme un eQTL, ce qui montre que notre score de pléiotropie est lié aux mesures transcriptionnelles de la pléiotropie.

Enfin, nous avons constaté que les variants qui sont des eQTL pour des gènes dont les orthologues sont associés à de multiples phénotypes mesurables chez la souris ou la levure ont des scores de pléiotropie plus élevés, ce qui démontre que notre score de pléiotropie est également lié à la pléiotropie dans les organismes modèles.

Tous ces résultats sont cohérents lorsqu’on utilise le score de pléiotropie corrigé de la polygénicité/LD (\( {P}_m^P \) et \( {P}_n^P\Big) \), ce qui indique que l’association de la pléiotropie avec la fonction moléculaire et biologique n’est pas exclusivement dirigée par une architecture hautement polygénique (fichier supplémentaire 2).

L’étude de pléiotropie à l’échelle du génome identifie de nouveaux loci biologiques

Par analogie avec les GWAS standard, notre méthodologie GWPS peut identifier les variantes individuelles qui ont un niveau significatif de pléiotropie horizontale à l’échelle du génome. En utilisant le score de magnitude corrigé du DL \( {P}_m^{\mathrm{LD}} \), nous avons identifié 74 335 variants dans 8093 loci indépendants avec un niveau de pléiotropie horizontale significatif à l’échelle du génome, tandis qu’en utilisant le score du nombre de traits corrigé du DL \( {P}_n^{\mathrm{LD}} \), nous avons identifié 18,393 variants dans 2 859 loci indépendants présentant un niveau de pléiotropie horizontale significatif à l’échelle du génome, tous étant également identifiés par le score de magnitude corrigé du DL \( {P}_m^{\mathrm{LD}} \) (Méthodes, fichier supplémentaire 1 : Tableau S2). En appliquant la même analyse au score de pléiotropie corrigé par le DL, l’utilisation du score de magnitude corrigé par le DL \( {P}_m^P \) n’a permis d’identifier aucun loci significatif à l’échelle du génome, mais l’utilisation du score de polygénicité corrigé par le DL du nombre de traits \( {P}_n^P \) a permis d’identifier 2674 variants dans 432 loci. Il est frappant de constater qu’une majorité de loci significatifs dans \( {P}_n^{\mathrm{LD}} \) (1519 sur 2859) ou \( {P}_n^P \) (294 sur 432), ainsi qu’une minorité non négligeable de loci significatifs dans \( {P}_m^{\mathrm{LD}} \) (2934 sur 8093), n’ont pas d’entrée dans le catalogue GWAS du NHGRI-EBI, ce qui signifie qu’ils n’ont jamais été signalés comme locus associé dans une GWAS publiée. Ces loci représentent une classe de variation génétique sous-reconnue qui a de multiples effets faibles à intermédiaires qui sont collectivement significatifs, mais aucun effet fort spécifique sur un trait particulier. L’analyse de l’enrichissement fonctionnel des gènes proches de ces loci significatifs pour l’ensemble du génome implique un large éventail de fonctions biologiques, notamment l’adhésion cellulaire, la modification post-traductionnelle des protéines, le cytosquelette, les facteurs de transcription et les cascades de signalisation intracellulaire (fichier supplémentaire 3). Les loci significatifs en \( {P}_n^P \) présentent un sous-ensemble de fonctions plus ciblées, avec un rôle plus important pour les protéines nucléaires régulant la transcription et l’état de la chromatine, ce qui suggère que ce sont les fonctions qui présentent une pléiotropie horizontale au-delà du niveau de base induit par la polygénicité. Le rôle de ces nouveaux loci et de ces processus biologiques dans la génétique et la biologie humaines pourrait être un domaine fructueux pour des études futures, avec un potentiel de découverte biologique.

Les loci pléiotropes se répliquent dans des ensembles de données GWAS indépendants

En tant qu’ensembles de données de réplication, nous avons utilisé deux sources supplémentaires de statistiques sommaires GWAS pour calculer notre score de pléiotropie corrigé du LD (\( {P}_m^{\mathrm{LD} \) et \( {P}_n^{\mathrm{LD} \)) 🙂 des études d’association pangénomique et des méta-analyses publiées précédemment pour 73 traits et maladies complexes humains, que nous avons collectées et classées manuellement à partir de la littérature (Méthodes, Fichier supplémentaire 1 : Tableau S3) ; et une étude publiée précédemment portant sur 430 métabolites sanguins mesurés chez 7824 adultes européens. Pour toutes les variantes couvertes par la UK Biobank, nous avons pu calculer notre score de pléiotropie indépendamment en utilisant ces deux ensembles de données (Fig. 7). Dans l’ensemble de données sur les traits et les maladies, nous avons observé que 57 % des loci \( {P}_m^{\mathrm{LD}} \) et 38 % des loci \( {P}_n^{\mathrm{LD}} \) se répliquaient, tandis que dans l’ensemble de données sur les métabolites sanguins, nous avons observé que 17% des loci \( {P}_m^{\mathrm{LD} \) et 12% des loci \( {P}_n^{\mathrm{LD} \) se sont répliqués, contre 5% des loci \( {P}_m^{\mathrm{LD} \) et 6% des loci \( {P}_n^{\mathrm{LD} \) attendus par hasard selon un modèle nul basé sur la permutation. Ce niveau élevé de réplication en utilisant des ensembles indépendants de statistiques sommaires GWAS suggère que notre score de pléiotropie capture une propriété biologique sous-jacente, plutôt qu’un artefact de l’étude UK Biobank.

Fig. 7
figure7

Analyse de réplication pour l’étude de pléiotropie à l’échelle du génome. Nous avons utilisé 372 traits médicaux héréditaires de la UK Biobank comme ensemble de données de découverte, et des ensembles de données indépendants de 73 traits et maladies complexes et 430 métabolites sanguins comme ensembles de données de réplication. Dans chaque cas, la fraction attendue de réplication a été déterminée empiriquement à l’aide d’une analyse de permutation

La pléiotropie est corrélée à des traits complexes et des maladies spécifiques

Pour caractériser les associations phénotypiques de ces loci, nous avons utilisé notre ensemble de données de réplication des statistiques sommaires GWAS publiées pour 73 traits quantitatifs et maladies humaines, plus neuf traits supplémentaires que nous avons exclus de notre ensemble de données de réplication pour un total de 82 (Méthodes). Nous ne sommes pas en mesure de calculer directement le degré de pléiotropie présenté par ces traits, puisque notre définition de la pléiotropie horizontale ne s’applique qu’aux variants individuels et ne s’applique pas aux traits. Cependant, nous pouvons identifier les traits dont les associations de variantes GWAS sont corrélées à notre score de pléiotropie, ce qui, dans un certain sens, représente les traits qui contribuent le plus à notre signal de pléiotropie horizontale omniprésente. La figure 6c montre les corrélations entre notre score de pléiotropie corrigé du DL (\( {P}_m^{\mathrm{LD}} \) et \( {P}_n^{\mathrm{LD}} \)) et les statistiques d’association pour ces 82 traits et maladies. Les traits les plus fortement corrélés étaient les traits anthropométriques tels que l’indice de masse corporelle, le tour de taille et de hanches et la taille ; certains taux de lipides sanguins, notamment le cholestérol total et les triglycérides ; et la schizophrénie. Ces caractéristiques sont toutes connues pour être hautement polygéniques et hétérogènes. Les traits les moins corrélés comprennent plusieurs mesures de la sensibilité à l’insuline et de la réponse au glucose, comme l’indice de sensibilité à l’insuline (ISI), certaines caractéristiques de la morphologie du cerveau et le biomarqueur inflammatoire lipoprotéine (a). Cela peut être dû en partie à la faible taille des échantillons des GWAS correspondantes. Toutefois, ces corrélations ne semblent pas dépendre exclusivement de la taille de l’échantillon : dans les cas où des GWAS multiples pour le même trait ont été réalisées sur des sous-échantillons de la population (par exemple, hommes seulement, femmes seulement, et combinés), la taille de l’échantillon n’affecte que marginalement la corrélation (fichier supplémentaire 1 : tableau S4). Un autre facteur contributif peut être l’héritabilité : la taille, en particulier, fait partie des traits les plus héritables que nous avons examinés, tandis que l’ISI et les caractéristiques de la morphologie cérébrale font partie des moins héritables.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *