Informazione

Trasferire gli odds ratio a un altro SNP con LD alto?

Trasferire gli odds ratio a un altro SNP con LD alto?


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Ho gli Odds Ratio (OR) per un particolare allele di rischio in un SNP (lo chiamerò SNP1). Quel SNP purtroppo non è stato genotipizzato nei miei dati, ma non voglio buttarlo via. Ho cercato l'SNP su LDLink e un altro SNP (lo chiamerò SNP2) è in disequilibrio ad alto collegamento con SNP1 (R2 = 0,94).

Come posso trasferire l'OR dall'allele SNP1 al corrispondente allele SNP2?

So che è qualcosa di simile a log(OR)*sqrt(R2) ma non ne sono del tutto sicuro. Qualcuno potrebbe chiarire se questa è la formula corretta?


La firma genomica delle varianti associate ai tratti

Studi di associazione a livello di genoma hanno identificato migliaia di varianti SNP associate a centinaia di fenotipi. Per la maggior parte delle associazioni le varianti causali ei meccanismi molecolari alla base della patogenesi rimangono sconosciuti. L'esplorazione delle annotazioni funzionali sottostanti dei loci associati ai tratti ha gettato luce sui loro potenziali ruoli nella patogenesi. Tuttavia, ci sono alcune carenze dei metodi utilizzati fino ad oggi, che possono minare gli sforzi per dare priorità alle varianti per ulteriori analisi. Qui, introduciamo e applichiamo nuovi metodi per identificare rigorosamente le classi di annotazione che mostrano l'arricchimento o l'esaurimento delle varianti associate ai tratti tenendo conto delle associazioni sottostanti dovute alla co-locazione di diverse annotazioni funzionali e al disequilibrio del collegamento.

Risultati

Abbiamo valutato l'arricchimento e l'esaurimento delle varianti nelle classi di annotazione disponibili pubblicamente come le regioni geniche, le caratteristiche normative, le misure di conservazione e i modelli di modificazioni dell'istone. Abbiamo utilizzato la regressione logistica per costruire un modello multivariato che identificasse le annotazioni funzionali più influenti per lo stato di associazione dei tratti di varianti significative a livello di genoma. Gli SNP associati a tutte le annotazioni arricchite avevano una probabilità 8 volte maggiore di essere varianti associate ai tratti rispetto agli SNP annotati con nessuna di esse. Le annotazioni associate allo stato della cromatina insieme alla precedente conoscenza dell'esistenza di un'espressione locale QTL (eQTL) sono stati i fattori più importanti nel modello di regressione logistica finale. Sorprendentemente, nonostante l'uso diffuso della conservazione evolutiva per dare priorità alle varianti per lo studio, troviamo solo un modesto arricchimento degli SNP associati ai tratti nelle regioni conservate.

Conclusione

Abbiamo stabilito gli odds ratio delle annotazioni funzionali che hanno maggiori probabilità di contenere SNP significativamente associati ai tratti, allo scopo di dare la priorità ai risultati GWAS per ulteriori studi. Inoltre, abbiamo stimato l'influenza relativa e combinata delle diverse annotazioni genomiche, che possono facilitare i futuri metodi di prioritizzazione aggiungendo informazioni sostanziali.


Introduzione

Il cancro al seno è una malattia parzialmente ereditaria. Mutazioni in diversi geni ad alta penetranza tra cui BRCA1 [1, 2], BRCA2 [3] e altri [4] sono associati ad un alto rischio di cancro al seno tra le portatrici e spiegano una frazione dell'ereditarietà. Gli studi di associazione a livello di genoma (GWAS) hanno identificato oltre 180 comuni polimorfismi a singolo nucleotide (SNP) associati al rischio di cancro al seno [5,6,7,8,9,10,11,12,13,14,15,16, 17,18,19,20]. La maggior parte di questi SNP sono stati identificati nelle popolazioni di origine europea e dell'Asia orientale, sebbene alcuni SNP unici siano stati identificati nelle popolazioni afroamericane [21] e nelle popolazioni latine [22, 23].

Diversi studi GWAS hanno identificato gli SNP a 6q25 associati al rischio di cancro al seno [13, 18, 20, 23,24,25,26,27] e alla densità mammografica [23, 27,28,29,30]. Il rapporto iniziale ha identificato un SNP nella regione intergenica tra ESR1 e CDCC170 in una popolazione dell'Asia orientale [24]. Il locus è stato poi confermato in altre popolazioni e sono state identificate diverse varianti aggiuntive [11, 18, 25, 26, 31]. Più recentemente, un approccio di mappatura fine e funzionale in questo locus ha identificato cinque distinte varianti comuni associate al rischio di diversi sottotipi di cancro al seno [27].

Le popolazioni ispaniche/latine sono il secondo gruppo etnico più numeroso negli Stati Uniti [32] e tuttavia sono state poco studiate in GWAS [33]. I latinos sono una popolazione di origini miste con contributi ancestrali europei, indigeni americani e africani [34,35,36,37]. Poiché non ci sono ampi studi sul cancro al seno nelle popolazioni indigene americane, gli studi sui latinos possono identificare nuove varianti associate al cancro al seno che sono uniche o sostanzialmente più comuni in questa popolazione. In precedenza abbiamo utilizzato un approccio di mappatura della commistione per cercare loci di suscettibilità al cancro al seno a Latinas e abbiamo identificato un'ampia regione a 6q25 in cui l'ascendenza indigena americana era associata a un ridotto rischio di cancro al seno [22]. Successivamente, abbiamo identificato un SNP (rs140068132) che era comune (frequenza allelica minore

0.1) solo nelle latine con ascendenza indigena americana ed è stato associato a un rischio sostanzialmente inferiore di cancro al seno, in particolare cancro al seno negativo al recettore per gli estrogeni (ER) e con una densità mammografica inferiore [23]. Tuttavia, la variante che abbiamo identificato non spiegava completamente il rischio associato all'ascendenza locus-specifica a 6q25 a Latinas, suggerendo che altre varianti potrebbero spiegare questo rischio. Abbiamo deciso di mappare e identificare ulteriori varianti a 6q25 associate al rischio di cancro al seno tra le latine.


Risultati

Panoramica dei metodi

Permettere essere la responsabilità di una malattia sulla scala logit, X essere un fattore di rischio nelle unità di deviazione standard (SD) e z essere il genotipo di un SNP (codificato come 0, 1 o 2). La stima RM dell'effetto causale del fattore di rischio sulla malattia 9 è (hat b_ = cappello b_/cappello b_) , dove B zy è l'effetto di z Su sulla scala logit (logaritmo dell'odds ratio, logOR), B zx è l'effetto di z Su X, e B xy è l'effetto di X Su esente da fattori confondenti non genetici (si noti che B xy può essere approssimativamente interpretato come logOR vedi sotto). SMR è un approccio RM flessibile e potente in grado di stimare e testare il significato di B xy utilizzando le stime di B zx e B zy da campioni indipendenti 17 . Se ci sono più SNP indipendenti (o quasi indipendenti) associati a X e l'effetto di X Su è causale, allora tutte le X-gli SNP associati avranno un effetto su attraverso X (Fig. 1a). In questo caso, B xy in uno qualsiasi dei X-gli SNP associati dovrebbero essere identici in assenza di pleiotropia 13,16,22 come tutti gli effetti SNP su sono mediati da X (Fig. 1b). Pertanto, una maggiore potenza statistica può essere ottenuta integrando le stime di B xy da tutti i X-associati SNP utilizzando un approccio generalizzato dei minimi quadrati (GLS) (Metodi). Il metodo GSMR implementa essenzialmente l'analisi SMR per ogni strumento SNP individualmente, quindi integra il B xy stime di tutti gli strumenti SNP da parte di GLS, tenendo conto della varianza campionaria in entrambi (hat b_) e (cappello b_) per ogni SNP e il LD tra gli SNP. È importante notare che, in conformità con uno dei presupposti di base per MR9, solo gli SNP che sono fortemente associati al fattore di rischio dovrebbero essere utilizzati come strumenti per le analisi MR, compreso il GSMR. Dimostriamo utilizzando simulazioni (Nota supplementare 1) che se utilizziamo SNP indipendenti associati all'esposizione a P < 5×10 -8 , non c'è inflazione nelle statistiche del test GSMR sotto l'ipotesi nulla che B xy = 0 (Supplemento Fig. 1a), che la stima di B xy da GSMR è imparziale sotto l'ipotesi alternativa che B xy≠0 (Tabella supplementare 1), e che B xy approssimativamente uguale a logOR (dove OR è l'effetto del fattore di rischio sulla malattia nello studio osservazionale senza confondere) (Figura 2 supplementare). GSMR tiene conto di LD se gli strumenti SNP non sono completamente indipendenti. Ciò è dimostrato dalla simulazione che in presenza di LD la statistica test è ben calibrata sotto lo zero (Supplementare Fig. 1b) e che la stima di B xy è imparziale secondo l'alternativa (tabella supplementare 1). Rispetto ai metodi esistenti che utilizzano dati di riepilogo per fare inferenze causali 12,13,16,18, GSMR è più potente come dimostrato dalla simulazione (supplementare Fig. 3) perché GSMR tiene conto della varianza di campionamento in entrambi (hat b_) e (cappello b_) mentre gli altri approcci presumono che B zx è stimato senza errori.

Sfruttando più strumenti genetici indipendenti (z) per verificare la causalità. Mostrato nel pannello un è un esempio schematico che se un'esposizione (X) ha un effetto su un risultato (), qualsiasi strumento (SNP) causalmente associato a X avrà effetto su , e l'effetto di X Su (B xy) in uno qualsiasi degli SNP dovrebbe essere identico. Ciò è ulteriormente illustrato in un esempio di giocattolo nel pannello B che sotto un modello causale, per gli SNP associati a X, l'effetto stimato di z Su ( (cappello b_) ) dovrebbe essere linearmente proporzionale all'effetto stimato di z Su X ( (cappello b_) ) e il rapporto tra i due è una stima dell'effetto di mediazione di X Su , ovvero (hat b_ = cappello b_/cappello b_)

La pleiotropia è un importante potenziale fattore di confusione che potrebbe falsare la stima e spesso si traduce in una statistica del test gonfiata in un'analisi RM 9,10,13,19. Proponiamo un metodo (chiamato HEIDI-outlier) per rilevare gli SNP pleiotropici a cui le stime di B xy sono significativamente diversi da quelli previsti in un modello causale e rimuoverli dall'analisi GSMR (Metodi). Il potere di rilevare un SNP pleiotropico dipende dalle dimensioni del campione dei set di dati GWAS e dalla deviazione di (hat b_) stimato al SNP pleiotropico dal modello causale. Abbiamo dimostrato mediante simulazione basata su un modello causale con pleiotropia che il potere di HEIDI-outlier è elevato soprattutto quando gli effetti pleiotropici sono grandi (Figura 4a supplementare). Ci sono certamente valori anomali pleiotropici (ad esempio, quelli con effetti molto piccoli) non rilevati da HEIDI-outlier. Tuttavia, questi effetti pleiotropici non rilevati non sembrano distorcere la stima GSMR (Supplementare Fig. 4b), in contrasto con una piccola distorsione nella stima della regressione di Egger (MR-Egger) che si pensa sia priva di confusione dalla pleiotropia 13 . I risultati della nostra simulazione mostrano anche che la stima GSMR di B xy non è significativamente diverso da zero in un modello pleiotropico senza effetto causale in presenza o assenza di LD (Tabella supplementare 2).

Sviluppiamo ulteriormente un metodo approssimativo (chiamato URL mtCOJO) che richiede solo dati di riepilogo per condurre un'analisi GWAS per un fenotipo condizionato a più fenotipi covariati (Metodi). Lo scopo dello sviluppo di questo metodo è stimare l'effetto di un fattore di rischio sull'aggiustamento della malattia per altri fattori di rischio (Metodi Nota supplementare 2 Supplementare Fig. 5), che aiuta a dedurre se l'effetto marginale del fattore di rischio sulla malattia dipende da altri fattori di rischio e per prevedere l'effetto congiunto di più fattori di rischio sulla malattia. È da notare che mtCOJO è privo di pregiudizi dovuti all'effetto ambientale o genetico condiviso tra il fenotipo e la covariata come descritto in Aschard et al. 23 (supplementare Fig. 6).

Gli effetti di sette fattori di rischio per la salute sulle malattie comuni

Abbiamo applicato i metodi per testare le associazioni causali tra sette fattori di rischio per la salute e malattie comuni utilizzando i dati di più ampi studi. I fattori di rischio sono BMI, rapporto vita-fianchi aggiustato per BMI (WHRadjBMI), colesterolo HDL (HDL-c), LDL-c, trigliceridi (TG), pressione sanguigna sistolica (SBP) e pressione sanguigna diastolica (DBP) . Abbiamo scelto questi fattori di rischio a causa della disponibilità di dati GWAS a livello di riepilogo da campioni di grandi dimensioni (n = 108,039-322,154) (Tabella supplementare 3). Abbiamo avuto accesso ai dati per BMI, WHRadjBMI, HDL-c, LDL-c e TG da GWAS 24,25,26 pubblicati e dati per SBP e DBP dal sottogruppo di UK Biobank (UKB) 27 con dati genotipizzati rilasciati nel 2015. Abbiamo SNP selezionati a un livello di significatività dell'intero genoma (PGWAS < 5 × 10 –8 ) utilizzando l'algoritmo di aggregazione (R 2 soglia = 0,05 e dimensione finestra = 1 Mb) implementato in PLINK 28 (Metodi). Si noti che il metodo GSMR tiene conto del restante LD non rimosso dall'analisi di aggregazione. C'erano m = 84, 43, 159, 141, 101, 28 e 29 SNP per BMI, WHRadjBMI, HDL-c, LDL-c, TG, SBP e DBP, rispettivamente, dopo l'aggregazione. Questi strumenti SNP sono quasi indipendenti, come dimostrato dalla distribuzione dei punteggi LD calcolati dagli strumenti per ciascun tratto (Figura 7 supplementare). Abbiamo incluso nell'analisi solo gli SNP quasi indipendenti per la facilità di confrontare direttamente i risultati di GSMR con quelli di altri metodi che non tengono conto di LD (ad esempio, MR-Egger). Il risultato della nostra simulazione suggerisce che il guadagno di potenza includendo gli SNP in LD è limitato (Figura 8 supplementare). Inoltre, sebbene l'approccio GSMR tenga conto della LD, l'inclusione di molti SNP in LD da moderata a elevata spesso comporta la V matrice non invertibile (Metodi).

I dati GWAS a livello riassuntivo per le malattie sono stati calcolati da due studi indipendenti basati sulla comunità con genotipi SNP a livello individuale, ovvero il Genetic Epidemiology Research on Adult Health and Aging 29 (GERA) (n = 53,991) e il sottogruppo di UKB 27 (n = 108,039). Abbiamo incluso nell'analisi 22 malattie comuni come definite nei dati GERA e abbiamo aggiunto un fenotipo aggiuntivo correlato alla comorbilità contando il numero di malattie che colpiscono ogni individuo (ad es. conta delle malattie) come indice grezzo per misurare lo stato di salute generale di un individuo (tabella supplementare 4). Abbiamo eseguito analisi di associazione genome-wide dei 23 fenotipi della malattia in GERA e UKB separatamente (metodi). Abbiamo valutato l'eterogeneità genetica di una malattia tra le due coorti mediante una correlazione genetica (RG) analisi utilizzando l'approccio della regressione del punteggio LD bivariato (LDSC) 30 . Le stime di RG in tutte le malattie variava da 0,75 a 0,99 con una media di 0,91 (Tabella supplementare 4), suggerendo forti sovrapposizioni genetiche per le malattie tra le due coorti. Abbiamo quindi meta-analizzato i dati delle due coorti per massimizzare la potenza utilizzando l'approccio di meta-analisi a varianza inversa 31 . Poiché l'OR è esente da bias di accertamento in uno studio caso-controllo, la dimensione dell'effetto (logOR) di un SNP sulla malattia nella popolazione generale può essere approssimata da quella di uno studio caso-controllo assumendo che la malattia nello studio caso-controllo è definita in modo simile a quella della popolazione generale. Pertanto, GSMR può essere applicato ai dati con effetti SNP sul fattore di rischio da uno studio basato sulla popolazione e effetti SNP sulla malattia da uno studio caso-controllo accertato, e l'effetto causale stimato del fattore di rischio sulla malattia dovrebbe essere interpretato come nella popolazione generale. Abbiamo quindi incluso nell'analisi i dati di sintesi per 11 malattie da studi caso-controllo pubblicati (n = 18.759–184.305) (Tabella supplementare 5). Gli effetti SNP stimati e gli errori standard (SE) per la degenerazione maculare senile (AMD) non erano disponibili nei dati di sintesi 32 , stimati da z-statistiche con approccio approssimativo (Nota Integrativa 3).

Abbiamo applicato l'approccio HEIDI-outlier per rimuovere gli SNP che mostravano effetti pleiotropici sia sul fattore di rischio che sulla malattia, deviati significativamente da un modello causale (metodi). Le correlazioni LD tra SNP a coppie sono state stimate dai dati Atherosclerosis Risk in Communities (ARIC) 33 (n = 7703 individui non imparentati) imputati a 1000 Genomi (1000G) 34 . Utilizzando i grandi set di dati sopra descritti, abbiamo identificato dalle analisi GSMR 45 associazioni causali significative tra fattori di rischio e malattie (Dati supplementari 1 Fig. 2). Abbiamo controllato il tasso di errore familiare (FWER) a 0,05 mediante la correzione di Bonferroni per 231 test (PGSMR soglia = 2,2 × 10 −4 ). Per il confronto dei metodi, abbiamo anche eseguito le analisi con MR-Egger 13 e i metodi in Pickrell et al. 16 (Dati Supplementari 2).

Associazioni causali presunte tra sette fattori di rischio modificabili e malattie comuni. Sono mostrati i risultati delle analisi GSMR con i dati sulla malattia un da una meta-analisi di due studi basati sulla comunità (GERA e UKB) e B da studi caso-controllo indipendenti pubblicati. I colori rappresentano le dimensioni degli effetti (misurati da odds ratio, OR) dei fattori di rischio sulle malattie, il rosso per gli effetti di rischio e il blu per gli effetti protettivi. Gli effetti significativi dopo la correzione per 231 test (PGSMR < 2.2 × 10 −4 ) sono etichettati con OR (P-valori). Gli effetti nominalmente significativi (PGSMR < 0.05) sono etichettati con “*”

Obesità e malattie comuni

I risultati delle analisi dei dati basati sulla comunità hanno mostrato che l'IMC aveva effetti di rischio su diabete di tipo 2 (odds ratio, OR = 3,29), malattia ipertensiva (OR = 1,85), dermatofitosi (cioè tinea) (OR = 1,67), malattie vascolari periferiche ( PVD) (OR = 1,59), osteoartrite (OR = 1,50), dislipidemia (OR = 1,37), asma (OR = 1,35) e CVD (OR = 1,30). Gli effetti di rischio dell'IMC su diabete di tipo 2, malattie cardiovascolari e malattia ipertensiva sono stati confermati dall'RCT 35 (Dati supplementari 1), che fornisce la convalida del principio. L'interpretazione di OR(IMC→T2D) = 3,29 è quella gente il cui BMI è 1 SD (SD = 3,98 per BMI negli uomini europei corrispondente a

12 kg di peso per gli uomini di statura di 175 cm (vedere la Tabella Supplementare 6 per la DS dei fattori di rischio) al di sopra della media della popolazione avranno un aumento del rischio di T2D di 3,29 volte rispetto alla prevalenza della popolazione (

8% negli Stati Uniti). È interessante notare che la stima di B xy al TCF7L2 locus fortemente deviato da quelli degli altri loci (Fig. 3), suggerendo che il TCF7L2 SNP ha effetti pleotropici su BMI e T2D. Il TCF7L2 SNP è stato rilevato come outlier dal metodo HEIDI-outlier e rimosso dall'analisi GSMR.Inoltre, l'effetto di rischio del BMI sull'asma è in linea con il risultato di un recente studio MR (che utilizza un punteggio allele genetico ponderato come strumento) secondo cui un BMI più elevato aumenta il rischio di asma infantile 36 . Inoltre, abbiamo identificato un effetto protettivo del BMI contro l'osteoporosi (OR = 0,68), coerente con le associazioni osservate in studi precedenti 37,38. L'effetto di rischio stimato dell'IMC sul diabete di tipo 2 nei dati della comunità (OR = 3,29) era simile a quello dei dati caso-controllo (OR = 3,12, Fig. 2b e Dati supplementari 1). Abbiamo anche osservato un forte effetto di rischio del BMI sulla malattia coronarica (CAD) nei dati caso-controllo (OR = 1,70), in linea con l'effetto di rischio del BMI sulla CVD (OR = 1,30) nei dati della comunità.

Analisi GSMR per testare l'effetto dell'IMC su T2D con e senza filtraggio degli outlier pleiotropici. Mostrato un e B sono i grafici delle dimensioni degli effetti e dell'associazione P-valori di tutti gli strumenti genetici da GWAS per BMI vs quelli per T2D. Mostrato C è la trama di B xy contro GWAS P-valore del BMI ad ogni variante genetica. Mostrato D, e, e F sono i grafici per gli strumenti dopo che gli outlier pleiotropici sono stati rimossi dall'approccio HEIDI-outlier (vedi Metodi per i dettagli dell'approccio HEIDI-outlier). Barre di errore in un e D rappresentano gli errori standard. Le linee tratteggiate in B e e rappresentano la soglia GWAS P-valore di 5 × 10 −8 . Le coordinate in B, C, e, e F sono troncati a 50 per una migliore presentazione grafica

Il sovrappeso è un fattore di rischio per gli esiti di salute generale, come indicato dal suo effetto di rischio sul conteggio delle malattie ( (hat b_ = 0,41) ) nei dati della comunità. La domanda è allora come? B xy per il conteggio delle malattie dovrebbe essere interpretato. Abbiamo mostrato nella Fig. 9 supplementare che la stima di B xy per lo stato della malattia (un fenotipo dicotomico per indicare se un individuo è affetto da una delle 22 malattie) era molto simile a quello per il conteggio delle malattie. Sebbene lo stato della malattia e il conteggio delle malattie siano due fenotipi distinti e l'analisi del conteggio delle malattie sia più potente, per la facilità di interpretazione, B xy per la conta della malattia può essere approssimativamente interpretato come logOR per lo stato della malattia. Quindi, (hat b_ = 0,41) per il conteggio della malattia è approssimativamente equivalente a OR = 1,51 per lo stato della malattia, il che significa che un aumento dell'IMC di 1 DS aumenterà la probabilità di essere colpiti da una qualsiasi delle 22 malattie di un fattore di

1.5. Inoltre, abbiamo scoperto che gli effetti di WHRadjBMI e BMI sulla malattia erano ampiamente concordanti (Figura complementare 10a Nota supplementare 4).

Livelli sierici di colesterolo e malattie comuni

LDL-c è un noto fattore di rischio causativo per CAD come confermato da RCT 6,7. Abbiamo scoperto che LDL-c ha avuto un effetto di rischio significativo sulla dislipidemia (OR = 3,36) e CVD (OR = 1,22) nei dati della comunità e CAD (OR = 1,50) nei dati caso-controllo (Fig. 2). Il TG ha avuto un effetto di rischio significativo su dislipidemia (OR = 2.09), malattia ipertensiva (OR = 1.24) e CVD (OR = 1.14) nei dati della comunità e CAD (OR = 1.33) nei dati caso-controllo (Fig. 2 ). Gli effetti del TG sulle malattie sono stati ampiamente coerenti con quelli per LDL-c (Supplementare Fig. 10b), nonostante la modesta correlazione fenotipica tra i due tratti (R P = 0,19 nei dati ARIC). Sia LDL che TG hanno avuto effetti di rischio significativi sul conteggio delle malattie nei dati della comunità (Fig. 2).

C'è stato un altro esempio in cui l'approccio HEIDI-outlier ha rilevato forti effetti dovuti alla pleiotropia. L'effetto di LDL-c sulla malattia di Alzheimer (AD) era altamente significativo senza il filtraggio HEIDI-outlier (OR = 1,35 e PGSMR = 7,8 × 10 −16 ) (Fig. 4). L'analisi HEIDI-outlier ha individuato 16 SNP, 12 dei quali si trovano nel APOE regione genica (LD R 2 tra questi SNP < 0,05) e tutti hanno avuto effetti altamente significativi sia su LDL-c che su AD. L'esclusione di questi SNP rende un test GSMR più conservativo perché se esiste una vera relazione causale di aumento di LDL-c con AD, allora il test GSMR dovrebbe rimanere significativo sulla base dell'evidenza di altri SNP associati a LDL-c. Infatti, dopo aver rimosso i 16 SNP pleiotropici, l'effetto stimato di LDL-c sull'AD non era significativo (OR = 1.03, PGSMR = 0,47). Tuttavia, i molteplici segnali pleiotropici raggruppati al APOE locus meritano ulteriori indagini (supplementare Fig. 11).

Analisi GSMR per testare l'effetto di LDL-c sulla malattia di Alzheimer (AD) con e senza valori anomali pleiotropici. Mostrato un e B sono i grafici delle dimensioni degli effetti e dell'associazione P-valori del set originale di strumenti da GWAS per LDL-c rispetto a quelli per AD. Mostrato C è la trama di B xy contro GWAS P-valore di LDL-c ad ogni variante genetica. Mostrato D, e, e F sono i grafici per gli strumenti dopo che gli outlier pleiotropici sono stati rimossi dall'approccio HEIDI-outlier (vedi Metodi per i dettagli dell'approccio HEIDI-outlier). Barre di errore in un e D rappresentano gli errori standard. Le linee tratteggiate in B e e rappresentano la soglia GWAS P-valore di 5 × 10 −8 . Le coordinate in B, C, e, e F sono troncati a 50 per una migliore presentazione grafica

Abbiamo identificato un significativo effetto protettivo di LDL-c contro T2D (OR = 0,84, PGSMR = 1,1 × 10 −4) nei dati caso-controllo, il che potrebbe spiegare l'osservazione di uno studio precedente secondo cui l'abbassamento del colesterolo LDL utilizzando la terapia con statine è associato a un lieve aumento del rischio di diabete di tipo 2 39 . La stima non era significativa nei dati comunitari (probabilmente a causa della mancanza di potenza) ma in una direzione coerente (OR = 0,95, PGSMR = 0,08). Data la forte correlazione genetica tra i due set di dati T2D (RG = 0,98, SE = 0,062) come stimato dall'analisi LDSC bivariata 30 , abbiamo meta-analizzato i due set di dati utilizzando l'approccio a varianza inversa ed eseguito l'analisi GSMR per rivalutare l'effetto di LDL-c sul T2D utilizzando il Dati di meta-analisi T2D. La dimensione dell'effetto era altamente significativa (OR = 0,88, PGSMR = 3.0 × 10 −7 ).

Le conseguenze dell'HDL-c sugli esiti di salute sono controverse 40 . Studi osservazionali suggeriscono che l'HDL-c è associato a un rischio ridotto di CAD 41 , mentre gli studi genetici mostrano che l'effetto dell'HDL-c sulla CAD non è significativo a condizione di LDL-c e TG 20,21 . Abbiamo scoperto che HDL-c ha avuto effetti protettivi contro T2D (OR = 0,83), malattia ipertensiva (OR = 0,88), CVD (OR = 0,88) e conta della malattia (OR = 0,94) nei dati della comunità e T2D (OR = 0,81 ) e CAD (OR = 0,84) nei dati caso-controllo. Tuttavia, nessuno di questi effetti è rimasto condizionante significativo sugli altri fattori di rischio, suggerendo che gli effetti marginali dell'HDL-c sulle malattie dipendono dagli altri fattori di rischio (vedi sotto per i dettagli dei risultati delle analisi condizionali). L'effetto di HDL-c sulla dislipidemia è negativo ( (hat b_ = - 0,21) e OR = 0,81), il che è ovvio perché uno dei criteri diagnostici per la dislipidemia è un livello anormalmente basso di HDL-c. Inoltre, c'è stato un effetto di rischio altamente significativo (OR = 1,36) di HDL-c sulla degenerazione maculare correlata all'età (AMD) nei dati caso-controllo, coerente con il risultato di un recente studio RM42. Le associazioni tra lipidi e AMD sono controverse ei risultati di diversi studi osservazionali sono incoerenti 43 . I nostri risultati supportano le osservazioni che l'aumento di HDL-c è associato ad un aumento del rischio di AMD 43,44,45. Va notato che anche LDL-c e TG sembravano essere associati con AMD prima del filtraggio HEIDI-outlier, ma gli effetti non erano significativi dopo il filtraggio HEIDI-outlier (Figura complementare 12), il che implica che l'associazione osservata tra LDL-c ( o TG) e AMD negli studi epidemiologici 43 potrebbero essere dovuti alla pleiotropia.

Pressione sanguigna e malattie comuni

Abbiamo identificato effetti di rischio significativi di SBP su malattia ipertensiva (OR = 4,38), dislipidemia (OR = 1,50), CVD (OR = 1,40) e conta della malattia (OR = 1,43) nei dati della comunità e CAD (OR = 1,73) in i dati caso-controllo. I risultati per SBP e DBP erano altamente concordanti (Fig. 2 supplementare Fig. 10c). È noto che l'effetto del rischio della pressione arteriosa sulla CAD è causale, come confermato da RCT 46,47. Si noti che la potenza dell'analisi GSMR per la pressione sanguigna era probabilmente limitata dato il piccolo numero di strumenti utilizzati (m <30).

Effetti condizionali dei fattori di rischio sulle malattie

Abbiamo identificato (dalle analisi sopra) 45 associazioni causali significative tra fattori di rischio per la salute e malattie (Fig. 2). Poiché i fattori di rischio non sono indipendenti, abbiamo ulteriormente cercato di stimare l'effetto di un fattore di rischio su una malattia aggiustata per altri fattori di rischio. Per fare ciò, abbiamo prima studiato le associazioni causali tra i fattori di rischio. Abbiamo rilevato 19 associazioni significative dall'analisi GSMR tra i 7 fattori di rischio con un FWER di 0,05 (PGSMR < 1.2 × 10 −3 ) (supplementare Fig. 13). Ad esempio, il BMI ha avuto un effetto negativo significativo su HDL-c ( (hat b_ = - 0.29) ), e gli effetti positivi su TG ( (hat b_ = 0.28) ) e DBP ( (hat b_ = 0.15) ).

Abbiamo sviluppato un approccio chiamato mtCOJO (URL di analisi condizionale e congiunta basati su più tratti) per eseguire un'analisi GWAS per un condizionamento dei tratti su altri tratti utilizzando i dati di riepilogo GWAS (Metodi supplementari Fig. 5). Abbiamo quindi rieseguito l'analisi GSMR utilizzando i dati di riepilogo GWAS modificati dall'analisi mtCOJO (metodi). L'analisi mtCOJO richiede le stime di B xy dei fattori di rischio covariati sul fattore di rischio target e sulla malattia, RG tra i fattori di rischio covariati, l'ereditarietà basata su SNP ( (h_<>>^2) ) per i fattori di rischio covariati e la covarianza campionaria tra gli effetti SNP stimata da campioni potenzialmente sovrapposti, che possono essere calcolati da dati di riepilogo (tabelle supplementari dei metodi 7-10). Dati i risultati GSMR simili tra BMI e WHRadjBMI e tra SBP e DBP (Figura 10 supplementare), non abbiamo incluso DBP e WHRadjBMI nell'analisi condizionale per evitare un'eccessiva correzione.

I risultati delle analisi condizionali erano in gran parte coerenti con quelli delle analisi incondizionate (Fig. 5 Tabella supplementare 11), suggerendo che la maggior parte degli effetti marginali sono indipendenti dagli altri fattori di rischio analizzati in questo studio. Il condizionamento sugli altri fattori di rischio, SBP, LDL-c e BMI erano i tre principali fattori di rischio per CAD, il BMI era ancora un grande fattore di rischio per T2D e l'effetto protettivo di LDL-c su T2D è rimasto sostanzialmente invariato (Figura 14 supplementare ). Mostriamo sopra che le analisi GSMR hanno identificato effetti protettivi significativi di HDL-c contro CVD, CAD, T2D e ipertensione (Figura 15 supplementare). Tuttavia, tutti gli effetti sono diventati condizionamenti non significativi sulle covariate (cioè, BMI, LDL-c, TG e SBP), suggerendo che gli effetti marginali di HDL-c sulle malattie non sono indipendenti dalle covariate a causa della bidirezionale associazioni causali tra HDL-c e gli altri fattori di rischio come illustrato nella Fig. 13 supplementare. È difficile distinguere se gli effetti dell'HDL-c sulle malattie sono mediati o guidati dalle covariate (Fig. 16 supplementare) a causa della complicata rete di associazione tra fattori di rischio e malattie (Supplemento Fig. 14). Tuttavia, potrebbe esserci un'eccezione, ovvero l'associazione tra HDL-c e AMD, perché HDL-c è l'unico rischio che ha mostrato un effetto significativo su AMD (OR = 1,36 con PGSMR = 5,9 × 10 −16) e la dimensione dell'effetto è rimasta sostanzialmente invariata e un condizionamento altamente significativo sulle covariate (OR condizionale = 1,36 con PGSMR = 5,1 × 10 −13). Concludiamo che HDL-c è probabilmente un fattore di rischio diretto per AMD e la dimensione dell'effetto è indipendente dai fattori di rischio covariati analizzati in questo studio.

GSMR vs GSMR condizionale. Sono mostrati i risultati delle analisi GSMR confrontati con quelli delle analisi GSMR condizionali. Nell'analisi GSMR condizionale, la dimensione dell'effetto di ciascun fattore di rischio sulla malattia è stata stimata condizionando gli altri fattori di rischio (vedi Metodi per i dettagli del metodo condizionale). "Comunità": dati GWAS sulla malattia da una meta-analisi dei due studi basati sulla comunità. “Caso-controllo”: dati GWAS della malattia da studi caso-controllo pubblicati indipendenti. In grigio sono le associazioni che non passano il P-valore soglia 2.2 × 10 −4 nell'analisi condizionale

Date le stime delle analisi GSMR condizionali (Fig. 5 Tabella supplementare 11), potremmo utilizzare un approccio approssimativo per calcolare l'effetto aggregato di più fattori di rischio su una malattia, ovvero (log left( <>> ight) = <[x_ilog left( <>_i> ight)]>) . Ecco un esempio ipotetico. Se tutti i fattori di rischio aumentano di 1 DS (cioè,

19 mm Hg per SBP), avremmo un rischio maggiore di

2,3 volte a T2D (e 1,01-0,17 ) e 4,5 volte in CAD (e 0.41+0.47+0.14+0.48 ).

Effetti di altri fenotipi sulle malattie

Dopo aver identificato una serie di associazioni causali tra sette fattori di rischio modificabili e malattie comuni, abbiamo quindi cercato di verificare se esistessero associazioni causali tra altri fenotipi e malattie. Abbiamo incluso nell'analisi due tratti, altezza 48 e anni di scolarizzazione 49 (EduYears), per i quali c'era un gran numero di strumenti a causa delle grandi dimensioni del campione GWAS. Abbiamo selezionato 811 e 119 SNP genome-wide significant (GWS) quasi indipendenti per altezza e EduYears, rispettivamente, utilizzando l'analisi di aggregazione (metodi). La soglia PGSMR dopo la correzione di Bonferroni è stata di 7,6 × 10 -4 correzioni per 66 test. Il gran numero di strumenti per l'altezza ci ha fornito una potenza sufficiente per rilevare un piccolo effetto (Fig. 6 Tabella supplementare 12 Nota supplementare 5).

Effetti dell'altezza e del livello di istruzione sulle malattie comuni. Sono mostrati i risultati delle analisi GSMR con i dati sulla malattia un da una meta-analisi degli studi GERA e UKB e B da studi caso-controllo indipendenti pubblicati. I colori rappresentano le dimensioni degli effetti (misurati da odds ratio, OR) dei fattori di rischio sulle malattie, il rosso per gli effetti di rischio e il blu per gli effetti protettivi. Gli effetti significativi dopo la correzione per più test (PGSMR < 7.6×10 −4 ) sono etichettati con OR (P-valori). Gli effetti nominalmente significativi (PGSMR < 0.05) sono etichettati con “*”

I nostri risultati hanno anche mostrato che EduYears ha avuto effetti protettivi contro quasi tutte le malattie (Fig. 6 e Tabella supplementare 12). Ha mostrato un effetto protettivo contro PVD (OR = 0,54), malattie ipertensive (OR = 0,62), diabete di tipo 2 (OR = 0,64), dislipidemia (OR = 0,71) e CVD (OR = 0,73) nei dati della comunità e RA (OR = 0,44), AD (OR = 0,61) e CAD (OR = 0,63) nei dati caso-controllo. Ha anche mostrato un effetto protettivo significativo sul conteggio delle malattie (OR = 0,74), suggerendo che il livello di istruzione è protettivo per i risultati di salute generale. L'effetto protettivo di EduYears contro l'AD è coerente con l'associazione osservata dagli studi epidemiologici50. D'altra parte, tuttavia, EduYears ha mostrato un forte effetto di rischio sul disturbo dello spettro autistico (OR = 2,30) (Nota supplementare 6), che non è influenzato dai valori anomali SNP (Supplementare Fig. 17) e coerente con una stima positiva della correlazione genetica (R G = 0,28, SE = 0,038) da un'analisi di regressione del punteggio LD bivariato 30 .

Analisi GSMR inversa

È importante notare che è improbabile che le associazioni causali identificate dalle analisi GSMR di cui sopra siano spiegate dalla causalità inversa per due motivi. In primo luogo, gli individui utilizzati in GWAS per i fattori di rischio erano indipendenti dagli individui utilizzati in GWAS per le malattie (l'unica eccezione era che il set di dati GWAS sulla pressione sanguigna faceva parte dei dati GWAS sulla malattia basati sulla comunità). In secondo luogo, se le associazioni presentate sopra sono guidate dalla causalità inversa, ci aspetteremmo di vedere forti segnali di associazione degli strumenti con le malattie, il che non è il caso come dimostrato nella Fig. 18 supplementare, un'idea non troppo dissimile dall'analisi dell'asimmetria che è stato utilizzato per dedurre la causalità in uno studio precedente 16,22. Tuttavia, è interessante studiare i cambiamenti nei fattori di rischio dopo lo sviluppo delle malattie. Per fare ciò, abbiamo selezionato gli strumenti per le malattie dai dati GWAS della malattia (cioè, gli SNP GWS per la malattia, quindi gli strumenti utilizzati nell'analisi GSMR inverso erano distinti da quelli utilizzati nell'analisi GSMR forward). Il tasso di falsi positivi del GSMR inverso è ben calibrato come dimostrato dalla simulazione sotto il nulla che non vi sia alcun effetto inverso (Figura 19 supplementare). Abbiamo eseguito un'analisi GSMR inversa dei fattori di rischio e delle malattie per le quali c'era un'associazione significativa nell'analisi GSMR in avanti sopra (Nota supplementare 7). Abbiamo identificato 10 effetti inversi significativi (cioè l'effetto della malattia sul fattore di rischio) nei dati della comunità e 4 nei dati caso-controllo con un FWER di 0,05 (Preverse GSMR < 1,0 × 10 −3 ) (Tabella supplementare 13). Le stime degli effetti inversi erano molto ridotte rispetto a quelle degli effetti forward. Per evitare un test sottodimensionato, abbiamo limitato l'analisi GSMR inversa a malattie con più di 10 strumenti. Dato che alcune delle piccole stime degli effetti inversi erano altamente significative (tabella supplementare 13), è improbabile che la grande differenza nella dimensione dell'effetto stimato tra l'analisi diretta e inversa sia dovuta alla mancanza di potenza nell'analisi inversa . Abbiamo ulteriormente confermato dalla simulazione che la stima GSMR di B xy è imparziale indipendentemente dalla dimensione del campione per l'esposizione (Figura 20 supplementare). È interessante notare che ci sono stati due casi in cui gli effetti forward e reverse stimati erano in direzioni opposte, ovvero (hat b_<>> o >2>)> = 1,19) e (cappello b_<>>2> o >)>> -0.07left(

> ight)) (hat b_<>> o >)> = 0,32) e (cappello b_<>> o >)> = - 0,03) (sinistra(

> ight)) , il che significa che sebbene l'IMC sia un fattore di rischio per le due malattie, i pazienti che hanno sviluppato le malattie possono tendere a perdere peso.


2 Pretrattamento dei dati

  • File .ped e.map: il file .ped contiene informazioni su ciascun partecipante allo studio, inclusi ID famiglia, ID partecipante, ID padre, ID madre, sesso, fenotipo e genotipo tipizzato completo. Qui, ogni SNP è bi-allelico (cioè, vengono osservati solo due nucleotidi in un dato SNP tra i partecipanti allo studio) e codificato come una coppia di nucleotidi (A, C, T o G).In particolare, l'ordinamento nella coppia non è informativo, nel senso che i primi alleli elencati per ciascuno dei due SNP non sono necessariamente sullo stesso cromosoma. Il file .map contiene una riga per ogni SNP con rsNumber (SNP) e il corrispondente cromosoma (chr) e coordinate (BPPos) in base all'attuale build del genoma.
  • File .bim,.bed e.fam: il file.bim contiene le stesse informazioni del file .map e i due alleli osservati in ogni SNP (A1 e A2) dal file .ped. Contiene una riga per ogni SNP e sei colonne, contenenti informazioni per il numero di cromosomi, rsNumber, distanza genetica, identificatore di posizione, allele 1 e allele 2. Il file.bed contiene una versione binaria dei dati del genotipo. Questo è il più grande dei tre file perché contiene ogni SNP nello studio, così come il genotipo a questo SNP per ogni individuo. Il file .fam contiene le informazioni di identificazione del partecipante, inclusa una riga per ogni individuo e sei colonne, corrispondenti alle stesse colonne descritte per il file .ped ad eccezione dei dati del genotipo. Tieni presente che non tutte queste colonne contengono informazioni univoche. Cioè, in uno studio basato sulla popolazione di individui non imparentati, "numero identificativo familiare" e "numero identificativo individuale" saranno gli stessi.
  • File di dati clinici: in genere è disponibile un file ascii.txt o.csv aggiuntivo, che include dati clinici su ciascun soggetto dello studio. Le righe di questo file rappresentano ciascun soggetto e le colonne corrispondono alle covariate e ai fenotipi disponibili. Potrebbero esserci ridondanze in questo file e nei dati contenuti nelle colonne etichettate "sex" e "phenotype" nel file .fam.

2.1 Lettura e formattazione dei dati in R (passo 1)

Nell'esempio di dati fornito, le informazioni sul genotipo sono disponibili per 861.473 SNP tipizzati attraverso n = 1401 individui con dati fenotipici disponibili.

Come illustrato nella Figura 1, una volta letto il genotipo e le informazioni cliniche, siamo pronti per procedere con le fasi successive della pre-elaborazione dei dati GWA. Ciò comporta due fasi di filtraggio dei dati, rispettivamente a livello di SNP e di campione. Ciascuno di questi è descritto più dettagliatamente nei testi successivi, accompagnato dal codice R appropriato per l'implementazione. Notiamo ancora che l'ordine di analisi può variare a seconda che venga eseguita una singola analisi GWA (come descritto qui) o che l'analista stia preparando i risultati da incorporare in una meta-analisi più ampia che richiede l'armonizzazione dei dati su più studi. In quest'ultimo caso, i seguenti passaggi di filtraggio (passi 2, 3 e 4) possono essere esclusi o eseguiti centralmente dopo l'analisi (passi 7 e 8) poiché i dati a livello di riepilogo vengono combinati tra gli studi.

2.2 Filtraggio a livello di polimorfismo a singolo nucleotide – parte 1 (passo 2)

  • Filtraggio a livello SNP: tasso di chiamata. Il tasso di chiamata per un dato SNP è definito come la proporzione di individui nello studio per i quali non mancano le informazioni SNP corrispondenti. Nell'esempio seguente, filtriamo utilizzando un tasso di chiamata di 95%, il che significa che manteniamo gli SNP per i quali c'è meno di 5% dati mancanti. Punti di taglio più rigorosi (ad esempio, meno di 5%) può essere impiegato in contesti di campioni più piccoli.
  • Filtraggio a livello di SNP: frequenza allelica minore (MAF). Un elevato grado di omogeneità in un dato SNP tra i partecipanti allo studio generalmente si traduce in un potere inadeguato per dedurre una relazione statisticamente significativa tra il SNP e il tratto in studio. Ciò può verificarsi quando abbiamo un MAF molto piccolo in modo che la grande maggioranza degli individui abbia due copie dell'allele maggiore. Qui, rimuoviamo gli SNP per i quali il MAF è inferiore a 1%. In alcuni casi, impostazioni del campione particolarmente piccole, un punto di taglio di 5% viene applicata.

Nell'esempio di dati fornito, filtriamo 203.287 SNP in base al tasso di chiamata <0.95 e/o MAF <0.01.

2.3 Filtraggio a livello di campione (fase 3)

  • Filtraggio a livello di campione: tasso di chiamata. Simile al filtraggio a livello di SNP basato sul tasso di chiamata, escludiamo gli individui a cui mancano dati sul genotipo in più di una percentuale predefinita degli SNP tipizzati. Questa proporzione di mancanze tra gli SNP è indicata come tasso di chiamata del campione e applichiamo una soglia di 95%. Cioè, individui a cui mancano i dati sul genotipo per più di 5% degli SNP tipizzati vengono rimossi. Viene creato un nuovo oggetto genotipo SnpMatrix di dimensioni ridotte, che incorpora questo filtro.
  • Filtraggio a livello del campione: eterozigosi. L'eterozigosi si riferisce alla presenza di ciascuno dei due alleli in un dato SNP all'interno di un individuo. Questo dovrebbe verificarsi sotto HWE con probabilità 2∗P∗(1 − P), dove P è la frequenza allelica dominante a quel SNP (assumendo un SNP bi-allelico). L'eccesso di eterozigosi tra SNP tipizzati all'interno di un individuo può essere un'indicazione di scarsa qualità del campione, mentre un'eterozigosi carente può indicare consanguineità o altra sottostruttura in quella persona 23 . Pertanto, campioni con un coefficiente di consanguineità |F|=(1 − oh/E) > 0.10 vengono rimossi, dove oh e E sono rispettivamente i conteggi osservati e previsti di SNP eterozigoti all'interno di un individuo. Si noti che calcoliamo i conteggi previsti per ogni individuo in base agli SNP osservati per quell'individuo.

Filtraggio a livello di campione: parentela criptica, duplicati e identità di genere. Gli studi di coorte basati sulla popolazione sono spesso limitati a individui non imparentati e l'approccio di modellazione lineare generalizzato descritto nel passaggio 7 (analisi dell'associazione di SNP tipizzati) assume in seguito l'indipendenza tra gli individui. Un'ulteriore discussione delle strutture di dati alternative e degli strumenti di analisi associati è fornita nella Sezione 6. È importante sottolineare che negli studi di coorte regionali (ad esempio, studi di coorte ospedalieri) di malattie complesse, individui della stessa famiglia possono essere reclutati involontariamente. Una misura comune di parentela (o duplicazione) tra coppie di campioni si basa sull'identità per discendenza (IBD). Un coefficiente di parentela IBD maggiore di 0,10 può suggerire parentela, duplicati o miscela di campioni. In genere, viene rimosso l'individuo di una coppia correlata con un tasso di identificazione del genotipo inferiore. Notiamo che l'identità di genere può anche essere verificata in questa fase per confermare che il genere auto-riferito è coerente con i cromosomi X e Y osservati, tuttavia, nell'esempio di dati fornito, i cromosomi sessuali non sono disponibili e, quindi, un esempio di filtraggio su l'identità di genere non è fornita.

Iniziamo applicando la potatura del linkage disequilibrium (LD) utilizzando un valore di soglia di 0,2, che elimina un elevato grado di ridondanza nei dati e riduce l'influenza degli artefatti cromosomici 6 . Questa fase di riduzione delle dimensioni viene comunemente applicata prima sia dell'analisi IBD che della PCA, applicata nei testi successivi per il filtraggio degli antenati e si traduce in grandi risparmi computazionali.

Ciò riduce il numero di SNP da 658.186 alla fine del passaggio 2 a 72.812. Successivamente, calcoliamo le distanze IBD a coppie per cercare la correlazione del campione. Viene impiegata una strategia che rimuove iterativamente i soggetti con il maggior numero di coefficienti di parentela a coppie >0.1.

Nel nostro esempio, nessuno dei campioni viene filtrato in base al coefficiente di parentela IBD >0.10.

Filtraggio a livello di campione: antenati. La PCA è un approccio per visualizzare e classificare gli individui in gruppi di antenati in base al loro corredo genetico osservato. Lo facciamo per due ragioni: in primo luogo, la razza e l'etnia dichiarate da sé possono differire dai gruppi di individui basati esclusivamente su informazioni genetiche e, in secondo luogo, la presenza di un individuo che non sembra rientrare in un gruppo razziale/etnico può essere suggestiva di un errore a livello di campione. Si noti che usiamo il sottoinsieme di 72.812 SNP dopo la potatura LD (passaggio 3-c) come input per la PCA. Una strategia alternativa alla potatura LD di prima fase, che migliora anche l'efficienza computazionale, è l'analisi "HapMap rooted", che prevede prima l'esecuzione di PCA in un pannello di riferimento, ad esempio HapMap o 1000 Genomi, e quindi la proiezione del campione di studio sul spazio risultante. Questo approccio non è presentato qui, ma può essere implementato con le funzionalità esistenti del software INference for Gwas (KING) basato su Kinship 24 .

Nessun campione aggiuntivo viene filtrato in base all'ispezione visiva dei grafici PCA. Anche in questo caso, ci aspettiamo che i dati PennCATH forniti siano prefiltrati.

2.4 Filtraggio a livello di polimorfismo a singolo nucleotide – parte 2 (passo 4)

Filtraggio a livello SNP: HWE. Le violazioni di HWE possono essere un'indicazione della presenza di una sottostruttura della popolazione o del verificarsi di un errore di genotipizzazione. Sebbene non siano sempre distinguibili, è pratica comune presumere un errore di genotipizzazione e rimuovere gli SNP per i quali l'HWE è violato. Se lo stato caso-controllo è disponibile, limitiamo questo filtro all'analisi dei controlli poiché una violazione nei casi può essere un'indicazione di associazione. Le partenze da HWE sono generalmente misurate a un dato SNP usando a ? 2 test di bontà di adattamento tra i genotipi osservati e quelli previsti. Rimuoviamo gli SNP per i quali la statistica del test HWE ha un corrispondente P-valore inferiore a 1 × 10 -6 nei controlli.

Filtriamo altri 1.296 SNP in base a HWE P < 1×10 -6 nei controlli CAD. Ciò si traduce in 656.890 SNP tipizzati da considerare nell'analisi dell'associazione.


Metodi

Elaborazione dati

Per armonizzare l'insieme di varianti genetiche in tutti e quattro i set di dati, abbiamo imputato i genotipi di tutti gli individui nei quattro studi utilizzando 1000G Phase 3 v5 come pannello di riferimento comune (Michigan Imputation Server [54]). Dopo l'imputazione, sono state mantenute solo le varianti genetiche non duplicate con punteggio INFO maggiore di 0,9. Abbiamo filtrato le varianti con Hardy-Weinberg Equilibrium (HWE) P valori inferiori a 10 -5 , con tasso di genotipo mancante superiore al 5% e con frequenza di alleli minori inferiore al 5% utilizzando PLINK v1.9 [55]. Abbiamo utilizzato il restante set di varianti in tutte le analisi successive, se non diversamente indicato. Per escludere individui anomali, abbiamo calcolato i componenti principali del genotipo (PC) utilizzando smartpca [56]. Cinque valori anomali nel set di dati DICE sono stati identificati e rimossi dalle analisi a valle.

Per quantificare i livelli di espressione genica, abbiamo utilizzato Kallisto [57] e sommato le stime di trascrizione per milione (TPM) di tutte le isoforme di GENCODE 19 [58] per ottenere un TPM a livello di gene. I TPM a livello di gene sono stati quindi ridimensionati e normalizzati quantile-quantile come descritto in precedenza [17]. I componenti principali dell'espressione genica sono stati calcolati utilizzando la funzione prcomp in R . Per quantificare lo splicing dell'RNA, le letture RNA-seq sono state allineate allo gnomo di riferimento hg19 utilizzando STAR 2.6.0 [59] con l'annotazione GENCODE 19. Per evitare la mappatura delle letture con bias allelico, abbiamo utilizzato WASP [60] come implementato in STAR 2.6.0 fornendo i dati genotipici corrispondenti. Questo è un passo importante in quanto abbiamo riscontrato un aumento sostanziale del numero di QTL di splicing falsi positivi a causa del bias allelico nella mappatura della lettura. Infatti, quando le letture che rappresentano alleli diversi vengono mappate su diverse regioni del genoma, la mappatura QTL sarà suscettibile di identificare associazioni spurie tra gli alleli e la copertura di lettura in quelle regioni genomiche [23]. Le giunzioni esone-esone sono state estratte utilizzando RegTools [61] e raggruppate e quantificate utilizzando LeafCutter [23]. Come previsto, abbiamo osservato che il numero di giunzioni esone-esone identificate in ciascun campione è correlato positivamente con la profondità di sequenziamento nel consorzio DICE (Figura S1). Per armonizzare la quantificazione per l'utilizzo della giunzione di giunzione tra i tipi di cellule e i set di dati in tutti i 18 tipi di cellule immunitarie, i cluster sono stati uniti e l'unione unita è stata utilizzata per ricalcolare l'utilizzo dell'introne in tutti i campioni.

Analisi MashR nel dataset DICE

Per quantificare la condivisione di eQTL e sQTL nel set di dati DICE, abbiamo seguito il flusso di lavoro fornito dagli autori di MashR (https://github.com/stephenslab/gtexresults) precedentemente descritto in [19]. In breve, gli errori standard delle dimensioni degli effetti QTL sono stati calcolati dall'output nominale FastQTL, che sono stati utilizzati insieme alle dimensioni degli effetti come input per miscuglio. Per quantificare la struttura di correlazione dei test nulli, il 30% di tutti i test è stato campionato in modo casuale (denominato set "casuale"). Per ottenere un set sicuro di QTL per ogni caratteristica (gene o introne), l'SNP con il più piccolo P-valore in tutti gli SNP testati e tutti i tipi di cellule sono stati estratti per ciascuna caratteristica. Ciò ha portato a una matrice caratteristica per campione delle dimensioni degli effetti e ai loro errori standard senza valori mancanti indicati come set "forte". Per gli eQTL, abbiamo incluso tutti i geni codificanti proteine. Per gli sQTL, abbiamo incluso tutti gli introni. Le matrici di covarianza basate sui dati sono state calcolate dal set "forte". Abbiamo quindi costruito un miscuglio modello che utilizza il set “random” con la modalità degli effetti di scambio (EE) per stimare i priori. Questo modello è stato quindi applicato al set "forte" per calcolare le dimensioni dell'effetto medio posteriore (miscuglio dimensioni dell'effetto). QTL significativi dopo miscuglio l'analisi era costituita da coppie feature-SNP con tasso di falsi segni locale (LFSR) inferiore a 0,05, come suggerito da [19]. Il livello di condivisione dei QTL è stato quantificato sia come condivisione complessiva che come condivisione a coppie. Nel complesso, la condivisione è stata determinata come il numero di tipi di cellule in cui una determinata caratteristica ha un QTL normativo (LFSR <0.05). La condivisione a coppie è stata quantificata sia per grandezza che per segno. La quota per grandezza tra due tipi di cellule corrisponde alla proporzione di QTL che è significativa in uno dei tipi di cellule e le dimensioni dell'effetto medio posteriore differiscono di non più del doppio. La condivisione per segno tra due tipi di cellule corrisponde alla proporzione di QTL che era significativa in uno dei tipi di cellule e aveva lo stesso segno. I 15 tipi di cellule in DICE sono stati raggruppati in 6 gruppi di cellule in base alla condivisione eQTL per grandezza (vedi Fig. 2b).

Caratterizzazione dei QTL regolatori

Per calcolare la distanza tra eQTL e i loro geni bersaglio, abbiamo definito il promotore di ciascun gene come la regione 2000 bp a monte e 500 bp a valle di TSS. Abbiamo testato l'arricchimento di eQTL negli elementi normativi di Ensembl Regulatory Build e il set di picchi ATAC-seq di consenso da Calderon et al. [41]. Abbiamo classificato tutti i picchi ATAC-seq come potenziatori o promotori in base al fatto che si sovrappongano a qualsiasi regione del promotore (2000 bp a monte e 500 bp a valle di TSS). Il numero osservato e previsto di QTL sovrapposti a ciascuna caratteristica è stato stimato utilizzando il comando fenrich di QTLtools [62] e gli odds ratio di arricchimento sono stati calcolati fornendo quel numero al test esatto di Fisher in R . Abbiamo convalidato gli eQTL di DICE in altri set di dati utilizzando ?1 statistiche [63], stratificando gli eQTL in base ai loro livelli di condivisione tra sei gruppi di cellule stimati da miscuglio (specifico: in un gruppo di cellule intermedio: 2-5 gruppi di cellule condivisi: 6 gruppi di cellule). Gli intervalli di confidenza al 95% di ?1 è stato stimato utilizzando 1000 bootstrap (ovvero ricampionamento di eQTL DICE con sostituzione).

Colocalizzazione

COLOC Sono state eseguite analisi di colocalizzazione tra eQTL/sQTL e 72 statistiche riassuntive GWAS pubblicamente disponibili per 11 malattie autoimmuni (14 studi), vale a dire, artrite reumatoide (RA) [64], malattia di Crohn (CD) [27, 30], colite ulcerosa (UC ) [27, 30], malattia infiammatoria intestinale (IBD) [27, 30], allergia ed eczema (AE) [65], asma, raffreddore da fieno ed eczema (allergia in breve) [66], dermatite apoptotica (ApD) [ 67], asma [68, 69], lupus eritematoso sistemico (LES) [70] e sclerosi multipla [71]. Abbiamo anche raccolto 36 GWAS per tratti correlati al sangue [72], 11 GWAS relativi alle funzioni cardiache e al sistema circolatorio [73] e molti altri tratti tra cui il diabete di tipo 2 (T2D) [74], il morbo di Alzheimer (AD) [75] , malattia di Parkinson (PD) [76], velocità di filtrazione glomerulare stimata (eGFR) [77], altezza [78] e sopravvivenza al cancro al seno [79] e altri tumori/neoplasie [73]. Abbiamo considerato i 14 GWAS autoimmuni e i 36 correlati al sangue come GWAS immuni, e il resto 22 GWAS come GWAS non immuni.

Per valutare la colocalizzazione tra loci GWAS e QTL, abbiamo prima identificato le varianti GWAS principali e la loro regione fiancheggiante in cui doveva essere testata la colocalizzazione. Nello specifico, tutte le varianti disponibili nelle statistiche di riepilogo GWAS sono state ordinate per P-valori in ordine crescente. A partire dalla variante con il più piccolo P-value (variante principale), le varianti all'interno della finestra di 500 Kb su entrambi i lati della variante principale sono state rimosse. Ciò ha portato a un locus GWAS di 1 Mbp per l'analisi della colocalizzazione. La stessa procedura è stata poi applicata alla successiva variante più significativa tra le restanti varianti, fino a che non vi è stata alcuna variante con P è stato lasciato un valore inferiore a 10 -7. La regione HLA (Chr6: 25-35 Mb) è stata esclusa dalla colocalizzazione. Nella nostra analisi sono stati inclusi solo GWAS con più di 10 loci identificati. Per ogni locus GWAS identificato sopra, la colocalizzazione è stata testata solo se ospitava un QTL normativo con distribuzione beta permutata P valore inferiore a 0,01 (bpval <0.01) come riportato da FastQTL nella finestra di 1 Mb che affianca il SNP GWAS principale. I precedenti predefiniti sono stati utilizzati per COLOC . Abbiamo impostato PP4 >0.75 come soglia per la colocalizzazione. La proporzione di colocalizzazione è stata calcolata come la proporzione di loci colocalizzati tra tutti i loci identificati in un GWAS.

I risultati della colocalizzazione sono stati visualizzati utilizzando una funzione adattata da LocusCompare [80]. Per un dato locus, SNP con la più grande probabilità a posteriori da COLOC è stato definito come SNP colocalizzato. R 2 relativi all'SNP colocalizzato sono stati calcolati dai genotipi nello studio QTL. Per visualizzare l'sQTL sotto forma di un grafico Sashimi [81], abbiamo prima raggruppato gli individui in base ai loro genotipi, quindi abbiamo estratto le letture RNA-seq mappate sul cluster che contiene l'introne da visualizzare. Per rendere la copertura comparabile tra diversi genotipi, abbiamo ridimensionato la copertura di lettura per il numero di individui che trasportano ciascun genotipo utilizzando l'argomento scaleFactor in bamCoverage di Deeptools [82] durante la generazione di file bigWig. La copertura è stata quindi visualizzata utilizzando pyGenomeTracks [83].

I dati Cis-eQTL di eQTLGen [43] sono stati ottenuti direttamente dal sito web (https://eqtlgen.org/cis-eqtls.html). Abbiamo anche scaricato le frequenze alleliche da 26.609 campioni eQTLGen (escluso il Framingham Heart Study), che sono stati utilizzati nella nostra analisi di colocalizzazione. Da notare che il set di dati DGN è incluso anche nella meta-analisi eQTLGen, ma non altera l'interpretazione di nessuna delle nostre analisi.

HyPrColoc Le coppie di geni GWAS testate in HyPrColoc sono state selezionate allo stesso modo di COLOC. Abbiamo impostato PP >0.25 come soglia per la colocalizzazione come raccomandato dagli autori [52].

Validazione della colocalizzazione specifica delle cellule immunitarie per tratti non immunitari Abbiamo convalidato la colocalizzazione di 14 tratti non immunitari (11 legati al cuore, AD, PD e sopravvivenza al cancro al seno) nelle cellule immunitarie DICE utilizzando gli eQTL GTEx V7. Per prima cosa abbiamo scelto diversi tessuti in GTEx che sono più rilevanti per ogni tratto GWAS.Per i tratti legati al cuore, abbiamo scelto i tessuti nel cuore e nel sistema circolatorio (Arteria - Aorta, Arteria - Coronaria, Arteria - Tibia, Cuore - Appendice atriale, Cuore - Ventricolo sinistro). Per AD e PD, abbiamo incluso i 13 tessuti cerebrali (cervello - amigdala, cervello - corteccia cingolata anteriore (BA24), cervello - caudato (gangli basali), cervello - emisfero cerebellare, cervello - cervelletto, cervello - corteccia, cervello - corteccia frontale (BA9), Cervello - Ippocampo, Cervello - Ipotalamo, Cervello - Nucleus accumbens (gangli della base), Cervello - Putamen (gangli della base), Cervello - Midollo spinale (cervicale c-1), Cervello - Substantia nigra). Per la sopravvivenza del cancro al seno, abbiamo utilizzato tessuti adiposi e tessuto mammario (Adipo - Sottocutaneo, Adiposo - Viscerale (Omento), Seno - Tessuto mammario). Abbiamo quindi identificato tutte le coppie gene-SNP colocalizzate per questi 14 GWAS in DICE e ne abbiamo estratto il P valori da GTEx eQTL nei tessuti interessati, nonché da DICE eQTL in tutti i tipi di cellule immunitarie. Dato che una grande proporzione di eQTL è condivisa in DICE, abbiamo raggruppato i 15 tipi di cellule immunitarie in 6 gruppi, assegnando il più piccolo P valore da tutti i tipi di cellule all'interno di un dato gruppo a quel gruppo per ogni gene. Abbiamo usato la correzione di Bonferroni per aggiustare P valori per test multipli. Infine, abbiamo calcolato la proporzione della coppia gene-SNP che si è aggiustata P valore inferiore a 0,05 in DICE ma non nei tessuti GTEx.

Caratterizzazioni di loci GWAS non localizzati Abbiamo limitato questa analisi ai loci dei 14 GWAS autoimmuni che non erano colocalizzati con a in BLUEPRINT QTL. Tutti i geni sono stati classificati in quattro categorie: geni con un eQTL colocalizzato in un locus GWAS, geni che sono i più vicini a un locus GWAS, geni che sono più vicini a un locus GWAS non localizzato e tutti i geni rimanenti. Abbiamo confrontato separatamente il livello di espressione genica nei tre tipi di cellule BLUEPRINT. I valori del livello di espressione genica per i tre tipi di cellule sono stati combinati e tracciati in Fig. 5a. Abbiamo anche ottenuto l'Enhancer-domain score (EDS) [39] e la "perdita di funzione osservata/prevista frazione superiore legata" (LOEUF) [40] per tutti i geni disponibili e abbiamo confrontato la distribuzione di EDS e LOEUF tra le quattro categorie sopra .

Per testare l'arricchimento di loci non localizzati nei picchi ATAC-seq nelle cellule immunitarie stimolate, abbiamo costruito una tabella di contingenza contando il numero di loci colocalizzati e non localizzati sovrapposti rispettivamente ai picchi ATAC-seq stimolati e non stimolati. Abbiamo quindi testato l'ipotesi che i loci non colocalizzati fossero più altamente arricchiti nelle regioni di cromatina aperta stimolate rispetto ai loci colocalizzati utilizzando il test esatto di Fisher. Abbiamo stimato il 95% dell'intervallo riservato delle stime avviando il bootstrap dei loci GWAS non localizzati 1000 volte con sostituzione.

Abbiamo ragionato sul fatto che gli effetti regolatori di molti loci GWAS non localizzati potrebbero essere troppo piccoli per essere rilevati a causa delle piccole dimensioni del campione. Per testare questa possibilità, abbiamo accertato gli eQTL solo in loci GWAS non localizzati. In breve, abbiamo estratto i test QTL all'SNP principale di loci non localizzati. Le coppie locus-gene GWAS che sono già state testate in COLOC ma non sono state colocalizzate sono state filtrate. Poiché è comune che un SNP principale sia associato a molti geni, abbiamo regolato il P valori per numero di geni testati in ciascun loci utilizzando la correzione di Bonferroni e selezionato il gene con il più piccolo P valore. Abbiamo quindi calcolato la proporzione di geni con P valore inferiore a 0,05. Questa analisi è stata applicata a ciascun GWAS autoimmune in ogni tipo di cellula nel set di dati BLUEPRINT.

Raccolta e analisi di campioni RA

Raccolta di campioni ed esperimento CUT&Tag Tutti i campioni clinici sono stati ottenuti dall'ospedale di Xijing. Campioni di sangue periferico e liquido sinoviale sono stati raccolti da 6 pazienti affetti da AR presso il Dipartimento di Immunologia Clinica, Xijing Hospital. Tutti i pazienti con AR soddisfacevano i criteri rivisti del 1987 dell'American College of Rheumatology e i criteri di classificazione dell'artrite reumatoide ACR 2010 [84] e le loro caratteristiche cliniche sono mostrate nel File aggiuntivo 1: Tabella S7. Inoltre, sono stati raccolti campioni di sangue periferico da 4 individui sani. Tutti i campioni di sangue e liquido sinoviale sono stati sottoposti a centrifugazione in gradiente utilizzando un mezzo di separazione dei linfociti (MP Biomedicals, 0850494) per isolare le cellule mononucleate, che sono state crioconservate per esperimenti successivi.

Le cellule mononucleate crioconservate sono state scongelate in RPMI/10% FBS, lavate una volta in soluzione salina sterile tamponata con fosfato (PBS Beyotime, ST476) e colorate con i seguenti anticorpi in PBS per 30 minuti: anti-CD3-APC/Cy7 (Biolegend, 300426), anti-CD4-PE/Cy7 (Biolegend, 357410), anti-CD8-Percp/Cy5.5 (Biolegend, 301032), anti-CD25-PE/CF594 (BD Horizon, 562525), anti-CD19-FITC (Biolegend, 302206) e anti-CD14-APC (Biolegend, 301808). CD4 + cellule T (CD3 + , CD4 + , CD8 - ), CD8 + cellule T (CD3 + , CD4 - , CD8 + ), T reg cellule (CD3 + , CD4 + , CD8 - , CD25 + ), cellule B (CD3 - , CD19 + ) e monociti (CD3 - , CD14 + ) sono stati ordinati da FACSAria III (BD Pharmingen, San Diego, USA) direttamente in tampone di lavaggio per CUT&Tag, con un massimo di 1×10 5 celle per ogni tipo di cella. Abbiamo profilato H3K27ac (abcam ab4729) per ogni tipo di cellula seguendo il protocollo standard CUT&Tag (https://www.protocols.io/view/bench-top-cut-amp-tag-z6hf9b6) [21]. I campioni sono stati elaborati in lotti diversi e ci siamo assicurati di includere almeno un individuo sano e un paziente con AR in ciascun lotto per ridurre al minimo gli effetti del lotto che si allineano con le differenze biologiche a cui siamo interessati.

Analisi dei dati CUT&Tag Le librerie di DNA sono state sottoposte a sequenziamento PE (paired-end) di 150 bp. Le letture di sequenziamento sono state allineate al genoma di riferimento umano hg19 utilizzando Bowtie 2 [45] con parametri –local –very-sensitive-local –no-unal –no-mixed –no-discordant –phred33 –minins 10 –maxins 700. Le letture allineate sono state filtrate utilizzando Samtools con -F 1804 -f 2 -q 30 [85]. I campioni con meno di 2 milioni di letture sono stati esclusi dalle analisi successive. I file BAM filtrati per i campioni che hanno lo stesso stato di malattia (sano/RA), tipo di tessuto (PBMC/SF) e tipo di cellula sono stati uniti. La copertura in lettura è stata calcolata utilizzando bamCoverage in una finestra di 10 bp normalizzata da RPKM [82]. I picchi H3K27ac sono stati chiamati dai file BAM uniti utilizzando MACS2 con parametri –format BAMPE –broad –broad-cutoff 0.1 –qvalue 0.1 –extsize 146 [46]. Abbiamo pensato che chiamare i picchi dai file BAM uniti aumenta il rapporto segnale-rumore. Per generare un insieme di picchi di consenso, abbiamo unito tutti i picchi utilizzando bedtools merge [86], ottenendo 90.412 picchi. Abbiamo quindi contato il numero di frammenti sovrapposti al picco di consenso impostato in ciascun campione utilizzando featureCounts [87].

L'analisi del picco differenziale è stata eseguita utilizzando limma [88]. Abbiamo calcolato log2CPM medio su campioni con lo stesso stato di malattia, tipo di tessuto e tipo di cellula. Questo log2CPM medio è stato utilizzato solo per filtrare i nostri picchi con un numero di frammenti basso. I picchi con log2CPM medio inferiore a 2 in tutti i gruppi sono stati esclusi dall'analisi differenziale. Quindi, i fattori di normalizzazione sono stati calcolati dai picchi rimanenti utilizzando il metodo TMM e i conteggi in ciascun campione sono stati convertiti in log2CPM. Poiché i campioni sono stati elaborati in lotti diversi, abbiamo utilizzato ComBat per regolare i lotti includendo lo stato della malattia, il tipo di tessuto e il tipo di cellula come nostra variabile di interesse. Abbiamo costruito una matrice di contrasto confrontando RA SF con RA PBMC, RA SF con PBMC sano e RA PBMC con PBMC sano in ciascuno e abbiamo applicato il metodo di tendenza. I picchi differenziali sono stati definiti come variazione log2 volte (log2(FC)) maggiore di 1 o minore di -1 e FDR inferiore a 0,1.

Abbiamo sovrapposto picchi H3K27ac up-regolati in campioni di RA con loci RA GWAS non localizzati. Abbiamo prima mappato finemente le statistiche di riepilogo RA GWAS utilizzando SuSiE [51]. La mappatura fine è stata eseguita in ogni locus utilizzato nella nostra analisi di colocalizzazione. Abbiamo fornito GWAS Z-punteggi, matrice di correlazione genotipica da CEU e GBR dal 1000 Genome Project come pannello di riferimento e la dimensione del campione del pannello di riferimento alla funzione susie_rss.

Abbiamo stimato l'arricchimento dell'ereditarietà RA SNP nei nostri picchi H3K27ac utilizzando la regressione del punteggio LD stratificata (S-LDSC) [5]. Abbiamo utilizzato picchi MACS2 da file BAM uniti, che sono stati estesi di 500 bp su entrambi i lati. Per riprodurre l'analisi di ereditabilità di Calderon et al. [41], abbiamo utilizzato i picchi MACS2 condivisi dagli autori.


Disegni di studio per arricchire o dare priorità a varianti rare

I progetti di studio che sfruttano le caratteristiche uniche di diverse popolazioni sono stati utilizzati per aumentare la potenza negli studi di associazione di alleli rari e a bassa frequenza. Un esempio notevole sono gli isolati di popolazione, che forniscono potenti disegni di studio per la genetica medica a causa di una serie di caratteristiche vantaggiose. Ad esempio, varianti di importanza medica che sono rare nelle popolazioni outbred potrebbero essere trovate a frequenze più elevate in popolazioni isolate a causa di eventi di collo di bottiglia passati, deriva genetica o adattamento e selezione [43, 112], aumentando il potere di rilevare associazioni con fenotipi importanti dal punto di vista medico. 113, 114].

Un caso particolarmente interessante di rara variazione sono le varianti che portano all'inattivazione della proteina corrispondente. Tali cosiddette varianti con perdita di funzione (LoF) includono varianti che si prevede portino alla terminazione prematura della proteina (varianti stop-gain o varianti con troncamento della proteina) e polimorfismi di inserzione o delezione che influenzano la sequenza complessiva del codone della proteina ( frameshift INDELS) o alterare lo splicing del pre-mRNA degli esoni essenziali (varianti del sito di splicing essenziale). Le varianti LoF forniscono potenti strumenti per comprendere l'impatto dei geni umani "knocking out", simili agli esperimenti di knockout genico comunemente condotti in organismi modello [115]. È stato dimostrato che la comprensione delle conseguenze fenotipiche e cliniche del trasporto di alleli LoF, in particolare quando sono trasportati nello stato omozigote (cioè completo knockout), fornisce informazioni cruciali sull'identificazione di nuovi geni della malattia e percorsi farmacologici [116,117,118]. Inoltre, gli studi sulle varianti LoF in bersagli farmacologici stabiliti, quando trasportati da un individuo altrimenti sano, forniscono prove della sicurezza della modulazione di quel particolare bersaglio per ridurre il rischio di malattia. Il set di dati di 60.706 individui raccolti dall'Exome Aggregation Consortium (ExAC) può aiutare nel filtraggio delle varianti che causano la malattia e nella scoperta di varianti "knockout" umane nei geni codificanti proteine ​​[119].

Gli sforzi per scoprire queste mutazioni sono aumentati nelle popolazioni con alti tassi di omozigosi, ad esempio nelle popolazioni con una tradizione di matrimonio consanguineo, e dove tali varianti si verificano più spesso in uno stato omozigote. Analizzando i campioni dello studio PROMIS, è stato riscontrato che 961 geni erano completamente inattivati ​​in almeno un partecipante. In combinazione con ricche informazioni sul fenotipo, questo ha permesso la scoperta di associazioni genotipo-fenotipo di importanza clinica, come l'associazione di APOC3 con livelli plasmatici assenti di apolipoproteina C-III [120]. Un altro studio ha predetto LoF in 781 geni dopo aver analizzato 3222 adulti del patrimonio pakistano britannico con elevata parentela genitoriale [121]. L'intero genoma di 2636 islandesi, insieme all'imputazione di ulteriori 101.584 islandesi genotipizzati con chip e in fasi, ha iniziato a consentire studi su rari knockout genetici umani completi nella popolazione islandese. Gli autori stanno anche progettando di caratterizzare la maggior parte delle varianti LoF omozigoti nella popolazione islandese e di effettuare una fenotipizzazione personalizzata dei portatori [122]. Un avvertimento di questo approccio è che le conseguenze funzionali delle varianti di sequenza sono tipicamente annotate bioinformaticamente come basate su annotazioni di trascrizioni generiche (ad esempio basate sulla conseguenza più deleteria tra tutte le trascrizioni annotate). Le varianti LoF potrebbero quindi non portare all'inattivazione delle proteine ​​in un contesto biologicamente rilevante, che potrebbe essere dovuto alla ridondanza genica, o all'eterozigosi, o a varianti genuine che non interrompono effettivamente la funzione genica, o a varianti che sono attive solo in alcuni tessuti- isoforme specifiche (o rare) [112, 115]. Pertanto, sono necessari ampi e scrupolosi sforzi di follow-up per convalidare le conseguenze previste di queste varianti.


Risultati: impatto del LD sulla potenza

I dati di simulazione consistevano in 1200 dataset sintetici, corrispondenti a 4 blocchi LD × 3 effect size × 100 dataset caso-controllo retrospettivi con 1000 soggetti in ciascuna coorte. L'ereditarietà stimata h 2 sono riportati nella tabella 3 e sono tutti sotto h 2 = 0.10. Questi sono stati calcolati secondo la successiva formula (4), in cui Gio rappresenta le nove combinazioni di genotipi a due locus sottostanti G1×G2, e risulta immediatamente dalle tabelle di penetranza calcolate in precedenza per ciascuna dimensione dell'effetto (poiché la tabella 2 era un'istanza per ?3=0,90 dimensione dell'effetto e risultati in h 2 =0.083):

Inoltre, la tabella 4 mostra che solo 1 SNP è in LD da moderato a forte con il locus causale DSL 1 (R 2 soglia di 0,75), mentre 60 SNP sono in LD molto basso con DSL 1 (R 2 soglia di 0.20). LD da moderato a forte con DSL 2 A, B, C e D si osserva per 98, 107, 78 e 24 SNP (a R 2 di 0,75), rispettivamente. Il numero di tag SNP (e quindi la probabilità di cattura del segnale) aumenta al diminuire R 2 soglia. Ad esempio, per una soglia di 0,45 si ottengono rispettivamente 2, 114, 110, 80 e 48 tag-SNP per DSL 1, DSL 2 A, B, C e D.

Le sensibilità di segnale stimate di MB-MDR per rilevare l'interazione puramente epistatica simulata (DSL 1, DSL 2), per diversi scenari di posizione DLS 2 (DSL 2 A, DSL 2 B, DSL 2 C, DSL 2 D), tre epistasi dimensioni dell'effetto e cinque schemi di potatura LD prima dell'analisi MB-MDR sono presentati in Fig. 5, per la sensibilità del segnale definita tramite R 2 ≥0.45-tagging e in Fig. 6 per il tagging determinato da R 2 ≥0.20. Le sensibilità esatte stimate sono visualizzate sui pannelli inferiori delle suddette Figure. Si noti che le stime della sensibilità esatta non dipendono dalle definizioni dei blocchi. Tutte le stime sono tabulate nella Tabella 5. Si fanno le seguenti osservazioni:

Per tutti gli scenari di dimensione dell'effetto di epistasi e posizione di DSL 2, nonché definizione di blocco tag-SNP e potatura a diversi R 2 valori che vanno da 0,20 a 0,75, la sensibilità del segnale è sempre superiore alla sensibilità esatta.

Anche quando non viene eseguita alcuna potatura (quindi tutte le coppie di SNP vengono sottoposte a screening per l'epistasi, indipendentemente dalle correlazioni tra gli SNP), la sensibilità esatta è inferiore alla sensibilità del segnale.

Le sensibilità esatte diminuiscono drasticamente quando viene applicata la potatura. I peggiori risultati si ottengono per gli scenari A e C, per i quali si può ritenere che il corrispondente DSL 2 risieda al confine di un (sotto)blocco LD. I risultati sono solo leggermente migliori per lo scenario D. Nel caso in cui entrambi i DSL si trovino su cromosomi diversi, le stime di sensibilità esatte vanno da 0,10 a 0,18 (impostazione D, vedere Fig. 1). Al contrario, le stime esatte della sensibilità nel caso in cui DSL 2 si trovi nel mezzo di un blocco LD vanno da 0,16 a 0,64, sempre a seconda della dimensione dell'effetto epistatico e della soglia di potatura LD (impostazione B, vedere Fig. 2).

La sensibilità del segnale può essere ulteriormente migliorata mediante la riduzione del set di SNP tramite potatura. In generale, maggiore è la potatura LD coinvolta, maggiore è la sensibilità del segnale. Qualunque sia la definizione di blocco del tag SNP utilizzata, potatura troppo pesante a R 2 di 0,20 fornisce di gran lunga la sensibilità del segnale più bassa. Per tutte le posizioni DSL 2 considerate, si perde poca potenza (sensibilità del segnale) potando ulteriormente da 0,75 a 0,60, mantenendo più SNP. Per l'impostazione C, la potenza si bilancia intorno a 0,50 quando si esegue una potatura più ampia a R 2 di 0,50 invece di 0,60, che è simile al lancio di una moneta e altamente inaccettabile (vedi Fig. 5).

Non ci sono schemi chiari per quanto riguarda l'aumento della dimensione dell'effetto dell'epistasi che porta a un aumento della sensibilità esatta o del segnale.

Sensibilità di MB-MDR per rilevare l'interazione epistatica pura a due loci in 4 impostazioni a tre dimensioni dell'effetto e con diversi livelli di potatura LD: le sensibilità del segnale (pannello superiore) e le sensibilità esatte (pannello inferiore) vengono visualizzate a diverse soglie di potatura LD (dati non sfoltiti o potatura LD a 0,75, 0,60, 0,50 e 0,20). Sensibilità del segnale determinata con sottoinsiemi tag-SNP a LD R 2 ≥0,45 con SNP causali

Sensibilità di MB-MDR per rilevare l'interazione epistatica pura a due loci in 4 impostazioni a tre dimensioni dell'effetto e con diversi livelli di potatura LD: le sensibilità del segnale (pannello superiore) e le sensibilità esatte (pannello inferiore) vengono visualizzate a diverse soglie di potatura LD (dati non sfoltiti o potatura LD a 0,75, 0,60, 0,50 e 0,20). Sensibilità del segnale determinata con sottoinsiemi tag-SNP a LD R 2 ≥0,20 con SNP causali


Affiliazioni

Institute of Sport, Exercise and Active Living (ISEAL), Victoria University, Melbourne, Australia

Sarah Voisin, David J Bishop e Nir Eynon

Dipartimento del turismo e del tempo libero, Accademia di educazione fisica e sport, Danzica, Polonia

Pawel Cieszczyk e Zbigniew Jastrzebski

Ural State University of Physical Culture, Chelyabinsk, Russia

Vladimir P Pushkarev, Dmitry A Dyatlov, Boris F Vashlyayev e Vladimir A Shumaylov

Facoltà di cultura fisica e promozione della salute, Università di Stettino, Stettino, Polonia

Pawel Cieszczyk, Agnieszka Maciejewska-Karlowska e Marek Sawczuk

Dipartimento di Biologia Cellulare, Facoltà di Biologia, Università di Szczecin, Szczecin, Polonia

Murdoch Childrens Research Institute, The Royal Children's Hospital, Melbourne, Australia

Puoi anche cercare questo autore in PubMed Google Scholar

Puoi anche cercare questo autore in PubMed Google Scholar

Puoi anche cercare questo autore in PubMed Google Scholar

Puoi anche cercare questo autore in PubMed Google Scholar

Puoi anche cercare questo autore in PubMed Google Scholar

Puoi anche cercare questo autore in PubMed Google Scholar

Puoi anche cercare questo autore in PubMed Google Scholar

Puoi anche cercare questo autore in PubMed Google Scholar

Puoi anche cercare questo autore in PubMed Google Scholar

Puoi anche cercare questo autore in PubMed Google Scholar

Puoi anche cercare questo autore in PubMed Google Scholar

Puoi anche cercare questo autore in PubMed Google Scholar

Autore corrispondente


Contributi dell'autore

S.S.V., T.O.B., L.G., R.E.P., T.E.K., A.R.S. e M.D.R. hanno scritto il manoscritto. SSV, TOB, LG, REP, TEK, ARS, MDR, J.-LR, JDB, JPL, YB, BDM, Di.A., Da.A., RA, KB, GC, KC, JHC, J.- PD, NPD, IF-C., PF, MG, TG, GFG, BG, PAG, WH, LH, E.-YK, H.-SK, MK, MTML, RM, JM, DMR, ES, MS, JGS , JMS-M., JMtB., DT, MV, JW, M.-SW, RW e SW progettato la ricerca.S.V., T.B., L.G., J.-L.R., J.L., Y.B., T.K., A.S. e M.R. hanno eseguito la ricerca. S.S.V., T.O.B., L.G., R.E.P., T.E.K., A.R.S., M.D.R., J.-L.R., J.D.B., J.P.L., Y.B. e B.D.M. analizzato i dati.

Nome del file Descrizione
cpt1911-sup-0001-FigS1.tifImmagine TIFF, 17,3 MB
cpt1911-sup-0002-FigS2.tifTIFF immagine, 16,6 MB
cpt1911-sup-0003-FigS3.tifTIFF immagine, 16,6 MB
cpt1911-sup-0004-FigS4.tifImmagine TIFF, 16,6 MB
cpt1911-sup-0005-TableS1.xlsxapplication/excel, 9.2 KB
cpt1911-sup-0006-TableS2.xlsxapplication/excel, 9.1 KB
cpt1911-sup-0007-TableS3.xlsxapplication/excel, 11.5 KB
cpt1911-sup-0008-TableS4.xlsxapplication/excel, 11,8 KB
cpt1911-sup-0009-TableS5.xlsxapplication/excel, 11.5 KB
cpt1911-sup-0010-TableS6.xlsxapplication/excel, 11,8 KB
cpt1911-sup-0011-TableS7.xlsxapplication/excel, 11,7 KB
cpt1911-sup-0012-TableS8.xlsxapplication/excel, 14.7 KB
cpt1911-sup-0013-TextS1.docx Documento Word, 12.1 KB

Nota: l'editore non è responsabile per il contenuto o la funzionalità delle informazioni di supporto fornite dagli autori. Qualsiasi domanda (diversa dal contenuto mancante) deve essere indirizzata all'autore corrispondente per l'articolo.


Guarda il video: Interpreting confidence intervals for the odds ratio (Febbraio 2023).