Informazione

Perché solo SNV eterogenei per la convalida utilizzando array di genotipizzazione?

Perché solo SNV eterogenei per la convalida utilizzando array di genotipizzazione?


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Sto cercando di convalidare le varianti che ho trovato utilizzando il sequenziamento dell'intero genoma. La pratica standard, che ho visto nelle due pubblicazioni sottostanti, era quella di verificare il numero di SNP eterozigoti chiamati dall'array SNP.

1) Confronto delle prestazioni delle piattaforme di sequenziamento dell'intero genoma

Per valutare ulteriormente l'accuratezza della chiamata della variante,... Delle 260.112 chiamate eterozigoti rilevate con l'array Omni, il 99,5% era presente nell'intero set di dati SNV, il 99,34% erano chiamate concordanti e solo lo 0,16% erano SNV specifici della piattaforma. Ciò dimostra che entrambe le piattaforme sono sensibili agli SNV noti e che pochi polimorfismi a singolo nucleotide (SNP) noti vengono rilevati da una sola piattaforma.

2) Il filtraggio ottimizzato riduce il tasso di errore nel rilevamento di varianti genomiche mediante sequenziamento a lettura breve

Per confermare che gli SNV condivisi sono effettivamente delle vere varianti, abbiamo utilizzato gli array di polimorfismi a singolo nucleotide (SNP) Illumina e selezionato tutti gli SNP eterozigoti sull'array SNP.

La mia domanda è: perché sono solo? eterozigote SNP scelti per la convalida quando si utilizzano gli array Illumina Omni?


Lo scopo della convalida è trovare SNP autentici e non quelli causati da errori di sequenziamento o amplificazione. È estremamente improbabile che tu abbia un falso SNP omozigote a causa di un errore. Pensaci. Lo stesso errore, alla stessa base, si verifica l'80% o più delle volte? Non succederà a meno che tu non abbia una copertura bassa e questi SNP dovrebbero essere eliminati comunque. Potresti avere alcuni casi in cui un vero SNP eterozigote viene chiamato SNP omozigote. Ma questo non è un grosso problema. È ancora un vero SNP. Sarebbe un problema solo se fossi interessato solo agli SNP omozigoti, nel qual caso dovrai solo convalidare tutto biochimicamente, cosa che dovrai fare comunque.


Penso che la possibilità che una piattaforma di sequenziamento chiami qualcosa A/A quando il microarray lo chiama B/B sia praticamente nulla. Semplicemente non succede.


Frontiere in immunologia

Le affiliazioni dell'editore e dei revisori sono le ultime fornite nei loro profili di ricerca Loop e potrebbero non riflettere la loro situazione al momento della revisione.



CONDIVIDERE SU

Introduzione

La ricerca genetica ha svolto un ruolo fondamentale nella scoperta di nuovi percorsi biologici alla base di complesse malattie umane e nella valutazione di nuovi bersagli per lo sviluppo terapeutico. L'ultimo decennio ha visto un aumento esponenziale del numero di loci genetici noti che predispongono a malattie complesse, reso possibile da meta-analisi su larga scala basate su array di polimorfismi a singolo nucleotide (SNP) dell'intero genoma imputati a pannelli di aplotipi di riferimento [1]. Questi sforzi hanno identificato migliaia di loci genetici (per lo più comuni) associati a biomarcatori e endpoint di malattia [2], con alcuni esempi iniziali di come questi risultati genetici possono essere utilizzati per informare la previsione della malattia [3], l'identificazione dei meccanismi causali della malattia [ 4, 5] e la prioritizzazione di nuovi bersagli biologici nei programmi di scoperta di farmaci [6,7,8].

Molte sfide continuano ad esistere sia nella scoperta che nell'interpretazione dei risultati degli studi di associazione sull'intero genoma (GWAS). Gli sforzi di collaborazione internazionale di grande successo hanno permesso agli studi di associazione di raggiungere dimensioni senza precedenti da migliaia a centinaia di migliaia di partecipanti allo studio [9,10,11,12]. Nonostante l'aumento del potere statistico offerto da questi studi su larga scala, per la maggior parte dei tratti umani le associazioni genetiche scoperte rappresentano una frazione della malattia o dell'ereditarietà del tratto (il paradigma dell'"ereditarietà mancante"). Si ritiene che le varianti genetiche che sono al di fuori della portata degli studi di associazione più statisticamente alimentati [13] contribuiscano alla mancata ereditarietà di molti tratti umani, comprese le varianti comuni (qui indicate con frequenza allelica minore [MAF] >5%) di effetto molto debole , a bassa frequenza (MAF 1-5%) e varianti rare (MAF <1%) di effetto da piccolo a modesto, o una combinazione di entrambi, con diversi possibili scenari tutti ritenuti plausibili negli studi di simulazione [14].

Gli studi empirici che tentano di comprendere l'impatto di variazioni rare o meno comuni su malattie e tratti complessi umani rimangono fino ad oggi relativamente limitati [15, 16], ma alcune lezioni sulle loro proprietà stanno cominciando a emergere da studi di sequenziamento dell'intero esoma e del genoma . Per la maggior parte dei tratti, questi studi hanno dimostrato una relazione inversa tra la "dimensione dell'effetto di regressione" della variante (o il rapporto di probabilità di malattia) e la sua frequenza nella popolazione, come previsto dai modelli genetici di popolazione [17]. Le pressioni selettive differenziali che agiscono sulle varianti attraverso lo spettro di frequenza dell'allele sono alla base della forma osservata di questa relazione in diversi tratti umani. Tale relazione tende ad essere distorta a favore di varianti rare per i tratti più fortemente influenzati dalla selezione naturale, rispetto ai fenotipi quantitativi o alle malattie a esordio tardivo [17]. Le malattie mendeliane sono all'estremo dello spettro a causa dell'elevato impatto della selezione sulla trasmissione di varianti rare alle generazioni successive. Le prove iniziali per malattie complesse suggeriscono che i disturbi dello spettro autistico possono essere deviati verso varianti di suscettibilità più rare [18] rispetto a malattie come il diabete di tipo 2 [19], la degenerazione maculare senile [15] e la schizofrenia [20] e tratti cardiometabolici quantitativi [21, 22]. Ulteriori sforzi per scoprire associazioni guidate da varianti a bassa frequenza e rare attraverso il sequenziamento del genoma e sforzi di imputazione su larga scala consentono continui perfezionamenti della proporzione di ereditabilità del tratto spiegata da varianti attraverso lo spettro di frequenza [23]. Infine, vale la pena notare che le stime dell'ereditarietà mancante da varianti genome-wide dipendono fortemente dalle ipotesi sul linkage disequilibrium, sulla frequenza allelica e sulla certezza del genotipo [13, 24]. È stato stimato che gli SNP rari contribuiscano a frazioni sostanziali di ereditabilità (metà dell'ereditarietà degli SNP comuni [25]), ma queste prime stime saranno probabilmente riviste man mano che i dati continuano ad accumularsi.

Un'altra sfida importante per la genetica delle malattie complesse è l'identificazione e la caratterizzazione funzionale di varianti causali, o mutazioni in geni rilevanti, responsabili dei segnali di associazione rilevati attraverso i GWAS [26]. Varianti di rischio comuni mappano in modo schiacciante alle regioni regolatorie [12], dove è difficile l'inferenza dei geni causali sottostanti. I recenti sviluppi nella genomica cellulare e funzionale forniscono strategie efficaci per annotare le conseguenze cliniche e fenotipiche della variazione della sequenza del genoma [27]. Questi approcci, che indagano una serie di processi come la trascrizione, la traduzione e la regolazione epigenetica a livello dell'organismo, fisiologico o cellulare [28], sono un passo necessario verso la nostra comprensione della complessa relazione tra genotipo e fenotipo su scala globale (genoma- ampia scala. Anche in presenza di ampi dataset per l'annotazione, tuttavia, l'interpretazione della precisa conseguenza funzionale di ciascuna variante richiede una valutazione rigorosa e spesso scrupolosa di molti geni in diversi possibili contesti cellulari e ambientali [29]. D'altra parte, varianti rare all'interno o in prossimità di bersagli genici mostrano effetti medi maggiori sul fenotipo rispetto sia alle varianti regolatorie di frequenze alleliche comparabili che alle varianti genetiche comuni [21, 30]. La scoperta di queste varianti attraverso esplorazioni mirate di sequenziamento delle regioni codificanti proteine ​​dovrebbe facilitare notevolmente il compito di annotare i geni alla base delle associazioni genetiche con malattie complesse e descrivere le conseguenze funzionali della variazione della sequenza umana. Ci sono, quindi, argomenti convincenti per accelerare gli sforzi per identificare le varianti all'interno di queste regioni a causa della relativa facilità con cui queste scoperte possono essere trasformate in intuizioni biologiche.

Qui esaminiamo lo stato attuale delle conoscenze dagli studi di associazione di varianti rare (RVAS) di tratti complessi e esaminiamo gli approcci per scoprire e testare associazioni per varianti rare. Inoltre, discutiamo il crescente corpo di letteratura che documenta esempi di varianti genetiche altamente clinicamente informative identificate attraverso matrici di genotipizzazione su misura, imputazione e sequenziamento dell'intero esoma e dell'intero genoma su scala di popolazione.


Disponibilità dei dati

Tutti i dati sulla linea germinale utilizzati in questo manoscritto sono disponibili pubblicamente da GIAB, Precision FDA ed ENA. I collegamenti sono forniti nella Nota Supplementare 1. I dati del trio del progetto WGS500 sono disponibili presso l'Archivio Europeo dei Nucleotidi con il n. PRJEB9151 (campioni AW_SC_4654, AW_SC_4655 e AW_SC_4659). I dati sui tumori sintetici sono stati depositati nell'Archivio Sequence Read con l'adesione al BioProject n. PRJNA694520. I corrispondenti set di verità sono stati depositati su figshare (https://doi.org/10.6084/m9.figshare.13902212).


Risultati e discussione

Studio di simulazione

Per prima cosa indaghiamo le prestazioni del nostro modello attraverso esperimenti di simulazione. Nella prossima sezione confrontiamo il nostro metodo con due metodi alternativi nel contesto di campioni di tumore reali da leucemia e tumori ependimomi.

Abbiamo condotto due serie di studi di simulazione. Il primo set è stato progettato per esaminare l'influenza degli iperparametri nelle specifiche precedenti: il parametro di ridimensionamento, ϕ, della trasformazione logistica per la GMRF e del numero di vicini di livellamento, nb. Sulla base dei risultati della prima serie di esperimenti, abbiamo quindi condotto una seconda serie di esperimenti impostando questi due parametri su valori fissi (predefiniti) per valutare le prestazioni del nostro algoritmo. Per scenari senza contaminazione i rapporti di registro corrispondenti al numero di copie J sono stati estratti indipendentemente da una distribuzione normale con la corrispondente media teorica per il numero di copie J e una deviazione standard scelta per ottenere un dato SNR. Per scenari con contaminazione i rapporti di registro corrispondenti al numero di copie J sono stati estratti indipendentemente da una distribuzione normale con media log 2 j ( 1 − p ) + 2 p + b 2 + b , dove P è la percentuale di contaminazione e B è il fattore di fondo, vedi [10].

Nella prima serie di studi di simulazione abbiamo scoperto che una piccola gamma di ϕ era adatto su diverse configurazioni. In particolare, abbiamo studiato la sensibilità scegliendo diversi valori nell'intervallo <.005, .01, .5, .1>. Per il numero di SNP vicini (su entrambi i lati) su cui smussare nel GMRF i due valori, 1 e 4 per un totale di 2 o 8 vicini per ogni SNP. Gli SNP di confine alle estremità dei cromosomi usavano semplicemente meno SNP. I risultati e la discussione di questi studi di sensibilità sono riportati in [File aggiuntivo 1]. Sulla base dei risultati della prima serie di esperimenti abbiamo poi condotto una seconda serie di esperimenti impostando questi due parametri a valori fissi, ϕ = 0,01 e nb = 4 e variando il rapporto segnale-rumore e la posizione dei punti di interruzione del numero di copie. Abbiamo anche variato il numero di SNP che costituiscono le regioni di aberrazione. In tutte le simulazioni, la deviazione standard (σh) della distribuzione della proposta per aggiornare il parametro di livellamento, h, è stato scelto in modo che i rapporti di accettazione siano compresi tra il 40% e il 70%. Per tutti i casi riportati abbiamo utilizzato 50.000 estrazioni di campionamento per l'inferenza dopo un periodo di burn-in di 50.000 iterazioni.

Per la seconda serie di simulazioni abbiamo progettato due modelli di segmenti di numeri di copie. Per ogni pattern, abbiamo simulato quattro scenari di rapporti logaritmici SNP. In pratica i log-ratio verrebbero opportunamente normalizzati. I quattro scenari sono diverse configurazioni di numero di copie reali, rapporto segnale-rumore (SNR), normale contaminazione cellulare e numero di SNP all'interno della regione CNA. Per ogni scenario riportiamo la classificazione errata, i tassi di falsi negativi e falsi positivi. Tutti i tassi nelle tabelle ​ Tables1, 1 , ​ ,2, 2 , ​ ,3 3 si basano su 50 repliche di campioni.

Tabella 1

Tassi di classificazione errata dallo studio di simulazione.

CN# SNPscenario 1
.05/7.3/0
Scenario 2
.15/2.4/0
35016
11002
32005
34001
CN# SNPScenario 3
.2/1.8/0
Scenario 4
.2/1.5/20
355150
1101137
320911
34066
CN# SNPScenario 5
.05/7.3/0
Scenario 6
.15/2.4/0
45687
310014
02000
34009
CN# SNPScenario 7
.2/1.8/0
Scenario 8
.2/1.5/20
457798
3103131
02000
340174

La voce è il tasso di errata classificazione, espresso in percentuale, su 50 repliche di un cromosoma. Otto scenari sono stati simulati e definiti dalla combinazione data di vero CN, numero di SNP all'interno della regione di aberrazione e contaminazione SD/SNR/percentuale. La SD e l'SNR sono fornite sulla scala del rapporto log2 sotto un vero CN di 3. Il vero profilo CN per gli scenari 1-4 è CN(#SNPs): 2(10), 3(5), 2(50), 1 (10), 2(50), 3(20), 2(50), 3(40), 2(10). Il vero profilo CN per gli scenari 5-8 è CN(#SNPs):2(10), 4(5), 2(50), 3(10), 2(50), 0(20), 2(50) , 3(40), 2(10).

Tavolo 2

Tassi di falsi negativi dallo studio di simulazione.

CN# SNPscenario 1
.05/7.3/0
Scenario 2
.15/2.4/0
35016
11002
32005
34001
CN# SNPScenario 3
.2/1.8/0
Scenario 4
.2/1.5/20
354750
1101137
320511
34036
CN# SNPScenario 5
.05/7.3/0
Scenario 6
.15/2.4/0
4500
31007
02000
34001
CN# SNPScenario 7
.2/1.8/0
Scenario 8
.2/1.5/20
4546
3102031
02000
34044

La voce è il tasso di falsi negativi, espresso in percentuale, su 50 repliche di un cromosoma.

Tabella 3

Tassi di falsi positivi dallo studio di simulazione.

CN# SNPScenario 1/5
.05/7.3/0
Scenario 2/6
.15/2.4/0
21003
25001
CN# SNPScenario 3/7
.2/1.8/0
Scenario 4/8
.2/1.5/20
21079
25022

La voce è il tasso di falsi positivi, espresso in percentuale, su 50 repliche di un cromosoma.

Il classificazione errata tasso riportato è definito come P (CN ≠ j | vero CN = J), per J 2. Per il caso speciale J = 2 otteniamo il falso positivo Vota, FP = P (CN ≠ 2 | vero CN = 2). Il tasso di falsi negativi è definita come la possibilità di una vera perdita o guadagno classificata come un normale numero di copia, FN = P (CN = 2 | vero CN ≠ 2).

Non troviamo molto utile citare i tassi globali poiché ciascuno dipende da diversi fattori, tra cui il vero CN, il rapporto segnale-rumore (SNR), la normale contaminazione cellulare e il numero di SNP all'interno della regione CNA. Riportiamo quindi errata classificazione, tassi di falsi negativi e falsi positivi date varie combinazioni di questi parametri. Altri autori (ad esempio, [17]) definiscono l'accuratezza delle prestazioni mediante il rilevamento del punto di interruzione. Ciò si traduce in definizioni leggermente diverse di tassi di falsi positivi e falsi negativi rispetto a quanto facciamo qui. Poiché il nostro modello si basa su componenti misti corrispondenti a numeri di copie interi, ha più senso considerare tassi di falsi negativi e falsi positivi più specifici. Come mostrato di seguito, queste tariffe dipendono anche da fattori diversi dal numero di copie reali.

Un certo numero di autori ha utilizzato i dati di simulazione di Willenbrock e Fridlyand [29] per valutare i loro algoritmi di numero di copie proposti per i dati aCGH. Willenbrock e Fridlyand hanno simulato i dati CGH utilizzando dati reali sul cancro al seno. I loro parametri di simulazione sono stati dedotti dai profili di 145 campioni di CGH di matrice tumorale della mammella stimati con DNAcopy. Per ogni campione vengono forniti sia i rapporti log (che emulano i dati aGCH) sia i dati del numero di copie reali. Una preoccupazione con questi dati è che possono essere meno rumorosi dei dati SNP reali, poiché emulano i dati aCGH. Poiché siamo particolarmente interessati alle prestazioni dei dati SNP, abbiamo quindi scelto di generare i nostri dati di simulazione. Notiamo anche che le nostre simulazioni hanno generato semplici file di testo di rapporti logaritmici. Pertanto, non siamo stati in grado di confrontare il nostro metodo con quelli la cui implementazione del software richiede file di dati speciali, come i file CEL Affymetrix. Alcuni metodi per i dati CGH, come CBS, DNAcopy e GLAD, richiedono solo dati normalizzati. Tuttavia, questi metodi sono per l'inferenza a tre stati (guadagno, perdita, normale). Nel nostro studio di simulazione abbiamo regioni di numeri di copie discreti (0, 1, 2, 3, 4) quindi i risultati non sarebbero comparabili. Gli studi sui dati reali, tuttavia, hanno consentito tali confronti in quanto siamo stati in grado di ottenere rapporti logaritmici dalla loro analisi. In breve, le simulazioni servivano a valutare il nostro metodo ei dati reali con convalida servivano a valutare le prestazioni in condizioni reali ea fini comparativi.

Tabella ​ La Tabella1 1 mostra i tassi di classificazione errata (%) per otto diversi scenari. Tabelle ​ Le tabelle2 2 e ​ e3 3 mostrano rispettivamente i tassi di falsi negativi e falsi positivi. Discutiamo prima i tassi di classificazione errata (MC) nella Tabella ​ Tabella1 1 .

Scenari 1-4: Questi scenari presuppongono i seguenti segmenti ordinati del numero di copie con il numero di SNP indicato tra parentesi: 2(10), 3(5), 2(50), 1(10), 2(50), 3(20), 2(50 ), 3(40), 2(10). Le larghezze dei segmenti del numero di copie (5, 10, 20, 40, 50) corrispondono a quelle considerate da Rancoita et al. [20]. La SD e l'SNR sono dati sulla scala del rapporto log2 sotto un vero CN di 3. Poiché in questa tabella riportiamo i tassi di classificazione errata, non mostriamo i segmenti corrispondenti a un numero di copie vere di 2, che sarebbe il tasso di falsi positivi (Tabella ​ (Tabella3). 3 ). Le righe sono ordinate per segmento come indicato sopra, esclusi i segmenti con un normale numero di copie. Figura ​ La Figura2 2 mostra un tipico set di dati nello Scenario 1 in cui l'SNR di 7,3 porta a rapporti log chiaramente non sovrapposti tra i segmenti. In questo caso, il tasso MC è 0% indipendente dall'aberrazione CN e dal numero di SNP che definiscono i rispettivi segmenti. Gli scenari 2, 3 e 4 hanno SNR sempre più piccoli e per una data aberrazione CN reale la frequenza MC aumenta con la diminuzione dell'SNR (da sinistra a destra tra le colonne). Figura ​ La Figura 3 3 mostra un set di dati nello scenario 2 con un SNR di 2,4. La sovrapposizione tra le classi CN è lieve, ma si possono ancora osservare chiari punti di cambiamento quando ci sono almeno 10 SNP. Qui, alcuni dei casi CN = 3 tra SNP 11-15 sono classificati come normali. Al contrario, a circa SNP n. 190 e 250, i normali CN sono classificati come CN = 3. Il tasso di MC più grande (16%) nello scenario 2 è quello corrispondente a un segmento con veri CN = 3 e 5 SNP. Gli altri tre casi nello scenario 2 con almeno 10 SNP hanno un tasso di MC non superiore al 5%. Figure ​ Le figure 4A 4A e ​ e 4B 4B mostrano due set di dati nello scenario 3 con un SNR inferiore a 2, ovvero SNR = 1.8. La Figura ​ La Figura4A 4A mostra la corretta classificazione di 4 su 5 CN = 3 casi tra SNPs 11-15, mentre la Figura ​ La Figura4B 4B mostra tutti e 5 questi CN = 3 casi erroneamente classificati come normali. Tuttavia, la Figura ​ Figura 4A 4A mostra più errate classificazioni dei casi CN = 3 tra SNP 230 e 240 rispetto a quella nella Figura ​ Figura 4B. 4B. Con almeno 10 SNP in un segmento, il tasso MC non è più dell'11% nello Scenario 3. Nello Scenario 4 l'SNR è 1,5 e come con lo Scenario 3 (SNR = 1,8) il tasso MC è di circa il 50% quando solo 5 SNP definiscono il segmento. Con un SNR di appena 1,5, è necessario un numero relativamente grande (> 10) di SNP per classificare con precisione un numero di copie.


Metodi

L'architettura di DEEP*HLA

DEEP*HLA è una rete neurale convoluzionale multitask che comprende una parte condivisa di due strati convoluzionali e uno strato completamente connesso, e singoli strati completamente connessi che emettono dosaggi allelici di singoli geni HLA per imputare contemporaneamente i geni HLA dello stesso gruppo (Fig. 1a). Il raggruppamento era basato sulla struttura LD 3 e sulla distanza fisica nell'applicazione corrente: (1) <HLA-F, HLA-V, HLA-G, HLA-H, HLA-K, HLA-A, HLA-J, HLA-L, e HLA-E>, (2) <HLA-C, HLA-B, MICA, e MICB>, (3) <HLA-DRA, HLA-DRB9, HLA-DRB5, HLA-DRB4, HLA-DRB3, HLA-DRB8, HLA-DRB7, HLA-DRB6, HLA-DRB2, HLA-DRB1, HLA-DQA1, HLA-DOB, e HLA-DQB1> e (4) <TAP2, TAP1, HLA-DMB, HLA-DMA, HLA-DOA, HLA-DPA1, e HLA-DPB1>. I geni non tipizzati o con solo singoli alleli nei singoli pannelli di riferimento sono stati esclusi dal gruppo. I confronti con reti neurali a compito singolo o reti neurali multitasking con raggruppamenti casuali sono mostrati nella Nota supplementare 1b e nella Fig. 11 supplementare.

DEEP*HLA prende l'input di ciascun genotipo SNV di aplotipo dai dati pre-fasati e produce i dosaggi genotipici dei singoli alleli per ciascun gene HLA. Per ciascun gruppo, gli SNV all'interno della sua finestra sono codificati in vettori one-hot in base al fatto che ciascun genotipo sia coerente con un riferimento o un allele alternativo. Le dimensioni della finestra su ciascun lato sono state fissate a 500 kb per confronti equi nella presente indagine, l'utilizzo di diverse dimensioni della finestra potrebbe modificare leggermente l'accuratezza per alcuni loci (Nota supplementare 1c e Fig. 12 supplementare). Due livelli convoluzionali con livelli di max-pooling e un livello completamente connesso seguono il livello di input come parte condivisa. Lo strato completamente connesso alla fine della parte condivisa è seguito da singoli strati completamente connessi, che hanno nodi coerenti con il numero di alleli di ciascun gene HLA. L'attivazione di Softmax è stata aggiunta prima dell'ultimo output per restituire un dosaggio di imputazione che varia da 0,0 a 1,0 per ciascun allele di un aplotipo. Pertanto, un singolo strato emette i singoli dosaggi allelici del gene HLA la cui somma è uguale a 1 per un aplotipo. Il dropout è stato utilizzato sugli strati convoluzionali e completamente connessi 51 e la normalizzazione batch è stata aggiunta agli strati convoluzionali 52.

Durante l'addestramento, il 5% del set di dati è stato utilizzato per la sottoconvalida per determinare il punto per l'interruzione anticipata dell'addestramento. Nella convalida incrociata di 10 volte, abbiamo separato la sottoconvalida per l'arresto anticipato da una piega di allenamento per condurre un benchmarking valido (Figura 13 supplementare). Una funzione di perdita categorica di entropia incrociata per ciascun gene HLA è stata ridotta al minimo utilizzando l'algoritmo di ottimizzazione di Adam 53 . Per un apprendimento multitask per trovare una soluzione Pareto ottimale di tutte le attività, abbiamo utilizzato l'algoritmo di discesa multigrado-limite superiore (MGDA-UB), in cui la funzione di perdita di ciascuna attività è stata scalata in base ai suoi algoritmi di ottimizzazione 54 . Per sfruttare la natura gerarchica degli alleli HLA (cioè 2 cifre, 4 cifre e 6 cifre), abbiamo implementato la messa a punto gerarchica, in cui i parametri del modello delle strutture gerarchiche superiori sono stati trasferiti a quelli del quello inferiore 55 . Abbiamo trasferito i parametri delle reti condivise di alleli a 2 cifre ad alleli a 4 cifre e di alleli a 4 cifre ad alleli a 6 cifre successivamente durante l'allenamento. Sebbene alcuni alleli HLA nel nostro pannello di riferimento non siano stati determinati con una risoluzione a 4 o 6 cifre, abbiamo invece impostato la loro risoluzione superiore per mantenere livelli gerarchici equivalenti con altri geni HLA. Gli iperparametri, incluso il numero di filtri e le dimensioni del kernel dei livelli convoluzionali e la dimensione del livello completamente connesso, sono stati sintonizzati utilizzando Optuna 56 . Gli iperparametri per ciascun pannello di riferimento sono stati determinati utilizzando un set di dati campionato casualmente prima della convalida incrociata. Le nostre architetture di deep learning sono state implementate utilizzando Pytorch 1.4.1 (http://pytorch.org/), una libreria di rete neurale Python.

Valutazione empirica dell'accuratezza dell'imputazione HLA

Abbiamo usato le metriche di accuratezza di sensibilità, PPV e R 2 per il dosaggio allelico imputato e tasso di concordanza per i genotipi migliori per valutare l'accuratezza dell'imputazione in vari aspetti.

Nel documento di SNP2HLA, l'accuratezza per locus è stata definita come la somma del dosaggio di ciascun vero allele su tutti gli individui diviso per il numero totale di osservazioni 33 . Questa definizione di accuratezza conta i positivi che sono correttamente identificati come tali e corrisponde alla sensibilità in una tabella di cross-tabulation quando viene scomposta in singoli alleli (Nota supplementare 2 e Fig. 14 supplementare). Quindi, abbiamo chiamato questo come sensibilità (Se) per contrastare con il PPV definito in seguito

dove n indica il numero di individui, Dio rappresenta il dosaggio imputato di un allele nell'individuo ioe alleli A1I l e la2I l rappresentano i veri alleli HLA per l'individuo io nel luogo l. I calcoli si basavano sulla condizione che gli alleli imputati fossero disposti in modo da ottimizzare la coerenza con gli alleli di verità A1I l e la2I l.

Per valutare le prestazioni di imputazione nei singoli alleli HLA, abbiamo scomposto il Se (l) per valutare le prestazioni di imputazione di ciascun allele come.

Questa metrica non può valutare l'effetto dei falsi positivi, quindi abbiamo definito il PPV allo stesso modo di

dove m denota il numero di vere osservazioni dell'allele UN nel campione totale, e Dio rappresenta il dosaggio imputato di allele UN nell'aplotipo individuale J che ha allele UN. DK rappresenta il dosaggio imputato di allele UN nell'aplotipo individuale K che ha un allele diverso da allele UN. Questa definizione si basa anche su una tabella di tabulazione incrociata (Figura 14a supplementare).

Inoltre, abbiamo calcolato R 2 basato sul coefficiente di correlazione del momento del prodotto di Pearson tra i dosaggi imputati e tipizzati per ciascun allele 22 .

Inoltre, per valutare l'accuratezza dei genotipi migliori, abbiamo calcolato il tasso di concordanza (CR) dei genotipi migliori e dei veri genotipi per ciascun allele come

dove Bio rappresenta il genotipo migliore di un allele nell'individuo io. Per definizione, era la stessa della sensibilità, in cui i dosaggi venivano modificati in genotipi migliori. Quindi, lo abbiamo scomposto in CR(UN) per la precisione per ciascun allele allo stesso modo. Non abbiamo valutato il PPV per il genotipo migliore a causa della ridondanza.

Quando si determinano le metriche di accuratezza per ciascun locus o un determinato intervallo di frequenze alleliche, abbiamo calcolato la media ponderata delle precisioni a livello di allele individuali in base alle frequenze alleliche individuali. Per R 2, abbiamo applicato la trasformazione Z di Fisher ai singoli valori e li abbiamo trasformati all'indietro dopo aver calcolato la media per ridurre il bias 57.

Stima dell'incertezza di imputazione HLA di DEEP*HLA utilizzando il metodo dropout MC

Per stimare l'incertezza di previsione, abbiamo adottato l'entropia della variazione campionaria del metodo dropout MC 36 . In MC dropout, i dropout vengono mantenuti durante la previsione per eseguire più chiamate del modello. Diverse unità vengono rilasciate in diverse chiamate di modello, quindi può essere considerato un campionamento bayesiano con il trattamento dei parametri di un modello CNN come variabili casuali della distribuzione di Bernoulli. L'incertezza di un genotipo migliore dedotto dall'entropia della variazione di campionamento è determinata come

dove T è il numero di campionamenti variazionali e T è il numero di volte in cui il genotipo ottenuto è stato identico al genotipo migliore. Prepariamo T = 200 nell'inchiesta attuale.

Metrica AUC che rappresenta il decadimento LD dipendente dalla distanza

Per valutare se la forza di LD tra un allele HLA e i suoi SNV circostanti si indebolisce all'aumentare della distanza tra loro, abbiamo calcolato l'AUC della curva cumulativa di R 2 dall'allele HLA (AUC per il decadimento LD dipendente dalla distanza). Quando la LD di SNV fiancheggianti di un allele HLA ha una tale caratteristica, R 2 di LD dall'allele HLA tende a diminuire. In altre parole, la curva cumulativa bilaterale di R 2 dall'allele HLA è più probabile che sia convesso verso l'alto, quindi l'AUC tende ad essere più alto. Abbiamo determinato l'AUC normalizzando i valori massimi di R 2 somma e dimensioni della finestra a 1. Abbiamo valutato l'associazione dell'AUC con le metriche di accuratezza a livello di allele di ciascun metodo di imputazione mediante modelli di regressione lineare aggiustati per una frequenza allelica. La dimensione della finestra dell'AUC deve essere impostata su un intervallo di input per ciascun metodo di imputazione. Tuttavia, SNP2HLA non ha un intervallo di input chiaro. Pertanto, abbiamo testato due diverse dimensioni della finestra come 1000 SNP bilaterali da un allele HLA target e l'intervallo di input di DEEP*HLA. Abbiamo studiato la correlazione tra l'accuratezza dell'imputazione e l'AUC di due diverse dimensioni della finestra, rispettivamente.

Mappe di sensibilità regionali di DEEP*HLA

Abbiamo applicato SmoothGrad per stimare quali SNV erano importanti per l'imputazione DEEP*HLA di ciascun allele HLA 34 . Per ogni aplotipo, abbiamo generato 200 campioni a cui è stato aggiunto rumore gaussiano ai dati SNV codificati e li abbiamo inseriti in un modello addestrato. I valori di sensibilità per le singole posizioni SNV sono stati ottenuti mediando i valori assoluti dei gradienti causati dalla differenza dall'etichetta reale. Quando abbiamo ottenuto la sensibilità di un allele HLA, abbiamo calcolato la media delle mappe di tutti gli aplotipi che hanno l'allele HLA target.

Software di imputazione HLA e impostazioni dei parametri

Abbiamo testato l'ultima versione del software disponibile a giugno 2020 per confrontarla con il nostro metodo. SNP2HLA (v1.0.3 http://software.broadinstitute.org/mpg/snp2hla/) prima organizza il filo nel proprio algoritmo, tuttavia, abbiamo rimosso i dati di questo passaggio durante la convalida incrociata perché i fili devono essere gli stessi tra l'addestramento e il test dati. Le altre impostazioni di SNP2HLA sono state impostate sui valori predefiniti. Per HIBAG (1.22.0. https://www.bioconductor.org/packages/release/bioc/html/HIBAG.html) il numero di classificatori è stato impostato su 25, che è sufficiente per ottenere buone prestazioni 58 per testare il giapponese dati. Per il pannello T1DGC, il tempo di addestramento è stato estremamente lungo con 25 classificatori, quindi abbiamo impostato due classificatori dopo aver confermato che l'accuratezza dell'imputazione era quasi invariata nel primo set di convalida incrociata. Le regioni fiancheggianti su ciascun lato sono state impostate a 500 kb. L'attuale versione di HLA*IMP:02 non supportava una funzione per generare un modello di imputazione utilizzando i propri dati di riferimento in una forma pubblicamente disponibile, pertanto non abbiamo valutato le sue prestazioni in questo studio per un confronto equo.

Misurazione dei costi di calcolo

Abbiamo misurato i costi computazionali di imputazione di un sottoinsieme del set di dati BBJ (n = 1000, 2000, 5000, 10.000, 20.000, 50.000 e 100.000 campioni) utilizzando il nostro pannello di riferimento giapponese (2000 SNV erano coerenti). Tutte le nostre analisi di runtime sono state eseguite su un server dedicato con CentOS 7.2.1511, con 48 core CPU (Intel ® Xeon ® E5-2687W v4 @ 3.00 GHz) e 256 GB di RAM senza GPU. Inoltre, abbiamo misurato il tempo di addestramento di DEEP*HLA con GPU utilizzando una macchina con Ubuntu 16.04.6 LTS con 20 core CPU (Intel ® Core ™ i9-9900X @ 3.50 GHz), 2 GPU (NVIDIA ® GeForce ® RTX 2080 Ti) e 128 GB di RAM. DEEP*HLA richiede dati GWAS pre-fasati e i modelli addestrati con dati di riferimento, quindi abbiamo misurato il processo non solo di imputazione, ma anche pre-fasamento dei dati GWAS (condotto da Eagle) e addestrando i modelli con un pannello di riferimento. Allo stesso modo, HIBAG richiede il tempo per l'addestramento di un modello, che è stato anche misurato. In SNP2HLA, il massimo della memoria disponibile è stato impostato su 100 GB. Il tempo di elaborazione e l'utilizzo massimo della memoria sono stati misurati utilizzando il software GNU Time durante l'esecuzione da un'interfaccia a riga di comando.

Dati di riferimento per l'imputazione HLA

Abbiamo utilizzato due pannelli di riferimento HLA nella convalida incrociata e nell'imputazione HLA per i dati GWAS della biobanca. I pannelli sono stati distribuiti come condizione graduale, quindi sono stati utilizzati come input per l'addestramento di un modello DEEP*HLA così com'erano. Quando sono stati utilizzati come set di convalida, abbiamo rimosso gli alleli target (ad esempio, alleli HLA e alleli degli amminoacidi) per lasciare solo i dati SNV in fasi. Abbiamo discusso una convalida incrociata più rigorosa, incluso il processo di pre-fase dell'aplotipo nella nota supplementare 1d.

(i) Il nostro panel di riferimento giapponese e un set di dati di convalida

Il nostro pannello di riferimento giapponese conteneva dati di tipizzazione HLA a risoluzione a 6 cifre basati su NGS di 33 geni HLA classici e non classici, di cui nove erano geni HLA classici (HLA-A, HLA-B, e HLA-C per la classe I HLA-DRA, HLA-DRB1, HLA-DQA1, HLA-DQB1, HLA-DPA1, e HLA-DPB1 per la classe II) e 24 erano geni HLA non classici (HLA-E, HLA-F, HLA-G, HLA-H, HLA-J, HLA-K, HLA-L, HLA-V, HLA-DRB2, HLA-DRB3, HLA-DRB4, HLA-DRB5, HLA-DRB6, HLA-DRB7, HLA-DRB8, HLA-DRB9, HLA-DOA, HLA-DOB, HLA-DMA, HLA-DMB, MICA, MICB, TAP1, e TAP2), insieme a dati SNP ad alta densità nella regione MHC mediante genotipizzazione utilizzando l'Illumina HumanCoreExome BeadChip (v1.1 Illumina) di 1120 individui non imparentati di origine giapponese 3 . È stato suddiviso in fasi utilizzando il software di imputazione Beagle. Abbiamo escluso i dati di due individui di cui i lati di alcuni alleli HLA erano incoerenti tra le diverse risoluzioni.

We used 908 individuals of Japanese ancestry with 4-digit resolution alleles of classical HLA genes (HLA-A, HLA-B, HLA-C, HLA-DRB1, HLA-DQA1, e HLA-DQB1, HLA-DPA1) based on SSO method to benchmark the imputation performance when the Japanese panel was applied to an independent dataset. The dataset was used as an HLA reference panel in our previous study 6 . It contains high-density SNP data genotyped using four SNP genotyping arrays (the Illumina HumanOmniExpress BeadChip, the Illumina HumanExome BeadChip, the Illumina Immunochip, and the Illumina HumanHap550v3 Genotyping BeadChip). It was distributed in a phased condition with Beagle format. Samples with missing genotype data for a locus were excluded in the accuracy evaluation of the locus.

This study was approved by the ethical committee of Osaka University Graduate School of Medicine. All the participants provided written informed consent approved from ethics committees of RIKEN Center for Integrative Medical Sciences, and the Institute of Medical Sciences, the University of Tokyo.

(ii) The Type 1 Diabetes Genetics Consortium (T1DGC) reference panel.

The T1DGC panel contains 5868 SNPs (genotyped using Illumina Immunochip) and 4-digit resolution HLA typing data of classical HLA genes (HLA-A, HLA-B, e HLA-C for class I HLA-DPA1, HLA-DPB1, HLA-DQA1, HLA-DQB1, e HLA-DRB1 for class II) based on SSO method of 5225 unrelated individuals of European ancestry 22 . It was distributed in a phased condition with Beagle format. We excluded 103 individuals’ data of which sides of some HLA alleles were inconsistent among different resolutions.

HLA imputation in 1000 Genomes Project data

We used Phase III 1000 Genomes Project (1KGv3) cohort as independent data to evaluate imputation accuracy. It comprises 2554 individuals of five different super populations (AFR, AMR, EAS, EUR, and SAS). We obtained NGS-based 4-digit resolution HLA typing data for classical HLA genes (HLA-A, HLA-B, e HLA-C for class I HLA-DRB1 e HLA-DQB1 for class II). HLA-typing was performed with PolyPheMe v1.2 (Xegen, France) on the exome sequences 59 . We evaluated imputation accuracy for individual populations based on their allele frequencies. Samples containing ambiguous alleles for a locus were excluded in the accuracy evaluation of that locus.

We experimentally constructed a mixed panel by merging the Japanese and T1DGC panels to assess imputation accuracy in diverse populations of 1KGv3. Considering the disparity in allele frequency of SNVs between two populations, we removed all palindromic SNVs to align the strands correctly when merging reference panels. We used 1445 SNVs for imputation which were consistent with 1KGv3 genotype data. We used the same 1445 SNVs for imputation to compare the accuracies in the same condition, when we evaluated imputation accuracy using the Japanese panel.

T1D GWAS data in the Japanese population

The BioBank Japan (BBJ https://biobankjp.org/english/index.html) is a multi-institutional hospital-based registry that comprises DNA, serum, and clinical information of approximately 200,000 individuals of Japanese ancestry with a diagnosis of at least 1 of 47 diseases recorded from 2003 to 2007 60,61 . The genotyping was performed with the Illumina HumanOmniExpressExome BeadChip or a combination of the Illumina HumanOmniExpress and HumanExome BeadChips 62 . We used GWAS data from 831 cases who had record of T1D diagnosis and 61,556 controls of Japanese genetic ancestry enrolled in the BBJ Project. The controls were same as those enrolled in our previous study that investigated the association of the MHC region with comprehensive phenotypes, and the number of T1D cases was increased 3 .

T1D GWAS data in the British population

The UK Biobank (UKB https://www.ukbiobank.ac.uk/) comprises health-related information approximately 500,000 individuals aged between 40 and 69 recruited from across the United Kingdom from 2006 to 2010 63 . We used GWAS data of 732 T1D patients and 353,727 controls of British genetic ancestry enrolled in UKB. We selected T1D patients as individuals who were diagnosed with insulin-dependent diabetes mellitus in hospital records, and eliminated individuals with non-insulin-independent diabetes mellitus in hospital records and type 2 diabetes in self-reported diagnosis. The controls were individuals with no record of any autoimmune diseases in hospital records or in self-reported diagnosis. We included only individuals of British ancestry according to self-identification and criteria based on principal component (PC) 64 . We excluded individuals of ambiguous sex (sex chromosome aneuploidy and inconsistency between self-reported and genetic sex), and outliers of heterozygosity or call rate of high quality markers.

Imputation of the HLA variants of GWAS data of T1D cases and controls

In this study, we defined the HLA variants as SNVs in the MHC region, classical 2-digit and 4-digit biallelic HLA alleles, biallelic HLA amino acid polymorphisms corresponding to the respective residues, and multiallelic HLA amino acid polymorphisms for each amino acid position. We applied DEEP*HLA to the GWAS data to determine classical 2-digit and 4-digit biallelic HLA alleles. The dosages of biallelic HLA amino acid polymorphisms corresponding to the respective residues and multiallelic HLA amino acid polymorphisms of each amino acid position were determined from the imputed 4-digit classical allele dosages. We applied post-imputation filtering as the biallelic alleles in which R 2 accuracy in 10-fold cross-validation was lower than 0.7. The SNVs in the MHC region were imputed using Minimac3 (version 2.0.1 https://genome.sph.umich.edu/wiki/Minimac3) after pre-phased with Eagle (version 2.3 https://data.broadinstitute.org/alkesgroup/Eagle/). We applied stringent post-imputation QC filtering of the variants (minor allele frequency ≥ 0.5% and imputation score Rsq ≥ 0.7). For transethnic fine-mapping, we integrated results of the imputation of individual cohorts by including the HLA genes, amino acid position, and SNVs that were typed in both reference panels. Regarding the HLA alleles and amino acid polymorphisms, those present in one population were regarded as absent in the other population. Considering the disparity in allele frequency of SNVs among different populations, we removed all palindromic SNVs to correctly align the strands.

Association testing of the HLA variants

We assumed additive effects of the allele dosages on the log-odds scales for susceptibility to T1D, and evaluated associations of the HLA variants with the risk of T1D using a logistic regression model. To robustly account for potential population stratification, we included the top ten PCs obtained from the GWAS genotype data of each cohort (not including the MHC region) as covariates in the regression model. We also included ascertainment center and genotyping chip for UKB as covariates. For transethnic analysis, PC terms for each other population were set to 0, and a categorical variable indicating a population was added as a covariate. We also included the sex of individuals as a covariate.

To evaluate independent risk among the HLA variants and genes, we conducted a forward-type stepwise conditional regression analysis that additionally included the associated variant genotypes as covariates. When conditioning on HLA gene(s), we included all the 4-digit alleles as covariates to robustly condition the associations attributable to the HLA genes 3,14 . When conditioning on the specific HLA amino acid position(s), we included the multiallelic variants of the amino acid residues. We applied a forward stepwise conditional analysis for the HLA variants and then HLA genes, based on a genome-wide association significance threshold (P = 5.0 × 10 −8 ). A previous study reported that the T1D risk was strongly associated with a combination of variants in the region of HLA-DRB1, HLA-DQA1, e HLA-DQB1, where the variants have strong LD to each other 12 . In such a situation, conditioning on all the 4-digit alleles of a single HLA gene might inadvertently blind the association of alleles of other HLA genes therefore, we conditioned on a set of individual HLA variants rather than an each HLA gene when analyzing this region.

We tested a multivariate full regression model by including the risk-associated HLA variants in HLA-DRB1, HLA-DQB1, HLA-A, e HLA-B, which were identified through the stepwise regression analysis. We excluded the most frequent residue in the British cohort from each amino acid position as the reference allele when we included amino acid polymorphisms in the model. Phenotypic variance explained by the identified risk-associated HLA variants was estimated on the basis of a liability threshold model assuming a population-specific prevalence of T1D, and using the effect sizes obtained from the multivariate regression model.

Reporting summary

Further information on research design is available in the Nature Research Reporting Summary linked to this article.


Sfondo

It has been recognized for nearly 40 years that cancer is a dynamic disease and its evolution follows a classical Darwinian process [1],[2]. After the proposal of the two-hit model of oncogenesis [3], and especially after the discovery of the linear progression from benign polyps to colorectal cancer via a series of mutational events [4],[5], it was briefly envisioned that cancer could be understood in most cases by simply finding the small number of events that act sequentially to drive step-wise clonal selection. However, initial efforts to sequence most coding genes in tumor DNA revealed remarkable heterogeneity between tumors in each cancer type examined [6]-[9]: typically, very few (<10) genes are mutated in >10% of tumors, but many (40 to 80) are mutated in 1% to 5% of tumors. Further, heterogeneity in cancer could manifest on other levels: not just among different patients, but also among tumors of different grades or organ sites in the same patient, as well as among different cells within a tumor [10],[11]. Heterogeneity at any of these levels could confound diagnosis and treatment, and underlie the inherent evasiveness of this disease. Most genomic analyses to date, notably those led by the Cancer Genome Atlas (TCGA) Research Network [12]-[15] and the International Cancer Genome Consortium (ICGC) [16] have focused on inter-tumor heterogeneity. These studies analyze hundreds of tumors per cancer type, relying on bulk tissue samples, usually for one sample per patient. The data were primarily interpreted by regarding each tumor as a single population of cells with uniform character. Despite the inherent limitation of this assumption, as shown by the widely reported tumor-normal mixing [17]-[19], large-scale inter-tumor comparisons have led to important new insights into significantly mutated genes [12],[13], recurrently perturbed pathways [20], mutation signatures [16],[21], tumor subtypes [22],[23], molecular predictors of outcome, and commonalities or distinctions among different cancer types [24]. However, these studies are not designed to adequately investigate intra-tumor heterogeneity. Ultimately, cancer genome evolution takes place at the single-cell level, and it is the cellular complexity and its dynamics that give rise to both intra- and inter-tumor heterogeneity. Currently, cytogenetic methods are of low throughput and often cannot assure representative sampling. And the cost of single-cell sequencing [25]-[28] remains prohibitively expensive for all but the proof-of-concept studies. Under such constraints, many groups have surveyed intra-tumor heterogeneity by comparing multiple specimens from the same patient by longitudinal sampling or spatial sampling (mainly for solid tumors). Almost invariably, analyses of longitudinal samples have uncovered dramatic temporal changes of the cancer cell population that often correlate with disease progression, severity, and treatment resistance [29]-[32]. Similarly, multi-region comparisons have revealed extensive genomic variability across different geographic sectors of the tumor [33],[34], or between the primary and metastatic tumors [35]. These studies, while using samples collected with a higher spatial or temporal resolution than those in TCGA and ICGC, often still contain heterogeneous populations of cells [35]-[37].

Fortunately, while bulk tissue data describe the global average of multiple subpopulations of cells, it is sometimes possible to statistically infer the number and genomic profile of such subpopulations. For example, when a sample is sequenced deeply, the somatic mutation frequencies sometimes cluster around a small number of distinct frequency `modes’ [38],[39], suggesting that somatic mutations of similar frequencies may reside in the same population of cells and these cells may have descended from the same founder cell. For this reason, these mutations are said to belong to the same `clone’ or `subclones’, the latter referring to a clonal population of a relatively small cellular fraction. This inference task, essentially a deconvolution problem (or Blind Source Separation Problem), presents many analytical challenges, since both the number of subclones and the genomic profile of each need to be estimated simultaneously, and somatic copy number alterations (sCNAs) and somatic single-nucleotide variants (SNVs) often reside in the same region yet have unknown phase or genealogical order. Currently available methods often need to invoke simplifying assumptions and often focus on a subset of the issues. Per esempio, ABSOLUTE[40] uses sCNA data to estimate the global mixing ratio of aneuploid and euploid cells, but only under a tumor-normal, two-population assumption, which involves a single tumor population of full clonality. When a sCNA or SNV is subclonal, ABSOLUTE makes the qualitative designation of `subclonal’ without quantitatively estimating the clonality. Other methods also invoke other types of compromises, and we will defer the description of these limitations to the Discussion.

In this work, we developed Clonal Heterogeneity Analysis Tool (CHAT) as a general framework for estimating the cellular frequencies of both sCNAs and SNVs. It is suitable for analyzing genomewide SNP genotyping and DNA sequencing data for tumor-normal pairs (Figure 1). CHAT begins by identifying regions of sCNA or by partitioning the genome into bins and for each sCNA or bin, it estimates a local mixing ratio, called segmental aneuploid genome proportion (sAGP), between a euploid population and a single aneuploid population carrying the local CNA. The assumption of local two-way mixing does not imply there are only two cell populations globally. It is akin to the infinite-site model in population genetics, stating that each locus experienced only one copy number alteration, without a second over-riding alteration or the reversal to the original germline state (that is, back mutation). After calculating sAGP for every sCNA in the tumor, CHAT estimates the cellular prevalence of SNVs (also called cancer cell fraction, or CCF, as in [32]) by adjusting the observed somatic allele frequency (SAF) from sequencing data according to the background copy number status, while also considering the sCNA clonality (sAGP), the relative order of occurrence between the SNV and its associated sCNA, and their cis- or trans-relationship. Through simulation we show that CHAT performs well in quantitatively recovering sAGP, CCF, and the underlying evolutionary scenario. We also show that it estimates CCF more accurately than EXPANDS e PyClone in most scenarios and CNA states. We have applied CHAT to calculate sAGP for sCNAs, and CCF for SNVs, across 732 human breast tumor samples previously analyzed for inter-tumor diversity by TCGA [14] (Materials and methods, Data access and sCNA identification), and we will present two vignettes of the results. Lastly, we discuss the model identifiability issue and compare the theoretical features of CHAT with that of several similar methods.

Schematics of CHAT pipeline. Tumor and Normal DNA samples are profiled for allele-specific copy number alterations by SNP arrays and somatic mutations by DNA sequencing. Gray texts and broken arrows (in the upper portion of the figure) indicate input data. CHAT offers two options to partitions the genome: by naturally identified sCNAs or by predefined bins. It then estimates sAGP for each partition (left side). Inference of CCF and timing-phase scenarios relies on sAGP of sCNA, copy number configuration (nB, nT), and SAF of the mutation (right side). CCF and sAGP can be used in a wide range of downstream analyses (bottom).


Sfondo

Identification of somatic driver mutations in cancer has led to the development of targeted therapeutics that have improved the clinical outcomes of cancer patients [1–3]. Lung adenocarcinoma (LUAD), the most common histological subtype of non-small cell lung cancer [4], is denoted by genetic alterations in the receptor tyrosine kinase (RTK)-RAS-mitogen-activated protein kinase (MAPK) pathway [2]. Companion diagnostics for hotspot mutations of EGFR, KRAS, BRAF, and ALK, which are clinically associated with specific targeted cancer therapies, are currently available for LUADs [5]. While the detection rate of currently identified actionable mutations in LUAD is over 60 % [2], efforts to catalogue all the clinically relevant genetic variations are still ongoing [6–9]. Moreover, drug resistance and disease recurrence after anti-cancer treatments require more comprehensive genomic analysis of individual LUADs [10, 11].

Although the individual cells in a tumor mass originate from a common ancestor and share early tumor-initiating genetic alterations, tumor cells frequently diverge and show heterogeneity in growth [12–14], drug resistance [15, 16], and metastatic potential [13, 14]. Intra-tumoral heterogeneity results from mutation and clonal selection dynamics during tumor growth [13, 14, 16], where individual tumor cells accumulate cell-specific genetic changes [12]. This genetic heterogeneity is significantly associated with tumor progression and the treatment outcomes of cancers [17, 18]. Therefore, monitoring intra-tumoral heterogeneity at the single-cell level would broaden our understanding of tumor recurrence mechanisms after anti-cancer treatments [19] and guide us in developing more sophisticated strategies to overcome drug resistance.

Single-cell genome profiling technology provides the highest-resolution analysis of intra-tumoral genetic heterogeneity [20–22]. Based on heterogeneity, we can identify individual cells with specific genetic alterations or genomic expression profiles that could be responsible for treatment resistance. Therefore, correlating the genotype–phenotype relationship in genetically distinct single cells can provide important new information for selecting the most appropriate clinical intervention for targeting heterogeneous LUADs [23]. For this purpose, patient-derived xenograft (PDX) cells provide a genetically and phenotypically accessible model for single cancer cell analyses of the heterogeneous histopathological, genetic, molecular, and functional characteristics of parental tumors [24, 25]. Moreover, drug-resistant tumor cells can be selected and analyzed in vitro using PDX cells.

We performed transcriptome profiling on single PDX cells from a LUAD patient to elucidate the molecular mechanisms and underlying genomic characteristics of tumor cell resistance to anti-cancer drug treatments. Single-cell transcriptome analysis uncovered heterogeneous behaviors of individual tumor cells and provided new insights into drug resistance signatures that were masked in bulk tumor analyses.


4 Discussion and conclusions

We developed a data integration framework to address the problem of SNV and loci prioritization. cNMTF extracts relevant patterns of information from genotypes, phenotypes and molecular data via dimensionality reduction, finds clustering patterns and scores the associations with the phenotype. A key feature of cNMTF is performing multiple-SNV analysis by means of the SNV–SNV network. This strategy allows for the sharing of information between variants depending on their network connectivity and the similarity of genotypes across individuals.

We have provided cNMTF with capabilities to capture gene-trait associations that are not significant in the univariate studies due to insufficient statistical power. The method also unveiled well-known genes involved in lipid metabolism that have not been prioritized in the Finnish and white American cohorts, thereby, complementing current findings of LRMs.

Another relevant feature of cNMTF is the correction for detrimental effects of population stratification, which are particularly problematic when using matrix factorization. In Supplementary File S1 (Supplementary Sections S10–S12 and Figs S18–S21 ) we expand the discussion on how the algorithm generates solutions regardless the subjects’ ancestry, while minimizing the rate of spurious findings.

Although our study shows an implementation of cNMTF with SNV–SNV networks based on PPIs, the algorithm is suitable for studying other omic datasets in future works. The input can be modified to allow for the integration of genotypes with metabolic, transcriptomic or proteomic data by means of weighted networks. This would give insights on the genetic heterogeneity resulting from pathways, where current methods treat all the genes as equivalent and do not model their interactions ( Leiserson et al., 2013). In addition, cNMTF can be easily adapted to go beyond the case–control design. For example, this can be used for patient stratification and definition of tumour subtypes in cancer research, where a number of clusters could be assessed simultaneously.

With regard to the computational features of the algorithm, our research expands the field of NMTF-derived methods (non-negative matrix tri-factorization). To date, regularizations of NMTF are characterized by the use of graph Laplacian ( Shang et al., 2012), constrained clusters ( Li, 2010), rules in matrix definition ( Ding et al., 2006 Gu and Zhou, 2009) and knowledge transference between input matrices ( Gligorijevic et al., 2016a, c). Here, we showed the regularization of NMTF via the combined use of kernels, and stated principles for adequate data weighting and confounder correction. Future work can extent these principles for the study of continuous phenotypes or the formulation of SNV scores from multi-layer omic networks.

This work has limitations in the algorithm implementation. First, the method can only be evaluated on a subset of SNVs due to the computational cost of matrix operations at the genome-wide level. We limited the analyses to disease-associated genes reported in GWAS catalogue (seeds) and the first neighbourhood of seed genes in the PPIN. Genes outside these filtering rules are lost in our study cases, so we have potentially lost disease-associated locus not interacting with our seed genes. Nonetheless, the algorithm can be tailored to explore larger sets of seed genes or indirect PPIs, depending on the scope and the computational resources available to that aim.

Second, the inclusion of PPI data could bring bias to the results. Hub genes in the protein interactome have a higher chance to interact with our set of seed genes and they are more likely to be included in the input (e.g. TP53 connects 11% of proteins in the BioGrid network). Similarly, candidate SNVs in hub genes could be connected to more damaging SNVs. When the algorithm is executed, the diffusion of information through the network will favour the proximity between candidate and damaging variants.

To address this limitation, we introduced the normalized graph Laplacian in the objective function and analyzed the node degree of prioritized genes/SNVs in their networks ( Supplementary File S1 , Section S4.1 and Fig. S17). However, no significant differences in the median node degree of prioritized genes/SNVs were observed between settings of the algorithm (basic Laplacian versus normalized Laplacian, Wilcoxon test, P > 0.24). Please note that we are already performing a normalization in the edges of the SNV–SNV network to remove bias for genes harbouring multiple variants. Therefore, these results indicate that hub genes/SNVs could be prioritized because they may play a relevant role in the lipid processes and should be integrated in the analyses (e.g. APOB is a key hub gene connecting 12 proteins). We conclude that the connectivity of the network itself cannot prioritize variants unless they show moderate association signals in the genotype data.

Another limitation of cNMTF is that some genes associated with the lipid trait (e.g. CELSR2, LPL) were not prioritized. This is due to the clustering nature of the method, the different sources of information contributing to the final results and our still limited knowledge of the human interactome. Particularly, the SNV–SNV network leads to strong association signals boosting the weak variants however, the opposite can also occur (the strong association is masked) if clustering patterns are not observed in the genotype data, or the network is saturated of very poor associations. Consequently, we see our method as a complementary tool for single-SNV studies because its performance depends on the clusters and the connectivity of weak–strong variants.

In conclusion, we have presented cNMTF as an alternative approach to prioritize variants and genes for follow-up studies. Given the satisfactory results with lipid traits and the flexibility of cNMTF to handle interrelated but disparate sources of data, this study provides valuable guidelines for future integrative approaches in the field.


A short review of variants calling for single-cell-sequencing data with applications

The field of single-cell sequencing is fleetly expanding, and many techniques have been developed in the past decade. With this technology, biologists can study not only the heterogeneity between two adjacent cells in the same tissue or organ, but also the evolutionary relationships and degenerative processes in a single cell. Calling variants is the main purpose in analyzing single cell sequencing (SCS) data. Currently, some popular methods used for bulk-cell-sequencing data analysis are tailored directly to be applied in dealing with SCS data. However, SCS requires an extra step of genome amplification to accumulate enough quantity for satisfying sequencing needs. The amplification yields large biases and thus raises challenge for using the bulk-cell-sequencing methods. In order to provide guidance for the development of specialized analyzed methods as well as using currently developed tools for SNS, this paper aims to bridge the gap. In this paper, we firstly introduced two popular genome amplification methods and compared their capabilities. Then we introduced a few popular models for calling single-nucleotide polymorphisms and copy-number variations. Finally, break-through applications of SNS were summarized to demonstrate its potential in researching cell evolution.


Guarda il video: Clase 284 Biotecnología molecular: Array aCGH (Febbraio 2023).