Tra i più grandi tesori del mondo,
Il più grande studio genetico ha già innescato una
rivoluzione nel settore sanitario, aprendo le porte a una nuova era di cure. In
alcune nazioni le rubriche appalti prevedono la costruzione di ospedali
intelligenti, una nuova era di scoperte mediche, trattamenti e cure è
all'orizzonte, dopo l'annuncio che una miniera senza
precedenti di informazioni genetiche viene messa a disposizione degli
scienziati. La mossa di giovedì equivale al più grande numero di sequenze
dell'intero genoma mai rilasciate per la ricerca medica. Le sequenze saranno
utilizzate con i registri della UK Biobank e altri dati per approfondire la
genetica di tutto, dal rischio di obesità, diabete, malattie cardiache, cancro
e altre condizioni, al sonno e all'esercizio fisico degli individui. Lo studio
sanitario britannico noto come UK Biobank – è un “tesoro” di dati sanitari a
lungo termine istituito nel 2006 per indagare su come i nostri geni e
l’ambiente influenzano lo sviluppo delle malattie – è considerato il database
sanitario più importante al mondo e ha il più grande database sanitario
l’intero set di dati sul genoma del mondo, composto da mezzo milione di
persone.
Il motivo per cui i dati della Biobanca del Regno Unito sono
così importanti è che da quando è stata istituita, ha registrato centinaia di
migliaia di informazioni sanitarie a lungo termine dei partecipanti,
raccogliendo più di 10.000 variabili su ciascun volontario. La biobanca si
riferisce a una libreria di risorse che raccoglie e archivia a lungo termine
campioni biologici umani (come sangue e DNA) e informazioni fisiologiche,
patologiche e socioeconomiche degli oggetti di raccolta dei campioni attraverso
processi standardizzati. Si tratta essenzialmente di un array prospettico di
una popolazione di grandi campioni ricerca. Attualmente la biobanca più
conosciuta e aperta al mondo.
Vengono effettuate
misurazioni di base come altezza, peso e vita, ma lo sono anche campioni di
sangue, urina e saliva; Vengono misurati anche la pressione sanguigna, la
frequenza cardiaca, la densità ossea, le condizioni polmonari e molti altri
fattori. Ma oltre ai fatti fisici, i volontari condividono anche dettagli sulla
loro vita e sul loro stile di vita. Ad esempio, vengono presi in considerazione
il luogo in cui vivono, la loro istruzione, le loro esigenze lavorative, la
loro salute mentale, il consumo di alcol e cibo spazzatura, persino la quantità
di tempo che trascorrono a prendere il sole. Ciò rende possibile incrociare
tali informazioni con la loro genetica per vedere chi potrebbe essere più a
rischio di determinate malattie e come combatterle.
Un genoma è tutto il materiale genetico di un organismo. È
in gran parte costituito da sequenze di DNA, determinate dall'ordine delle
quattro "lettere" che compongono il DNA (A, T, G e C). Il sequenziamento dell'intero genoma analizza
quindi la sequenza genetica dell'intero codice genetico di una persona: la
composizione unica di tre miliardi di elementi costitutivi che costituiscono
ciò di cui è fatto ogni individuo. In precedenza, la Biobanca aveva pubblicato
tali dati su 200.000 persone, ma ora li ha più che raddoppiati, rilasciando il
corredo genetico di ben 500.000 persone. La Biobanca afferma che i dati di
sequenziamento dell’intero genoma su questa scala consentiranno ai ricercatori
di esplorare “geni rari e nascosti” coinvolti nella salute e nella malattia,
trovare modelli nei dati che potrebbero sfuggire in un set di dati più piccolo
e fare “scoperte precedentemente impossibili” su come si sviluppano le malattie
e come possiamo diagnosticarle, prevenirle e curarle.
Finora, oltre 30.000 ricercatori provenienti da più di 90
paesi si sono registrati per utilizzare la Biobanca, con oltre 9.000 articoli
sottoposti a revisione paritaria pubblicati utilizzando i dati. E grazie alla
legge dei numeri, ha già consentito la scoperta e lo sviluppo di farmaci più
mirati, in particolare in tandem con l’uso dell’intelligenza artificiale. In
effetti, le prove tratte dal database hanno dimostrato che i farmaci hanno il
doppio delle probabilità di essere approvati per l’uso clinico.
I metodi di reclutamento dell'UKB avvengono principalmente
tramite richieste via e-mail e inviti telefonici. Quando i partecipanti
accettano di partecipare al database dei campioni biologici del Regno Unito,
saranno invitati a visitare il centro di valutazione più vicino a loro per
raccogliere informazioni di base e campioni biologici. I passaggi specifici per
la partecipazione dei volontari al Centro Visite UKB.
l processo di partecipazione specifico è:
Il primo passaggio consiste nell'utilizzare il touch screen
per condurre un questionario di indagine. Dopo che i volontari hanno completato
il processo di consenso informato, possono utilizzare il touch screen per
compilare un questionario autocompilato per raccogliere la maggior parte delle
informazioni personali. Il contenuto del questionario è molto ampio e comprende
molti aspetti, concentrandosi principalmente su:
1) Fattori socio-demografici. La maggior parte di queste
domande provengono e adattano dai censimenti (come il censimento del 2001 e
l'Health Survey for England) e includono principalmente lo stato socioeconomico
e gli indicatori demografici. Le domande includevano proprietà della casa,
proprietà dell'auto, reddito familiare, membri della famiglia, stato
occupazionale e occupazione attuale, etnia e paese di nascita, titoli di studio
ed età di abbandono scolastico.
2) Fumare e bere.
3) Storia familiare e alcuni fattori di esposizione precoce
dell'individuo. La storia familiare è un noto predittore di tumori comuni,
malattie cardiovascolari e molte altre condizioni. Questi problemi vanno da una
storia familiare di parenti di primo grado con malattie gravi comuni all'ordine
in cui nascono i gemelli. I fattori di esposizione precoce individuali sono
principalmente correlati al peso alla nascita, all’allattamento al seno, al
fumo materno, alle dimensioni del bambino e alla residenza alla nascita poiché
questi fattori sono considerati potenziali predittori della salute degli
adulti.
4) Fattori ambientali. Il questionario considera un'ampia
gamma di potenziali esposizioni ambientali, selezionando indicatori considerati
come l'impatto di malattie comuni come malattie respiratorie e patologie
muscolo-scheletriche. Le domande includono indirizzo attuale, luogo di
residenza alla nascita, occupazione e altri fattori sul posto di lavoro,
esposizione al fumo passivo, inquinamento dell’aria interna e frequenza di
utilizzo del telefono cellulare.
5) Abitudini alimentari. Comprende principalmente un
questionario sulla frequenza alimentare, un questionario di richiamo dietetico
di 24 ore e un questionario di richiamo dietetico di più giorni.
6) Partecipazione ad attività sportive. Sono state incluse
principalmente anche l'intensità dell'attività fisica (vigorosa, moderata), la
frequenza dell'attività fisica e domande sulle comuni attività sedentarie.
7) Stato mentale e cognitivo. In termini di stato mentale, il metodo del questionario consiste nel valutare i tratti psicologici (nevroticismo) e le emozioni sulla base di questionari standardizzati e registrare eventi gravi che influenzano i sintomi psicologici e le loro manifestazioni mediche. I contenuti specifici del questionario possono essere visualizzati.
Il secondo passo sono gli indicatori di misurazione del
corpo. Dopo che i volontari hanno completato il questionario, verranno
effettuate una serie di misurazioni corporee, tra cui pressione sanguigna (e
polso), altezza, peso, circonferenza vita, circonferenza fianchi, forza di
presa, capacità vitale e dati sulla densità ossea. La terza fase è il processo
di raccolta dei campioni biologici, che raccoglie principalmente dati sul
sangue e sulle urine per test sul genoma, sul proteoma e sulla metabolomica. I
dati fenotipici di base raccolti possono essere visualizzati.
Questionario sul touchscreen :
http://biobank.ctsu.ox.ac.uk/crystal/label.cgi?id=100025
Intervista verbale:
http://biobank.ctsu.ox.ac.uk/crystal/label.cgi?id=100071
Misure fisiche:
http://biobank.ctsu.ox.ac.uk/crystal/label.cgi?id=100006.
Questionari basati sul web:
http://biobank.ctsu.ox.ac.uk/crystal/label.cgi?id=100089
Monitoraggio dell'attività fisica:
http://biobank.ctsu.ox.ac.uk/crystal/label.cgi?id=1008
http://www.ukbiobank.ac.uk/wpcontent/uploads/2013/11/BCM023_ukb_biomarker_panel_website_v1.0-Aug-2015.pdf
Biomarcatori urinari:
http://biobank.ctsu.ox.ac.uk/crystal/label.cgi?id=100083
Studio delle immagini:
http://biobank.ctsu.ox.ac.uk/crystal/label.cgi?id=100003
Collegamenti URL ai dati fenotipici di base raccolti nel database della
Biobanca del Regno Unito.
Oltre a ciò, UKB copre anche i dati delle cartelle cliniche
elettroniche del Regno Unito, tra cui,
1) Dati di registrazione di morte e cancro,
2) Dati diagnostici di ricovero,
3) Dati del medico di base,
4) Altri dati medici (come prescrizioni, referti patologici,
referti di imaging, screening) e dati sanitari.
Oltre ai dati di base di cui sopra, l’UKB contiene 500.000 partecipanti di età compresa tra 40 e 69 anni (un numero più o meno uguale di uomini e donne) reclutati in tutto il Regno Unito dal 2006 al 2010. L’Assessment Centre di Stockport ha condotto un sondaggio di follow-up su 20.000 partecipanti. I principali soggetti di follow-up erano volontari entro un raggio di 35 chilometri dal centro di valutazione. Il tasso di partecipazione complessivo è stato del 21% e i dati raccolti erano più o meno coerenti con i dati di base. Gli stessi, ma allo stesso tempo, dati campione vengono aggiunti anche dati di scansione MRI cerebrale e campioni di saliva. Fino ad ora sono state condotte quattro visite di follow-up, tra cui 2006-2010, 2012-2013, 2014+ e 2019+.
Introduzione ai dati sul genotipo UKB
L'UKB attualmente pubblica i dati del genoma di oltre
488.000 volontari e ha progettato due chip appositamente per la popolazione
britannica. Tra questi, 49.950 volontari sono stati genotipizzati utilizzando
il chip BiLEV Axiom del Regno Unito, che contiene 807.411 marcatori. Altri
438.427 partecipanti sono stati genotipizzati utilizzando l'array Axiom della
Biobank del Regno Unito, che contiene 825.927 marcatori tra cui le frequenze
alleliche minori comuni (5%) e a bassa frequenza (1-5%) (MAF) e include anche
alcune mutazioni rare (<1% ). Maggiori dettagli del chip di progettazione
possono essere visualizzati nella Figura 3.
Strategia di progettazione dei dati del chip:
Oltre ai dati del chip, UKB inserisce anche i dati del chip.
Il pannello di riferimento utilizzato è costituito dai dati del pannello di
riferimento UK10K e Thousand Genomes Phase3 uniti e viene compilato utilizzando
anche il pannello di riferimento HRC. Tuttavia, se un SNP appare in entrambi i
pannelli di riferimento, vengono selezionati i risultati del pannello di
riferimento HRC. Se gli altri sono diversi, vengono selezionati i risultati dei
dati popolati dai pannelli di riferimento uniti (pannelli di riferimento UK 10K
e Thousand Genomes Phase3). Infine, sono stati ottenuti 92.693.895 SNP
autosomici. Attualmente, l’intera sequenza del genoma è ancora in fase di
sequenziamento e si prevede che la prima parte dei dati sull’intera sequenza
del genoma sarà disponibile ai ricercatori entro la fine del 2021. Inoltre,
l'UKB include anche una parte dei dati di sequenziamento dell'intero esoma. La
prima parte del sequenziamento dell’intero esoma (WES) dell’UKB ha ora aperto i
dati di 50.000 persone.
Sebbene UKB contenga dati ricchi come descritto sopra, come
troviamo i set di dati che ci interessano? Introduciamo principalmente due
metodi per risolvere questo problema.
Il primo metodo è accedere a Data Showcase tramite il sito
Web ufficiale UKB, fare clic su Sfoglia e trovare gli elementi di dati di
interesse in base alle categorie e sottocategorie gerarchiche degli elementi di
dati. Questo metodo è un modo sistematico per trovare un tipo di dati. Ricerca
per categoria originaria, i dati sono presentati in una struttura ad albero,
ottenibili cliccando per sfogliare, sono suddivisi in sette categorie in base
alla fonte dei dati raccolti.
Contenuto Web sfogliato per categoria originale. Queste
categorie includono:
1) Caratteristiche della popolazione, questa categoria
contiene dati caratteristici generali dei partecipanti.
2) UK Biobank Assessment CentreUKB Assessment Centre, questa
categoria contiene le informazioni raccolte dall'assessment center ed è
suddivisa in sottocategorie a seconda della tipologia di valutazione (come
touch screen, colloquio verbale, misurazione corporea, campionamento
biologico).
3) Campioni biologici, questa categoria contiene
informazioni sul tipo e sulla quantità di campioni biologici ricevuti da UKB
dopo il ritiro presso il centro di valutazione (elenco dei campioni), nonché
sulle misurazioni eseguite e sui loro risultati.
4) Genomica, informazioni sul genoma, UKB attualmente
contiene i seguenti dati sul genoma, genotipi e relativi dati di riempimento di
488.000 partecipanti, sequenze di esoma di 50.000 partecipanti e sequenze
dell'intero genoma di 50 partecipanti.
5) Follow-up online, dati di follow-up online, questa
categoria contiene informazioni basate su valutazioni aggiuntive condotte da
UKB utilizzando questionari online.
6) Esposizioni aggiuntive, questa categoria contiene
informazioni basate su altre valutazioni condotte al di fuori dell'assessment
center.
7) Risultati relativi alla salute: questa categoria contiene
informazioni sui risultati sanitari dei partecipanti forniti tramite
collegamenti a una serie di documenti relativi alla salute. Questi set di dati
continuano ad accumularsi e il database viene aggiornato regolarmente.
Ma come trovare i dati che ci interessano? La premessa per
utilizzare la Categoria è che dobbiamo conoscere la categoria dei dati che ci
interessano. Ad esempio, se vogliamo sapere se i dati UKB contengono dati sulla
vitamina D, dobbiamo È necessario sapere che la vitamina D è un indicatore
biochimico, solitamente dal rilevamento nel sangue, il sangue appartiene alla
categoria dei campioni biologici; quindi, troviamo direttamente il set di dati
dei campioni biologici in Sfoglia. Questo set di dati include anche analisi del
sangue, analisi della saliva e analisi delle urine dati dei test. Qui sappiamo
che dovremmo iniziare dal set di dati dei test del sangue. Alla ricerca di dati
Biochimica del sangue, in questo set di dati, abbiamo finalmente trovato
l'aliquota di vitamina D (ID campo 30890), la data del test della vitamina D
(30891), la data del test della vitamina D livello di correzione (30893),
motivo di correzione della vitamina D (30894), motivo della mancanza di
vitamina D (30895) e segnalabilità della vitamina D (30896). Infine, possiamo
localizzare i dati nei nostri dati in base al numero ID campo (che verrà
introdotto nuovamente in seguito).
Il secondo metodo consiste nel cercare direttamente,
accedere a Data Showcase tramite il sito Web ufficiale UKB, fare clic su Cerca
e accedere all'interfaccia di ricerca.
Interfaccia di ricerca nel sito Web UKB
Sono disponibili sei condizioni di ricerca sopra, tra cui
Campo dati, Codifica dati, Categoria, Risorsa, Ritorno, Genomica. Selezionando
il pulsante del tipo di ricerca pertinente, è possibile cercare la codifica dei
dati, le risorse di categoria e i dati del genotipo. Ad esempio, se vogliamo
trovare i dati della vitamina D, cerchiamo nel campo dati e infine
nell'interfaccia dopo la ricerca, possiamo trovare Molti dati includono la
vitamina D e possono essere trovati anche dati sulla vitamina D. Ad esempio,
inserendo i dati della vitamina D con ID campo 30890.
Descrizione del campo ID 30890 sul sito Web UKB
Le informazioni che possiamo ottenere sono 30890. Questi
dati provengono da indicatori biochimici del sangue. Ci sono 449.953
partecipanti (partecipanti) e sono stati raccolti un totale di 469.389 dati
(conteggio elementi). Il tipo di dati (tipo valore) è una variabile continua,
tranne per i dati di base. , e contiene un dato di follow-up (Definito (2),
2006-2010, 2012-2013), e c'è anche una descrizione statistica preliminare di
questa parte dei dati, ad esempio, la media è 48,58 nmol/L e la deviazione standard
è 21,433. Per un'introduzione dettagliata a questi dati, fare riferimento ai
due file PDF in Risorse (Procedure di qualità del test biochimico.pdf,
Documento complementare per dati sui biomarker sierici.pdf). Inoltre, puoi
vedere le categorie e sottocategorie a cui appartengono i dati dalla scheda
Categorie. Viene visualizzato anche orizzontalmente nell'albero delle categorie
nella parte superiore della pagina. Il campo dati è un numero molto importante:
una volta determinati i dati selezionati, il suo numero sarà l'unico che verrà
utilizzato per estrarre i dati in seguito. Oltre a cercare il campo dati, il
sito Web UKB può anche cercare le principali categorie di termini di ricerca.
Ad esempio, dopo aver selezionato Categoria, cerca stile di vita nella finestra
di ricerca. Puoi visualizzare due categorie principali: Stile di vita e Stile
di vita e ambiente. Cliccandoci sopra ci sono molte sottocategorie.Per quanto
riguarda i dati sullo stile di vita, questa funzione ci è molto utile per
cercare dati di tipo sistema. Oltre alla ricerca di informazioni fenotipiche di
base, la funzione Cerca può fornire anche condizioni di ricerca genomica: in
questa finestra è possibile cercare il numero rs di un SNP e scoprire se è
incluso nei dati del genoma UKB attraverso le informazioni sulla posizione su
il cromosoma.
Quando dopo aver richiesto a UKB, riceveremo un'e-mail
contenente un checksum MD5 di 32 caratteri e 64 caratteri. I dati in UKB sono
archiviati in un archivio online sicuro. Tutti i dati standard devono essere
decrittografati e archiviati dopo il download. Bisogna convertirli prima nel
formato appropriato utilizzo.
Come primo passo, devi scaricare tre programmi di supporto
per decrittografare e convertire i dati, "ukbmd5",
"ukbunpack" e "ukbconv". Questi programmi possono essere
scaricati dal download in Data Showcase sul sito Web principale di UKB e il
programma di supporto può essere selezionato per i sistemi Windows e Linux.
Tuttavia, i ricercatori che utilizzano i sistemi Windows devono eseguirlo in
una finestra del prompt dei comandi (è possibile utilizzare Windows+R per
accedere, ma il percorso deve essere coerente con la posizione in cui vengono
scaricati i tre programmi di supporto). il comando nel terminale. Durante il
processo di conversione dei dati tramite ukbconv, oltre ai tre programmi di
supporto sopra menzionati è necessario anche un file "encoding.ukb"
per assegnare le definizioni di codifica alle variabili nel set di dati. Questo
file è compatibile con i sistemi Windows e Linux. Questo file Deve inoltre
trovarsi nello stesso file del programma di supporto sopra. Il secondo passaggio consiste nel scaricare
il set di dati. È necessario prima accedere al sistema di gestione degli
accessi, accedere all'interfaccia Download, inserire set di dati e fare clic
per scaricare i dati in base al numero ID. Qui è richiesta l'autenticazione,
verificarla inserendo il Checksum MD5 di 32 caratteri (una lunga stringa di
lettere e numeri) e selezionare Genera, che aprirà una nuova pagina contenente
un collegamento al set di dati. Seleziona il pulsante Recupera per scaricare il
set di dati crittografati. Prova a salvare il set di dati nella stessa
directory di file del programma di supporto. Il terzo passaggio è il processo
di decrittografia e conversione dei dati. Se si sceglie un sistema Windows, è
necessario accedere alla finestra del prompt dei comandi, quindi accedere alla
directory in cui si trovano il programma di aiuto e il set di dati
crittografati (cd + informazioni sulla posizione). Successivamente, è
necessario verificare la crittografia. Per l'integrità del set di dati,
immettere il comando ukbmd5 nome file (nome del set di dati crittografato). Il
valore MD5 generato durante l'esecuzione di questo comando deve essere uguale
al valore MD5 fornito via e-mail. Se i valori fossero diversi, dovresti
eliminare il file e scaricare nuovamente i dati. Quando il set di dati
crittografati supera la verifica, il programma ukbunpack deve decrittografare e
decomprimere il set di dati crittografati in un formato UKB personalizzato. Il
comando utilizzato è 1, ukbunpack
inputfile keyvalue, dove keyvalue
rappresenta 64 dati dall'e-mail di notifica. carattere password. Comando 2,
ukbunpack inputfile keyfile , keyfile è il nome del file di testo semplice
contenente la password. Per impostazione predefinita, il file scaricato si
chiama "ukbN". , dove N è un numero intero (numero della domanda). Un
file con questo nome verrà decompresso per produrre "ukbN.enc_ukb".
A questo punto abbiamo già i dati di base. Possiamo usare il
programma ukbconv ( ukbconv inputfile format ) per convertire questo set di
dati "ukbN.enc_ukb" in vari formati standard, come csv, docs, sas,
stata, r e altri dati formati , che facilita l'uso del software corrispondente
per la successiva elaborazione e analisi. Inoltre, se la quantità di dati
richiesti è molto grande e l'analisi utilizza solo una parte dei dati, possiamo
anche estrarre parte dei dati utilizzati dal Dati ukbN.enc_ukb e comandi utilizzati.
Si tratta del formato inputfile ukbconv flagfile-ID, Flag, che include
principalmente:
1) -i è seguito da un file txt. Questo file è un file txt
con un numero ID campo in ogni riga (ad esempio, Vitamina D 30890). I numeri ID
campo dei dati che devono essere estratti sono inserito in questo file txt. , i
dati estratti finali sono il set di dati contenente l'ID campo di questo txt.
2) –x, ma –x è il numero Field-ID contrassegnato nel file
txt rimosso dal file originale e i dati rimanenti vengono estratti.
3) –o, specifica un nome alternativo per il file di output.
4) –e, specifica di estrarre informazioni di codifica da
altri file, il valore predefinito è “encoding.ukb”. Poiché i file originali
sono generalmente di grandi dimensioni e l'estrazione dei dati richiede molto
tempo, di solito estraiamo i dati dal sistema Linux.
Estrazione dei dati sotto il sistema Linux:
Il formato dei dati estratti è un file di schede che può
essere eseguito in linguaggio R. Field-ID.txt è il numero Field-ID dei dati
utilizzati (un numero per riga) e il nome dei dati finali è final_data. Tieni
presente che la conversione di set di dati di grandi dimensioni potrebbe
richiedere molto tempo (forse diverse ore) e, al termine, il set di dati verrà
visualizzato nella directory del file specificata. Una volta ottenuti i dati
richiesti, possono iniziare varie analisi.
fonte:Biobanca britannica: il database più grande del mondo
S.e.&o.
https://biobank.ctsu.ox.ac.uk/crystal/index.cgi
con l'ausilio di AI.