Tra i più grandi tesori del mondo,

Il più grande studio genetico ha già innescato una rivoluzione nel settore sanitario, aprendo le porte a una nuova era di cure. In alcune nazioni le rubriche appalti prevedono la costruzione di ospedali intelligenti, una nuova era di scoperte mediche, trattamenti e cure è all'orizzonte, dopo l'annuncio che una miniera senza precedenti di informazioni genetiche viene messa a disposizione degli scienziati. La mossa di giovedì equivale al più grande numero di sequenze dell'intero genoma mai rilasciate per la ricerca medica. Le sequenze saranno utilizzate con i registri della UK Biobank e altri dati per approfondire la genetica di tutto, dal rischio di obesità, diabete, malattie cardiache, cancro e altre condizioni, al sonno e all'esercizio fisico degli individui. Lo studio sanitario britannico noto come UK Biobank – è un “tesoro” di dati sanitari a lungo termine istituito nel 2006 per indagare su come i nostri geni e l’ambiente influenzano lo sviluppo delle malattie – è considerato il database sanitario più importante al mondo e ha il più grande database sanitario l’intero set di dati sul genoma del mondo, composto da mezzo milione di persone.

Il motivo per cui i dati della Biobanca del Regno Unito sono così importanti è che da quando è stata istituita, ha registrato centinaia di migliaia di informazioni sanitarie a lungo termine dei partecipanti, raccogliendo più di 10.000 variabili su ciascun volontario. La biobanca si riferisce a una libreria di risorse che raccoglie e archivia a lungo termine campioni biologici umani (come sangue e DNA) e informazioni fisiologiche, patologiche e socioeconomiche degli oggetti di raccolta dei campioni attraverso processi standardizzati. Si tratta essenzialmente di un array prospettico di una popolazione di grandi campioni ricerca. Attualmente la biobanca più conosciuta e aperta al mondo.

Vengono effettuate misurazioni di base come altezza, peso e vita, ma lo sono anche campioni di sangue, urina e saliva; Vengono misurati anche la pressione sanguigna, la frequenza cardiaca, la densità ossea, le condizioni polmonari e molti altri fattori. Ma oltre ai fatti fisici, i volontari condividono anche dettagli sulla loro vita e sul loro stile di vita. Ad esempio, vengono presi in considerazione il luogo in cui vivono, la loro istruzione, le loro esigenze lavorative, la loro salute mentale, il consumo di alcol e cibo spazzatura, persino la quantità di tempo che trascorrono a prendere il sole. Ciò rende possibile incrociare tali informazioni con la loro genetica per vedere chi potrebbe essere più a rischio di determinate malattie e come combatterle.

Un genoma è tutto il materiale genetico di un organismo. È in gran parte costituito da sequenze di DNA, determinate dall'ordine delle quattro "lettere" che compongono il DNA (A, T, G e C). Il sequenziamento dell'intero genoma analizza quindi la sequenza genetica dell'intero codice genetico di una persona: la composizione unica di tre miliardi di elementi costitutivi che costituiscono ciò di cui è fatto ogni individuo. In precedenza, la Biobanca aveva pubblicato tali dati su 200.000 persone, ma ora li ha più che raddoppiati, rilasciando il corredo genetico di ben 500.000 persone. La Biobanca afferma che i dati di sequenziamento dell’intero genoma su questa scala consentiranno ai ricercatori di esplorare “geni rari e nascosti” coinvolti nella salute e nella malattia, trovare modelli nei dati che potrebbero sfuggire in un set di dati più piccolo e fare “scoperte precedentemente impossibili” su come si sviluppano le malattie e come possiamo diagnosticarle, prevenirle e curarle.

Finora, oltre 30.000 ricercatori provenienti da più di 90 paesi si sono registrati per utilizzare la Biobanca, con oltre 9.000 articoli sottoposti a revisione paritaria pubblicati utilizzando i dati. E grazie alla legge dei numeri, ha già consentito la scoperta e lo sviluppo di farmaci più mirati, in particolare in tandem con l’uso dell’intelligenza artificiale. In effetti, le prove tratte dal database hanno dimostrato che i farmaci hanno il doppio delle probabilità di essere approvati per l’uso clinico.

La UK Biobank , denominata UKB, è finanziata dal Wellcome Trust e dal governo britannico (Medical Research Council, Department of Health e Scottish Executive) ed è registrata come società di beneficenza. Il biodatabase è un progetto pilota per collegare i dati delle cartelle cliniche elettroniche del Regno Unito con i dati genetici per creare una biobanca più completa del servizio sanitario nazionale. Attualmente è la più grande biobanca di coorte genetica umana al mondo.

I metodi di reclutamento dell'UKB avvengono principalmente tramite richieste via e-mail e inviti telefonici. Quando i partecipanti accettano di partecipare al database dei campioni biologici del Regno Unito, saranno invitati a visitare il centro di valutazione più vicino a loro per raccogliere informazioni di base e campioni biologici. I passaggi specifici per la partecipazione dei volontari al Centro Visite UKB.

l processo di partecipazione specifico è:

Il primo passaggio consiste nell'utilizzare il touch screen per condurre un questionario di indagine. Dopo che i volontari hanno completato il processo di consenso informato, possono utilizzare il touch screen per compilare un questionario autocompilato per raccogliere la maggior parte delle informazioni personali. Il contenuto del questionario è molto ampio e comprende molti aspetti, concentrandosi principalmente su:

1) Fattori socio-demografici. La maggior parte di queste domande provengono e adattano dai censimenti (come il censimento del 2001 e l'Health Survey for England) e includono principalmente lo stato socioeconomico e gli indicatori demografici. Le domande includevano proprietà della casa, proprietà dell'auto, reddito familiare, membri della famiglia, stato occupazionale e occupazione attuale, etnia e paese di nascita, titoli di studio ed età di abbandono scolastico.

2) Fumare e bere.

3) Storia familiare e alcuni fattori di esposizione precoce dell'individuo. La storia familiare è un noto predittore di tumori comuni, malattie cardiovascolari e molte altre condizioni. Questi problemi vanno da una storia familiare di parenti di primo grado con malattie gravi comuni all'ordine in cui nascono i gemelli. I fattori di esposizione precoce individuali sono principalmente correlati al peso alla nascita, all’allattamento al seno, al fumo materno, alle dimensioni del bambino e alla residenza alla nascita poiché questi fattori sono considerati potenziali predittori della salute degli adulti.

4) Fattori ambientali. Il questionario considera un'ampia gamma di potenziali esposizioni ambientali, selezionando indicatori considerati come l'impatto di malattie comuni come malattie respiratorie e patologie muscolo-scheletriche. Le domande includono indirizzo attuale, luogo di residenza alla nascita, occupazione e altri fattori sul posto di lavoro, esposizione al fumo passivo, inquinamento dell’aria interna e frequenza di utilizzo del telefono cellulare.

5) Abitudini alimentari. Comprende principalmente un questionario sulla frequenza alimentare, un questionario di richiamo dietetico di 24 ore e un questionario di richiamo dietetico di più giorni.

6) Partecipazione ad attività sportive. Sono state incluse principalmente anche l'intensità dell'attività fisica (vigorosa, moderata), la frequenza dell'attività fisica e domande sulle comuni attività sedentarie.

7) Stato mentale e cognitivo. In termini di stato mentale, il metodo del questionario consiste nel valutare i tratti psicologici (nevroticismo) e le emozioni sulla base di questionari standardizzati e registrare eventi gravi che influenzano i sintomi psicologici e le loro manifestazioni mediche. I contenuti specifici del questionario possono essere visualizzati.

Il secondo passo sono gli indicatori di misurazione del corpo. Dopo che i volontari hanno completato il questionario, verranno effettuate una serie di misurazioni corporee, tra cui pressione sanguigna (e polso), altezza, peso, circonferenza vita, circonferenza fianchi, forza di presa, capacità vitale e dati sulla densità ossea. La terza fase è il processo di raccolta dei campioni biologici, che raccoglie principalmente dati sul sangue e sulle urine per test sul genoma, sul proteoma e sulla metabolomica. I dati fenotipici di base raccolti possono essere visualizzati.

Questionario sul touchscreen :

http://biobank.ctsu.ox.ac.uk/crystal/label.cgi?id=100025

Intervista verbale:

http://biobank.ctsu.ox.ac.uk/crystal/label.cgi?id=100071

Misure fisiche:

http://biobank.ctsu.ox.ac.uk/crystal/label.cgi?id=100006.

Questionari basati sul web:

http://biobank.ctsu.ox.ac.uk/crystal/label.cgi?id=100089

Monitoraggio dell'attività fisica:

http://biobank.ctsu.ox.ac.uk/crystal/label.cgi?id=1008

Marcatori biochimici:

http://www.ukbiobank.ac.uk/wpcontent/uploads/2013/11/BCM023_ukb_biomarker_panel_website_v1.0-Aug-2015.pdf

Biomarcatori urinari:

http://biobank.ctsu.ox.ac.uk/crystal/label.cgi?id=100083

Studio delle immagini:

http://biobank.ctsu.ox.ac.uk/crystal/label.cgi?id=100003

Collegamenti URL ai dati fenotipici di base raccolti nel database della Biobanca del Regno Unito.

Oltre a ciò, UKB copre anche i dati delle cartelle cliniche elettroniche del Regno Unito, tra cui,

1) Dati di registrazione di morte e cancro,

2) Dati diagnostici di ricovero,

3) Dati del medico di base,

4) Altri dati medici (come prescrizioni, referti patologici, referti di imaging, screening) e dati sanitari.

Oltre ai dati di base di cui sopra, l’UKB contiene 500.000 partecipanti di età compresa tra 40 e 69 anni (un numero più o meno uguale di uomini e donne) reclutati in tutto il Regno Unito dal 2006 al 2010. L’Assessment Centre di Stockport ha condotto un sondaggio di follow-up su 20.000 partecipanti. I principali soggetti di follow-up erano volontari entro un raggio di 35 chilometri dal centro di valutazione. Il tasso di partecipazione complessivo è stato del 21% e i dati raccolti erano più o meno coerenti con i dati di base. Gli stessi, ma allo stesso tempo, dati campione vengono aggiunti anche dati di scansione MRI cerebrale e campioni di saliva. Fino ad ora sono state condotte quattro visite di follow-up, tra cui 2006-2010, 2012-2013, 2014+ e 2019+.

Introduzione ai dati sul genotipo UKB

L'UKB attualmente pubblica i dati del genoma di oltre 488.000 volontari e ha progettato due chip appositamente per la popolazione britannica. Tra questi, 49.950 volontari sono stati genotipizzati utilizzando il chip BiLEV Axiom del Regno Unito, che contiene 807.411 marcatori. Altri 438.427 partecipanti sono stati genotipizzati utilizzando l'array Axiom della Biobank del Regno Unito, che contiene 825.927 marcatori tra cui le frequenze alleliche minori comuni (5%) e a bassa frequenza (1-5%) (MAF) e include anche alcune mutazioni rare (<1% ). Maggiori dettagli del chip di progettazione possono essere visualizzati nella Figura 3.

Strategia di progettazione dei dati del chip:

Oltre ai dati del chip, UKB inserisce anche i dati del chip. Il pannello di riferimento utilizzato è costituito dai dati del pannello di riferimento UK10K e Thousand Genomes Phase3 uniti e viene compilato utilizzando anche il pannello di riferimento HRC. Tuttavia, se un SNP appare in entrambi i pannelli di riferimento, vengono selezionati i risultati del pannello di riferimento HRC. Se gli altri sono diversi, vengono selezionati i risultati dei dati popolati dai pannelli di riferimento uniti (pannelli di riferimento UK 10K e Thousand Genomes Phase3). Infine, sono stati ottenuti 92.693.895 SNP autosomici. Attualmente, l’intera sequenza del genoma è ancora in fase di sequenziamento e si prevede che la prima parte dei dati sull’intera sequenza del genoma sarà disponibile ai ricercatori entro la fine del 2021. Inoltre, l'UKB include anche una parte dei dati di sequenziamento dell'intero esoma. La prima parte del sequenziamento dell’intero esoma (WES) dell’UKB ha ora aperto i dati di 50.000 persone.

Guida per l'utente della vetrina della biobanca del Regno Unito

Sebbene UKB contenga dati ricchi come descritto sopra, come troviamo i set di dati che ci interessano? Introduciamo principalmente due metodi per risolvere questo problema.

Il primo metodo è accedere a Data Showcase tramite il sito Web ufficiale UKB, fare clic su Sfoglia e trovare gli elementi di dati di interesse in base alle categorie e sottocategorie gerarchiche degli elementi di dati. Questo metodo è un modo sistematico per trovare un tipo di dati. Ricerca per categoria originaria, i dati sono presentati in una struttura ad albero, ottenibili cliccando per sfogliare, sono suddivisi in sette categorie in base alla fonte dei dati raccolti.

Contenuto Web sfogliato per categoria originale. Queste categorie includono:

1) Caratteristiche della popolazione, questa categoria contiene dati caratteristici generali dei partecipanti.

2) UK Biobank Assessment CentreUKB Assessment Centre, questa categoria contiene le informazioni raccolte dall'assessment center ed è suddivisa in sottocategorie a seconda della tipologia di valutazione (come touch screen, colloquio verbale, misurazione corporea, campionamento biologico).

3) Campioni biologici, questa categoria contiene informazioni sul tipo e sulla quantità di campioni biologici ricevuti da UKB dopo il ritiro presso il centro di valutazione (elenco dei campioni), nonché sulle misurazioni eseguite e sui loro risultati.

4) Genomica, informazioni sul genoma, UKB attualmente contiene i seguenti dati sul genoma, genotipi e relativi dati di riempimento di 488.000 partecipanti, sequenze di esoma di 50.000 partecipanti e sequenze dell'intero genoma di 50 partecipanti.

5) Follow-up online, dati di follow-up online, questa categoria contiene informazioni basate su valutazioni aggiuntive condotte da UKB utilizzando questionari online.

6) Esposizioni aggiuntive, questa categoria contiene informazioni basate su altre valutazioni condotte al di fuori dell'assessment center.

7) Risultati relativi alla salute: questa categoria contiene informazioni sui risultati sanitari dei partecipanti forniti tramite collegamenti a una serie di documenti relativi alla salute. Questi set di dati continuano ad accumularsi e il database viene aggiornato regolarmente.

Al di sotto di queste sette categorie principali ci sono categorie più piccole e le categorie più piccole possono essere suddivise in categorie più piccole, con tre livelli di dati.

Ma come trovare i dati che ci interessano? La premessa per utilizzare la Categoria è che dobbiamo conoscere la categoria dei dati che ci interessano. Ad esempio, se vogliamo sapere se i dati UKB contengono dati sulla vitamina D, dobbiamo È necessario sapere che la vitamina D è un indicatore biochimico, solitamente dal rilevamento nel sangue, il sangue appartiene alla categoria dei campioni biologici; quindi, troviamo direttamente il set di dati dei campioni biologici in Sfoglia. Questo set di dati include anche analisi del sangue, analisi della saliva e analisi delle urine dati dei test. Qui sappiamo che dovremmo iniziare dal set di dati dei test del sangue. Alla ricerca di dati Biochimica del sangue, in questo set di dati, abbiamo finalmente trovato l'aliquota di vitamina D (ID campo 30890), la data del test della vitamina D (30891), la data del test della vitamina D livello di correzione (30893), motivo di correzione della vitamina D (30894), motivo della mancanza di vitamina D (30895) e segnalabilità della vitamina D (30896). Infine, possiamo localizzare i dati nei nostri dati in base al numero ID campo (che verrà introdotto nuovamente in seguito).

Il secondo metodo consiste nel cercare direttamente, accedere a Data Showcase tramite il sito Web ufficiale UKB, fare clic su Cerca e accedere all'interfaccia di ricerca.

Interfaccia di ricerca nel sito Web UKB

Sono disponibili sei condizioni di ricerca sopra, tra cui Campo dati, Codifica dati, Categoria, Risorsa, Ritorno, Genomica. Selezionando il pulsante del tipo di ricerca pertinente, è possibile cercare la codifica dei dati, le risorse di categoria e i dati del genotipo. Ad esempio, se vogliamo trovare i dati della vitamina D, cerchiamo nel campo dati e infine nell'interfaccia dopo la ricerca, possiamo trovare Molti dati includono la vitamina D e possono essere trovati anche dati sulla vitamina D. Ad esempio, inserendo i dati della vitamina D con ID campo 30890.

Descrizione del campo ID 30890 sul sito Web UKB

Le informazioni che possiamo ottenere sono 30890. Questi dati provengono da indicatori biochimici del sangue. Ci sono 449.953 partecipanti (partecipanti) e sono stati raccolti un totale di 469.389 dati (conteggio elementi). Il tipo di dati (tipo valore) è una variabile continua, tranne per i dati di base. , e contiene un dato di follow-up (Definito (2), 2006-2010, 2012-2013), e c'è anche una descrizione statistica preliminare di questa parte dei dati, ad esempio, la media è 48,58 nmol/L e la deviazione standard è 21,433. Per un'introduzione dettagliata a questi dati, fare riferimento ai due file PDF in Risorse (Procedure di qualità del test biochimico.pdf, Documento complementare per dati sui biomarker sierici.pdf). Inoltre, puoi vedere le categorie e sottocategorie a cui appartengono i dati dalla scheda Categorie. Viene visualizzato anche orizzontalmente nell'albero delle categorie nella parte superiore della pagina. Il campo dati è un numero molto importante: una volta determinati i dati selezionati, il suo numero sarà l'unico che verrà utilizzato per estrarre i dati in seguito. Oltre a cercare il campo dati, il sito Web UKB può anche cercare le principali categorie di termini di ricerca. Ad esempio, dopo aver selezionato Categoria, cerca stile di vita nella finestra di ricerca. Puoi visualizzare due categorie principali: Stile di vita e Stile di vita e ambiente. Cliccandoci sopra ci sono molte sottocategorie.Per quanto riguarda i dati sullo stile di vita, questa funzione ci è molto utile per cercare dati di tipo sistema. Oltre alla ricerca di informazioni fenotipiche di base, la funzione Cerca può fornire anche condizioni di ricerca genomica: in questa finestra è possibile cercare il numero rs di un SNP e scoprire se è incluso nei dati del genoma UKB attraverso le informazioni sulla posizione su il cromosoma.

Introduzione all'utilizzo dei dati UKB

La procedura per richiedere i dati UKB non verrà descritta in dettaglio qui, è possibile fare riferimento a "Come utilizzare UK Biobank per richiedere dati di ricerca e campioni biologici". Questa sezione introduce principalmente come ottenere i dati che vogliamo studiare dai dati UKB.

Quando dopo aver richiesto a UKB, riceveremo un'e-mail contenente un checksum MD5 di 32 caratteri e 64 caratteri. I dati in UKB sono archiviati in un archivio online sicuro. Tutti i dati standard devono essere decrittografati e archiviati dopo il download. Bisogna convertirli prima nel formato appropriato utilizzo.

Come primo passo, devi scaricare tre programmi di supporto per decrittografare e convertire i dati, "ukbmd5", "ukbunpack" e "ukbconv". Questi programmi possono essere scaricati dal download in Data Showcase sul sito Web principale di UKB e il programma di supporto può essere selezionato per i sistemi Windows e Linux. Tuttavia, i ricercatori che utilizzano i sistemi Windows devono eseguirlo in una finestra del prompt dei comandi (è possibile utilizzare Windows+R per accedere, ma il percorso deve essere coerente con la posizione in cui vengono scaricati i tre programmi di supporto). il comando nel terminale. Durante il processo di conversione dei dati tramite ukbconv, oltre ai tre programmi di supporto sopra menzionati è necessario anche un file "encoding.ukb" per assegnare le definizioni di codifica alle variabili nel set di dati. Questo file è compatibile con i sistemi Windows e Linux. Questo file Deve inoltre trovarsi nello stesso file del programma di supporto sopra. Il secondo passaggio consiste nel scaricare il set di dati. È necessario prima accedere al sistema di gestione degli accessi, accedere all'interfaccia Download, inserire set di dati e fare clic per scaricare i dati in base al numero ID. Qui è richiesta l'autenticazione, verificarla inserendo il Checksum MD5 di 32 caratteri (una lunga stringa di lettere e numeri) e selezionare Genera, che aprirà una nuova pagina contenente un collegamento al set di dati. Seleziona il pulsante Recupera per scaricare il set di dati crittografati. Prova a salvare il set di dati nella stessa directory di file del programma di supporto. Il terzo passaggio è il processo di decrittografia e conversione dei dati. Se si sceglie un sistema Windows, è necessario accedere alla finestra del prompt dei comandi, quindi accedere alla directory in cui si trovano il programma di aiuto e il set di dati crittografati (cd + informazioni sulla posizione). Successivamente, è necessario verificare la crittografia. Per l'integrità del set di dati, immettere il comando ukbmd5 nome file (nome del set di dati crittografato). Il valore MD5 generato durante l'esecuzione di questo comando deve essere uguale al valore MD5 fornito via e-mail. Se i valori fossero diversi, dovresti eliminare il file e scaricare nuovamente i dati. Quando il set di dati crittografati supera la verifica, il programma ukbunpack deve decrittografare e decomprimere il set di dati crittografati in un formato UKB personalizzato. Il comando utilizzato è 1, ukbunpack inputfile keyvalue, dove keyvalue rappresenta 64 dati dall'e-mail di notifica. carattere password. Comando 2, ukbunpack inputfile keyfile , keyfile è il nome del file di testo semplice contenente la password. Per impostazione predefinita, il file scaricato si chiama "ukbN". , dove N è un numero intero (numero della domanda). Un file con questo nome verrà decompresso per produrre "ukbN.enc_ukb".

A questo punto abbiamo già i dati di base. Possiamo usare il programma ukbconv ( ukbconv inputfile format ) per convertire questo set di dati "ukbN.enc_ukb" in vari formati standard, come csv, docs, sas, stata, r e altri dati formati , che facilita l'uso del software corrispondente per la successiva elaborazione e analisi. Inoltre, se la quantità di dati richiesti è molto grande e l'analisi utilizza solo una parte dei dati, possiamo anche estrarre parte dei dati utilizzati dal Dati ukbN.enc_ukb e comandi utilizzati. Si tratta del formato inputfile ukbconv flagfile-ID, Flag, che include principalmente:

1) -i è seguito da un file txt. Questo file è un file txt con un numero ID campo in ogni riga (ad esempio, Vitamina D 30890). I numeri ID campo dei dati che devono essere estratti sono inserito in questo file txt. , i dati estratti finali sono il set di dati contenente l'ID campo di questo txt.

2) –x, ma –x è il numero Field-ID contrassegnato nel file txt rimosso dal file originale e i dati rimanenti vengono estratti.

3) –o, specifica un nome alternativo per il file di output.

4) –e, specifica di estrarre informazioni di codifica da altri file, il valore predefinito è “encoding.ukb”. Poiché i file originali sono generalmente di grandi dimensioni e l'estrazione dei dati richiede molto tempo, di solito estraiamo i dati dal sistema Linux.

Estrazione dei dati sotto il sistema Linux:

Il formato dei dati estratti è un file di schede che può essere eseguito in linguaggio R. Field-ID.txt è il numero Field-ID dei dati utilizzati (un numero per riga) e il nome dei dati finali è final_data. Tieni presente che la conversione di set di dati di grandi dimensioni potrebbe richiedere molto tempo (forse diverse ore) e, al termine, il set di dati verrà visualizzato nella directory del file specificata. Una volta ottenuti i dati richiesti, possono iniziare varie analisi.

fonte:Biobanca britannica: il database più grande del mondo

S.e.&o.

https://www.ukbiobank.ac.uk/explore-your-participation/understanding-genetics/why-have-we-sequenced-half-a-million-genomes

https://biobank.ctsu.ox.ac.uk/crystal/index.cgi

con l'ausilio di AI.

a

CULTURALE / SOCIALE

Tra i più grandi tesori del mondo,

Tra i più grandi tesori del mondo,

.TEMI RILEVANTI

ORDINE ALFABETICO

.