AI
La frontiera dell’Intelligenza Artificiale Genomica
L’avanzamento delle tecnologie di sequenziamento del DNA ha aperto nuove porte nel campo della genomica. Con la diminuzione dei costi di sequenziamento, il volume di sequenziamento completo del genoma (WGS) e del sequenziamento dell’esoma completo (WES) continua a crescere in modo esponenziale. Tuttavia, la sfida principale è analizzare questi dati con una precisione sempre maggiore, ed è qui che entra in gioco l’Intelligenza Artificiale (IA) Genomica.
Il sequenziamento del DNA è solo il primo passo. Per ottenere risultati ottimali, è necessario analizzare i dati di sequenziamento con un’accelerazione computazionale, scienza dei dati e IA per leggere e comprendere il genoma, dai singoli nucleotidi all’interpretazione delle varianti genetiche. Ma affrontare questa sfida richiede un approccio innovativo.
I genomi umani sono estremamente complessi. Attualmente, si stima che, in media, il sequenziamento del genoma di un individuo di circa 3 miliardi di nucleotidi possa contenere circa 4 milioni di varianti SNP, circa 600.000 varianti di inserimento/eliminazione e circa 25.000 varianti strutturali che coinvolgono più di 20 milioni di nucleotidi. Tuttavia, gran parte dell’impatto clinico di queste varianti è ancora sconosciuto. Qui sorge la domanda: può l’IA genomica aiutarci a identificare le poche varianti genetiche clinicamente significative in questo vasto oceano di dati?
L’IA eccelle quando grandi quantità di dati strutturati possono essere accoppiate a risultati validati per l’addestramento. Recentemente, sforzi di sequenziamento a livello di popolazione e set di dati di convalida come il “Genome in a Bottle” del NIST hanno dato vita a una nuova categoria di IA: l’IA Genomica. Questa tecnologia ha il potenziale di ridurre drasticamente il tempo necessario per analizzare e interpretare i dati di sequenziamento, ma solo se i dati vengono raccolti accuratamente dalla fase di allineamento all’interpretazione.
Per illustrare l’utilità di questa tecnologia avanzata, vediamo tre esempi forniti da Illumina, società che si pone alla frontiera di questa tecnologia: la chiamata delle varianti, l’annotazione e la prioritizzazione e l’interpretazione.
Migliorare l’Accuratezza nella Chiamata delle Varianti con l’IA
Il software di analisi secondaria DRAGEN di Illumina migliora l’accuratezza nella chiamata delle varianti su una parte più ampia del genoma umano, garantendo che queste migliorie siano generalizzabili a un’ampia e diversificata popolazione di campioni. L’analisi DRAGEN basata su hardware ha vinto la competizione di precisione germinale FDA del 2020 nelle categorie “Difficult-to-Map regions” e “All-Benchmark-Regions”.
Sfruttando il successo ottenuto, Illumina ha integrato potenti ed efficienti algoritmi di machine learning (ML) che portano significativi miglioramenti delle prestazioni.
La versione più recente di DRAGEN, la DRAGEN v4.2 con l’AI potenziata, addestrata su un vasto quantitativo di dati, rileva le varianti con una precisione analitica del 99,84%, riducendo sia i falsi positivi che i falsi negativi. Ciò estende la leadership di Illumina nella fornitura dell’analisi secondaria più accurata in tutte le regioni di benchmark rispetto ad altre soluzioni.
Per ampliare ulteriormente l’analisi genomica, il team di Illumina sta investendo in algoritmi di machine learning per l’analisi del RNA, i pipeline somatici, l’analisi della metilazione e la chiamata di varianti di grandi dimensioni nelle future versioni della piattaforma DRAGEN.
Prevedere la Patogenicità delle Varianti con l’IA
Dai milioni di varianti del genoma umano, solo lo 0,1% è attualmente annotato nei database delle varianti cliniche, mentre la stragrande maggioranza rimane “varianti di significato sconosciuto” (VUS).
Per affrontare questa sfida, gli scienziati di Illumina hanno sviluppato PrimateAI-3D, una rete neurale convoluzionale tridimensionale per la previsione degli effetti delle varianti. Questa rete è stata addestrata utilizzando varianti di primati e la struttura proteica tridimensionale. PrimateAI-3D si basa sull’assunto che le varianti comuni nei primati non umani non causino malattie umane ed è stato validato per identificare varianti causative di malattie con una precisione superiore.
Questo progetto ha coinvolto il sequenziamento di 809 individui appartenenti a 233 specie di primati ed è stato pubblicato su Science. I dati sono stati utilizzati per addestrare PrimateAI-3D con milioni di varianti di primati.
Inoltre, PrimateAI-3D consente punteggi di rischio poligenico per le varianti rare, aumentando la portabilità tra diverse popolazioni. Questo è particolarmente rilevante, poiché i punteggi di rischio poligenico esistenti spesso si basano su dati di individui di discendenza europea, mancando generalizzazione ad altre popolazioni. Questi punteggi e il database delle varianti di popolazione dei primati sono resi disponibili alla comunità genomica per scopi di ricerca.
Accelerare l’Interpretazione delle Varianti con l’IA
Emedgene™, un software di analisi terziaria di Illumina, utilizza l’IA per prioritizzare le varianti più rilevanti nelle interpretazioni dei dati. Questa piattaforma riduce significativamente il tempo richiesto per l’analisi genetica di malattie ereditarie, il cancro ereditario e altre malattie genetiche, migliorando l’efficienza dei laboratori.
L’utilizzo dell’IA nell’analisi dei dati genomici di Emedgene simula il lavoro svolto da uno scienziato e fornisce una spiegazione completa delle varianti più rilevanti, risparmiando significativo tempo nel processo. In uno studio condotto da Baylor Genetics, Emedgene ha accuratamente identificato le varianti come candidati per risolvere i casi in oltre il 96% dei casi.