DNA > Biotech > Flight_Manual > Analisi di sequenza

L'analisi bioinformatica in genomica

Il termine "bioinformatica" è stato introdotto solo recentemente; in effetti non compare in letteratura fino al 1991, e anche allora solo nel contesto della pratica emergente della pubblicazione in formato elettronico. Il concetto corrente di "bioinformatica" si può descrivere probabilmente nel modo migliore come la convergenza di due rivoluzioni tecnologiche: la crescita esplosiva delle biotecnologie, uguagliata da quella delle tecnologie informatiche [Boguski, 1998]. Questa coincidenza è illustrata in modo evidente dall'interessante fatto che sia le dimensioni della banca eati di DNA GenBank sia la potenza di calcolo degli elaboratori elettronici sono raddoppiate circa allo stesso ritmo (ogni 18-24 mesi) per molti anni. Sebbene il termine "bioinformatica" sia adesso molto di moda, molti studiosi costruivano banche dati, sviluppavano algoritmi e facevano scoperte biologiche mediante analisi di sequenza sin dagli anni ´70, molto prima che qualcuno pensasse di etichettare queste attività con un termine specifico; semmai, molte attività catalogate oggi come bioinformatica venivano comprese nell'ambito della "evoluzione molecolare".

Il rilievo specifico delle tecnologie informatiche in genomica assume un valore fondamentale in seguito all'avanzamento dei progetti genoma che si propongono di determinare la sequenza nucleotidica completa del DNA di varie specie [Boguski, 1998]. Questa massa di dati fornisce una materia prima privilegiata per la identificazione ab initio di sequenze potenzialmente codificanti come prima tappa verso la scopdrta dei geni. Un altro passo fondamentale è stata la costituzione di banche dati contenenti sequenze parziali derivate da RNA messaggeri e ricavate dall'analisi automatizzata di un gran numero di cloni batterici ottenuti da genoteche di cDNA per molti diversi tessuti, in diverse specie. Queste sequenze (EST, expressed sequence tags; Boguski et al., 1993) sono disponibili per l'analisi di sequenza, che consente di individuare rapidamente sequenze del genoma che siano espresse (geni) senza dover occuparsi dello "sfondo" delle sequenze extrageniche, come avviene nei "progetti genoma" tradizionali. La disponibilità di queste banche dati, da una parte, e l'evoluzione degli strumenti "software" necessari per la loro analisi, dall'altra, hanno rapidamente portato a un nuovo approccio alla identificazione genica che consiste nell'utilizzare il dato informatico come punto di partenza per gli esperimenti in vitro (approccio "in silico"- in quanto i processori dei calcolatori sono costituiti da silicio).

L'operazione basilare in questo senso consiste nel confrontare le sequenze tra loro, deducendone e quantificandone la reciproca "somiglianza". Questo termine, indicato tecnicamente come similarity, è puramente descrittivo di una relazione tra le due sequenze più significativa di quella dovuta al caso, mentre più formalmente con il termine di "omologia" si intende la nozione di una comune origine evolutiva delle sequenze. In pratica, sulla base delle relazioni di somiglianza tra sequenze può essere possibile inferire una omologia, anche se al di fuori di un modello biologico formale la discendenza da un gene comune ancestrale rimane ipotetica. I programmi che analizzano la somiglianza tra sequenze si basano, in breve, su un punteggio assegnato in base al numero di sostituzioni, inserzioni e delezioni che occorre effettuare per convertire una sequenza nell'altra. I diversi programmi differiscono per i criteri impidgati nell'assegnazione del punteggio. Attualmente, il programma più impiegato per il confronto di sequenza è basato sull'algoritmo BLAST [Altschul et al., 1997], un processo euristico che identifica molto rapidamente sequenze simili tra loro, avente la specifica caratteristica di assegnare anche un valore di significatività statistica alla corrispondenza trovata. Questo valore ("expect value", o valore "E") corrisponde al numero di confronti tra due sequenze con un punteggio di somiglianza uguale o superiore che si potrebbero trovare, in quella particolare banca dati, solo per effetto del caso; quanto più è piccolo, tanto più la corrispondenza è significativa.

Ad esempio, è possibile partire dalla sequenza amminoacidica di una proteina nota e cercare quali sequenze siano simili all'interno dei frammenti nucleotidici delle EST, di cui può essere predetta automaticamente la sequenza codificante basandosi sul codice genetico (versione TBLASTN di BLAST); oppure è possibile confrontare le sequenze di DNA genomico, determinate con i procedimenti di alta resa e rese disponibili pubblicamente in tutte le successive fasi di rifinitura [Ouellette e Boguski, 1997], con le sequenze di mRNA (noti o ricavati dall'analisi delle EST), per una determinazione rapida della struttura genomica dei geni. La disponibilità di banche dati per molte specie diverse rende anche possibile una ricostruzione della evoluzione molecolare delle sequenze di interesse, permettendo di distinguere tra ortologia (conservazione di un determinato gene tra diverse specie) e paralogia (presenza di un gruppo di geni omologhi all'interno di una singola specie). Infine, vi sono molte collezioni di brevi tratti ("motivi") di sequenze amminoacidiche che indicano particolari elementi strutturali o funzionali. Le ricerche su queste raccolte a partire da nuove sequenze identificate consente di effettuare prediziooi di funzione ragionevolmente affidabili [Bork e Gibson, 1996].

Analisi bioinformatica e famiglie geniche

Le sequenze di DNA nel genoma diploide nucleare esistono di solito sotto forma di due copie alleliche, situate sui cromosomi omologhi paterno e materno. In aggiunta a questo grado di ripetizione, circa il 40% del genoma nucleare umano è composto, sia nelle cellule aploidi sia in quelle diploidi, di gruppi di sequenze di DNA non allelico strettamente correlate (famiglie di sequenze di DNA, o DNA ripetitivo; Strachan e Read, 1999). All'interno della considerevole varietà di sequenze di DNA ripetute, vi sono anche famiglie di sequenze di DNA i cui singoli membri comprendono geni funzionali (famiglie multigeniche). La definizione operativa di una famiglia di sequenze di DNA è il livello relativamente alto di somiglianza di sequenza tra i membri della famiglia, a livello dell'intera sequenza o di sue regioni localizzate.

I membri di una famiglia genica possono essere identificati mediante; 1) ibridizzazione del DNA e clonaggio, impiegando un frammento genico come sonda per lo screening di genoteche; 2) clonaggio mediante amplificazione con la reazione a catena della polimerasi (PCR), progettando "primers" degenerati che si leghino alle regioni conservate tra i membri della famiglia; 3) analisi di sequenza, che permette di effettuare il calcolo diretto del grado di relazione tra i geni. Il fatto che due membri di una famiglia di sequenze di DNA mostrino un alto grado di somiglianza è indicativo di una comune origine evolutiva, ed è normalmente in relazione con la conservazione di una funzione.

Una grande percentuale di geni umani attivamente espressi sono membri di famiglie di sequenze di DNA; il catalogo PFam [Bateman et al., 2000], mantenuto presso il Sanger Center (Hinxton, Cambridge, UK), classifica 2478 famiglie geniche nell'ultima versione del 2001. Possiamo distinguere diversi tipi di famiglie geniche. Nelle famiglie geniche "classiche", i lembri mostrano tn alto grado di omologia di sequenza lungo la maggior parte dell'estensione dei geni o, almeno, della loro sequenza codificante. Questa caratteristica identifica in pratica una correlazione evolutiva, e funzionale, di queste sequenze. Un esempio è costituito dalle famiglie geniche degli istoni. In alcune famiglie geniche, invece, l'omologia è particolarmente pronunciata all'interno di regioni fortemente conservate dei geni, mentre la somiglianza tra le porzioni rimanenti della sequenza codificante può essere molto piccola. Spesso queste famiglie codificano per fattori di trascrizione che giocano un ruolo importante nelle prime fasi dello sviluppo, e la sequenza conservata codifica per un dominio proteico (unità di ripiegamento) richiesto per il legame selettivo al DNA di specifici geni bersaglio (ad esempio, il dominio Homeobox). Infine, esistono anche famiglie geniche i cui membri non sono correlati in modo ovvio a livello della sequenza di DNA, ma codificano per prodotti caratterizzati da una funzione generale comune e dalla presenza di brevi tratti ("motivi") di sequenza conservati; ad esempio, il "box" DEAD (sequenza amminoacidica Asp-Glu-Ala-Asp) si ritrova in geni differenti, i cui prodotti sembrano tutti funzionare come RNA elicasi. I membri delle famiglie geniche possono essere occasionalmente localizzati in prossimità l'uno dell'altro in specifiche regioni subcromosomiche, come i geni del complesso maggiore di istocompatibilità di classe I (HLA), ma più spesso si trovano dispersi nel genoma.

Molti diversi gruppi hanno affrontato il problema di raggruppare le sequenze di proteine in famiglie [rassegna in Hofmann, 1998]. I vari approcci differiscono nel loro grado di automazione, nella loro completezza, nella loro focalizzazione sulla sequenza completa delle proteine o sui domini proteici. In effetti, le relazioni tra i geni e tra le famiglie geniche sono così complesse che "non è possibile usare alcun semplice schema gerarciico per rendere!i dati facilmente comprensibili" [Henikoff et al., 1997], a causa della composizione modulare delle proteine.

Tra i vari strumenti specficamente pensati per la ricostruzione delle famiglie geniche attraverso l'analisi della sequenza amminoacidica, di particolare rilievo sono PSI-BLAST e i programmi basati sulla metodica statistica Hidden Markov Models (HMM). PSI-BLAST [Altschul et al., 1997] è una "ricerca iterativa basata sul profilo". Innanzitutto si effettua una ricerca di somiglianza su una banca dati a partire da una singola sequenza, usando BLAST. Le sequenze significativamente simili sono allineate alla sequenza di interrogazione, e viene costruito un "profilo", un sistema di punteggio posizione-specifico derivato dalla frequenza con cui un dato resuduo amminoacidico si osserva in una colonna dell'allineamento. Poiché le famiglie di sequenze conservano preferenzialmente determinati residui e motivi critici, questa informazione può permettere di svomgere ricerche più sensibili, in successioni ripetute (iterazioni). I programmi basati su HMM impiegano invece un particolare metodo statistico [per una rassegna recente si veda Eddy, 1998a] per il riconoscimento della configurazione di una serie di valori (la sequenza) che può essere usato per rappresentare l'allineamento di sequenze multiple o di segmenti di sequenza, con l'obiettivo di identificare la conservazione di patterns o di singoli residui.

L'interesse principale dello studio delle famiglie geniche umane consiste operativamente nell'ottenimento di indicazioni sulle probabili funzioni di un gene che sia simile ad un gene già caratterizzato funzionalmente, eventualmente permettendo il recupero di informazioni ottenute in organismi modello di specie diverse. Nonostante l'avanzamento dei grandi progetti di sequenziamento del DNA totale di specie diverse, a tutt'oggi molti nuovi geni identificati non sono stati assegnati a famiglie geniche. Citando Hofman [1998], si può concludere che "potrebbe sembrare che l'uso intensivo di una combinazione di strumenti per la ricerca di banche dati di domini proteici, per la ricerca di somiglianza con BLAST e per la classificazione delle famiglie sia uno sforzo sproporzionato per l'analisi di una singola sequenza. Tuttavia, se si considera che sono stati spesi molti mesi di lavoro sperimentale per la determinazione della sequenza, potrebbe valere la pena passare qualche ora in più al computer".

Luca Lenzi
Pierluigi Strippoli