lunes, junio 04, 2007

Dinucleotide shuffle

Una de las estrategias comúnmente empleadas en el estudio de ARN no codificantes, es estimar la "energía mínima de plegamiento (MFE por sus siglas en inglés)" de la estructura secundaria del ARN candidato. Este enfoque se basa en el hecho de que en muchos ARN no codificantes la estructura secundaria de la molécula es importante para su desempeño en el sistema biológico.

Usualmente la MFE estimada se compara con la MFE de secuencias al azar derivadas por re-ordenamiento de la secuencia original de ARN ("nucleotide suffling"). La hipótesis subyacente es que ARN no codificantes funcionales tendrán una estructura secundaria más estable (con menor MFE) que la predicha para una secuencia al azar de la misma composición nucleótidica.

La hipótesis funcionaría bien si los programas de predicción de estructuras secundarias fuesen completamente independientes de los sesgos en el contenido se bases nucléotidicas en las secuencias. Desafortunadamente esto no ocurre. La predicción de estructuras secundarias se basa en observaciones experimentales de la energía libre de di-nucleótidos apilados, de forma que la composición de di-nucleótidos en la secuencia es un factor que tiene que ser controlado en el experimento computacional.

La forma de controlar por el efecto de la composición de di-nucleótidos es generando secuencias al azar en donde esta composición sea idéntica (de forma exacta o estadísticamente) a la de la secuencia original. De forma que si la MFE es realemente significativa, y no solo efecto del sesgo di-nucleótidico, esta será (estadísticamente) menor que la de la secuencia al azar.

La generación de secuencias al azar que conservan la composición de di-nucleótidos es un poco mas complicada que aquella en donde solo la composición de monómeros es preservada. En 1985 Altschul y Erickson desarrollaron un algoritmo para generar este tipo de secuencias aleatorias, del cual hay varias implementaciones. Una de ellas, en perl, esta disponible en MacResearch.

Así que no olvidar generar secuencias al azar que conserven la composición de di-nucleótidos cuando se analice la estabilidad de estructuras secundarias de ARN.