lunes, junio 04, 2007

Dinucleotide shuffle

Una de las estrategias comúnmente empleadas en el estudio de ARN no codificantes, es estimar la "energía mínima de plegamiento (MFE por sus siglas en inglés)" de la estructura secundaria del ARN candidato. Este enfoque se basa en el hecho de que en muchos ARN no codificantes la estructura secundaria de la molécula es importante para su desempeño en el sistema biológico.

Usualmente la MFE estimada se compara con la MFE de secuencias al azar derivadas por re-ordenamiento de la secuencia original de ARN ("nucleotide suffling"). La hipótesis subyacente es que ARN no codificantes funcionales tendrán una estructura secundaria más estable (con menor MFE) que la predicha para una secuencia al azar de la misma composición nucleótidica.

La hipótesis funcionaría bien si los programas de predicción de estructuras secundarias fuesen completamente independientes de los sesgos en el contenido se bases nucléotidicas en las secuencias. Desafortunadamente esto no ocurre. La predicción de estructuras secundarias se basa en observaciones experimentales de la energía libre de di-nucleótidos apilados, de forma que la composición de di-nucleótidos en la secuencia es un factor que tiene que ser controlado en el experimento computacional.

La forma de controlar por el efecto de la composición de di-nucleótidos es generando secuencias al azar en donde esta composición sea idéntica (de forma exacta o estadísticamente) a la de la secuencia original. De forma que si la MFE es realemente significativa, y no solo efecto del sesgo di-nucleótidico, esta será (estadísticamente) menor que la de la secuencia al azar.

La generación de secuencias al azar que conservan la composición de di-nucleótidos es un poco mas complicada que aquella en donde solo la composición de monómeros es preservada. En 1985 Altschul y Erickson desarrollaron un algoritmo para generar este tipo de secuencias aleatorias, del cual hay varias implementaciones. Una de ellas, en perl, esta disponible en MacResearch.

Así que no olvidar generar secuencias al azar que conserven la composición de di-nucleótidos cuando se analice la estabilidad de estructuras secundarias de ARN.

miércoles, marzo 21, 2007

OpenKapow

Conocí openkapow por un artículo en el blog de Pedro Beltrao, e inmediatamente decidí ensayarlo y ver que posibilidades brindaba.

Básicamente, openkapow sirve para reunir datos de diferentes sitios web en forma sistemática.

Yo tenía el siguiente poblema: necesitaba obtener la ubicacíon en el borrador del genoma de Chlamydomonas reinhardtii para cada uno de los factores de transcripción que aparecen en ChlamyTFDB.

La información sobre la ubicación en el genoma está en páginas web del JGI/DOE, y cada uno de los factores de transcripción en ChlamyTFDB tiene un hipervínculo a la página del JGI/DOE apropiada.

Claro, esta tarea se puede resolver usando, por ejemplo, scripts de PERL, pero eso significa una inversión significativa de tiempo, planenado, escribiendo y corrigiendo el script. Y aquí es donde openkapow nos ayuda.

Mediante una interface gráfica, Openkapow, permite construir paso a paso las acciones requeridas para navegar diferentes páginas, extraer datos usando el puntero del ratón y cliqueando, y exportar los datos a la web o archivos de texto locales en formato CSV, XML o HTML.

Creo que el único requisito para usar OpenKapow es poder estructurar el problema en forma programática, luego es aplicar la estructura en la interace de OpenKapow, incluso añadiendo control de errores, entrada de datos, y filtrado de resultados basado en expresiones regulares, si se desea.

En realidad me parece una excelente herramienta y se las recomiendo.

jueves, febrero 08, 2007

Propaganda PlnTFDB

Después de 4 meses de estar incapacitado, por un problema con mi pierna derecha, vuelvo a la universidad. Claro, esos 4 meses no fueron perdida completa. Salió un artículo presentando la base de datos de factores de transcripción en plantas (PlnTFDB: Plant Transcription Factor Database) que hemos creado.

Decidimos publicar el artíclo en BMC Bioinformatics, una revista de acceso abierto (Open Access, OA). Sobre el modelo de OA, solo ventajas. Primero, el artículo está disponible en internet para todo aquel que este interesado en leerlo, es posible redistribuirlo libremente, y crear trabajos derivados siempre y cuando la fuente original se referencie apropiadamente. En segundo lugar, el tiempo total desde que se envió el artículo por primera vez a la revista hasta que fue publicado en línea, fue de 47 días. Los comentarios y sugerencias de los evaluadores anónimos fueron en verdad de ayuda para mejorar la calidad del artículo y presentar un mensaje mas claro, y en algunos casos mejorar la base de datos en línea.

Lo que viene ahora es extender la base de datos, principalmente agregar datos experimentales sobre los factores de transcripción que hemos predicho.