Eterno bucle: 2006

miércoles, noviembre 29, 2006

First Online EMBL PhD Symposium

Del 4 al 8 de Diciembre se llevará a cabo el primer simposio en línea del EMBL. Completamente gratis y los interesador en proveer contenido, ofrecer charlas, presentar "posters" son libres de hacerlo previo registro. Yo me enteré via el blog the Pedro Beltrao.

Hay tres ejes principales de presentaciones y discusión:

Desarrollo de carreras en ciencias
Biología de sistemas / ómicas
Comunicación en ciencias 2.0

Adicionalmente abrá un "espacio" para que los diferentes participantes contribuyan con sus propias conferencias.

Sin lugar a dudas es un experimento interesante, realizar el encuentro en línea y completamente gratuito. Posiblemente sirva como un mecanismo adicional de popularización de la ciencia y de los retos y preguntas que siempre tenemos que abordar, así no sean propiamente científicos.

bueno, entocnes por "allá" nos vemos.

jueves, agosto 10, 2006

ISMB2006, Agosto 10: Conferencias

Último día en ISMB.

Empezamos el día con la magnífica conferencia magistral de Richard Roberts.

Inició su charla con una transparencia apoyando el acceso libre a la literatura científica (Open Access). Nos contó que ya no hace evaluaciones para revistas científicas que no hagan parte de este movimiento, ni tampoco hace parte de sus comités editoriales. Y sugirió obrar de similar manera.

El objetivo es que toda la literatura este públicamente disponible en línea, de esa forma podremos empezar a explotar todos esos datos y hacer, tal vez, descubrimientos biológicos. Muchos descubrimientos se han hecho tarde por falta de acceso a la literatura relevante. Esa es la primcipal motivación del movimiento.

A continuación, exhortó a la comunidad bioinformática a realizar verificaciones de sus predicciones computacionales. Parafraseándolo: "Nadie va a probar las predicciones hechas por alguién mas". Así que a colaborar mas con experimentalistas.

El siguiente punto que tocó fue su falta de confianza en la biología de sistemas. su razón: No estamos en un momento en que podamos realizar biología al nivel de sistemas en la forma enque está propuesta por que necesitamos todavía mucha mas información básica, bioquímica. Es cierto que tenemos a disposición largos listados de componentes celulares, pero hace falta conocer la(s) función(es) de la mayoría de estos componentes.

Junto a esto, menciona que es prácticamente criminal la cantidad de dinero que se viene invirtiendo en los proyectos de secuenciación, sin una inversión concomitante en proyectos de anotación.

La siguiente parte de su charla trató sobre su trabajo científico en New England Biolabs. Está compañia vende enzimas de restricción, así que sobre estas habló.

El punto mas interesante, que es el que consignaré aquí, fue sobre como de los datos de secuenciación de genomas (Whole genome shotgun sequencing, WGSS en adelante) todavía se pueden extraer ciertos hechos interesantes y biológicamente relevantes.

Las enzimas de restricción (ER, en adelante) se encuentran en bacteria y archaea, y cumplen la tarea de destruir ADN exógeno, reconociendo y cortando en secuencias cortas copn alta especificidad. Para evitar que las ER destruyan el ADN local, estos organismos tienen enzimas de modificación (EM), que generalmente metilan al ADN en las mismas secuencias de reconocimiento de las ER. En la mayoría de los casos ER y EM están codificadas de forma contigua en el genoma.

Que tiene que ver eso con WGSS?

Primero recordemos brevemente que es el WGSS. El genoma completo de un organismo se hace pedazos de forma aleatoria, y cada fragmento es clonado en una bacteria, usualmente Escherichia coli. Luego cada fragmento es secuenciado y en un último paso las secuencias de cada fragmentos se ensamblam para reconstruir el genoma inicial.

Ahora si, que tienen que ver ER y WGSS. Si uno de estos fragmentos generados al azar contiene la secuencia completa de una ER que no se encuentra nativamente en el organismo en el que se clona e.g. E. coli, es posible que esta enzima sea transcrita y traducida, y empiece a degradar el genoma, lo que terminará matando a la bacteria, por lo que será imposible recuperar clones que incluyan esos fragmentos. Por lo tanto habrá "gaps" en el mapa de clones del genoma. Esto fue lo que el grupo de Roberts buscó en los datos originales de secuenciación de Haemophilus influenzae, que eran mantenidos en el sotáno de TIGR en cinta magnética.

Ellos encontraron que había gaps en el mapa de clones, y que el gap era seguido por la secuencia de una enzima de modificación, tal y cual había sido predicho. Esto permitió descubrir nuevas ER, cuya función y actividad fue confirmada experimentalmente.

Bueno, esta fue la resumida bitácora de ISMB2006.

martes, agosto 08, 2006

ISMB2006, Agosto 8: Conferencias

En un nuevo día, capoeira:

La charla magistral de la mañana estuvo a cargo del famoso Michael Waterman, el mismo del algoritmo Smith-Waterman para el alineamiento de secuencias, por si acaso. El recibía el premio a "Senior scientist accomplishment".

Su charla estaba titulada "Whole Genome Optical Mapping", pero como afortunadamente siempre pasa con estos grandes hombres, nombres. La primera parte consistió en un poco de su historia en el área de biología computacional. Excelente y divertida. Referencias a su encuentro con Stan Ulam (Método de Monte Carlo) y luego con Temple Smith, con quién publicaría el artículo de alineamiento de secuencias. Y mas tarde con David Lipman )ahora director del NCBI, quién recibio este mismo premio en ISMB2004). Un par de referencias a artículos rechazados, artículos que luego serían el fundamento de mucho de lo que es hoy bioinformática. Una de las razones por las cuales los artículos fueron rechazados es que no existía un nicho para ese tipo de publicaciones. Y los artículos no eran ni de biología ni de matemáticas. Una referencia común poara todos aquellos que han iniciado un nuevo campo de investigación.

Luego de ese corto recuento histórico, habló sobre "whole genome optical mapping".

Luego vino la charla de Amos Bairoch (Swiss Prot), como parte del panel "Nuevas Fronteras", que trataba sobre financiación en bioinformática. El problema que plantea es la falta de financiación a largo plazo para manterner centros de datos. Su propuesta, que ambisiosamente quiere llamar "La declaración de Fortaleza", es crear una especie de impuesto para cada proyecto que genere grandes cantidades de datos que se tienen que mantener disponibles, accesibles y seguros a largo plazo. Este impuesto sería una parte del dinero otorgado para la financiación del proyecto.

Estas son algunas de las repsuestas del auditoria a la propuesta:

No todos los proyectos deben pagar lo mismo. Pequeños proyectos deben pagar muy poco o nada, mientras que grandesconsorcios pagarían mas.

En nuestra comunidad estamos acostrumbrados a compartir libre y públicamente los datos, pero no ocurre lo mismo en otros círculos. Así que se necesita educación en esa tema.

Es importante ofrecer servicios adicionales, que haya mayores incentivos para que grandes proyectos destinen parte de su financiación al manejo y mantenimiento de datos.

Esa es la propuesta de Amos, obviamente mucho camino que recorrer. Y veo difícil "sacarle" una "tajada" a los proyectos de investigación "solo" para mantener los datos disponibles, como se sugirió en la discusión parte del atractivo que hay que crear es ofrecer servicios adicionales, cuales?, esa es la pregunta.

Aclaro, en este blog solo aparecerán comentarios/resúmenes sobre las charlas que no aparecen en el número especial de Bioinformatics. Así que, hasta mañana.

ISMB2006, Agosto 7: Conferencias

Hoy comenzó oficialmente el evento, y nada mejor que un poco de folclor brasilero para motivarnos.

Ahora si sobre algunas charlas. Hubo una demostración de software del EBI, presentando EBIMed, otra herramienta (ver entrada de ayer) para la explotación de textos en MEDLINE.

Luego tuvimos un par de charlas, parte del panel coordinado por Goran Neshich de Embrapa, sobre "Nuevas fronteras en Bioinformática y Biología Computacional". Que retos enfrentaremos en los próximos 10 años.

La primera charla estuvo a cargo de Janet Thornton, e insistía en que los nuevos retos de la bioinformática yacen en la transferencia de información y tecnologías hacia los campos de medicina y agricultura. Parte del reto está en el manejo de nuevos tipos de datos, como radiografias, pruebas clínicas, etc. Otra parte del reto es cumplir a las farmaceúticas en el desarrollo de nuevas drogas, mucho se especulo sobre esto con la secuenciación de genomas, pero hasta ahora poco ha resultado.

En resumén, según Janet, necesitamos:

-Aumento en educación en bioinformática.
-Modelos predictivos.
-Infraestructura bioinformática para la investigación clinica.
-Entender las bases moleculares de las enfermedades.

Y uno de los principales problemas a los que nos veremos enfrentados es que gran parte d elos datos son privados/protegidos, o por patentes o debido a la relación de confidencialidad paciente/doctor.

La segunda charla, ofrecida por Chris Sander. Una excelente y provocativa charla. Aquí están los siete puntos que según Chris constituyen los retos a los que nos veremos enfrentados en los próximos 10 años:

Making biological function computable.

Better quantitative models of evolution.

Models of cellular decision process.

Synthetic biology, nanotech and systems design.

Neurobiology: From molecules to thinking.

Genetic and somatic variations in humans.

Close the gap between experiments and computation.

Inform the public.

Esas fueron las sesiones mas provocativas del día.

domingo, agosto 06, 2006

ISMB2006, Agosto 6: Tutoriales

Hoy comenzó para mí la conferencia.

Asistí a dos tutoriales uno en la mañana (Biological literature mining: from information retrieval to biological discovery) y otro en la tarde (Bayesian networks for bioinformatics: an introduction to inference and learning).

El primero trataba sobre como usar la literatura existente (principalmente resúmenes de artículos en MEDLINE, con opción de textos completos disponibles en PUBMED Central) para hacer descubrimientos/hipótesis de carácter biólogico. Entre los problemas/retos mencionados, está el de identificar las entidades interesantes, nombres de gene/proteínas por ejemplo. Parte del problema radica en que algunas veces esas entidades reciben nombres no muy inteligentes, desde el punto de vista de la explotación de textos, como la proteína THE, o SDS. La primera un artículo muy común en inglés y la segunda un reactivo común en la preparación de geles. Otro problema mencionado radica en la ambiguedad de algunos términos. Ciertas entidades pueden usarse con diferentes significados. Al parecer la única solución a este problema en el momento es la participación de un experto humano. A pesar de los problemas que se mencionaron, está área es muy prometedora, la razón más clara, que fue mencionada en el turtorial, es que la cantidad de literatura disponible es tan grande que nadie es capaz de leerla toda, ni siquiera en un campo especializado, y por lo tanto conexiones entre hechos aislados pueden pasar desapercibidas. Las técnicas de explotación de textos (literature mining) pueden solucionar esto en gran medida, solo es cuestión de que se empiecen a usar mas. Una de las herramientas para el usuario final que más me intereso fue iHOP.

El segundo tutorial al que asistí trataba sobre redes bayesianas: cómo inferir sus parametros, la estructura y las relaciones causales (dirección de las aristas) a partir de datos. El principal problema es la inferencia de las relaciones causales, para lo cual se necesitan experimentos "bien pensados" en el laboratorio. Lo que de alguna forma le resta eficiencia (high-throughput).

Por hoy eso fue todo. Mañana tenemos las conferencias.

miércoles, agosto 02, 2006

ISMB2006 en Fortaleza, Brasil

El próximo fin de semana comienza ISMB, una de las reuniones mas grandes de bioinformática que hay. Allí presentaré un póster sobre mi trabajo con factores de transcripción en plantas. el objetivo es hacer la presentación en sociedad de las bases de datos que creé (copia del póster).

Espero publicar la próxima semana algunas entradas sobre la conferencia, ya veremos.

domingo, abril 02, 2006

Mas sobre leyes de poder y distribuciones de conectividad en redes

La próxima semana inicia el ¨Workshop Molecular Interactions¨aquí en Berlin. Y decidí presentar un afiche (Are biological networks scale-free graphs?), que ilustre la forma en que se deben analizar algunos aspectos de redes complejas. La idea del afiche es promocionar este artículo escrito por Li y colaboradores.
En resumén muestra que el simple análisis ¨a ojo¨ de la distribución de conectividad en una red no es ni suficiente ni riguroso para decir que la red es scale-free. La opción recomendada es hacer una selección estadística de la distribución de probabilidad que mejor describe la distribución de conectividad, usando el criterio de información de Akaike (AIC). El segundo punto tratado, es evaluar la importancia de los hubs en la red. en una red scale-free los hubs son muy importantes, de forma que al removerlos la red se desconecta. La importancia de estos hubs se puede evaluar de dos formas, mediante el coeficiente de betweenness centrality o la métrica S definida en Li y cols.

viernes, enero 20, 2006

Leyes de poder en redes? (power laws in networks?)

Recientemente ha sonado mucho este tema. El blog the P. Beltrao tiene una excelente discusión al respecto.

Este es un pequeñísimo resúmen:

En 1999 el grupo de Barabasi dió a conocer que la distribución de conexión (degree distribution) de las páginas en internet (links) podía ser descrita por una ley de poder.

A partir de ese momento, las distribuciones de conexiones de muchas redes complejas se empezaron a describir con leyes de poder. Las conexiones de redes de computadores, las interacciones entre proteínas, las redes de regulacién de la transcripción, etc. . . Fue contagioso, red a la que se le "ponáin las manos encima", red que se describia con una ley de poder.

Pero en el 2005 aparecieron serías criticas al respecto. No todas las redes complejas tienen una distribución de conexión que puede ser descrita por una ley de poder. Muchas de las que así habían sido descritas están siendo reexaminadas (algunos artículos sobre el tema).

El problema radica en que muchos estudios se apresuraron en buscar leyes de poder, sin contemplar otros modelos. Precisamente lo que se está encontrando ahora es que la distribución de conexiones en varias redes puede ser mejor descrita por otros modelos (ej. lognormal). De destacar el trabajo de Stumpf et al (1 y 2) y de Tanaka. En donde además de mostrar el "error" se proponen formas eficientes para evaluar modelos y examinar criticamente los resultados.

Eterno bucle