martes, junio 07, 2011

Visit to Poland: Roche 454 GS Junior Data

I was visiting my friend Miroslaw Kwasniewski an Assistant Professor at the University of Silesia in Katowice, Poland. He is got a GS Junior 454 machine which I wanted to check out. Besides that, he wanted some help with their bioinformatics servers and pipelines.


I was just looking at one dataset, transcriptomics from barley, obtained from the GS Junior, and read counts, read lengths and quality are all great, very impressive. I have some statistics obtained using FastQC, after exporting the SFF file from GS Junior to FastQ format using sff_extract.

This is the distribution of the read quality on a per base basis. As you can see, reads can be well over 400, around 500bp with Phred qualities above 20.


The sequence length distribution has a nice peak around 500 bp.


GS Junior could achieve 100.000 reads throughput, Mirek was getting 150.000 reads.

GS Junior seem to be quite good for sequencing low complexity samples. Quality and length of the sequencing reads is great, but depth for a e.g., full transcriptome in angiosperms, would be either challenging or too expensive. It is great for amplicon sequencing, bacterial genome sequencing, virus genome sequencing, i.e., would be great for the phages (!).

viernes, junio 03, 2011

Secuenciación del genoma de cepa de E. coli que está causando problemas en Alemania

En mayo de 2011 un brote de diarrea hemorragica se desató en los estados de la región norte de Alemania. Varios de los casos reportados causaban sindrome urémico hemolítico, caracterizado por insuficiencia renal y transtornos neurológicos. Investigadores alemanes identificaron que el agente responsable de brote es una nueva variante de la bacteria Escherichia coli entero-hemorrágica (EHEC, por sus siglas en inglés) serotipo O104.

El Instituto de Genómica de Beijing (BGI) acaba de liberar las secuencias crudas obtenidas usando Ion Torrent de la cepa de E. coli que está causando el brote de EHEC en Alemania.

El BGI liberó las lecturas crudas correspondientes a 5 corridas del Personal Genome Machine (PGM) de Ion Torrent, los datos están disponibles en el NCBI SRA con el número de acceso: SRA037315. Los datos se pueden descargar en formato .sra. El SRA tiene un kit de software que permite convertir el formato sra en fastq o sff. Yo los exporte en formato fastq, usando el comando:

for i in $(ls *.sra); do name=`basename $i .sra`; fastq-dump -TR -W -F -SL -A $name $i; done

La opción tal vez mas importante en este comando es -W que remueve los extremos de baja calidad de las lecturas.

Uno de los primeros paso antes de continuar al ensamble de las lecturas es revisarla un poco, e.g., longitud, calidades. Este tipo de análisis se puede adelantar con FastQC.

Corrida (SRA accession)Número de LecturasRango de tamaños
SRR227300923701-119
SRR2273371222081-129
SRR227338967651-125
SRR2273392222751-131
SRR227340957501-129

La calidad es buena hasta la posición ~40, a partir de allí cae drasticamente. No muy sorprendente para este tipo de tecnologías. Las gráficas con similares para las otras 4 corridas. La siguiente figura corresponde a la distribución de calidad en todas las corridas (archivos fastq concatenados).

Sobre la longitud de las secuencias, la Figura de abajo, muestra que el PGM genera lecturas en un rango bastante estrecho, con un pico en 100bp.


Como podemos observar los datos generados por el PGM de Ion Torrent son lecturas de ADN de longitud corta. En general este tipo de datos se prestan muy bien para hacer ensambles de mapeo, pero no muy bien para ensambles de novo. A pesar de estoy yo estoy interesado en ver las posibilidades y las limitaciones de este tipo de datos para los ensambles de novo. Mas adelante les contaré los resultados de estos experimentos.

jueves, mayo 05, 2011

El genoma de Selaginella nos permite encontrar cambios en el contenido genético asociados con la evolución de las plantas vasculares

Acaba de salir publicado el artículo que describe el genoma de Selaginella moellendorfii. Tuve la oportunidad de participar en ese estudio y creo que es buena idea re-activar este espacio con un resumen corto.

Selaginella es una planta terreste y que cuenta con un sistema vascular verdadero.

Foto: Selaginella moellendorffii (Jing-Ke Weng, Salk University)

Las plantas que colonizaron el ambiente terrestre empezaron a divergir hace mas de 450 millones de años. Los principales linajes que existen actualmente, resultado de esa divergencia, son los musgos, los licófitos y las plantas con hojas verdaderas (helechos y plantas con semillas). Selaginella es un licófito.

Desde el año 2000 conocemos los genomas completos de varias angiospermas (plantas con flores), e.g., Arabidopsis thaliana (prima de la mostaza), Oryza sativa (arroz). Desde el 2008 conocemos el genoma completo del musgo Physcomitrella patens, lo que nos permitió proponer algunos rasgos moleculares importantes en la colonización del ambiente terrestre. Pero para conocer las características moleculares que llevaron al desarrollo de vasos de transporte reales de nutrientes en las plantas era necesario conocer el genoma de un licófito, como la Selaginella moellendorfii. El estudio de este organismo nos permitió inferir, a partir de la comparación con otras plantas, que el desarrollo del sistema vascular requirió de la evolución de 516 genes nuevos, y que el desarrolló de las semillas se vio facilitado por la innovación representada en 1350 genes más.

En el desarrollo de esta investigación participaron mas de 100 investigadores de 11 países alrededor del mundo. Este estudio fue liderado por la Dra. Jo Ann Banks de la Universidad de Purdue en Estados Unidos de América. La participación de Joint Genome Institute adscrito al Departamento de Energía de Estados Unidos de América, aseguró el éxito del trabajo.

En Colombia las especies del genero Selaginella se conocen como doradilla y se emplean principalmente como plantas ornamentales. En Colombia, se encuentra principalmente en los departamentos de Amazonas, Caquetá, Cuaca, Guainía, Guaviare, Meta, Nariño, Vaupés y Vichada.