martes, noviembre 01, 2005

Scriptoma (Scriptome)

El "scriptoma" es una colección de scripts en perl (one-liners) para el procesamiento de datos, que se ejecutan en la línea de comandos en cualquier sistema operativo, el único requisito es tener Perl instalado. Recientemente el scriptoma ha aparecido en varias fuentes de noticias (nodalpoint, perl.com), lo que motivo este post.

Yo vi los primeros mensajes sobre el proyecto en la lista de correo de bioperl, por allá en mayo de 2005, y empecé a usarlo hace un par de meses. Para mí el scriptoma ha sido de bastante utilidad. Yo me considero un usuario avanzado de perl, pero nunca le he prestado mucha atención a los one-liners, y este proyecto me presenta la oportunidad de llenar ese vacío.

El objetivo de los creadores del scriptoma es que biólogos no programadores (BNP) lo usen en sus tareas simples de procesamiento de datos. Tareas tales como: ordenar por la tercera columna en orden ascendente un archivo de texto separado por tabulaciones con 50000 registros, obtener un estadístico dado en la quinta columna, unir dos archivos mediante una clave común, extraer los casos comunes entre dos archivos, etc.

Puede resultar doloroso tratar de resolver algunas de estas tareas usando una hoja de cálculo, devido al elevado número de registos, en cambio con un pequeño script la tarea se lleva a cabo en unos poco segundos. Alternativamente para unir archivos mediante claves comunes uno podría usar MS-Access o cualquier otro cliente SQL (MySQL es mi favorito), pero la mayoría de los BNPs no están interesados en aprender a usar MS-Access, por un lado, y por otro, el scriptoma tiene un rango mucho mas amplio de utilidad.

Para los biólogos programadores el scriptoma es útil por que demuestra el poder de perl en una sola línea de comando, y se pueden aprender varios trucos y atajos de esta forma. Para los BNPs, cada script se puede usar como una caja negra (que es lo que generalmente los BNPs piden, quieren) a la que se le dan los datos en cierto formato y se obtiene un resultado, obviamente el resultado será bastante simple: ordenar una columna, obtener el valor medio de otra, etc. Pero este es necesariamente el primer paso para análisis mas interesantes.

No me cabe duda de que el scriptoma será de muchísima utilidad para los biólogos que vengan con intenciones de programar. En cambio, dudas aparecen en cuánto a la utilidad que le puedan prestar a los BNPs en la realidad, principalmente por el desdeño que muestran hacia el uso de computadores de formas inteligentes, muchas veces prefieren "cortar y pegar" por horas.

No hay comentarios.: