sábado, 6 de octubre de 2007

Distribuciones para bioinformática

He recopilado una serie de distros muy útiles para la bioinformática, yo aún no sé utilizarlas, pero todo se andará.

Fuente: Bioinformática

Hace tiempo que llevo dándole vueltas a la cabeza acerca de cuál es el mejor sistema operativo para hacer bioinformática (aquí se me nota que estudié Ingeniería Informática). Y si os soy sincero, lo único que he sacado en claro es que no es Windows :-) Éste es el primero de una serie de artículos sobre sistemas operativos y bioinformática, e intentaré mencionar los sistemas más representativos.

Much@s de nosotr@s estamos usando distribuciones Linux (Debian/Ubuntu/etc, RedHat/Fedora, SuSE/OpenSuSE, Madrake/Mandriva, Gentoo, etc...), Unix (FreeBSD, Solaris/OpenSolaris, IRIX, Tru64, HP/UX, AIX, ...), Mac OS X, ¡o incluso Windows! Y tod@s nosotr@s, en mayor o menor medida hemos sufrido con los siguientes problemas:

  1. Tras leernos un artículo, hemos querido instalar un programa o librería (por ejemplo, t-coffee o BioPerl), pero como no hay paquetes instalables para nuestro sistema, hemos tenido que compilarlos a mano.
  2. Como estos programas y librerías dependen muchas veces de paquetes que no están en nuestra distribución/sistema operativo, ¡también los hemos tenido que compilar!
  3. Pasa el tiempo, y hemos querido actualizar el sistema operativo, y entonces, ¡se va todo al garete! ¡Vuelta a empezar!
1. Gentoo

Hace un par de años estaba ya totalmente harto de compilar, por todo el tiempo que perdía buscando qué tenía que instalar, probando, etc... Además, también estaba harto de que cada vez que actualizaba el sistema operativo, pudieran surgir problemas entre lo que compilé y lo que se ha actualizado. En ese momento pensé en usar algún sistema operativo con actualizaciones continuas, como alguna variante de Debian Linux, FreeBSD o Gentoo Linux (éstos dos últimos para los radicales entre los radicales). Por curiosidad, me puse a ver qué paquetes había disponibles en Gentoo, y quedé gratamente sorprendido al encontrar muchos relacionados con la bioinformática. Si mirais en:
http://packages.gentoo.org/packages/?category=sci-biology
vereis lo que hay disponible de serie para la biología/bioinformática. Aunque Gentoo Linux es una de las distribuciones más complicadas (todo paquete lo compila el sistema antes de ser instalado), me volví un radical entre los radicales al ver que buena parte del trabajo ya lo tenía hecho, ¡dado que es el sistema y no yo quien tiene que compilar! ¿Alguno de vosotros ha intentado alguna vez instalar molmol? ¡Es una pesadilla hacerlo a mano! ¿Y mantener al día BioPerl o mySQL? Seguro que sí.

Todos los sistemas operativos disponen en mayor o menor medida de un sistema de gestión de paquetes. Casi todos los paquetes disponibles están en formato binario: los programas ya están compilados, y el sistema de paquetes tiene que plantar los ficheros y poco más. Una opción no tan conocida (disponible en casi todas las distribuciones Linux) es la posibilidad de usar paquetes-fuente: sólo contienen las instrucciones de compilación.

Tanto Gentoo Linux como FreeBSD optan por esta alternativa, para preparar los paquetes 'a medida' del sistema que tenemos. El gran inconveniente de este método es el tiempo que pierde el sistema compilando los programas y librerías. ¡Imaginaos cuánto tiempo puede llevar instalar un sistema completo, con todas las herramientas, programas y librerías! ¡Alrededor de una semana! Sin embargo, una vez hecho esto os puedo asegurar que R, BioPerl, NCBI Blast, ClustalW, etc... van a funcionar mejor de lo que pensais.

2. EMBnet

Continuando con la serie de artículos sobre la Bioinformática en su vertiente más 'cacharrera', me he encontrado con que EMBnet genera periódicamente un DVD con un sistema Linux completo. Dicho DVD contiene el software más usado en bioinformática (en todas sus vertientes), preinstalado en el mismo. Lo mejor de todo es que el DVD es Live, lo que permite que puedas usarlo sin necesidad de instalar nada en tu ordenador. La noticia me llegó a través de un correo del reponsable del nodo EMBnet en España, J.R. Valverde:
Hola a todos,

está disponible una nueva versión del DVD 'en vivo' de EMBnet. Quien
desée una copia puede solicitarla (bajando un DVD virgen) en el servicio de
Informática Científica, EMBnet/CNB.

Para usuarios externos, hay una copia disponible en nuestro servidor
WWW y FTP:

ftp://ftp.es.embnet.org/pub/EMBnet/LiveDVD/
http://www.es.embnet.org/Services/ftp/EMBnet/LiveDVD/

El DVD 'en vivo' de EMBnet está disponible solamente para trabajar con
ordenadores PC. Contiene un sistema operativo Linux y una multitud de programas
tanto científicos como de oficina.

Para usarlo basta arrancar el ordenador con el DVD dentro. Al hacerlo
inicia un sistema Linux (independientemente de lo que contenga nuestro PC),
reconoce las particiones de Windows y da acceso a las mismas, y proporciona
acceso a una gran variedad de herramientas configuradas para trabajar
directamente que incluyen

- análisis de secuencias (EMBOSS...)
- análisis de estructura molecular (TINKER, Gromacs, SPDBV...)
- análisis de imagen y geles (ImageJ, GIM...)
- análisis químico (MPQC, PSI3, Ghemical...)
- matemáticas (R, MuPAD, SciLab...)
- software de ofimática (OpenOffice, Ximian Office...)
- servidor Web integrado con portal de trabajo en grupo
- software de videoconferencia

y mucho más.

El DVD 'en vivo' de EMBnet será la herramienta base que usaremos en los
próximos cursos de informática científica.

Muchas de estas herramientas están disponibles también para Mac. Si
necesitáis información, consultad con el servicio de Informática Científica
EMBnet/CNB.

Me lo acabo de descargar para probarlo, y nada más arrancar con él me he encontrado con una agradable sorpresa: ¡está basado en Gentoo! Nada más arrancar, pregunta el kernel que queremos usar. Si teneis problemas con los gráficos al arrancar, os recomiendo que useis 'gentoo-nofb', y en caso contrario, 'gentoo'. En ese momento se inicia el proceso de puesta en marcha del LiveDVD, que consiste en reconocer todos los dispositivos del sistema, autoconfigurar la red y el sonido. A partir de ese instante empieza a arrancar un sistema completo: mysql (bases de datos), apache2 (servidor web), cups (servidor de impresión), entorno gráfico, etc...

He de reconocer que para probarlo lo he sometido a condiciones extremas, porque he usado una máquina virtual creada con qemu para evitar quemar el DVD en cuestión. La máquina virtual era equivalente a un Pentium II con 1.2GHz y 128MB de memoria, y aunque el arranque ha sido muy lento (principalmente por las limitaciones que le he impuesto) ¡ha superado la prueba! Obviamente recomiendo usar un ordenador real, y que dicho ordenador tenga como mínimo 256MB o 512MB de memoria. El principal inconveniente de este LiveDVD es que sólo funciona en los PCs (ya sea con procesadores Intel o AMD), con lo que los usuarios actuales de ordenadores Apple (o arquitecturas más exóticas) quedan fuera.

En definitiva, si teneis miedo a que vuestro ordenador deje de funcionar al instalar Linux y sois usuarios esporádicos de programas bioinformáticos, este LiveDVD puede ser la solución para vosotros, al ser una de las soluciones menos invasivas.

Enlaces relacionados:
3. Bio-Linux

Revisando correos y entradas de blog antiguos, me he encontrado con que prometí hablar hace casi dos años de Bio-Linux, y no lo hice (¡mea culpa!). Además es un buen momento, viendo algunos de los comentarios preguntando dónde encontrar software bioinformático.
Bio-Linux, como muchas distribuciones Linux de hoy en día, está disponible tanto en formato Live-DVD como para instalar en cualquier ordenador. Desde la versión 4.0, esta distribución está basada en Debian, añadiendo muchísimo software bioinformático, tal como se puede consultar en la lista online. Buena parte del software en la lista es:
Todavía no he tenido tiempo de descargarme y evaluar el Live-DVD, pero por lo que contó Jan-Jaap (un compañero de trabajo) está muy bien para temas didácticos, al llevar tantas herramientas bioinformáticas en un solo DVD. Se quejó de que era un poco lento el uso del Live-DVD en portátiles, por tener que estar leyendo cada dos por tres. En cualquier caso, el reconocimiento de hardware funciona bastante bien, porque le reconoció el hardware del portátil sin problemas.

Con este DVD teneis la posibilidad de probar muchas herramientas bioinformáticas sin el engorro de tener que instalarlas. ¡Que lo disfruteis!

No hay comentarios: