Skip to content

Sobre el envío de Jobs

¡El nodo de acceso no es para realizar cómputos!

Use Slurm para enviar sus cargas de trabajo a los diferentes nodos de cómputo.

Raimondi es un recurso compartido utilizado simultáneamente por múltiples usuarios. Para garantizar una asignación y gestión justa de los recursos, se emplea el gestor de trabajos Slurm. Mediante Slurm, los usuarios pueden enviar, cancelar y monitorear sus cargas de trabajo (jobs), las cuales se ejecutan en los distintos nodos de cómputo disponibles.

Los jobs pueden ser ejecutados de dos maneras distintas:

  1. Modo batch: Permite enviar un script que contiene todas las instrucciones necesarias para la ejecución del job. Este se ejecutará de forma ininterrumpida durante el período de tiempo especificado en el script y permitido por el tipo de cuenta del usuario. En este modo, el usuario envía su carga de trabajo y no necesita permanecer conectado a Raimondi para que la ejecución continúe. La salida del job se escribe de manera continua en uno o más archivos, los cuales pueden consultarse en cualquier momento para monitorear el progreso hasta su finalización.

  2. Modo interactivo: Permite a los usuarios interactuar directamente con un job en ejecución a través de la línea de comandos. Este modo es similar a reservar recursos en un nodo, conectarse a él y ejecutar manualmente (de forma interactiva) los comandos necesarios para completar el trabajo. Sin embargo, si la conexión con el nodo se interrumpe o no se detecta actividad durante un tiempo determinado, el job será finalizado. Este tipo de ejecución es ideal para cargas de trabajo pequeñas, para preparar o probar ejecuciones más largas, o para tareas de debugging.

Los jobs que envíe a través de Slurm serán puestos en ejecución dependiendo de su tipo de cuenta y la cantidad de recursos solicitados (tiempo de ejecución, núcleos CPU, memoría RAM o GPU). Generalmente, los jobs con pedidos de recursos más modestos y acotados suelen esperar menos tiempo en la fila de Slurm. Si desconoce la cantidad de recursos que su job demandará puede usar la partición debug para realizar pruebas antes de enviar sus jobs a otras particiones más demandadas.

Uso del nodo de acceso

El nodo de acceso es un recurso compartido por todos los usuarios y constituye el punto de entrada al cluster. Su uso está orientado exclusivamente a tareas administrativas y de preparación de trabajos, tales como:

  • Compilación de código fuente.
  • Descarga de archivos; es el único nodo con acceso a Internet.
  • Creación y gestión de entornos de trabajo (por ejemplo, virtualenv) e instalación de paquetes de Python.
  • Envío, monitoreo y administración de jobs mediante el gestor de colas.
  • Transferencia de archivos hacia y desde el cluster.
  • Ejecución de tareas ligeras de pre y post-procesamiento que no demanden un uso intensivo de CPU ni de memoria RAM.

Warn

El nodo de acceso no debe utilizarse para ejecutar cargas de trabajo computacionalmente intensivas. Este tipo de tatras deben de enviarse siempre a través del gestor de trabajos a los nodos de cómputo correspondientes.