Conexiones, sesiones y módulos
1. ¿Cómo me conecto a la Grid UNAM?
Para conectarse a Grid UNAM es necesario acceder a través del nodo submit que le hayan asignado a su proyecto.
2. ¿Cuál es el nombre de los nodos submit de la Grid UNAM?
- submit.grid.unam.mx
- submit.lamod.unam.mx
- jamatu.astrosen.unam.mx
- jupyter2.atmosfera.unam.mx
Es posible consultar esta información con el comando:
$ gu_show_cpus_all_cluster | grep unam
3. Estoy tratando de conectarme vía ssh al nodo submit, pero no puedo conseguirlo.
Por favor envíe un mensaje desde el correo registrado en el proyecto a la dirección de correo soporte-grid@unam.mx, para conocer el estado de su cuenta y/o del servicio.
En dicho correo debe especificar la información referente a la cuenta: login, nombre completo del usuario, nombre del proyecto y los mensajes de error que se obtienen al no tener acceso.
4. ¿Cómo genero un token?
Puede generar un token manualmente, utilizando el comando:
$ gu_generar_token
Sin embargo, no es necesario generarlo manualmente, ya que todos los comandos de Grid UNAM (los que comienzan con “gu_”) generan de forma automática los tokens de acceso para el procesamiento.
Por ejemplo, al ejecutar el siguiente comando automáticamente se genera un token:
$ gu_show_cpus_all_cluster
5. ¿Necesito generar un token de acceso para cada nodo submit?
No, se genera un token único que funciona para todos los nodos submit.
Para generar un token, consulte la pregunta “¿Cómo genero un token?”.
6. ¿Con cuántos sistemas de almacenamiento compartido dispone la Grid UNAM?
Grid UNAM cuenta con almacenamiento distribuido en tres sitios distintos:
- s3.lamod.unam.mx
- s3.grid.unam.mx
- atenea.astrosen.unam.mx
Cada proyecto tiene disponible 100 GB de almacenamiento vigente durante la duración del proyecto.
7. ¿Es posible utilizar un sistema de almacenamiento con diferentes nodos submit?
Sí es posible. Cada nodo de almacenamiento es independiente.
8. ¿Mis datos permanecen almacenados en el cluster en el que ejecuté mi trabajo?
No. El almacenamiento local de cada cluster se considera almacenamiento temporal que sólo está disponible durante la ejecución del trabajo.
Se recomienda que durante la ejecución de su trabajo, realice la copia de los datos al almacenamiento Grid UNAM, el cual es un almacenamiento que permanece activo el tiempo que dura el proyecto.
Envío de trabajos al sistema de colas
9. ¿A qué se refieren con ENTIDAD?
ENTIDAD se refiere al cluster de cada entidad participante. Esta variable puede tomar los siguientes valores:
ENTIDAD | Ubicación en el cluster |
$dgtic | Dirección General de Cómputo y de Tecnologías de Información y Comunicación (DGTIC) |
$vlamod | Laboratorio de Modelos y Datos de la UNAM (LAMOD) |
$astrosen | Instituto de Astronomía, Ensenada (IA-E) |
$icaycc | Instituto de Ciencias de la Atmósfera y Cambio Climático (ICAyCC) |
La sintaxis de la instrucción para consultar los trabajos es:
$ gu_consultar_jobs ENTIDAD
Por ejemplo, si se requiere consultar el cluster de LAMOD, utilice:
$ gu_consultar_jobs $vlamod
10. ¿Cómo mandar un trabajo (job) al sistema de colas?
Puede utilizar el siguiente comando:
$ gu_enviar_jobs trabajo.sub ENTIDAD
Para información detallada, consulte la guía: Envío de jobs – Nodo submit
11. ¿Cómo puedo cancelar/terminar un trabajo (job)?
1. Consulte la lista de trabajos para obtener el identificador de trabajo que requiera eliminar:
$ gu_consultar_jobs ENTIDAD
2. Ejecute el siguiente comando indicando la entidad donde se eliminará el trabajo y el identificador de trabajo, obtenido de la salida de la instrucción anterior:
$ condor_ce_rm -name ENTIDAD -pool ENTIDAD:9619
<Identificador de trabajo>
Ejemplo para terminar el trabajo 911:
$ gu_consultar_jobs $dgtic
Existe un token y es vigente
— Schedd: submit.grid.unam.mx :
<132.248.202.193:9619?… @ 06/05/23 11:33:27
OWNER BATCH_NAME SUBMITTED DONE RUN IDLE TOTAL JOB_IDS
gridunam0000 ID: 910 4/20 12:54 _ _ 1 1 910.0
gridunam0000 ID: 911 4/20 13:55 _ _ 1 1 911.0
gridunam0000 ID: 912 4/24 09:58 _ _ 1 1 912.0
$ condor_ce_rm -name $dgtic -pool $dgtic:9619 911
12. ¿Cómo puedo saber la cantidad máxima de cores que puede utilizar un trabajo (job)?
La cantidad máxima de cores es por nodo, y ese número depende del nodo en el que se envíe el trabajo. Puede consultar el número máximo de cores por sitio, con los comandos:
Para todos los clusters
$ gu_show_cpus_all_cluster
Para un cluster en particular:
$ gu_show_cpus_cluster ENTIDAD
Programas paralelos
13. ¿Cuál es la cantidad máxima de cores que se pueden utilizar en programas con OpenMP o con MPI?
Dependerá del tipo de nodo que se asigne o se solicite para ejecutar el trabajo, ya que en Grid UNAM tenemos nodos heterogéneos. Para trabajos con MPI, solo se puede utilizar un nodo.
Puede consultar el número máximo de cores por sitio con el comando:
$ gu_show_cpus_cluster ENTIDAD
14. ¿Debo instalar MPI para ejecutar un programa de este tipo?
No, ya se encuentra instalado MPI.
15. ¿Los programas con MPI deben ejecutarse mediante el comando mpirun?
Si se utiliza mpirun, la forma correcta de utilizarlo es:
mpirun -np $SLURM_NPROCS ./ejecutable_mpi
16. ¿Es recomendable utilizar una versión de MPI (MPICH, LAM, etc.) diferente a la versión existente en Grid UNAM?
Se recomienda utilizar la versión instalada o el uso de contenedores. No se garantiza la ejecución del trabajo si se utiliza una versión diferente, así mismo, no se provee soporte por parte de la mesa de soporte relacionado con este tema.
17. ¿Hay alguna versión de Python disponible?
Sí. Para listar las versiones disponibles puede ejecutar:
$ scl -l | grep python
Para cargar una versión en particular en su script, por ejemplo Python 2.7, puede agregar la línea:
$ source scl_source enable python27
Aplicaciones
18. ¿Un usuario puede solicitar la instalación de un programa en la Grid UNAM?
El software a utilizar en el proyecto de GridUNAM, debe estar descrito en la solicitud de recursos del proyecto al momento de registrarlo en la convocatoria vigente.
En general, se recomienda el uso de contenedores para el uso de software específico.
19. ¿Cuál es el número máximo de cores que se puede utilizar con Gaussian?
Dependerá del tipo de nodo que se asigne o se solicite para ejecutar el trabajo, ya que en Grid UNAM tenemos nodos heterogéneos. Para obtener esta información utilice el comando:
$ gu_show_cpus_all_cluster
Nota: Con el licenciamiento actual, sólo es posible ejecutar Gaussian en los clusters del campus CU.
20. ¿Qué programas o bibliotecas tienen instalados en Grid UNAM?
Por favor consulte la sección de Software del Portal Informativo de Grid UNAM.
21. ¿Qué tipo de programas se pueden ejecutar en los clusters de Grid UNAM?
Todo tipo de programas de cómputo científico (cálculo numérico, simuladores, analizadores, etcétera) que tengan versiones para su ejecución en Linux, que no sean interactivos y que utilicen sólo un nodo de cálculo.
22. ¿Con qué compiladores cuenta Grid UNAM?
Compiladores GNU para Fortran, C y C++, en su versión 10.
23. ¿Se puede utilizar los recursos asignados a un trabajo en la Grid UNAM para la compilación de una aplicación?/strong>
Sí. Con las mismas restricciones del envío de un job de proyecto a Grid UNAM.
Contabilidad de uso de recursos
24. ¿Cómo se contabiliza el uso de los recursos en Grid UNAM?
La unidad de consumo de cómputo es hora-core. El consumo se contabiliza a partir de los recursos computacionales asignados a cada trabajo multiplicado por su duración, 1 hora-CPU es un core utilizado de forma dedicada durante 1 hora.
- 1 GB es igual a 1E+9 Bytes.
- 1 Byte es la unidad de almacenamiento mínima.
25. ¿Cuántos recursos hora-core he consumido hasta este momento?
Enviar un correo a soporte-grid@unam.mx y solicitar el dato de su consumo de hora-core.
26. ¿Cómo consultar los recursos disponibles en Grid UNAM?
Para saber cuales son los recursos disponibles con que cuenta Grid UNAM en un determinado momento, escribir el siguiente comando.
$ gu_show_cpus_all_cluster
Sobre el almacenamiento, referirse a la pregunta “¿Con qué sistemas de almacenamiento cuenta la Grid UNAM?”
Generales
27. ¿Qué servicios ofrece Grid UNAM?
Servicios de procesamiento tipo HTC y HPC (con algunas restricciones) además de almacenamiento para uso de los trabajos enviados a Grid UNAM.
También se ofrece soporte técnico a los proyectos de Grid UNAM a través de una mesa de soporte (soporte-grid@unam.mx).
Para más información consulte:
http://grid.unam.mx/index.php/servicios-modelos/
28. ¿Cómo reportar un problema relacionado con mi cuenta de usuario?
Por favor envíe un mensaje desde el correo registrado en el proyecto a la dirección de correo soporte-grid@unam.mx. En dicho correo debes especificar la información referente a la cuenta: login, nombre asociado y descripción de los errores que reporta la aplicación (o el comportamiento anómalo al intentar usar la Grid UNAM).
29. ¿Quién es responsable de la información que se genera en la infraestructura de Grid UNAM?
Toda la información que se obtiene del procesamiento numérico que se realiza en la infraestructura de cómputo de alto rendimiento es responsabilidad del titular del proyecto.