#server-performance

Perfiles optimizados para la optimización de la carga de trabajo de los servidores Linux

16 min de lectura - 9 de junio de 2026

Tabla de contenidos

Perfiles optimizados para la optimización de la carga de trabajo de los servidores
Cómo funcionan los perfiles optimizados
Elegir el perfil adecuado para tu carga de trabajo
Instalación y aplicación de perfiles
Creación de un perfil personalizado para cargas de trabajo de IA, aprendizaje automático y gran ancho de banda
Gestión de perfiles en un parque de servidores
Conclusión

Compartir

Cómo elegir, aplicar y personalizar perfiles optimizados para servidores Linux con GPU, bases de datos y de gran ancho de banda, con ejemplos y consejos de implementación con Ansible.

Tabla de contenidos

Perfiles optimizados para la optimización de la carga de trabajo de los servidores
Cómo funcionan los perfiles optimizados
Elegir el perfil adecuado para tu carga de trabajo
Instalación y aplicación de perfiles
Creación de un perfil personalizado para cargas de trabajo de IA, aprendizaje automático y gran ancho de banda
Gestión de perfiles en un parque de servidores
Conclusión

Perfiles optimizados para la optimización de la carga de trabajo de los servidores

La configuración predeterminada de Linux está orientada a la compatibilidad, no al rendimiento. El demonio «tuned» incluye perfiles predefinidos que ajustan los reguladores de la CPU, los programadores de E/S, los parámetros del núcleo y los búferes de red para adaptarse a una carga de trabajo específica. Este artículo explica cómo funcionan los perfiles, cuál elegir para las funciones habituales de los servidores y cómo crear e implementar perfiles personalizados en un parque de servidores.

Cómo funcionan los perfiles optimizados

Un perfil es un directorio dentro de /usr/lib/tuned/profiles/ (sistema) o /etc/tuned/profiles/ (personalizado) que contiene un tuned.conf archivo. El archivo de configuración agrupa los parámetros por complemento: [cpu], [disk], [sysctl], [vm], [bootloader], y así sucesivamente. Al activar un perfil, el demonio de tuned aplica todos los parámetros de una sola vez, en lugar de ejecutar docenas de sysctl y sysfs comandos manualmente.

Los perfiles pueden heredarse entre sí mediante la include directiva. El throughput-performance perfil, por ejemplo, puede servir de base para un perfil de base de datos personalizado que anule únicamente vm.swappiness la configuración de «Transparent Huge Pages».

tuned funciona en dos modos. El ajuste estático aplica el perfil una vez al activarse y no interviene más en el sistema, que es lo que se busca en servidores de producción, donde la consistencia es más importante que el ahorro energético. El ajuste dinámico supervisa el uso del disco, la red y la carga en tiempo real y ajusta la configuración sobre la marcha. Los perfiles de rendimiento desactivan el ajuste dinámico de forma predeterminada para evitar la sobrecarga que supone la supervisión.

Elegir el perfil adecuado para tu carga de trabajo

Tuned ofrece una docena de perfiles que cubren las cargas de trabajo más comunes. Elige el que se ajuste a lo que realmente hace el servidor, en lugar de dejar el balanced por defecto».

Carga de trabajo	Perfil	Qué hace
Entrenamiento e inferencia con GPU	`accelerator-performance`	Mantiene la CPU en estados C bajos, lo que mantiene la latencia entre la CPU y la GPU por debajo de los 100 µs
Bases de datos (Postgres, MySQL, Redis)	`throughput-performance`	Desactiva el ahorro de energía, optimiza las E/S de disco y de red, y desactiva las páginas enormes transparentes
Redes de gran ancho de banda (CDN, replicación, canalizaciones de datos)	`network-throughput`	Amplía los búferes de red del kernel para permitir transferencias sostenidas de gran ancho de banda
Servicios sensibles a la latencia	`network-latency` o `latency-performance`	Fija el regulador de la CPU en `performance`, desactiva los estados C profundos
Clústeres de HPC y de cálculo	`hpc-compute`	Mejora el rendimiento en términos de latencia mediante el ajuste de NUMA y la memoria
Instancias VPS (sistema operativo invitado)	`virtual-guest`	Reduce el nivel de swappiness y aumenta la lectura anticipada del disco para E/S paravirtualizadas
Hosts con hipervisor KVM	`virtual-host`	Optimiza la reescritura de páginas sucias para cargas de trabajo de máquinas virtuales
Mixed or unknown	`balanced`	Por defecto. Prioriza la eficiencia energética frente al rendimiento

Para motores de base de datos específicos, Tuned también incluye postgresql, mssql, y oracle perfiles que van más allá de throughput-performance ajustando los parámetros de la memoria compartida y del programador del núcleo para dichos motores.

En servidores con varios sockets, la topología NUMA es importante. El acceso a la memoria de nodos remotos puede ser entre dos y tres veces más lento que el acceso local. Para cargas de trabajo en las que la latencia es crítica en equipos de doble socket, desactiva el equilibrio NUMA automático en el perfil y asigna manualmente los procesos a nodos específicos.

Instalación y aplicación de perfiles

Instala tuned en RHEL, Rocky, AlmaLinux o Fedora:

dnf install tuned
systemctl enable --now tuned

En Debian y Ubuntu, el paquete también se llama tuned y se instala mediante apt. Si power-profiles-daemon ya está en ejecución, enmascáralo para evitar conflictos:

systemctl mask --now power-profiles-daemon

Muestra los perfiles disponibles, pregunta a tuned qué recomienda para el hardware, aplica un perfil y comprueba que funciona:

tuned-adm list
tuned-adm recommend
tuned-adm profile throughput-performance
tuned-adm verify

El perfil activo se almacena en /etc/tuned/active_profile y se mantiene tras los reinicios. Para eliminar por completo el ajuste y medir el valor de referencia, ejecuta tuned-adm off.

Creación de un perfil personalizado para cargas de trabajo de IA, aprendizaje automático y gran ancho de banda

Cuando los perfiles predeterminados te permitan completar el 90 % del proceso, crea un perfil personalizado que herede del que más se acerque y sobrescriba los parámetros restantes. Empieza con un directorio y un archivo de configuración:

mkdir -p /etc/tuned/ai-gpu
cat > /etc/tuned/ai-gpu/tuned.conf <<'EOF'
[main]
summary=Custom profile for GPU training with high-bandwidth networking
include=accelerator-performance
 
[cpu]
governor=performance
 
[sysctl]
kernel.numa_balancing=0
net.core.rmem_max=268435456
net.core.wmem_max=268435456
net.ipv4.tcp_rmem=4096 87380 268435456
net.ipv4.tcp_wmem=4096 65536 268435456
 
[vm]
transparent_hugepages=never
 
[bootloader]
cmdline=hugepagesz=2M hugepages=16384 <a target="_blank" rel="noopener noreferrer" href="https://en.wikipedia.org/wiki/Input%E2%80%93output_memory_management_unit">iommu</a>=pt
EOF
 
tuned-adm profile ai-gpu

Las opciones clave aquí son:

numa_balancing=0 impide que el kernel migre memoria entre sockets durante las sesiones de entrenamiento, una causa habitual de ralentización en equipos con GPU de doble socket.
El rmem_max y tcp_rmem aumentan el límite máximo del búfer de socket a 256 MB. En interconexiones de 25G, 40G o 100G entre nodos de entrenamiento, los tamaños predeterminados del búfer limitan el rendimiento muy por debajo de la velocidad de línea.
transparent_hugepages=never elimina la fluctuación de latencia que provoca THP en marcos como PyTorch y TensorFlow que asignan tensores de gran tamaño.
iommu=pt pone la IOMMU en modo de paso directo, necesario para el paso directo de la GPU y la NIC, y reduce la sobrecarga en el DMA de hardware puro.

Cualquier cosa por debajo de [bootloader] requiere un reinicio. Tras activar el perfil, ejecuta tuned-adm verify para confirmar que se han aplicado los parámetros de tiempo de ejecución y comprueba journalctl -u tuned si hay errores. Realiza pruebas de rendimiento antes y después con iostat -xz, numastaty la herramienta de carga de trabajo pertinente (iperf3, fioo la propia sesión de entrenamiento).

Hay una compensación que conviene dejar clara: desactivar las medidas de seguridad de la CPU supone una ganancia de entre el 3 % y el 8 % en cargas de trabajo de GPU, pero un coste de entre el 15 % y el 30 % en cargas de trabajo con patrones intensivos de llamadas al sistema. Decide en función del modelo de amenazas del equipo. Dentro de un clúster de entrenamiento dedicado protegido por un cortafuegos, las cifras suelen favorecer su desactivación. En un host multitenant, déjalas activadas.

Gestión de perfiles en un parque de servidores

Aplicar «tuned» manualmente deja de ser viable cuando se supera un puñado de servidores. Ansible se encarga de esto de forma limpia. Un único playbook instala «tuned» y crea directorios de perfiles personalizados en /etc/tuned/ a través del template módulo, y aplica el perfil adecuado a cada grupo de inventario.

Asignar perfiles a roles en el inventario:

Nodos de GPU e IA: accelerator-performance, o un perfil personalizado que herede de él
Servidores de bases de datos: throughput-performance o el perfil específico del motor
Nodos CDN y de borde que transmiten tráfico de gran ancho de banda: network-throughput
Servidores API y web detrás de un equilibrador de carga: network-latency
VPS y máquinas invitadas KVM: virtual-guest
hosts de hipervisor: virtual-host

La deriva es el verdadero problema operativo. Los sysctl , las actualizaciones de paquetes que incorporan nuevos valores por defecto u otra herramienta de gestión de la configuración que interfiera con «tuned» provocarán que los ajustes se desvíen de lo establecido en el perfil. Programa una tarea de Ansible para que se ejecute tuned-adm active y tuned-adm verify en cron y que avise en caso de fallos. Presta atención /var/log/tuned/tuned.log las líneas que indiquen «Verificación fallida».

Conclusión

tuned elimina gran parte de las conjeturas a la hora de ajustar el kernel y sysctl. Los valores predeterminados son suficientes para un uso general, y los perfiles específicos para cada carga de trabajo, como accelerator-performance, throughput-performance, y network-throughput te permiten alcanzar casi la optimización sin tener que escribir ni un solo archivo de configuración.

Elige el perfil predeterminado que más se acerque a tus necesidades, ejecuta tuned-adm verifyy, a continuación, realiza una prueba de rendimiento
Crea perfiles personalizados heredando de un perfil predeterminado y sobrescribiendo solo lo que necesites
Presta especial atención al equilibrio NUMA, a las «hugepages» y a los tamaños de los búferes de red en equipos con GPU y de gran ancho de banda
Implementa con Ansible y realiza auditorías periódicas para detectar desviaciones

¿Necesitas capacidad «bare-metal» con margen de ancho de banda suficiente para utilizar realmente esta configuración? Habla con FDC sobre servidores dedicados diseñados para cargas de trabajo de alto rendimiento y con GPU.

Blog

Destacados de la semana

Más artículos

#bandwidth#server-performance

Tutorial de iperf3: Comprobar la velocidad de red en Linux y Windows

Instala iperf3, realiza pruebas de ancho de banda y ajusta los búferes TCP para obtener resultados precisos en Linux y Windows. Abarca pruebas UDP, bidireccionales y de 10 GbE o más.

10 min de lectura - 7 de mayo de 2026

#server-performance

Perfiles optimizados para la optimización de la carga de trabajo de los servidores Linux

16 min de lectura - 9 de junio de 2026

Más artículos