#server-performance

Perfis otimizados para a otimização da carga de trabalho de servidores Linux

16 min de leitura - 9 de junho de 2026

Índice

perfis otimizados para a otimização da carga de trabalho do servidor
Como funcionam os perfis personalizados
Escolher o perfil certo para a sua carga de trabalho
Instalação e aplicação de perfis
Criação de um perfil personalizado para cargas de trabalho de IA, ML e largura de banda elevada
Gestão de perfis numa frota de servidores
Conclusão

Partilhar

Como escolher, aplicar e personalizar perfis otimizados para servidores Linux com GPU, bases de dados e de elevada largura de banda, com exemplos e dicas de implementação com o Ansible.

Índice

perfis otimizados para a otimização da carga de trabalho do servidor
Como funcionam os perfis personalizados
Escolher o perfil certo para a sua carga de trabalho
Instalação e aplicação de perfis
Criação de um perfil personalizado para cargas de trabalho de IA, ML e largura de banda elevada
Gestão de perfis numa frota de servidores
Conclusão

perfis otimizados para a otimização da carga de trabalho do servidor

As definições predefinidas do Linux são ajustadas para compatibilidade, não para desempenho. O daemon «tuned» inclui perfis predefinidos que ajustam os reguladores da CPU, os agendadores de E/S, os parâmetros do kernel e os buffers de rede para se adequarem a uma carga de trabalho específica. Este artigo aborda como os perfis funcionam, qual escolher para funções comuns de servidor e como criar e implementar perfis personalizados numa frota de servidores.

Como funcionam os perfis personalizados

Um perfil é um diretório no /usr/lib/tuned/profiles/ (sistema) ou /etc/tuned/profiles/ (personalizado) que contém um tuned.conf ficheiro. O ficheiro de configuração agrupa os parâmetros por plugin: [cpu], [disk], [sysctl], [vm], [bootloader], e assim por diante. Ao ativar um perfil, o daemon do tuned aplica todos os parâmetros de uma só vez, em vez de executar dezenas de sysctl e sysfs manualmente.

Os perfis podem herdar uns dos outros através da include . O throughput-performance perfil, por exemplo, pode servir de base para um perfil de base de dados personalizado que substitua apenas vm.swappiness a configuração de Páginas Gigantes Transparentes.

O `tuned` funciona em dois modos. O ajuste estático aplica o perfil uma única vez na ativação e não interfere no sistema, o que é o ideal em servidores de produção, onde a consistência é mais importante do que a poupança de energia. O ajuste dinâmico monitoriza a utilização do disco, da rede e da carga em tempo real e ajusta as definições em tempo real. Por predefinição, os perfis de desempenho desativam o ajuste dinâmico para evitar a sobrecarga de monitorização.

Escolher o perfil certo para a sua carga de trabalho

O Tuned fornece uma dúzia de perfis que abrangem as cargas de trabalho mais comuns. Escolha aquele que corresponda ao que o servidor efetivamente faz, em vez de deixar o balanced .

Carga de trabalho	Perfil	O que faz
Treino e inferência na GPU	`accelerator-performance`	Mantém a CPU em estados C de baixo consumo, mantendo a latência entre a CPU e a GPU abaixo de 100 µs
Bases de dados (Postgres, MySQL, Redis)	`throughput-performance`	Desativa a poupança de energia, otimiza as E/S de disco e de rede e desativa as Transparent Huge Pages
Redes de elevada largura de banda (CDN, replicação, pipelines de dados)	`network-throughput`	Aumenta os buffers de rede do kernel para transferências sustentadas de elevada largura de banda
Serviços sensíveis à latência	`network-latency` ou `latency-performance`	Fixa o regulador da CPU em `performance`, desativa os estados C profundos
HPC e clusters de computação	`hpc-compute`	Melhora o desempenho em termos de latência com NUMA e ajuste da memória
Instâncias VPS (SO convidado)	`virtual-guest`	Reduz a swappiness e aumenta a leitura antecipada do disco para E/S paravirtualizada
Hosts com hipervisor KVM	`virtual-host`	Otimiza a reescrita de páginas sujas para cargas de trabalho de máquinas virtuais
Misto ou desconhecido	`balanced`	Predefinição. Prioriza a eficiência energética em detrimento do desempenho

Para motores de base de dados específicos, o tuned também é fornecido postgresql, mssqle oracle perfis que vão além throughput-performance através do ajuste dos parâmetros da memória partilhada e do agendador do kernel para esses motores.

Em servidores com vários soquetes, a topologia NUMA é importante. O acesso à memória de nós remotos pode ser duas a três vezes mais lento do que o acesso local. Para cargas de trabalho em que a latência é crítica em sistemas com dois soquetes, desative o equilíbrio NUMA automático no perfil e atribua manualmente os processos a nós específicos.

Instalação e aplicação de perfis

Instale o tuned no RHEL, Rocky, AlmaLinux ou Fedora:

dnf install tuned
systemctl enable --now tuned

No Debian e no Ubuntu, o pacote também se chama tuned e instala-se através de apt. Se power-profiles-daemon já estiver a ser executado, oculte-o para evitar conflitos:

systemctl mask --now power-profiles-daemon

Liste os perfis disponíveis, pergunte ao tuned o que recomenda para o hardware, aplique um perfil e verifique-o:

tuned-adm list
tuned-adm recommend
tuned-adm profile throughput-performance
tuned-adm verify

O perfil ativo é guardado em /etc/tuned/active_profile e mantém-se mesmo após reinicializações. Para remover completamente o ajuste e medir o valor de referência, execute tuned-adm off.

Criação de um perfil personalizado para cargas de trabalho de IA, ML e largura de banda elevada

Quando os perfis predefinidos o levarem a 90 % do caminho, crie um perfil personalizado que herde do perfil mais semelhante e substitua os parâmetros restantes. Comece com um diretório e um ficheiro de configuração:

mkdir -p /etc/tuned/ai-gpu
cat > /etc/tuned/ai-gpu/tuned.conf <<'EOF'
[main]
summary=Custom profile for GPU training with high-bandwidth networking
include=accelerator-performance
 
[cpu]
governor=performance
 
[sysctl]
kernel.numa_balancing=0
net.core.rmem_max=268435456
net.core.wmem_max=268435456
net.ipv4.tcp_rmem=4096 87380 268435456
net.ipv4.tcp_wmem=4096 65536 268435456
 
[vm]
transparent_hugepages=never
 
[bootloader]
cmdline=hugepagesz=2M hugepages=16384 <a target="_blank" rel="noopener noreferrer" href="https://en.wikipedia.org/wiki/Input%E2%80%93output_memory_management_unit">iommu</a>=pt
EOF
 
tuned-adm profile ai-gpu

As principais opções aqui:

numa_balancing=0 impede o kernel de migrar memória entre sockets durante as execuções de treino, uma causa comum de lentidão em sistemas com GPU de dois sockets.
O rmem_max e tcp_rmem aumentam o limite máximo do buffer do socket para 256 MB. Em interligações de 25G, 40G ou 100G entre nós de treino, os tamanhos de buffer predefinidos limitam a largura de banda a um valor bem abaixo da taxa de linha.
transparent_hugepages=never elimina a variação de latência que o THP provoca em frameworks como o PyTorch e o TensorFlow, que alocam tensores de grande dimensão.
iommu=pt coloca o IOMMU no modo de passagem direta, necessário para a passagem direta da GPU e da NIC, e reduz a sobrecarga no DMA bare-metal.

Qualquer coisa abaixo de [bootloader] requer um reinício. Após ativar o perfil, execute tuned-adm verify para confirmar que os parâmetros de tempo de execução foram aplicados e verifique journalctl -u tuned se existem erros. Realize testes de desempenho antes e depois com iostat -xz, numastate a ferramenta de carga de trabalho relevante (iperf3, fioou a própria execução de treino).

Há uma compensação que vale a pena esclarecer: desativar as medidas de segurança da CPU proporciona um ganho de cerca de 3 a 8% em cargas de trabalho da GPU, mas acarreta um custo de 15 a 30% em cargas de trabalho com padrões intensivos de chamadas de sistema. Decida com base no modelo de ameaças do equipamento. Num cluster de treino dedicado, protegido por uma firewall, os cálculos geralmente favorecem a sua desativação. Num host multilocatário, mantenha-as ativadas.

Gestão de perfis numa frota de servidores

A aplicação manual do `tuned` deixa de ser viável quando se ultrapassa um pequeno número de servidores. O Ansible trata disto de forma eficiente. Um único playbook instala o `tuned` e cria diretórios de perfis personalizados em /etc/tuned/ através do template módulo e aplica o perfil correto a cada grupo de inventário.

Mapeamento de perfis para funções no inventário:

Nós de GPU e IA: accelerator-performance, ou um perfil personalizado que herde desse
Servidores de base de dados: throughput-performance ou o perfil específico do motor
Nós de CDN e de borda que transmitem tráfego de elevada largura de banda: network-throughput
Servidores de API e web atrás de um equilibrador de carga: network-latency
VPS e máquinas convidadas KVM: virtual-guest
Anfitriões de hipervisor: virtual-host

A deriva é o verdadeiro problema operacional. sysctl , atualizações de pacotes que introduzem novos valores predefinidos ou outra ferramenta de gestão de configuração a interferir com o «tuned» farão com que as definições se desviem do que o perfil indica. Agende uma tarefa do Ansible para ser executada tuned-adm active e tuned-adm verify no cron e a enviar alertas em caso de falhas. Fique atento /var/log/tuned/tuned.log as linhas «Verificação falhou».

Conclusão

O «tuned» elimina grande parte das suposições do ajuste do kernel e do sysctl. As predefinições são suficientes para uso geral, e os perfis específicos para cargas de trabalho, como accelerator-performance, throughput-performance, e network-throughput levam-no quase até à otimização sem ter de escrever um único ficheiro de configuração.

Escolha o perfil padrão mais adequado, execute tuned-adm verifye, em seguida, faça um teste de desempenho
Crie perfis personalizados herdando de um perfil padrão e substituindo apenas o que for necessário
Seja criterioso quanto ao equilíbrio NUMA, às páginas gigantes e aos tamanhos dos buffers de rede em máquinas com GPU e de elevada largura de banda
Implemente com o Ansible e realize auditorias regulares para detetar desvios

Precisa de capacidade bare-metal com margem de largura de banda suficiente para utilizar efetivamente estas configurações? Fale com a FDC sobre servidores dedicados concebidos para cargas de trabalho de alto rendimento e com GPU.

Blogue

Em destaque esta semana

Mais artigos

#bandwidth#server-performance

Tutorial do iperf3: Testar a velocidade da rede no Linux e no Windows

Instale o iperf3, execute testes de largura de banda e ajuste os buffers TCP para obter resultados precisos no Linux e no Windows. Abrange testes UDP, bidirecionais e de 10 GbE+.

10 min de leitura - 7 de maio de 2026

#server-performance