#server-performance

Afgestemde profielen voor het optimaliseren van de werklast op Linux-servers

16 min lezen - 9 juni 2026

Inhoudsopgave

Afgestemde profielen voor het optimaliseren van de serverwerkbelasting
Hoe afgestemde profielen werken
Het juiste profiel kiezen voor uw workload
Profielen installeren en toepassen
Een aangepast profiel maken voor AI-, ML- en workloads met hoge bandbreedte
Profielen beheren binnen een serverpark
Conclusie

Delen

Hoe u afgestemde profielen voor GPU-, database- en Linux-servers met hoge bandbreedte kunt kiezen, toepassen en aanpassen, met voorbeelden en tips voor implementatie met Ansible.

Inhoudsopgave

Afgestemde profielen voor het optimaliseren van de serverwerkbelasting
Hoe afgestemde profielen werken
Het juiste profiel kiezen voor uw workload
Profielen installeren en toepassen
Een aangepast profiel maken voor AI-, ML- en workloads met hoge bandbreedte
Profielen beheren binnen een serverpark
Conclusie

Afgestemde profielen voor het optimaliseren van de serverwerkbelasting

De standaardinstellingen van Linux zijn afgestemd op compatibiliteit, niet op prestaties. De tuned-daemon bevat vooraf gedefinieerde profielen die CPU-regelaars, I/O-planners, kernelparameters en netwerkbuffers aanpassen aan een specifieke werklast. In dit artikel wordt uitgelegd hoe de profielen werken, welk profiel je moet kiezen voor veelvoorkomende serverrollen en hoe je aangepaste profielen kunt samenstellen en implementeren binnen een serverpark.

Hoe afgestemde profielen werken

Een profiel is een map onder /usr/lib/tuned/profiles/ (systeem) of /etc/tuned/profiles/ (aangepast) met daarin een tuned.conf bestand bevat. Het conf-bestand groepeert parameters per plug-in: [cpu], [disk], [sysctl], [vm], [bootloader], enzovoort. Activeer een profiel en de tuned-daemon past alle parameters in één keer toe, in plaats van tientallen sysctl en sysfs commando’s handmatig uit te voeren.

Profielen kunnen van elkaar overnemen met de include richtlijn. Het throughput-performance profiel kan bijvoorbeeld dienen als basis voor een aangepast databaseprofiel dat alleen vm.swappiness de instelling voor Transparent Huge Pages overschrijft.

tuned werkt in twee modi. Bij statische afstemming wordt het profiel eenmalig toegepast bij activering en wordt het systeem daarna met rust gelaten. Dit is wat je wilt op productieservers waar consistentie belangrijker is dan energiebesparing. Bij dynamische afstemming worden schijf-, netwerk- en belastinggebruik in realtime gemonitord en worden instellingen direct aangepast. Prestatieprofielen schakelen dynamische afstemming standaard uit om de overhead van de monitoring te vermijden.

Het juiste profiel kiezen voor uw workload

tuned levert een tiental profielen die de meest voorkomende workloads dekken. Kies het profiel dat overeenkomt met wat de server daadwerkelijk doet, in plaats van het standaard balanced profiel te laten staan.

Werkbelasting	Profiel	Wat het doet
GPU-training en -inferentie	`accelerator-performance`	Zet de CPU vast in lage C-toestanden, waardoor de CPU-naar-GPU-latentie onder de 100 µs blijft
Databases (Postgres, MySQL, Redis)	`throughput-performance`	Schakelt energiebesparing uit, optimaliseert schijf- en netwerk-I/O en schakelt Transparent Huge Pages uit
Netwerken met hoge bandbreedte (CDN, replicatie, datapijplijnen)	`network-throughput`	Vergroot de netwerkbuffers van de kernel voor aanhoudende overdrachten met hoge bandbreedte
Latentiegevoelige diensten	`network-latency` of `latency-performance`	Zet de CPU-regelaar vast op `performance`, schakelt diepe C-toestanden uit
HPC- en rekenclusters	`hpc-compute`	Verbetert de prestaties op het gebied van latentie met NUMA en geheugenoptimalisatie
VPS-instances (gast-OS)	`virtual-guest`	Verlaagt de swappiness en verhoogt de disk readahead voor paravirtualiseerde I/O
KVM-hypervisorhosts	`virtual-host`	Optimaliseert het terugschrijven van 'dirty pages' voor VM-workloads
Gemengd of onbekend	`balanced`	Standaard. Ruilt prestaties in voor energie-efficiëntie

Voor specifieke database-engines wordt 'tuned' ook meegeleverd postgresql, mssql, en oracle profielen die verder gaan dan throughput-performance door het afstemmen van parameters voor gedeeld geheugen en de kernel-scheduler voor die engines.

Op servers met meerdere sockets is de NUMA-topologie van belang. Geheugentoegang tot externe knooppunten kan twee tot drie keer langzamer zijn dan lokale toegang. Schakel voor latentiegevoelige workloads op systemen met twee sockets de automatische NUMA-balansregeling in het profiel uit en wijs processen handmatig toe aan specifieke knooppunten.

Profielen installeren en toepassen

Installeer tuned op RHEL, Rocky, AlmaLinux of Fedora:

dnf install tuned
systemctl enable --now tuned

Op Debian en Ubuntu heet het pakket ook tuned en wordt geïnstalleerd via apt. Als power-profiles-daemon al actief is, maskeer het dan om conflicten te voorkomen:

systemctl mask --now power-profiles-daemon

Geef een overzicht van de beschikbare profielen, vraag aan tuned wat het aanbeveelt voor de hardware, pas een profiel toe en controleer het:

tuned-adm list
tuned-adm recommend
tuned-adm profile throughput-performance
tuned-adm verify

Het actieve profiel wordt opgeslagen in /etc/tuned/active_profile en blijft behouden na het opnieuw opstarten. Om de afstemming volledig te verwijderen en de uitgangssituatie te meten, voer je het volgende uit: tuned-adm off.

Een aangepast profiel maken voor AI-, ML- en workloads met hoge bandbreedte

Als de standaardprofielen je al voor 90% op weg helpen, maak dan een aangepast profiel dat is gebaseerd op het profiel dat het beste past en de overige parameters overschrijft. Begin met een map en een configuratiebestand:

mkdir -p /etc/tuned/ai-gpu
cat > /etc/tuned/ai-gpu/tuned.conf <<'EOF'
[main]
summary=Custom profile for GPU training with high-bandwidth networking
include=accelerator-performance
 
[cpu]
governor=performance
 
[sysctl]
kernel.numa_balancing=0
net.core.rmem_max=268435456
net.core.wmem_max=268435456
net.ipv4.tcp_rmem=4096 87380 268435456
net.ipv4.tcp_wmem=4096 65536 268435456
 
[vm]
transparent_hugepages=never
 
[bootloader]
cmdline=hugepagesz=2M hugepages=16384 <a target="_blank" rel="noopener noreferrer" href="https://en.wikipedia.org/wiki/Input%E2%80%93output_memory_management_unit">iommu</a>=pt
EOF
 
tuned-adm profile ai-gpu

De belangrijkste keuzes hier:

numa_balancing=0 voorkomt dat de kernel tijdens trainingsruns geheugen tussen sockets verplaatst, een veelvoorkomende oorzaak van vertraging op GPU-systemen met twee sockets.
De rmem_max en tcp_rmem waarden verhogen de maximale socketbuffer tot 256 MB. Bij 25G-, 40G- of 100G-verbindingen tussen trainingsknooppunten beperken de standaardbuffergroottes de doorvoersnelheid tot ver onder de lijnsnelheid.
transparent_hugepages=never verwijdert de latentiejitter die THP veroorzaakt voor frameworks zoals PyTorch en TensorFlow die grote tensoren toewijzen.
iommu=pt zet IOMMU in de passthrough-modus, wat vereist is voor GPU- en NIC-passthrough en de overhead bij bare-metal DMA vermindert.

Alles onder [bootloader] vereist een herstart. Voer na het activeren van het profiel tuned-adm verify om te controleren of de runtime-parameters zijn toegepast, en controleer journalctl -u tuned of er fouten zijn. Voer voor en na een benchmark uit met iostat -xz, numastaten de relevante workload-tool (iperf3, fio, of de daadwerkelijke trainingsrun).

Een afweging die het vermelden waard is: het uitschakelen van CPU-beveiligingsmaatregelen levert een winst op van ongeveer 3-8% bij GPU-workloads, maar kost 15-30% bij workloads met intensieve systeemaanroepen. Beslis op basis van het dreigingsmodel voor de machine. Binnen een speciaal trainingscluster achter een firewall pleit de wiskunde meestal voor het uitschakelen ervan. Laat ze ingeschakeld op een multi-tenant-host.

Profielen beheren binnen een serverpark

Het handmatig toepassen van `tuned` is niet langer haalbaar zodra er meer dan een handvol servers is. Ansible lost dit netjes op. Eén enkel playbook installeert `tuned` en plaatst aangepaste profielmappen in /etc/tuned/ via de template module, en past het juiste profiel toe per inventarisgroep.

Profielen toewijzen aan rollen in de inventaris:

GPU- en AI-knooppunten: accelerator-performance, of een aangepast profiel dat daarvan afstamt
Databaseservers: throughput-performance of het enginespecifieke profiel
CDN- en edge-knooppunten die verkeer met hoge bandbreedte doorsturen: network-throughput
API- en webservers achter een load balancer: network-latency
VPS- en KVM-gasten: virtual-guest
Hypervisor-hosts: virtual-host

Afwijkingen vormen het echte operationele probleem. Handmatige sysctl wijzigingen, pakketupgrades die nieuwe standaardinstellingen meebrengen, of een andere configuratiebeheertool die over de afgestelde instellingen heen schrijft, zorgen er allemaal voor dat de instellingen afwijken van wat het profiel voorschrijft. Plan een Ansible-taak in om tuned-adm active en tuned-adm verify via cron te laten draaien en een waarschuwing te geven bij fouten. Let op /var/log/tuned/tuned.log op regels met de tekst „Verification failed”.

Conclusie

tuned neemt het meeste giswerk weg bij het afstemmen van de kernel en sysctl. De standaardinstellingen zijn goed genoeg voor algemeen gebruik, en de werkbelastingsspecifieke profielen zoals accelerator-performance, throughput-performance, en network-throughput brengen je al een heel eind op weg naar een geoptimaliseerde omgeving zonder dat je ook maar één configuratiebestand hoeft te schrijven.

Kies het standaardprofiel dat het dichtst in de buurt komt, voer tuned-adm verify, en voer vervolgens een benchmark uit
Maak aangepaste profielen door te baseren op een standaardprofiel en alleen datgene te overschrijven wat je nodig hebt
Wees zorgvuldig met NUMA-balancing, hugepages en netwerkbuffergroottes op GPU- en high-bandwidth-systemen
Implementeer met Ansible en voer periodieke audits uit om afwijkingen op te sporen

Heeft u bare-metal-capaciteit nodig met voldoende bandbreedte om deze instellingen daadwerkelijk te kunnen gebruiken? Neem dan contact op met FDC over dedicated servers die zijn gebouwd voor hoge doorvoercapaciteit en GPU-workloads.

Blog

Uitgelicht deze week

Meer artikelen

#bandwidth#server-performance

iperf3-handleiding: Netwerksnelheid testen op Linux en Windows

Installeer iperf3, voer bandbreedtetests uit en stem de TCP-buffers af voor nauwkeurige resultaten op Linux en Windows. Behandelt UDP-, bidirectionele en 10GbE+-tests

10 min lezen - 7 mei 2026

#server-performance