Các cấu hình được tối ưu hóa cho việc tối ưu hóa tải công việc trên máy chủ Linux
16 phút đọc - 9 tháng 6, 2026

Cách chọn, áp dụng và tùy chỉnh các cấu hình tối ưu cho máy chủ GPU, cơ sở dữ liệu và máy chủ Linux băng thông cao, kèm theo ví dụ và mẹo triển khai Ansible.
các cấu hình được điều chỉnh để tối ưu hóa tải công việc của máy chủ
Các cài đặt mặc định của Linux được điều chỉnh để đảm bảo tính tương thích, chứ không phải hiệu suất. Daemon tuned cung cấp các cấu hình được định nghĩa sẵn để điều chỉnh bộ điều khiển CPU, bộ lập lịch I/O, tham số kernel và bộ đệm mạng để phù hợp với một khối lượng công việc cụ thể. Bài đăng này trình bày cách thức hoạt động của các cấu hình, cấu hình nào nên chọn cho các vai trò máy chủ phổ biến, cũng như cách xây dựng và triển khai các cấu hình tùy chỉnh trên toàn bộ hệ thống.
Cách hoạt động của các cấu hình tùy chỉnh
Một cấu hình là một thư mục nằm dưới /usr/lib/tuned/profiles/ (system) hoặc /etc/tuned/profiles/ (tùy chỉnh) chứa một tuned.conf tệp cấu hình. Tệp cấu hình này nhóm các tham số theo plugin: [cpu], [disk], [sysctl], [vm], [bootloader], v.v. Khi kích hoạt một cấu hình, daemon tuned sẽ áp dụng tất cả các tham số cùng một lúc, thay vì chạy hàng chục lệnh sysctl và sysfs lệnh thủ công.
Các cấu hình có thể kế thừa lẫn nhau thông qua include . Ví dụ, throughput-performance profile, ví dụ, có thể đóng vai trò là cơ sở cho một cấu hình cơ sở dữ liệu tùy chỉnh chỉ ghi đè vm.swappiness và cài đặt Transparent Huge Pages.
tuned chạy ở hai chế độ. Tối ưu hóa tĩnh áp dụng cấu hình một lần khi kích hoạt và không can thiệp vào hệ thống, đây là điều bạn mong muốn trên các máy chủ sản xuất nơi tính nhất quán quan trọng hơn tiết kiệm năng lượng. Tối ưu hóa động theo dõi việc sử dụng đĩa, mạng và tải trong thời gian thực và điều chỉnh cài đặt ngay lập tức. Các cấu hình hiệu suất tắt tính năng tối ưu hóa động theo mặc định để tránh gánh nặng giám sát.
Chọn cấu hình phù hợp cho khối lượng công việc của bạn
tuned cung cấp hàng chục cấu hình phù hợp với hầu hết các khối lượng công việc phổ biến. Hãy chọn cấu hình phù hợp với chức năng thực tế của máy chủ, thay vì để nguyên cấu hình mặc định balanced .
| Tải công việc | Hồ sơ | Chức năng |
|---|---|---|
| Huấn luyện và suy luận GPU | accelerator-performance | Khóa CPU ở các trạng thái C thấp, giữ độ trễ giữa CPU và GPU dưới 100µs |
| Cơ sở dữ liệu (Postgres, MySQL, Redis) | throughput-performance | Tắt chế độ tiết kiệm năng lượng, tối ưu hóa I/O đĩa và mạng, tắt Transparent Huge Pages |
| Mạng băng thông cao (CDN, sao chép, đường ống dữ liệu) | network-throughput | Mở rộng bộ đệm mạng kernel để duy trì truyền tải băng thông cao |
| Dịch vụ nhạy cảm với độ trễ | network-latency hoặc latency-performance | Gắn bộ điều khiển CPU vào performance, vô hiệu hóa các trạng thái C sâu |
| HPC và cụm tính toán | hpc-compute | Nâng cao hiệu suất độ trễ với NUMA và tối ưu hóa bộ nhớ |
| Các phiên bản VPS (hệ điều hành khách) | virtual-guest | Giảm độ ưu tiên hoán đổi, tăng đọc trước đĩa cho I/O ảo hóa bán phần |
| Máy chủ hypervisor KVM | virtual-host | Tối ưu hóa ghi lại trang bẩn cho các tác vụ VM |
| Hỗn hợp hoặc không xác định | balanced | Mặc định. Cân bằng giữa hiệu suất và hiệu quả năng lượng |
Đối với các hệ thống cơ sở dữ liệu cụ thể, tuned cũng được cung cấp postgresql, mssql, và oracle các cấu hình đi xa hơn throughput-performance bằng cách điều chỉnh bộ nhớ chia sẻ và các tham số bộ lập lịch kernel cho các công cụ đó.
Trên các máy chủ đa socket, cấu trúc NUMA rất quan trọng. Truy cập bộ nhớ nút từ xa có thể chậm hơn hai đến ba lần so với truy cập cục bộ. Đối với các khối lượng công việc yêu cầu độ trễ thấp trên các máy hai socket, hãy tắt tính năng cân bằng NUMA tự động trong cấu hình và gán các quy trình vào các nút cụ thể theo cách thủ công.
Cài đặt và áp dụng cấu hình
Cài đặt tuned trên RHEL, Rocky, AlmaLinux hoặc Fedora:
dnf install tuned
systemctl enable --now tunedTrên Debian và Ubuntu, gói phần mềm này cũng được gọi là tuned và cài đặt qua apt. Nếu power-profiles-daemon đã đang chạy, hãy ẩn nó đi để tránh xung đột:
systemctl mask --now power-profiles-daemonDanh sách các cấu hình có sẵn, hỏi tuned xem nó đề xuất gì cho phần cứng, áp dụng một cấu hình và xác minh nó:
tuned-adm list
tuned-adm recommend
tuned-adm profile throughput-performance
tuned-adm verifyCấu hình đang hoạt động được lưu trữ trong /etc/tuned/active_profile và được duy trì sau khi khởi động lại. Để loại bỏ hoàn toàn các thiết lập tối ưu hóa và đo lường mức cơ bản, hãy chạy tuned-adm off.
Xây dựng cấu hình tùy chỉnh cho AI, ML và khối lượng công việc băng thông cao
Khi các cấu hình có sẵn giúp bạn hoàn thành 90% công việc, hãy tạo một cấu hình tùy chỉnh kế thừa từ cấu hình phù hợp nhất và ghi đè các tham số còn lại. Bắt đầu với một thư mục và tệp conf:
mkdir -p /etc/tuned/ai-gpu
cat > /etc/tuned/ai-gpu/tuned.conf <<'EOF'
[main]
summary=Custom profile for GPU training with high-bandwidth networking
include=accelerator-performance
[cpu]
governor=performance
[sysctl]
kernel.numa_balancing=0
net.core.rmem_max=268435456
net.core.wmem_max=268435456
net.ipv4.tcp_rmem=4096 87380 268435456
net.ipv4.tcp_wmem=4096 65536 268435456
[vm]
transparent_hugepages=never
[bootloader]
cmdline=hugepagesz=2M hugepages=16384 <a target="_blank" rel="noopener noreferrer" href="https://en.wikipedia.org/wiki/Input%E2%80%93output_memory_management_unit">iommu</a>=pt
EOF
tuned-adm profile ai-gpuCác lựa chọn chính ở đây:
numa_balancing=0ngăn chặn kernel di chuyển bộ nhớ giữa các socket trong quá trình đào tạo, một nguyên nhân phổ biến gây ra tình trạng đình trệ trên các máy tính GPU hai socket.- Tham số
rmem_maxvàtcp_rmemtăng giới hạn bộ đệm socket lên 256MB. Trên các kết nối 25G, 40G hoặc 100G giữa các nút đào tạo, kích thước bộ đệm mặc định giới hạn thông lượng ở mức thấp hơn nhiều so với tốc độ đường truyền. transparent_hugepages=neverloại bỏ độ dao động độ trễ mà THP gây ra cho các khung công tác như PyTorch và TensorFlow khi phân bổ các tensor lớn.iommu=ptđặt IOMMU vào chế độ passthrough, cần thiết cho passthrough GPU và NIC và giảm tải cho DMA bare-metal.
Bất kỳ thay đổi nào dưới [bootloader] đều yêu cầu khởi động lại. Sau khi kích hoạt cấu hình, hãy chạy tuned-adm verify để xác nhận các tham số thời gian chạy đã được áp dụng và kiểm tra journalctl -u tuned xem có lỗi không. Thực hiện đánh giá hiệu năng trước và sau với iostat -xz, numastat, và công cụ tải công việc liên quan (iperf3, fiohoặc quá trình đào tạo thực tế).
Một sự đánh đổi đáng được nêu rõ: việc vô hiệu hóa các biện pháp giảm thiểu rủi ro bảo mật CPU giúp tăng khoảng 3-8% đối với các khối lượng công việc GPU nhưng lại làm giảm 15-30% đối với các khối lượng công việc có các mẫu gọi hệ thống nặng. Hãy quyết định dựa trên mô hình mối đe dọa đối với máy chủ. Trong một cụm đào tạo chuyên dụng được bảo vệ bởi tường lửa, các tính toán thường ủng hộ việc vô hiệu hóa chúng. Trên máy chủ đa người dùng, hãy để các biện pháp này hoạt động.
Quản lý cấu hình trên một nhóm máy chủ
Việc áp dụng tuned bằng tay sẽ không còn khả thi khi số lượng máy chủ vượt quá một vài chiếc. Ansible xử lý vấn đề này một cách gọn gàng. Một playbook duy nhất sẽ cài đặt tuned, đặt các thư mục cấu hình tùy chỉnh vào /etc/tuned/ thông qua template module, và áp dụng cấu hình phù hợp cho từng nhóm trong danh sách inventory.
Ánh xạ cấu hình với các vai trò trong danh mục:
- Các nút GPU và AI:
accelerator-performance, hoặc một cấu hình tùy chỉnh kế thừa từ nó - Máy chủ cơ sở dữ liệu:
throughput-performancehoặc cấu hình dành riêng cho động cơ - Các nút CDN và edge đẩy lưu lượng băng thông cao:
network-throughput - Máy chủ API và web phía sau bộ cân bằng tải:
network-latency - Máy ảo VPS và KVM:
virtual-guest - Máy chủ hypervisor:
virtual-host
Sự lệch là vấn đề vận hành thực sự. Các thay đổi thủ công sysctl , việc nâng cấp gói phần mềm mang theo các giá trị mặc định mới, hoặc một công cụ quản lý cấu hình khác can thiệp vào hệ thống đã được tối ưu hóa đều sẽ khiến các thiết lập lệch khỏi những gì được định nghĩa trong profile. Lên lịch chạy tác vụ Ansible tuned-adm active và tuned-adm verify trên cron và cảnh báo khi có lỗi. Kiểm tra /var/log/tuned/tuned.log các dòng "Verification failed".
Kết luận
tuned loại bỏ hầu hết các phỏng đoán trong việc điều chỉnh kernel và sysctl. Các thiết lập mặc định đã đủ tốt cho mục đích sử dụng chung, và các cấu hình dành riêng cho khối lượng công việc như accelerator-performance, throughput-performance, và network-throughput giúp bạn đạt được mức tối ưu hóa gần như hoàn hảo mà không cần viết một tệp cấu hình nào.
- Chọn cấu hình mặc định gần nhất, chạy
tuned-adm verify, sau đó chạy bài kiểm tra hiệu năng - Tạo các cấu hình tùy chỉnh bằng cách kế thừa từ một cấu hình mặc định và chỉ ghi đè những gì bạn cần
- Cân nhắc kỹ lưỡng về cân bằng NUMA, trang bộ nhớ lớn (hugepages) và kích thước bộ đệm mạng trên các hệ thống GPU và hệ thống băng thông cao
- Triển khai bằng Ansible và kiểm tra theo lịch trình để phát hiện sự sai lệch
Bạn cần dung lượng máy chủ vật lý với băng thông dư để thực sự sử dụng các cài đặt này? Hãy liên hệ với FDC để tìm hiểu về các máy chủ chuyên dụng được thiết kế cho khối lượng công việc GPU và thông lượng cao.

Các cấu hình được tối ưu hóa cho việc tối ưu hóa tải công việc trên máy chủ Linux
Cách chọn, áp dụng và tùy chỉnh các cấu hình tối ưu cho máy chủ GPU, cơ sở dữ liệu và máy chủ Linux băng thông cao, kèm theo ví dụ và mẹo triển khai Ansible.
16 phút đọc - 9 tháng 6, 2026
Tối ưu hóa Linux OOM Killer cho VPS: Hướng dẫn thực hành
12 phút đọc - 8 tháng 6, 2026

Bạn có thắc mắc hoặc cần giải pháp tùy chỉnh?
Các tùy chọn linh hoạt
Phạm vi toàn cầu
Triển khai ngay lập tức
Các tùy chọn linh hoạt
Phạm vi toàn cầu
Triển khai ngay lập tức