หัวข้อ
ทำไม AI Server ถึงต้องการ UPS ที่แตกต่างจาก Server ทั่วไป?

Server ทั่วไปอาจทนต่อการดับกะทันหันได้พอสมควร ข้อมูลค้างในหน่วยความจำหายไป แต่ระบบ Restart แล้วก็กลับมาทำงานใหม่ได้
AI Server ไม่ใช่อย่างนั้น
เมื่อ AI Server กำลัง Training Model หรือรัน Inference อยู่ การดับไฟกะทันหันหมายถึง
- Model Checkpoint หายทั้งหมด : Training ที่รันมาหลายชั่วโมงหรือหลายวันต้องเริ่มใหม่ตั้งแต่ต้น
- GPU Memory Corruption : VRAM ที่โหลด Weight ไว้เสียหาย อาจทำให้ GPU เสียได้
- NVMe SSD เสียหาย : การเขียน Dataset หรือ Checkpoint กลางคันทำให้ Filesystem เสียหาย
- Multi-GPU Synchronization ขาด : ระบบ NVLink หรือ InfiniBand ขาดกลางคัน ทำให้ Recovery ซับซ้อน
นอกจากนี้ AI Server มีลักษณะการใช้ไฟที่แตกต่างจาก Server ทั่วไปอย่างมีนัยสำคัญ ซึ่งส่งผลโดยตรงต่อการเลือก UPS
AI Server ใช้ไฟอย่างไร? ทำไมถึงออกแบบ UPS ต่างจากเดิม
Power Draw สูงและไม่สม่ำเสมอ
Server ทั่วไปมี Power Draw ค่อนข้างคงที่ แต่ AI Server มีรูปแบบที่แตกต่างกันอย่างชัดเจน
| ช่วงเวลา | Power Draw |
|---|---|
| Idle (ไม่มี Workload) | 20–30% ของ TDP |
| Inference (รับคำถาม-ตอบ) | 60–80% ของ TDP |
| Training (เต็ม GPU Utilization) | 95–100% ของ TDP |
| Power Spike ขณะ GPU Boost | อาจเกิน TDP ชั่วคราว |
GPU ระดับ Data Center เช่น NVIDIA H100 มี TDP สูงถึง 700W ต่อการ์ด Server ที่ใส่ GPU 8 ใบจึงอาจดึงไฟสูงถึง 5,600–6,400W จาก GPU เพียงอย่างเดียว รวม CPU, RAM, Storage และ Cooling แล้วอาจแตะ 10–12 kW ต่อ Node
Power Factor ของ AI Server
AI Server ส่วนใหญ่มี Power Factor ใกล้ 1.0 (0.95–0.99) เพราะ Power Supply Unit (PSU) ระดับ Platinum/Titanium มี Active PFC ที่ดีมาก ทำให้การคำนวณ UPS Capacity ตรงไปตรงมากว่า Server รุ่นเก่า

ประเภท UPS ที่ต้องใช้กับ AI Server: Online Double Conversion เท่านั้น
AI Server ต้องการ UPS แบบ Online Double Conversion (True Online) เท่านั้น และนี่คือเหตุผล
เปรียบเทียบ 3 ประเภท UPS
| ประเภท | หลักการทำงาน | Transfer Time | เหมาะกับ AI Server? |
|---|---|---|---|
| Standby (Offline) | จ่ายไฟจาก Grid ตรง สลับแบตเมื่อไฟดับ | 4–25 ms | ❌ ไม่เหมาะ |
| Line-Interactive | ปรับแรงดันด้วย AVR สลับแบตเมื่อไฟดับ | 2–10 ms | ❌ ไม่เหมาะ |
| Online Double Conversion | แปลง AC→DC→AC ตลอดเวลา ไม่มี Transfer Time | 0 ms | ✅ จำเป็น |
Transfer Time คือเวลาที่ UPS ใช้สลับจาก Grid ไปยังแบตเตอรี่ แม้แค่ 10 ms ก็อาจทำให้ GPU หลุดจาก PCIe Bus ได้ในระบบบางรุ่น แต่ Online Double Conversion ไม่มีปัญหานี้เพราะไฟผ่านแบตเตอรี่ตลอดเวลาอยู่แล้ว
วิธีคำนวณ UPS Capacity สำหรับ AI Server
ขั้นที่ 1: หา Total Power Draw จริง
อย่าใช้ค่า TDP จาก Spec Sheet เพียงอย่างเดียว ให้วัดจาก Power Meter จริงระหว่าง Full Load Training หรือใช้ค่าจาก PSU Rating
ตัวอย่าง:
- GPU 8x H100 SXM5 = 8 × 700W = 5,600W
- CPU 2x EPYC 9654 = 2 × 360W = 720W
- RAM 24x DDR5 = 24 × 12W = 288W
- NVMe Storage 8x = 8 × 25W = 200W
- Cooling + Board = ~500W
──────────────────────────────────────
Total Estimated = ~7,308W
ขั้นที่ 2: บวก Safety Margin 20–25%
7,308W × 1.25 = 9,135W
ขั้นที่ 3: แปลงเป็น kVA (ถ้า Power Factor = 0.95)
9,135W ÷ 0.95 = ~9,616 VA ≈ 10 kVA
→ เลือก UPS 10 kVA ขึ้นไป สำหรับ Server Node นี้
ขั้นที่ 4: กำหนด Runtime ที่ต้องการ
AI Server ไม่จำเป็นต้องรัน UPS นานหลายชั่วโมง เป้าหมายคือ เพียงพอสำหรับ Graceful Shutdown และ เวลาที่ Generator จะ Kick In

| สถานการณ์ | Runtime ที่แนะนำ |
|---|---|
| มี Generator | 5–15 นาที (แค่รอ Generator ติด) |
| ไม่มี Generator | 15–30 นาที (บันทึก Checkpoint + Shutdown) |
| Critical Inference System | 30–60 นาที (รองรับ Failover ไปยัง Node อื่น) |
สเปคที่ต้องตรวจสอบก่อนซื้อ UPS สำหรับ AI Server
1. Input Voltage และ Phase
AI Server ระดับ Data Center มักใช้ 3-Phase Power (380–415V) ตรวจสอบให้แน่ใจว่า UPS รองรับ Input ที่ตรงกับ PDU ในห้อง Server
2. Output Waveform: Pure Sine Wave เท่านั้น
PSU ระดับ Platinum/Titanium บน AI Server ต้องการ Pure Sine Wave เท่านั้น UPS ที่ให้ Simulated Sine Wave จะทำให้ PSU ทำงานผิดปกติและอาจเสียหายได้
3. Input Power Factor Correction
เลือก UPS ที่มี Input Power Factor ≥ 0.99 เพื่อไม่สร้าง Harmonic Distortion กลับไปยังระบบไฟฟ้าหลัก ซึ่งอาจกระทบอุปกรณ์อื่นในวงจรเดียวกัน
4. SNMP / Network Management Card
จำเป็นมากสำหรับ AI Server เพื่อ
- Monitoring ผ่าน Network แบบ Real-time
- Integration กับ Nagios, Zabbix, Prometheus หรือ DCIM อื่น ๆ
- Graceful Shutdown อัตโนมัติ เมื่อแบตเตอรีเหลือน้อย ผ่าน NUT (Network UPS Tools) หรือ PowerChute
5. Redundancy: N+1 หรือ 2N
สำหรับ AI Server ที่รัน Production Workload ไม่ควรพึ่ง UPS ตัวเดียว แนะนำ
- N+1 — UPS 2 ตัว ที่แต่ละตัวรับ Load ได้ทั้งหมด (ถ้าตัวหนึ่งเสียอีกตัวรับแทนได้ทันที)
- 2N — ระบบไฟ 2 ชุดแยกกันสมบูรณ์ (สำหรับ Mission-Critical AI Infrastructure)
แบตเตอรี่: ลิเธียมไอออนดีกว่าสำหรับ AI Data Center
สำหรับ AI Server โดยเฉพาะ แบตเตอรี่ลิเธียมไอออนมีข้อได้เปรียบที่ชัดเจนกว่า
| หัวข้อ | ตะกั่วกรด | ลิเธียมไอออน |
|---|---|---|
| อายุแบต | 3–5 ปี | 8–10 ปี |
| ทนอุณหภูมิสูง | ❌ เสื่อมเร็วที่ >25°C | ✅ ทำงานได้ดีถึง 40°C |
| Recharge Time | 8–16 ชั่วโมง | 2–4 ชั่วโมง |
| น้ำหนัก | หนัก | เบากว่า 60–70% |
| Depth of Discharge | ไม่ควรเกิน 50% | รองรับได้ถึง 80–90% |
| Battery Management | ต้องตรวจสอบบ่อย | BMS อัตโนมัติ |
ห้อง AI Server มักมีความร้อนสูงกว่า Server ทั่วไปเพราะ GPU TDP สูง ซึ่งกระทบอายุแบตตะกั่วกรดโดยตรง ลิเธียมไอออนทนสภาพนี้ได้ดีกว่าและต้องการการดูแลน้อยกว่า
Checklist สำหรับ IT Admin ก่อนเลือก UPS AI Server
□ วัด Power Draw จริงจาก Load Test หรือ PSU Rating
□ คำนวณ Total Load + Safety Margin 25%
□ กำหนด Runtime ที่ต้องการ (5 / 15 / 30 / 60 นาที)
□ ตรวจสอบ Input Voltage และ Phase ให้ตรงกับ PDU
□ เลือก Online Double Conversion เท่านั้น
□ ยืนยัน Output เป็น Pure Sine Wave
□ มี SNMP / Network Management Card
□ วางแผน Redundancy N+1 หรือ 2N
□ เลือกแบตลิเธียมไอออนสำหรับสภาพแวดล้อมร้อน
□ วางแผน Integration กับ Monitoring Stack (Prometheus/Zabbix/NUT)
□ ตรวจสอบ Maintenance Contract และ SLA ของผู้ขาย
UPS ที่เหมาะสมกับ Server
Eaton
APC
สรุป
AI Server ไม่ใช่แค่ Server ที่มี GPU เพิ่มมา ซึ่งมีรูปแบบการใช้ไฟที่แตกต่าง ความเสียหายเมื่อไฟดับที่รุนแรงกว่า และความต้องการ Power Quality ที่เข้มงวดกว่า UPS ที่เหมาะสมต้องเป็น Online Double Conversion, Pure Sine Wave, รองรับ Load จริงบวก Margin 25%, มี SNMP และควรใช้ แบตลิเธียมไอออน สำหรับสภาพแวดล้อมที่ร้อน
การประหยัดค่า UPS ในระบบ AI Server มักแลกกับความเสียหายที่มากกว่าหลายเท่า ทั้ง Training Time ที่เสียไป GPU ที่อาจเสียหาย และ Data ที่กู้ไม่ได้
ติดต่อเรา
- ที่อยู่ : 179/94 ถนนนาวงประชาพัฒนา แขวงสีกัน เขตดอนเมือง กรุงเทพมหานคร 10210
- เบอร์โทร : 02-140-0892
- เบอร์โทร : 089-314-3423 (มือถือ)
- ติดต่อผ่านทางเว็บไซต์ : คลิกเลย!!

