UPS สำหรับ AI Server ต้องเลือกอย่างไร? สิ่งที่ IT Admin ต้องรู้ก่อนซื้อ

UPS สำหรับ AI Server ต้องเลือกอย่างไร สิ่งที่ IT Admin ต้องรู้ก่อนซื้อ

ทำไม AI Server ถึงต้องการ UPS ที่แตกต่างจาก Server ทั่วไป?

UPS สำหรับ AI Server ต้องเลือกอย่างไร สิ่งที่ IT Admin ต้องรู้ก่อนซื้อ 5

Server ทั่วไปอาจทนต่อการดับกะทันหันได้พอสมควร ข้อมูลค้างในหน่วยความจำหายไป แต่ระบบ Restart แล้วก็กลับมาทำงานใหม่ได้

AI Server ไม่ใช่อย่างนั้น

เมื่อ AI Server กำลัง Training Model หรือรัน Inference อยู่ การดับไฟกะทันหันหมายถึง

  • Model Checkpoint หายทั้งหมด : Training ที่รันมาหลายชั่วโมงหรือหลายวันต้องเริ่มใหม่ตั้งแต่ต้น
  • GPU Memory Corruption : VRAM ที่โหลด Weight ไว้เสียหาย อาจทำให้ GPU เสียได้
  • NVMe SSD เสียหาย : การเขียน Dataset หรือ Checkpoint กลางคันทำให้ Filesystem เสียหาย
  • Multi-GPU Synchronization ขาด : ระบบ NVLink หรือ InfiniBand ขาดกลางคัน ทำให้ Recovery ซับซ้อน

นอกจากนี้ AI Server มีลักษณะการใช้ไฟที่แตกต่างจาก Server ทั่วไปอย่างมีนัยสำคัญ ซึ่งส่งผลโดยตรงต่อการเลือก UPS

AI Server ใช้ไฟอย่างไร? ทำไมถึงออกแบบ UPS ต่างจากเดิม

Power Draw สูงและไม่สม่ำเสมอ

Server ทั่วไปมี Power Draw ค่อนข้างคงที่ แต่ AI Server มีรูปแบบที่แตกต่างกันอย่างชัดเจน

ช่วงเวลาPower Draw
Idle (ไม่มี Workload)20–30% ของ TDP
Inference (รับคำถาม-ตอบ)60–80% ของ TDP
Training (เต็ม GPU Utilization)95–100% ของ TDP
Power Spike ขณะ GPU Boostอาจเกิน TDP ชั่วคราว

GPU ระดับ Data Center เช่น NVIDIA H100 มี TDP สูงถึง 700W ต่อการ์ด Server ที่ใส่ GPU 8 ใบจึงอาจดึงไฟสูงถึง 5,600–6,400W จาก GPU เพียงอย่างเดียว รวม CPU, RAM, Storage และ Cooling แล้วอาจแตะ 10–12 kW ต่อ Node

Power Factor ของ AI Server

AI Server ส่วนใหญ่มี Power Factor ใกล้ 1.0 (0.95–0.99) เพราะ Power Supply Unit (PSU) ระดับ Platinum/Titanium มี Active PFC ที่ดีมาก ทำให้การคำนวณ UPS Capacity ตรงไปตรงมากว่า Server รุ่นเก่า

UPS สำหรับ AI Server ต้องเลือกอย่างไร สิ่งที่ IT Admin ต้องรู้ก่อนซื้อ 2

ประเภท UPS ที่ต้องใช้กับ AI Server: Online Double Conversion เท่านั้น

AI Server ต้องการ UPS แบบ Online Double Conversion (True Online) เท่านั้น และนี่คือเหตุผล

เปรียบเทียบ 3 ประเภท UPS

ประเภทหลักการทำงานTransfer Timeเหมาะกับ AI Server?
Standby (Offline)จ่ายไฟจาก Grid ตรง สลับแบตเมื่อไฟดับ4–25 ms❌ ไม่เหมาะ
Line-Interactiveปรับแรงดันด้วย AVR สลับแบตเมื่อไฟดับ2–10 ms❌ ไม่เหมาะ
Online Double Conversionแปลง AC→DC→AC ตลอดเวลา ไม่มี Transfer Time0 ms✅ จำเป็น

Transfer Time คือเวลาที่ UPS ใช้สลับจาก Grid ไปยังแบตเตอรี่ แม้แค่ 10 ms ก็อาจทำให้ GPU หลุดจาก PCIe Bus ได้ในระบบบางรุ่น แต่ Online Double Conversion ไม่มีปัญหานี้เพราะไฟผ่านแบตเตอรี่ตลอดเวลาอยู่แล้ว

วิธีคำนวณ UPS Capacity สำหรับ AI Server

ขั้นที่ 1: หา Total Power Draw จริง

อย่าใช้ค่า TDP จาก Spec Sheet เพียงอย่างเดียว ให้วัดจาก Power Meter จริงระหว่าง Full Load Training หรือใช้ค่าจาก PSU Rating

ตัวอย่าง:
- GPU 8x H100 SXM5 = 8 × 700W = 5,600W
- CPU 2x EPYC 9654  = 2 × 360W = 720W
- RAM 24x DDR5       = 24 × 12W = 288W
- NVMe Storage 8x    = 8 × 25W  = 200W
- Cooling + Board    = ~500W
──────────────────────────────────────
Total Estimated      = ~7,308W

ขั้นที่ 2: บวก Safety Margin 20–25%

7,308W × 1.25 = 9,135W

ขั้นที่ 3: แปลงเป็น kVA (ถ้า Power Factor = 0.95)

9,135W ÷ 0.95 = ~9,616 VA ≈ 10 kVA

→ เลือก UPS 10 kVA ขึ้นไป สำหรับ Server Node นี้

ขั้นที่ 4: กำหนด Runtime ที่ต้องการ

AI Server ไม่จำเป็นต้องรัน UPS นานหลายชั่วโมง เป้าหมายคือ เพียงพอสำหรับ Graceful Shutdown และ เวลาที่ Generator จะ Kick In

UPS สำหรับ AI Server ต้องเลือกอย่างไร สิ่งที่ IT Admin ต้องรู้ก่อนซื้อ 3
สถานการณ์Runtime ที่แนะนำ
มี Generator5–15 นาที (แค่รอ Generator ติด)
ไม่มี Generator15–30 นาที (บันทึก Checkpoint + Shutdown)
Critical Inference System30–60 นาที (รองรับ Failover ไปยัง Node อื่น)

สเปคที่ต้องตรวจสอบก่อนซื้อ UPS สำหรับ AI Server

1. Input Voltage และ Phase

AI Server ระดับ Data Center มักใช้ 3-Phase Power (380–415V) ตรวจสอบให้แน่ใจว่า UPS รองรับ Input ที่ตรงกับ PDU ในห้อง Server

2. Output Waveform: Pure Sine Wave เท่านั้น

PSU ระดับ Platinum/Titanium บน AI Server ต้องการ Pure Sine Wave เท่านั้น UPS ที่ให้ Simulated Sine Wave จะทำให้ PSU ทำงานผิดปกติและอาจเสียหายได้

3. Input Power Factor Correction

เลือก UPS ที่มี Input Power Factor ≥ 0.99 เพื่อไม่สร้าง Harmonic Distortion กลับไปยังระบบไฟฟ้าหลัก ซึ่งอาจกระทบอุปกรณ์อื่นในวงจรเดียวกัน

4. SNMP / Network Management Card

จำเป็นมากสำหรับ AI Server เพื่อ

  • Monitoring ผ่าน Network แบบ Real-time
  • Integration กับ Nagios, Zabbix, Prometheus หรือ DCIM อื่น ๆ
  • Graceful Shutdown อัตโนมัติ เมื่อแบตเตอรีเหลือน้อย ผ่าน NUT (Network UPS Tools) หรือ PowerChute

5. Redundancy: N+1 หรือ 2N

สำหรับ AI Server ที่รัน Production Workload ไม่ควรพึ่ง UPS ตัวเดียว แนะนำ

  • N+1 — UPS 2 ตัว ที่แต่ละตัวรับ Load ได้ทั้งหมด (ถ้าตัวหนึ่งเสียอีกตัวรับแทนได้ทันที)
  • 2N — ระบบไฟ 2 ชุดแยกกันสมบูรณ์ (สำหรับ Mission-Critical AI Infrastructure)

แบตเตอรี่: ลิเธียมไอออนดีกว่าสำหรับ AI Data Center

สำหรับ AI Server โดยเฉพาะ แบตเตอรี่ลิเธียมไอออนมีข้อได้เปรียบที่ชัดเจนกว่า

หัวข้อตะกั่วกรดลิเธียมไอออน
อายุแบต3–5 ปี8–10 ปี
ทนอุณหภูมิสูง❌ เสื่อมเร็วที่ >25°C✅ ทำงานได้ดีถึง 40°C
Recharge Time8–16 ชั่วโมง2–4 ชั่วโมง
น้ำหนักหนักเบากว่า 60–70%
Depth of Dischargeไม่ควรเกิน 50%รองรับได้ถึง 80–90%
Battery Managementต้องตรวจสอบบ่อยBMS อัตโนมัติ

ห้อง AI Server มักมีความร้อนสูงกว่า Server ทั่วไปเพราะ GPU TDP สูง ซึ่งกระทบอายุแบตตะกั่วกรดโดยตรง ลิเธียมไอออนทนสภาพนี้ได้ดีกว่าและต้องการการดูแลน้อยกว่า

Checklist สำหรับ IT Admin ก่อนเลือก UPS AI Server

□ วัด Power Draw จริงจาก Load Test หรือ PSU Rating
□ คำนวณ Total Load + Safety Margin 25%
□ กำหนด Runtime ที่ต้องการ (5 / 15 / 30 / 60 นาที)
□ ตรวจสอบ Input Voltage และ Phase ให้ตรงกับ PDU
□ เลือก Online Double Conversion เท่านั้น
□ ยืนยัน Output เป็น Pure Sine Wave
□ มี SNMP / Network Management Card
□ วางแผน Redundancy N+1 หรือ 2N
□ เลือกแบตลิเธียมไอออนสำหรับสภาพแวดล้อมร้อน
□ วางแผน Integration กับ Monitoring Stack (Prometheus/Zabbix/NUT)
□ ตรวจสอบ Maintenance Contract และ SLA ของผู้ขาย

UPS ที่เหมาะสมกับ Server

Eaton

APC

สรุป

AI Server ไม่ใช่แค่ Server ที่มี GPU เพิ่มมา ซึ่งมีรูปแบบการใช้ไฟที่แตกต่าง ความเสียหายเมื่อไฟดับที่รุนแรงกว่า และความต้องการ Power Quality ที่เข้มงวดกว่า UPS ที่เหมาะสมต้องเป็น Online Double Conversion, Pure Sine Wave, รองรับ Load จริงบวก Margin 25%, มี SNMP และควรใช้ แบตลิเธียมไอออน สำหรับสภาพแวดล้อมที่ร้อน

การประหยัดค่า UPS ในระบบ AI Server มักแลกกับความเสียหายที่มากกว่าหลายเท่า ทั้ง Training Time ที่เสียไป GPU ที่อาจเสียหาย และ Data ที่กู้ไม่ได้

ติดต่อเรา

  • ที่อยู่ : 179/94 ถนนนาวงประชาพัฒนา แขวงสีกัน เขตดอนเมือง กรุงเทพมหานคร 10210
  • เบอร์โทร : 02-140-0892
  • เบอร์โทร : 089-314-3423 (มือถือ)
  • ติดต่อผ่านทางเว็บไซต์ : คลิกเลย!!
แชร์หน้านี้: