2026년 데이터 센터 팀들이 Cisco ACI보다 NX-OS VXLAN EVPN을 더 많이 선택하는 이유
(dev.to)
지난 화요일, training run 중에 새로운 GPU node가 MLflow registry에 접속하지 못하는 문제를 troubleshooting하느라 4시간을 보냈습니다. ACI fabric은 endpoint가 학습되었다고 보고하고 있었고, policy contract도 permit 상태였습니다. 하지만 packets는 leaf switches 사이 어딘가에서 아무런 징후 없이 사라졌습니다. 근본 원인은 무엇이었을까요? 바로 APIC controller가 reconcile하지 못한 COOP database의 stale endpoint entry였습니다. 저는 abstraction layer를 완전히 우회하여 CLI에서 endpoint를 clearing함으로써 문제를 해결했습니다. 그 사건은 무언가를 명확하게 해주었습니다...
이 글의 핵심 포인트
- 1Cisco ACI의 컨트롤러(APIC)와 실제 하드웨어 간의 상태 불일치로 인한 트러블슈팅 난항
- 2AI/GPU 클러스터의 핵심 요구사항: 결정론적 경로, Lossless Ethernet(PFC), 빠른 수렴