top of page
IG.png

Las tarjetas NVIDIA GeForce RTX 5090 y RTX 6000 PRO afectadas por el error de restablecimiento de la virtualización

  • Foto del escritor: Masterbitz
    Masterbitz
  • 8 sept
  • 2 Min. de lectura

La GPU de consumo de gama alta de NVIDIA, el GeForce RTX 5090 y el ProViz SKU de primera línea, el RTX 6000 PRO, han sido plagados de un nuevo error de virtualización. Según los desarrolladores de CloudRift, que están creando una nube de GPU para desarrolladores de IA, se han encontrado con un error específico que hace que el RTX 5090 y RTX PRO 6000 completamente no responda. Después de unos días o semanas de uso constante, la máquina virtual GPU puede congelarse completamente sin un signo de respuesta. Esto ocurre en momentos aleatorios, sin una indicación clara de por qué. El equipo ha probado múltiples GPUs, incluyendo los modelos H100, B200 y RTX 4090 más antiguos, todos los cuales no mostraron problemas. Ni siquiera la GPU B200 de mayor rendimiento de la familia "Blackwell" experimenta estos problemas, pero los SKUs de consumo y ProViz lo hacen.

ree

Detrás de las escenas, un enfoque más técnico explica el proceso de bloqueo de la GPU. Cuando una GPU se entrega a una máquina virtual a través de KVM y VFIO, el host realiza un PCIe de nivel de función (FLR) como parte del proceso normal de limpieza cuando la VM se detiene o el dispositivo se mueve. En lugar de volver a conectarse después de ese reinicio, la tarjeta se vuelve insensible. El kernel se acabó e informa el fallo con el mensaje "no listo 65535ms después de FLR; rindiéndose". Por lo tanto, el único punto de fracaso es la propia GPU, y CloudRift incluso ha emitido una recompensa de $1,000 para cualquiera que pueda resolver el problema.

 

Además, no se trata de un incidente aislado. En los foros de Level1Tech, vemos más usuarios reportando errores. NVIDIA ha reconocido el fallo y ha declarado que la corrección actual implica la aplicación del apt install proxmox-kernel-6.14.8.8-bpo12-pve/stable comando, que es una mitigación, no una solución completa. Dado que la capa VM sigue siendo vulnerable al error, debemos esperar a que un parche oficial sea lanzado a través de un controlador o la actualización del núcleo de Linux, posiblemente incluso ambos para abordar el problema.


Comentarios


Aplus_MARS_2107_Eng(1).png
undefined - Imgur(1).jpg

Siguenos

  • Facebook
  • Twitter
  • YouTube
  • Instagram
gaming

© 2016 Derechos Reservados a MasterbitzReviewHN

bottom of page