23 de enero de 2026

Configurar vLLM + WSL2

Descubre cómo configurar vLLM junto a WSL2

Tabla de contenidos

1 - Qué es vLLM
2 - Configurar WSL
3 - Configurar vLLM para inferencia por GPU
4 - Conclusión
5 - Referencias

En este post te presento como ejecutar cualquier LLM de manera local en Windows.

Qué es vLLM

vLLM es una librería optimizada para la realizar inferencia a grandes modelos de lenguaje (LLMs) y servirlos de manera sencilla a través de su motor de API incorporado, además la API está pensada para ser compatible con los modelos de OpenAI.

Configurar WSL

En este ejemplo utilizaremos WSL (Windows Subsystem for Linux). En el caso de que no lo tengas instalado, necesitarás escribir en la barra de búsqueda “Habilitar características de windows”, para lo cual se te abrirá un cuadro y donde necesitarás habilitar la opción “Windows Subsystem for Linux” como se muestra en la imagen adjunta:

alt text

Una vez hayas chequeado esta opción es necesario reiniciar el equipo para que se apliquen los cambios. Posteriormente, deberás abrir powershell y ejecutar los siguientes comandos:

wsl --set-default-version 2
wsl --install -d ubuntu
wsl --set-default ubuntu

Esto permitirá que se configure WSL a la versión 2 y se instale Ubuntu 24.

Configurar vLLM para inferencia por GPU

Una vez dentro de WSL y antes de configurar vLLM, es necesario tener instalados los siguientes paquetes esenciales:

sudo apt update
sudo apt install -y python3-venv
sudo apt install -y build-essential
sudo apt install python3.12-dev

Ahora crearemos un entorno virtual para Python y lo realizamos a través de los comandos:

python3 -m venv myenv
source myenv/bin/activate

Una vez dentro del entorno virtual, es necesario instalar los siguientes paquetes que son requisitos para ejecutar vLLM:

(myenv) pip install torch torchvision
(myenv) pip install vllm
(myenv) pip install transformers accelerate safetensors
(myenv) pip install torch-c-dlpack-ext

Debemos descargar un repositorio del LLM a ejecutar desde Hugging Face, después le creamos una carpeta (en este caso es liquidai_lfm2_2.6b), nos movemos a la carpeta del modelo y ejecutamos los siguientes comandos:

(myenv) cd /mnt/e/Github/myllm/model/liquidai_lfm2_2.6b
(myenv) vllm serve . --dtype float16 --max-model-len 2048 --gpu-memory-utilization 0.8 --enforce-eager

Ahora se inicializará vLLM, el cual una vez cargue el motor de API estará escuchando a través de la URL:

http://127.0.0.1:8000

Conclusión

En este post hemos visto como configurar vLLM dentro de WSL, lo cual nos permite ejecutar distribución de Linux que expone una API con la que podemos interactuar con un LLM desplegado localmente.

Si te ha gustado este post no dudes en compartirlo con alguien que le pueda interesar ¡Gracias por leer!

Referencias

vLLM Docs

Microsoft - WSL Setup

Ir arriba