# Generé vídeo, imágenes y voz con IA 100% local: sin nube, sin suscripciones, sin límites > Wan2GP v11.66 genera vídeo, imagen y TTS con IA en tu propia GPU. Sin límites de uso, sin costes recurrentes, sin enviar tus datos a nadie. Así funciona y esto puedes crear. **Autor:** Pedro Luis Cuevas Villarrubia | **Fecha:** 2026-05-17 | **Tags:** IA, herramientas, rendimiento **URL:** https://asturwebs.es/blog/wan2gp-generar-video-imagen-voz-ia-local-2026/ --- El año pasado pagaba suscripciones a 4 servicios distintos de IA: uno para imágenes, otro para vídeo, otro para voz, otro para música. Entre todos, unos 200 dólares al mes. Y aún así tenía límites de generación, colas cuando había demanda, y cero control sobre lo que pasaba con mis datos. Hoy lo genero todo en local. En mi propia GPU. Sin límites. Sin suscripciones. Sin enviar nada a ninguna nube. La herramienta se llama **Wan2GP**, y es lo más parecido a tener un estudio de producción multimedia impulsado por IA en tu escritorio. ## Qué es Wan2GP Wan2GP (por DeepBeepMeep) es una plataforma open-source que unifica los mejores modelos de IA generativa del momento en una sola interfaz web. La versión actual (v11.66, mayo 2026) incluye más de 30 arquitecturas de modelos distintas, organizadas en tres categorías:

Vídeo

Wan 2.1, LTX-2, Hunyuan, Kandinsky 5

Texto a vídeo, imagen a vídeo, edición, animación

Imagen

Flux 1 Dev, Qwen Image, Z Image, HiDream

Fotorrealismo, texto en imágenes, inpainting

Audio/Voz

Qwen3 TTS, Chatterbox, ACE-Step, Omnivoice

TTS, voice cloning, canciones con letra, 100 idiomas

Y lo mejor: todo corre en local. En mi RTX 4090 (24 GB VRAM) puedo generar un vídeo de 5 segundos a 480p con Wan 2.1 1.3B en 3-4 minutos (720p requiere upscaling posterior), una imagen en segundos, y una voz clonada en menos de un minuto. ## Vídeo: de texto a escena cinematográfica Wan2GP soporta varios modelos de vídeo, cada uno con su especialidad:

Rápido

LTX-2.3 Distilled

18-20 GB VRAM (FP8)Sub-1 min

22B en 8 pasos de inferencia. Iterar ideas, prototipado rápido

Balance

LTX-2 22B

18-20 GB VRAM (FP8)Medio

Misma arquitectura, pasos completos. Mejor calidad general

Cine

Wan 2.1 14B

65+ GB VRAMLento

Calidad cinematográfica nativa. Requiere hardware de centro de datos (H100)

Versátil

Hunyuan Video

10-14 GB VRAMMedio

Buen balance calidad/velocidad

> "Plano cenital con dron sobre un valle verde y brumoso al amanecer, luz dorada atravesando nubes, una pequeña casa de piedra con humo en la chimenea, montañas asturianas al fondo" Y el enhancer lo expande con detalles de iluminación, movimientos de cámara y atmósfera. Para vídeos largos, Wan2GP usa **sliding windows**: genera el vídeo por segmentos y los une con corrección de color automática. Puedes generar un minuto de vídeo sin quedarte sin VRAM. Interfaz de Wan2GP mostrando el pipeline completo de generación: prompt enhancer, selección de modelo, parámetros avanzados y gallery de outputs

Interfaz de Wan2GP mostrando el pipeline completo de generación: prompt enhancer, selección de modelo, parámetros avanzados y gallery de outputs

La IA generativa no es el futuro — es el presente. Si quieres integrar generación de contenido con IA en el flujo de trabajo de tu negocio, te ayudo a diseñar e implementar la solución que necesitas.

## Imagen: de Flux a Qwen Image Para imágenes, Wan2GP incluye lo mejor de cada casa:

Top

Flux 1 Dev 12B — fotorrealismo extremo, mi elección para imágenes hero del blog

Rápido

Flux Schnell — 4 pasos, generación casi instantánea, ideal para iterar

Texto

Qwen Image 20B — renderiza texto real en imágenes, perfecto para posters

Volumen

Z Image Turbo — ultra-rápido, para cuando necesitas muchas imágenes

## Voz y música: TTS multi-idioma con voice cloning Aquí es donde Wan2GP sorprende de verdad. Los modelos de audio incluyen:

Voz

Qwen3 TTS 1.7B — síntesis multi-idioma con clonación (10 seg de referencia replica el timbre)

Diálogo

Chatterbox — multi-speaker, escribes el guión y genera voces distintas para cada personaje

Música

ACE-Step v1.5XL — canciones completas con letra y música

Soundtrack

MMAudio — genera música automática para cualquier vídeo basándose en el contenido visual

Para un profesional independiente, esto es oro. Puedo generar un vídeo promocional con voz en off y música de fondo sin tocar una cámara, un micrófono, ni pagar una suscripción. ## ¿Local o cloud? No voy a fingir que el cloud no tiene ventajas. Servicios como Runway o Pika tienen interfaces más pulidas y no requieren una GPU de 2.000 euros. Pero:

Cloud

Coste: $20-200/mes

Límites: Generaciones/mes, colas

Privacidad: Tus datos van a sus servidores

Control: Parámetros limitados

Censura: Filtros arbitrarios

Modelos: Los que el servicio decida

Local (Wan2GP)

Coste: Solo electricidad

Límites: Ilimitado

Privacidad: Todo en tu máquina

Control: Cada parámetro ajustable

Censura: Tú decides

Modelos: Los que tú instales

## Mi stack actual de generación local

GPU

RTX 4090 24GB

El motor de todo. Una inversión que se amortiza en meses si generas contenido a diario.

Vídeo

Wan2GP v11.66

Vídeo + imagen + TTS en una sola interfaz. El protagonista del post.

Imagen

ComfyUI + FLUX.1-dev

Imágenes hero para el blog. Control nodal total sobre cada paso del pipeline.

Estilo

Fooocus 2.5.5

Imágenes estilo documental. Interfaz simple, resultados inmediatos.

LLM

llama.cpp Router

9 modelos LLM locales sirviendo en paralelo. Chat, código, análisis — todo sin nube.

GPU

gpu-switch script

Alterna entre servicios — solo uno usa la GPU a la vez. Sin conflictos.

Todo open-source. Todo local. Sin suscripciones. ## Cuándo merece la pena y cuándo no He sido honesto hasta aquí, así que sigo: **la IA local no es para todo el mundo.**

Merece la pena si...

Generas +10 piezas de contenido al mes

Necesitas privacidad total (clientes, datos sensibles)

Quieres control sobre cada parámetro

Tienes (o vas a comprar) una GPU dedicada

Te molestan los filtros de censura arbitrarios

Mejor cloud si...

Generas menos de 5 piezas al mes

No quieres gestionar hardware ni updates

Prefieres interfaz pulida sobre control total

No tienes espacio/energía para una GPU

Solo necesitas algo puntual y rápido

Mi caso: genero imágenes hero para el blog, vídeos cortos para X, y voiceovers para demos. Entre todo, unas 30-50 generaciones semanales. A $0.05/generación en cloud, serían $100-200/mes. La RTX 4090 se amortizó en 4 meses. ---

¿Quieres tu propio stack de IA generativa sin depender de la nube?

Te ayudo a montar tu infraestructura de generación con IA local, desde la GPU hasta el último script de automatización.

Hablemos de tu proyecto →