Saltar al contenido
Interfaz de Wan2GP mostrando generación simultánea de vídeo, imagen y audio en una pantalla con luces cálidas de estudio
IAherramientasrendimiento

Generé vídeo, imágenes y voz con IA 100% local: sin nube, sin suscripciones, sin límites

P Pedro Luis Cuevas Villarrubia

El año pasado pagaba suscripciones a 4 servicios distintos de IA: uno para imágenes, otro para vídeo, otro para voz, otro para música. Entre todos, unos 200 dólares al mes. Y aún así tenía límites de generación, colas cuando había demanda, y cero control sobre lo que pasaba con mis datos.

Hoy lo genero todo en local. En mi propia GPU. Sin límites. Sin suscripciones. Sin enviar nada a ninguna nube.

La herramienta se llama Wan2GP, y es lo más parecido a tener un estudio de producción multimedia impulsado por IA en tu escritorio.

Qué es Wan2GP

Wan2GP (por DeepBeepMeep) es una plataforma open-source que unifica los mejores modelos de IA generativa del momento en una sola interfaz web. La versión actual (v11.66, mayo 2026) incluye más de 30 arquitecturas de modelos distintas, organizadas en tres categorías:

Vídeo

Wan 2.1, LTX-2, Hunyuan, Kandinsky 5

Texto a vídeo, imagen a vídeo, edición, animación

Imagen

Flux 1 Dev, Qwen Image, Z Image, HiDream

Fotorrealismo, texto en imágenes, inpainting

Audio/Voz

Qwen3 TTS, Chatterbox, ACE-Step, Omnivoice

TTS, voice cloning, canciones con letra, 100 idiomas

Y lo mejor: todo corre en local. En mi RTX 4090 (24 GB VRAM) puedo generar un vídeo de 5 segundos a 480p con Wan 2.1 1.3B en 3-4 minutos (720p requiere upscaling posterior), una imagen en segundos, y una voz clonada en menos de un minuto.

Vídeo: de texto a escena cinematográfica

Wan2GP soporta varios modelos de vídeo, cada uno con su especialidad:

Rápido

LTX-2.3 Distilled

18-20 GB VRAM (FP8)Sub-1 min

22B en 8 pasos de inferencia. Iterar ideas, prototipado rápido

Balance

LTX-2 22B

18-20 GB VRAM (FP8)Medio

Misma arquitectura, pasos completos. Mejor calidad general

Cine

Wan 2.1 14B

65+ GB VRAMLento

Calidad cinematográfica nativa. Requiere hardware de centro de datos (H100)

Versátil

Hunyuan Video

10-14 GB VRAMMedio

Buen balance calidad/velocidad

“Plano cenital con dron sobre un valle verde y brumoso al amanecer, luz dorada atravesando nubes, una pequeña casa de piedra con humo en la chimenea, montañas asturianas al fondo”

Y el enhancer lo expande con detalles de iluminación, movimientos de cámara y atmósfera.

Para vídeos largos, Wan2GP usa sliding windows: genera el vídeo por segmentos y los une con corrección de color automática. Puedes generar un minuto de vídeo sin quedarte sin VRAM.

Interfaz de Wan2GP mostrando el pipeline completo de generación: prompt enhancer, selección de modelo, parámetros avanzados y gallery de outputs

La IA generativa no es el futuro — es el presente. Si quieres integrar generación de contenido con IA en el flujo de trabajo de tu negocio, te ayudo a diseñar e implementar la solución que necesitas.

Imagen: de Flux a Qwen Image

Para imágenes, Wan2GP incluye lo mejor de cada casa:

Top
Flux 1 Dev 12B — fotorrealismo extremo, mi elección para imágenes hero del blog
Rápido
Flux Schnell — 4 pasos, generación casi instantánea, ideal para iterar
Texto
Qwen Image 20B — renderiza texto real en imágenes, perfecto para posters
Volumen
Z Image Turbo — ultra-rápido, para cuando necesitas muchas imágenes

Voz y música: TTS multi-idioma con voice cloning

Aquí es donde Wan2GP sorprende de verdad. Los modelos de audio incluyen:

Voz
Qwen3 TTS 1.7B — síntesis multi-idioma con clonación (10 seg de referencia replica el timbre)
Diálogo
Chatterbox — multi-speaker, escribes el guión y genera voces distintas para cada personaje
Música
ACE-Step v1.5XL — canciones completas con letra y música
Soundtrack
MMAudio — genera música automática para cualquier vídeo basándose en el contenido visual

Para un profesional independiente, esto es oro. Puedo generar un vídeo promocional con voz en off y música de fondo sin tocar una cámara, un micrófono, ni pagar una suscripción.

¿Local o cloud?

No voy a fingir que el cloud no tiene ventajas. Servicios como Runway o Pika tienen interfaces más pulidas y no requieren una GPU de 2.000 euros. Pero:

Cloud

Coste: $20-200/mes

Límites: Generaciones/mes, colas

Privacidad: Tus datos van a sus servidores

Control: Parámetros limitados

Censura: Filtros arbitrarios

Modelos: Los que el servicio decida

Local (Wan2GP)

Coste: Solo electricidad

Límites: Ilimitado

Privacidad: Todo en tu máquina

Control: Cada parámetro ajustable

Censura: Tú decides

Modelos: Los que tú instales

Mi stack actual de generación local

GPU

RTX 4090 24GB

El motor de todo. Una inversión que se amortiza en meses si generas contenido a diario.

Vídeo

Wan2GP v11.66

Vídeo + imagen + TTS en una sola interfaz. El protagonista del post.

Imagen

ComfyUI + FLUX.1-dev

Imágenes hero para el blog. Control nodal total sobre cada paso del pipeline.

Estilo

Fooocus 2.5.5

Imágenes estilo documental. Interfaz simple, resultados inmediatos.

LLM

llama.cpp Router

9 modelos LLM locales sirviendo en paralelo. Chat, código, análisis — todo sin nube.

GPU

gpu-switch script

Alterna entre servicios — solo uno usa la GPU a la vez. Sin conflictos.

Todo open-source. Todo local. Sin suscripciones.

Cuándo merece la pena y cuándo no

He sido honesto hasta aquí, así que sigo: la IA local no es para todo el mundo.

Merece la pena si…

Generas +10 piezas de contenido al mes

Necesitas privacidad total (clientes, datos sensibles)

Quieres control sobre cada parámetro

Tienes (o vas a comprar) una GPU dedicada

Te molestan los filtros de censura arbitrarios

Mejor cloud si…

Generas menos de 5 piezas al mes

No quieres gestionar hardware ni updates

Prefieres interfaz pulida sobre control total

No tienes espacio/energía para una GPU

Solo necesitas algo puntual y rápido

Mi caso: genero imágenes hero para el blog, vídeos cortos para X, y voiceovers para demos. Entre todo, unas 30-50 generaciones semanales. A $0.05/generación en cloud, serían $100-200/mes. La RTX 4090 se amortizó en 4 meses.


¿Quieres tu propio stack de IA generativa sin depender de la nube?

Te ayudo a montar tu infraestructura de generación con IA local, desde la GPU hasta el último script de automatización.

Hablemos de tu proyecto →
P

Pedro Luis Cuevas Villarrubia

Innovation Practitioner, WebMaster, SysAdmin & SEO · AI Agent Architect & Advanced Prompt Engineer

Hablar con Pedro

Preguntas frecuentes

¿Qué es Wan2GP y para qué sirve?

Wan2GP (por DeepBeepMeep) es una plataforma open-source que unifica los mejores modelos de IA generativa en una sola interfaz. Permite generar vídeo (text-to-video, image-to-video), imágenes (Flux, Qwen Image, Z Image), voz y música (TTS multi-idioma, voice cloning, canciones con letra) y audio para vídeos (soundtracks automáticos). Todo corre en local, en tu propia GPU.

¿Qué GPU necesito para usar Wan2GP?

Con 6-8 GB de VRAM puedes usar los modelos más ligeros (Wan 2.1 1.3B para vídeo, Qwen3 TTS 1.7B para voz). Con 12-16 GB accedes a modelos medianos en calidad media (480p). Con 20+ GB (como una RTX 4090) puedes usar modelos pesados como LTX-2 22B en FP8, imágenes con Flux Dev 12B, y TTS con voice cloning. Para calidad cinematográfica nativa del Wan 2.1 14B necesitas hardware de centro de datos (65+ GB VRAM). Wan2GP está específicamente optimizado para 'GPU poor': funciona en GTX 10XX y RTX 20XX.

¿Cuánto tarda en generar un vídeo?

Depende del modelo y la resolución. Con LTX-2.3 Distilled (22B, 8 pasos): menos de 1 minuto para un vídeo de 2 segundos a 480p. Con Wan 2.1 1.3B: 3-4 minutos para un vídeo de 5 segundos a 480p. Para 720p+ necesitas upscaling externo (Real-ESRGAN, etc.) o pasar a modelos pesados que requieren hardware de centro de datos. Para vídeos largos (>1 minuto) usa sliding windows — genera por segmentos y los une.

¿Merece la pena generar con IA local en vez de usar servicios cloud?

Depende del volumen. Si generas 10 vídeos al mes, el cloud (Runway, Pika) es más barato. Si generas 10 al día, la GPU local se amortiza en semanas. La ventaja real no es solo económica: es la privacidad total (tus prompts y outputs nunca salen de tu máquina), la ausencia de censura arbitraria, y el control absoluto sobre cada parámetro. Para uso profesional, tener tu propio stack de generación es un multiplicador de productividad.

¿Puedo usar esto para crear contenido para mis clientes?

Sí. Yo uso Wan2GP para generar imágenes hero para los posts del blog, vídeos cortos para X/Twitter, y voiceovers TTS para demos. Todos los modelos que incluye Wan2GP son open-source con licencias permisivas (Apache 2.0, MIT, etc.) — puedes usar los outputs comercialmente.

Artículos relacionados

¿Y si tu Socio Digital fuera Yo?

Pedro Luis Cuevas Villarrubia · Innovation Practitioner, WebMaster, SysAdmin & SEO · AI Agent Architect & Advanced Prompt Engineer

Hace dos décadas, tener una web era suficiente. Luego llegó el SEO, luego el móvil, luego las redes. Ahora la IA lo cambia todo a velocidad exponencial. No necesitas alguien que te haga la web. Necesitas alguien que conozca tu proyecto, que esté al día del avance tecnológico y que sepa aplicarlo a lo tuyo. Eso es un Socio Digital.

Asesoría Diseño Web SEO Hosting IA Mantenimiento
¿Queda sitio?