# Generé vídeo, imágenes y voz con IA 100% local: sin nube, sin suscripciones, sin límites

> Wan2GP v11.66 genera vídeo, imagen y TTS con IA en tu propia GPU. Sin límites de uso, sin costes recurrentes, sin enviar tus datos a nadie. Así funciona y esto puedes crear.

**Autor:** Pedro Luis Cuevas Villarrubia | **Fecha:** 2026-05-17 | **Tags:** IA, herramientas, rendimiento
**URL:** https://asturwebs.es/blog/wan2gp-generar-video-imagen-voz-ia-local-2026/

---
El año pasado pagaba suscripciones a 4 servicios distintos de IA: uno para imágenes, otro para vídeo, otro para voz, otro para música. Entre todos, unos 200 dólares al mes. Y aún así tenía límites de generación, colas cuando había demanda, y cero control sobre lo que pasaba con mis datos.

Hoy lo genero todo en local. En mi propia GPU. Sin límites. Sin suscripciones. Sin enviar nada a ninguna nube.

La herramienta se llama **Wan2GP**, y es lo más parecido a tener un estudio de producción multimedia impulsado por IA en tu escritorio.

## Qué es Wan2GP

Wan2GP (por DeepBeepMeep) es una plataforma open-source que unifica los mejores modelos de IA generativa del momento en una sola interfaz web. La versión actual (v11.66, mayo 2026) incluye más de 30 arquitecturas de modelos distintas, organizadas en tres categorías:

<div class="not-prose my-8 grid grid-cols-1 sm:grid-cols-3 gap-4">

<div class="rounded-xl border-2 border-purple-300 bg-purple-50 p-5 relative overflow-hidden">
<div class="absolute top-0 left-0 right-0 h-1 bg-purple-500"></div>
<h3 class="text-lg font-bold text-purple-900 m-0 mb-2">Vídeo</h3>
<p class="text-xs text-purple-600 m-0 mb-2">Wan 2.1, LTX-2, Hunyuan, Kandinsky 5</p>
<p class="text-sm text-purple-800 m-0">Texto a vídeo, imagen a vídeo, edición, animación</p>
</div>

<div class="rounded-xl border-2 border-blue-300 bg-blue-50 p-5 relative overflow-hidden">
<div class="absolute top-0 left-0 right-0 h-1 bg-blue-500"></div>
<h3 class="text-lg font-bold text-blue-900 m-0 mb-2">Imagen</h3>
<p class="text-xs text-blue-600 m-0 mb-2">Flux 1 Dev, Qwen Image, Z Image, HiDream</p>
<p class="text-sm text-blue-800 m-0">Fotorrealismo, texto en imágenes, inpainting</p>
</div>

<div class="rounded-xl border-2 border-green-300 bg-green-50 p-5 relative overflow-hidden">
<div class="absolute top-0 left-0 right-0 h-1 bg-green-500"></div>
<h3 class="text-lg font-bold text-green-900 m-0 mb-2">Audio/Voz</h3>
<p class="text-xs text-green-600 m-0 mb-2">Qwen3 TTS, Chatterbox, ACE-Step, Omnivoice</p>
<p class="text-sm text-green-800 m-0">TTS, voice cloning, canciones con letra, 100 idiomas</p>
</div>

</div>

Y lo mejor: todo corre en local. En mi RTX 4090 (24 GB VRAM) puedo generar un vídeo de 5 segundos a 480p con Wan 2.1 1.3B en 3-4 minutos (720p requiere upscaling posterior), una imagen en segundos, y una voz clonada en menos de un minuto.

## Vídeo: de texto a escena cinematográfica

Wan2GP soporta varios modelos de vídeo, cada uno con su especialidad:

<div class="not-prose my-8 grid grid-cols-1 sm:grid-cols-2 gap-3">

<div class="rounded-lg border border-green-200 bg-green-50 p-4">
<div class="flex items-center gap-2 mb-2">
<span class="text-xs font-bold uppercase tracking-wider text-green-600 bg-green-100 px-2 py-0.5 rounded">Rápido</span>
<h4 class="text-sm font-bold text-green-900 m-0">LTX-2.3 Distilled</h4>
</div>
<div class="flex gap-4 text-xs text-green-700">
<span>18-20 GB VRAM (FP8)</span><span>Sub-1 min</span>
</div>
<p class="text-xs text-green-600 mt-1 m-0">22B en 8 pasos de inferencia. Iterar ideas, prototipado rápido</p>
</div>

<div class="rounded-lg border border-blue-200 bg-blue-50 p-4">
<div class="flex items-center gap-2 mb-2">
<span class="text-xs font-bold uppercase tracking-wider text-blue-600 bg-blue-100 px-2 py-0.5 rounded">Balance</span>
<h4 class="text-sm font-bold text-blue-900 m-0">LTX-2 22B</h4>
</div>
<div class="flex gap-4 text-xs text-blue-700">
<span>18-20 GB VRAM (FP8)</span><span>Medio</span>
</div>
<p class="text-xs text-blue-600 mt-1 m-0">Misma arquitectura, pasos completos. Mejor calidad general</p>
</div>

<div class="rounded-lg border border-purple-200 bg-purple-50 p-4">
<div class="flex items-center gap-2 mb-2">
<span class="text-xs font-bold uppercase tracking-wider text-purple-600 bg-purple-100 px-2 py-0.5 rounded">Cine</span>
<h4 class="text-sm font-bold text-purple-900 m-0">Wan 2.1 14B</h4>
</div>
<div class="flex gap-4 text-xs text-purple-700">
<span>65+ GB VRAM</span><span>Lento</span>
</div>
<p class="text-xs text-purple-600 mt-1 m-0">Calidad cinematográfica nativa. Requiere hardware de centro de datos (H100)</p>
</div>

<div class="rounded-lg border border-orange-200 bg-orange-50 p-4">
<div class="flex items-center gap-2 mb-2">
<span class="text-xs font-bold uppercase tracking-wider text-orange-600 bg-orange-100 px-2 py-0.5 rounded">Versátil</span>
<h4 class="text-sm font-bold text-orange-900 m-0">Hunyuan Video</h4>
</div>
<div class="flex gap-4 text-xs text-orange-700">
<span>10-14 GB VRAM</span><span>Medio</span>
</div>
<p class="text-xs text-orange-600 mt-1 m-0">Buen balance calidad/velocidad</p>
</div>

</div>

> "Plano cenital con dron sobre un valle verde y brumoso al amanecer, luz dorada atravesando nubes, una pequeña casa de piedra con humo en la chimenea, montañas asturianas al fondo"

Y el enhancer lo expande con detalles de iluminación, movimientos de cámara y atmósfera.

Para vídeos largos, Wan2GP usa **sliding windows**: genera el vídeo por segmentos y los une con corrección de color automática. Puedes generar un minuto de vídeo sin quedarte sin VRAM.

<img src="/images/2026-05-asturwebs-central-wan2gp-stack-generacion.webp" alt="Interfaz de Wan2GP mostrando el pipeline completo de generación: prompt enhancer, selección de modelo, parámetros avanzados y gallery de outputs" width="1280" height="768" />

<div class="not-prose my-8 px-5 py-4 border-l-4 border-primary/30 bg-primary/5 rounded-r-lg">
<p class="text-sm text-gray-700 m-0">La IA generativa no es el futuro — es el presente. Si quieres integrar generación de contenido con IA en el flujo de trabajo de tu negocio, <a href="/servicios/ia/" class="text-primary font-semibold hover:underline">te ayudo a diseñar e implementar la solución que necesitas</a>.</p>
</div>

## Imagen: de Flux a Qwen Image

Para imágenes, Wan2GP incluye lo mejor de cada casa:

<div class="not-prose my-6 space-y-2">
<div class="flex items-center gap-3 bg-purple-50 border border-purple-200 rounded-lg p-3">
<span class="shrink-0 text-xs font-bold uppercase tracking-wider text-purple-600 bg-purple-100 px-2 py-0.5 rounded">Top</span>
<div class="text-sm"><strong class="text-purple-800">Flux 1 Dev 12B</strong> — fotorrealismo extremo, mi elección para imágenes hero del blog</div>
</div>
<div class="flex items-center gap-3 bg-green-50 border border-green-200 rounded-lg p-3">
<span class="shrink-0 text-xs font-bold uppercase tracking-wider text-green-600 bg-green-100 px-2 py-0.5 rounded">Rápido</span>
<div class="text-sm"><strong class="text-green-800">Flux Schnell</strong> — 4 pasos, generación casi instantánea, ideal para iterar</div>
</div>
<div class="flex items-center gap-3 bg-blue-50 border border-blue-200 rounded-lg p-3">
<span class="shrink-0 text-xs font-bold uppercase tracking-wider text-blue-600 bg-blue-100 px-2 py-0.5 rounded">Texto</span>
<div class="text-sm"><strong class="text-blue-800">Qwen Image 20B</strong> — renderiza texto real en imágenes, perfecto para posters</div>
</div>
<div class="flex items-center gap-3 bg-orange-50 border border-orange-200 rounded-lg p-3">
<span class="shrink-0 text-xs font-bold uppercase tracking-wider text-orange-600 bg-orange-100 px-2 py-0.5 rounded">Volumen</span>
<div class="text-sm"><strong class="text-orange-800">Z Image Turbo</strong> — ultra-rápido, para cuando necesitas muchas imágenes</div>
</div>
</div>

## Voz y música: TTS multi-idioma con voice cloning

Aquí es donde Wan2GP sorprende de verdad. Los modelos de audio incluyen:

<div class="not-prose my-6 space-y-2">
<div class="flex items-center gap-3 bg-green-50 border border-green-200 rounded-lg p-3">
<span class="shrink-0 text-xs font-bold uppercase tracking-wider text-green-600 bg-green-100 px-2 py-0.5 rounded">Voz</span>
<div class="text-sm"><strong class="text-green-800">Qwen3 TTS 1.7B</strong> — síntesis multi-idioma con clonación (10 seg de referencia replica el timbre)</div>
</div>
<div class="flex items-center gap-3 bg-blue-50 border border-blue-200 rounded-lg p-3">
<span class="shrink-0 text-xs font-bold uppercase tracking-wider text-blue-600 bg-blue-100 px-2 py-0.5 rounded">Diálogo</span>
<div class="text-sm"><strong class="text-blue-800">Chatterbox</strong> — multi-speaker, escribes el guión y genera voces distintas para cada personaje</div>
</div>
<div class="flex items-center gap-3 bg-purple-50 border border-purple-200 rounded-lg p-3">
<span class="shrink-0 text-xs font-bold uppercase tracking-wider text-purple-600 bg-purple-100 px-2 py-0.5 rounded">Música</span>
<div class="text-sm"><strong class="text-purple-800">ACE-Step v1.5XL</strong> — canciones completas con letra y música</div>
</div>
<div class="flex items-center gap-3 bg-orange-50 border border-orange-200 rounded-lg p-3">
<span class="shrink-0 text-xs font-bold uppercase tracking-wider text-orange-600 bg-orange-100 px-2 py-0.5 rounded">Soundtrack</span>
<div class="text-sm"><strong class="text-orange-800">MMAudio</strong> — genera música automática para cualquier vídeo basándose en el contenido visual</div>
</div>
</div>

Para un profesional independiente, esto es oro. Puedo generar un vídeo promocional con voz en off y música de fondo sin tocar una cámara, un micrófono, ni pagar una suscripción.

## ¿Local o cloud?

No voy a fingir que el cloud no tiene ventajas. Servicios como Runway o Pika tienen interfaces más pulidas y no requieren una GPU de 2.000 euros. Pero:

<div class="not-prose my-8 grid grid-cols-2 gap-4">
<div class="rounded-xl border-2 border-red-200 bg-red-50 p-5 text-center">
<div class="text-lg font-bold text-red-700 mb-3">Cloud</div>
<div class="space-y-2 text-sm text-left">
<p class="m-0 text-red-800"><span class="font-bold">Coste:</span> $20-200/mes</p>
<p class="m-0 text-red-800"><span class="font-bold">Límites:</span> Generaciones/mes, colas</p>
<p class="m-0 text-red-800"><span class="font-bold">Privacidad:</span> Tus datos van a sus servidores</p>
<p class="m-0 text-red-800"><span class="font-bold">Control:</span> Parámetros limitados</p>
<p class="m-0 text-red-800"><span class="font-bold">Censura:</span> Filtros arbitrarios</p>
<p class="m-0 text-red-800"><span class="font-bold">Modelos:</span> Los que el servicio decida</p>
</div>
</div>
<div class="rounded-xl border-2 border-green-200 bg-green-50 p-5 text-center">
<div class="text-lg font-bold text-green-700 mb-3">Local (Wan2GP)</div>
<div class="space-y-2 text-sm text-left">
<p class="m-0 text-green-800"><span class="font-bold">Coste:</span> Solo electricidad</p>
<p class="m-0 text-green-800"><span class="font-bold">Límites:</span> Ilimitado</p>
<p class="m-0 text-green-800"><span class="font-bold">Privacidad:</span> Todo en tu máquina</p>
<p class="m-0 text-green-800"><span class="font-bold">Control:</span> Cada parámetro ajustable</p>
<p class="m-0 text-green-800"><span class="font-bold">Censura:</span> Tú decides</p>
<p class="m-0 text-green-800"><span class="font-bold">Modelos:</span> Los que tú instales</p>
</div>
</div>
</div>

## Mi stack actual de generación local

<div class="not-prose my-8 grid grid-cols-1 sm:grid-cols-2 gap-3">

<div class="rounded-lg border border-purple-200 bg-purple-50 p-4">
<div class="flex items-center gap-2 mb-2">
<span class="text-purple-600 text-lg shrink-0">GPU</span>
<h4 class="text-sm font-bold text-purple-900 m-0">RTX 4090 24GB</h4>
</div>
<p class="text-xs text-purple-700 m-0">El motor de todo. Una inversión que se amortiza en meses si generas contenido a diario.</p>
</div>

<div class="rounded-lg border border-green-200 bg-green-50 p-4">
<div class="flex items-center gap-2 mb-2">
<span class="text-green-600 text-lg shrink-0">Vídeo</span>
<h4 class="text-sm font-bold text-green-900 m-0">Wan2GP v11.66</h4>
</div>
<p class="text-xs text-green-700 m-0">Vídeo + imagen + TTS en una sola interfaz. El protagonista del post.</p>
</div>

<div class="rounded-lg border border-blue-200 bg-blue-50 p-4">
<div class="flex items-center gap-2 mb-2">
<span class="text-blue-600 text-lg shrink-0">Imagen</span>
<h4 class="text-sm font-bold text-blue-900 m-0">ComfyUI + FLUX.1-dev</h4>
</div>
<p class="text-xs text-blue-700 m-0">Imágenes hero para el blog. Control nodal total sobre cada paso del pipeline.</p>
</div>

<div class="rounded-lg border border-orange-200 bg-orange-50 p-4">
<div class="flex items-center gap-2 mb-2">
<span class="text-orange-600 text-lg shrink-0">Estilo</span>
<h4 class="text-sm font-bold text-orange-900 m-0">Fooocus 2.5.5</h4>
</div>
<p class="text-xs text-orange-700 m-0">Imágenes estilo documental. Interfaz simple, resultados inmediatos.</p>
</div>

<div class="rounded-lg border border-indigo-200 bg-indigo-50 p-4">
<div class="flex items-center gap-2 mb-2">
<span class="text-indigo-600 text-lg shrink-0">LLM</span>
<h4 class="text-sm font-bold text-indigo-900 m-0">llama.cpp Router</h4>
</div>
<p class="text-xs text-indigo-700 m-0">9 modelos LLM locales sirviendo en paralelo. Chat, código, análisis — todo sin nube.</p>
</div>

<div class="rounded-lg border border-gray-200 bg-gray-50 p-4">
<div class="flex items-center gap-2 mb-2">
<span class="text-gray-600 text-lg shrink-0">GPU</span>
<h4 class="text-sm font-bold text-gray-900 m-0">gpu-switch script</h4>
</div>
<p class="text-xs text-gray-700 m-0">Alterna entre servicios — solo uno usa la GPU a la vez. Sin conflictos.</p>
</div>

</div>

Todo open-source. Todo local. Sin suscripciones.

## Cuándo merece la pena y cuándo no

He sido honesto hasta aquí, así que sigo: **la IA local no es para todo el mundo.**

<div class="not-prose my-8 grid grid-cols-1 sm:grid-cols-2 gap-4">

<div class="rounded-xl border-2 border-green-300 bg-green-50 p-5 text-center">
<div class="text-lg font-bold text-green-700 mb-3">Merece la pena si...</div>
<div class="space-y-1 text-sm text-left text-green-800">
<p class="m-0">Generas +10 piezas de contenido al mes</p>
<p class="m-0">Necesitas privacidad total (clientes, datos sensibles)</p>
<p class="m-0">Quieres control sobre cada parámetro</p>
<p class="m-0">Tienes (o vas a comprar) una GPU dedicada</p>
<p class="m-0">Te molestan los filtros de censura arbitrarios</p>
</div>
</div>

<div class="rounded-xl border-2 border-red-300 bg-red-50 p-5 text-center">
<div class="text-lg font-bold text-red-700 mb-3">Mejor cloud si...</div>
<div class="space-y-1 text-sm text-left text-red-800">
<p class="m-0">Generas menos de 5 piezas al mes</p>
<p class="m-0">No quieres gestionar hardware ni updates</p>
<p class="m-0">Prefieres interfaz pulida sobre control total</p>
<p class="m-0">No tienes espacio/energía para una GPU</p>
<p class="m-0">Solo necesitas algo puntual y rápido</p>
</div>
</div>

</div>

Mi caso: genero imágenes hero para el blog, vídeos cortos para X, y voiceovers para demos. Entre todo, unas 30-50 generaciones semanales. A $0.05/generación en cloud, serían $100-200/mes. La RTX 4090 se amortizó en 4 meses.

---

<div class="not-prose my-12 bg-indigo-50 border border-indigo-100 rounded-2xl p-8 text-center">
<p class="text-xl font-semibold text-gray-900 mb-2">¿Quieres tu propio stack de IA generativa sin depender de la nube?</p>
<p class="text-gray-600 mb-6">Te ayudo a montar tu infraestructura de generación con IA local, desde la GPU hasta el último script de automatización.</p>
<a href="/contacto/" class="inline-block bg-primary text-white px-8 py-3 rounded-lg font-semibold hover:bg-primary-hover transition-colors">Hablemos de tu proyecto →</a>
</div>