Generé vídeo, imágenes y voz con IA 100% local: sin nube, sin suscripciones, sin límites
El año pasado pagaba suscripciones a 4 servicios distintos de IA: uno para imágenes, otro para vídeo, otro para voz, otro para música. Entre todos, unos 200 dólares al mes. Y aún así tenía límites de generación, colas cuando había demanda, y cero control sobre lo que pasaba con mis datos.
Hoy lo genero todo en local. En mi propia GPU. Sin límites. Sin suscripciones. Sin enviar nada a ninguna nube.
La herramienta se llama Wan2GP, y es lo más parecido a tener un estudio de producción multimedia impulsado por IA en tu escritorio.
Qué es Wan2GP
Wan2GP (por DeepBeepMeep) es una plataforma open-source que unifica los mejores modelos de IA generativa del momento en una sola interfaz web. La versión actual (v11.66, mayo 2026) incluye más de 30 arquitecturas de modelos distintas, organizadas en tres categorías:
Vídeo
Wan 2.1, LTX-2, Hunyuan, Kandinsky 5
Texto a vídeo, imagen a vídeo, edición, animación
Imagen
Flux 1 Dev, Qwen Image, Z Image, HiDream
Fotorrealismo, texto en imágenes, inpainting
Audio/Voz
Qwen3 TTS, Chatterbox, ACE-Step, Omnivoice
TTS, voice cloning, canciones con letra, 100 idiomas
Y lo mejor: todo corre en local. En mi RTX 4090 (24 GB VRAM) puedo generar un vídeo de 5 segundos a 480p con Wan 2.1 1.3B en 3-4 minutos (720p requiere upscaling posterior), una imagen en segundos, y una voz clonada en menos de un minuto.
Vídeo: de texto a escena cinematográfica
Wan2GP soporta varios modelos de vídeo, cada uno con su especialidad:
LTX-2.3 Distilled
22B en 8 pasos de inferencia. Iterar ideas, prototipado rápido
LTX-2 22B
Misma arquitectura, pasos completos. Mejor calidad general
Wan 2.1 14B
Calidad cinematográfica nativa. Requiere hardware de centro de datos (H100)
Hunyuan Video
Buen balance calidad/velocidad
“Plano cenital con dron sobre un valle verde y brumoso al amanecer, luz dorada atravesando nubes, una pequeña casa de piedra con humo en la chimenea, montañas asturianas al fondo”
Y el enhancer lo expande con detalles de iluminación, movimientos de cámara y atmósfera.
Para vídeos largos, Wan2GP usa sliding windows: genera el vídeo por segmentos y los une con corrección de color automática. Puedes generar un minuto de vídeo sin quedarte sin VRAM.
La IA generativa no es el futuro — es el presente. Si quieres integrar generación de contenido con IA en el flujo de trabajo de tu negocio, te ayudo a diseñar e implementar la solución que necesitas.
Imagen: de Flux a Qwen Image
Para imágenes, Wan2GP incluye lo mejor de cada casa:
Voz y música: TTS multi-idioma con voice cloning
Aquí es donde Wan2GP sorprende de verdad. Los modelos de audio incluyen:
Para un profesional independiente, esto es oro. Puedo generar un vídeo promocional con voz en off y música de fondo sin tocar una cámara, un micrófono, ni pagar una suscripción.
¿Local o cloud?
No voy a fingir que el cloud no tiene ventajas. Servicios como Runway o Pika tienen interfaces más pulidas y no requieren una GPU de 2.000 euros. Pero:
Coste: $20-200/mes
Límites: Generaciones/mes, colas
Privacidad: Tus datos van a sus servidores
Control: Parámetros limitados
Censura: Filtros arbitrarios
Modelos: Los que el servicio decida
Coste: Solo electricidad
Límites: Ilimitado
Privacidad: Todo en tu máquina
Control: Cada parámetro ajustable
Censura: Tú decides
Modelos: Los que tú instales
Mi stack actual de generación local
RTX 4090 24GB
El motor de todo. Una inversión que se amortiza en meses si generas contenido a diario.
Wan2GP v11.66
Vídeo + imagen + TTS en una sola interfaz. El protagonista del post.
ComfyUI + FLUX.1-dev
Imágenes hero para el blog. Control nodal total sobre cada paso del pipeline.
Fooocus 2.5.5
Imágenes estilo documental. Interfaz simple, resultados inmediatos.
llama.cpp Router
9 modelos LLM locales sirviendo en paralelo. Chat, código, análisis — todo sin nube.
gpu-switch script
Alterna entre servicios — solo uno usa la GPU a la vez. Sin conflictos.
Todo open-source. Todo local. Sin suscripciones.
Cuándo merece la pena y cuándo no
He sido honesto hasta aquí, así que sigo: la IA local no es para todo el mundo.
Generas +10 piezas de contenido al mes
Necesitas privacidad total (clientes, datos sensibles)
Quieres control sobre cada parámetro
Tienes (o vas a comprar) una GPU dedicada
Te molestan los filtros de censura arbitrarios
Generas menos de 5 piezas al mes
No quieres gestionar hardware ni updates
Prefieres interfaz pulida sobre control total
No tienes espacio/energía para una GPU
Solo necesitas algo puntual y rápido
Mi caso: genero imágenes hero para el blog, vídeos cortos para X, y voiceovers para demos. Entre todo, unas 30-50 generaciones semanales. A $0.05/generación en cloud, serían $100-200/mes. La RTX 4090 se amortizó en 4 meses.
¿Quieres tu propio stack de IA generativa sin depender de la nube?
Te ayudo a montar tu infraestructura de generación con IA local, desde la GPU hasta el último script de automatización.
Hablemos de tu proyecto →Preguntas frecuentes
¿Qué es Wan2GP y para qué sirve?
Wan2GP (por DeepBeepMeep) es una plataforma open-source que unifica los mejores modelos de IA generativa en una sola interfaz. Permite generar vídeo (text-to-video, image-to-video), imágenes (Flux, Qwen Image, Z Image), voz y música (TTS multi-idioma, voice cloning, canciones con letra) y audio para vídeos (soundtracks automáticos). Todo corre en local, en tu propia GPU.
¿Qué GPU necesito para usar Wan2GP?
Con 6-8 GB de VRAM puedes usar los modelos más ligeros (Wan 2.1 1.3B para vídeo, Qwen3 TTS 1.7B para voz). Con 12-16 GB accedes a modelos medianos en calidad media (480p). Con 20+ GB (como una RTX 4090) puedes usar modelos pesados como LTX-2 22B en FP8, imágenes con Flux Dev 12B, y TTS con voice cloning. Para calidad cinematográfica nativa del Wan 2.1 14B necesitas hardware de centro de datos (65+ GB VRAM). Wan2GP está específicamente optimizado para 'GPU poor': funciona en GTX 10XX y RTX 20XX.
¿Cuánto tarda en generar un vídeo?
Depende del modelo y la resolución. Con LTX-2.3 Distilled (22B, 8 pasos): menos de 1 minuto para un vídeo de 2 segundos a 480p. Con Wan 2.1 1.3B: 3-4 minutos para un vídeo de 5 segundos a 480p. Para 720p+ necesitas upscaling externo (Real-ESRGAN, etc.) o pasar a modelos pesados que requieren hardware de centro de datos. Para vídeos largos (>1 minuto) usa sliding windows — genera por segmentos y los une.
¿Merece la pena generar con IA local en vez de usar servicios cloud?
Depende del volumen. Si generas 10 vídeos al mes, el cloud (Runway, Pika) es más barato. Si generas 10 al día, la GPU local se amortiza en semanas. La ventaja real no es solo económica: es la privacidad total (tus prompts y outputs nunca salen de tu máquina), la ausencia de censura arbitraria, y el control absoluto sobre cada parámetro. Para uso profesional, tener tu propio stack de generación es un multiplicador de productividad.
¿Puedo usar esto para crear contenido para mis clientes?
Sí. Yo uso Wan2GP para generar imágenes hero para los posts del blog, vídeos cortos para X/Twitter, y voiceovers TTS para demos. Todos los modelos que incluye Wan2GP son open-source con licencias permisivas (Apache 2.0, MIT, etc.) — puedes usar los outputs comercialmente.