Guía de Imágen

Introducción.

ControlNet es una de las funciones más populares de la plataforma Leonardo.Ai, y muchos usuarios la encuentran extremadamente útil para ajustar la composición de imágenes y lograr poses específicas de personajes. Es por esto que estamos muy contentos de anunciar una mejora sustancial a este conjunto de funcionalidades:

Guía de Imágen

La funcionalidad de Guía de Imagen ofrece numerosos beneficios, como nuevas herramientas, cargas múltiples de imágenes, influencia independiente y la capacidad de aprovechar hasta 4 opciones de imágenes de referencia simultáneamente.

Acerca de la Guía de Imagen

Opciones Soportadas: Depth (Profundidad), Sketch (Boceto), Canny, Pose, Normal, Pattern (Patrón), QR, Lineal Art (Arte Lineal), HED y Text Image Input (Entrada de Imagen de Texto)
4x Cargas de Imágenes (Premium): Ahora puedes cargar hasta 4 imágenes de referencia y aplicar diferentes opciones de ControlNet a cada una, así como ajustar su influencia individualmente.
Cambios en la Interfaz de Usuario: Para facilitar la gestión de las diferentes opciones de Guía de Imagen, hemos añadido una nueva sección en la página de Generación de Imágenes IA. La funciones de Image2Image y el Image Prompt pueden también ser gestionados a través de esta nueva sección.

Beneficios

Con la Guía de Imagen, ahora puedes afinar tu experiencia con un control mucho más granular. Todos los usuarios podrán acceder a una gama de opciones de Orientación de Imagen, mientras que los usuarios Premium podrán acceder a 3 opciones exclusivas así como cargar 4 imágenes de referencia simultáneamente.

Puedes elegir de una rica variedad de opciones matizadas como Profundidad, Boceto, Pose e incluso QR para dar un control sin precedentes sobre la percepción de profundidad, representaciones de arte lineal, replicación de pose, interpretación de patrones y más. Junto con una nueva interfaz de usuario intuitiva, crear tu composición de imagen ideal y estilo nunca ha sido más fácil.

Uso de las funcionalidades:

Depth to Image (Profundidad a Imagen): utiliza la información de profundidad para mejorar los aspectos tridimensionales de una imagen. Mejora la percepción de profundidad y puede ser usada para varias tareas relacionadas con 3D como manipulación de imagen consciente de la profundidad y renderizado.

Edge to Image (Borde a Imagen): es efectivo para replicar la composición de una imagen, pero cambiando el estilo y tema. Identifica los bordes de los objetos dentro de una imagen, transformándola en una representación de arte lineal. Esta representación posteriormente da forma a la imagen final, con el modelo trabajando para rellenar los bordes identificados - similar a una página de colorear. Notablemente, valores de influencia más altos preservan más líneas en el resultado final, haciendo esta opción ideal para renderizar o re-estilizar imágenes de arte lineal existentes. Usa esto si estás buscando usar la composición de la imagen de referencia.

Linear art (Arte Lineal): Otra opción que renderiza los contornos de objetos en una imagen, este método apunta a crear un arte lineal simple de la imagen de referencia que será usada como guía para generar tu imagen. Usa Arte Lineal en conjunto con Referencia* para mejores resultados.

*El modelo de Referencia estará disponible próximamente.

Edge to Image (Borde a Imagen) (alt): Una alternativa a Canny y Arte Lineal, la Detección de Bordes Holísticamente Anidada (HED) es un algoritmo que es excelente para detalles intrincados y contornos. Crea contornos mucho más suaves y sin ruido en comparación con Canny y es mejor para preservar detalles relevantes de la imagen de referencia.

Sketch to Image (Boceto a Imagen): Especializándose en composición, la opción de boceto emplea un boceto o garabato como una guía preliminar para la imagen final. Es particularmente adecuado para proyectos donde un arreglo o composición específicos son esenciales (como visualizaciones arquitectónicas), actuando como un plano fundacional para dar forma al resultado según tu visión artística.

Pose to Image (Pose a Imagen): Enfocándose en la recreación de poses humanas, Pose escanea una imagen de referencia, busca figuras humanas (o similares) e intenta replicar sus poses para la imagen resultante. Aunque es una herramienta invaluable para el posicionamiento específico de personajes, vale la pena notar sus limitaciones potenciales con poses particularmente complejas.

Normal Map (Mapa Normal): El Mapa Normal resultará familiar para aquellos en el espacio de gráficos 3D. En esencia, informa a un programa sobre la topología superficial (arreglo) de un objeto, ofreciendo un control refinado sobre su apariencia y facilitando la re-iluminación de la imagen. Los mapas normales son parecidos a los mapas de profundidad pero se benefician de un mayor nivel de detalle, haciéndolos especialmente útiles para enfatizar el elemento central de una imagen.

Patter to Image (Patrón a Imagen): Este modelo es excelente al utilizar el contraste y el valor para interpretar y renderizar imágenes. Funcionando de manera óptima con patrones de alto contraste (particularmente imágenes en blanco y negro), entiende el estilo y la forma de patrones para luego alterar la imagen resultante para emular el diseño original, independientemente del tema central. Esta opción es especialmente competente en transformar una variedad de patrones en obras de arte visualmente impactantes con efectos llamativos.

QR code to Image (Código QR a Imagen ): Esta opción está diseñada para generar y mejorar códigos de Respuesta Rápida (QR). Puede optimizar diseños de códigos QR, aumentar su legibilidad y adaptarlos a estilos visuales específicos o branding, haciéndolos estéticamente más atractivos y no simplemente funcionales.

Text Image Input (Texto a Imagen): Al cargar una imagen de texto blanco sobre un fondo negro, esta opción te permite generar arte de texto estilizado.

Por favor, ten en cuenta que no todas las nuevas herramientas de Orientación de Imagen están disponibles para todos los modelos base. Aquellos que no se pueden usar estarán convenientemente atenuados, y con instrucciones al pasar el cursor, sobre los cambios necesarios para activarlos. Para referencia rápida, a continuación hay una tabla útil para que puedas ver qué ControlNet funciona con qué versión de Difusión Estable, así como cuáles son opciones premium.

ControlNet	SD 1.5	SDv2	SDXL (Premium)
Edge	✓	✓	✓
Depth	✓	✓	✓
Normal	✓	✓	✕
Pose	✓	✓	✓
Sketch	✓	✓	✕
Line art	✓	✕	✕
QR	✓	✕	✕
Edge (alt)	✕	✓	✕
Pattern	✓	✕	✕
Text Image Input	✓	✓	✓

Cómo usar la Guía de Imagen

Lee nuestra guía rápida para comenzar con la Guía de Imagen

Navega a la página de Generación de Imágenes IA. Al lado del Historial de Generación ahora verás una nueva opción llamada Image Guidance – selecciónala.
Sube una imagen fuente en el nuevo cuadro de Guía de Imagen. (Los usuarios premium pueden acceder a 4 cuadros y subir hasta 4 imágenes).
Elige una opción de ControlNet del menú desplegable. Aquellos incompatibles con el modelo base actual estarán atenuados. Un símbolo de ⚠️ proporcionará instrucciones al pasar el cursor sobre cómo alterar las opciones para hacerlas disponibles. Si buscas usar una imagen como una imagen inicial, selecciona la opción de Imagen a Imagen en su lugar. Y si te gustaría usar la función de Prompt Magic, activa primero la función Prompt Magic en la barra lateral izquierda.
Selecciona la fuerza de influencea deseada. (Toma en cuenta que una ponderación más alta puede hacer que ControlNet se adhiera más a tu imagen base pero puede producir resultados no deseados, por lo que recomendamos experimentar para encontrar el equilibrio perfecto).
¡Haz clic en Generar!

Preguntas Frecuentes

¿Cuántos tokens cuestan los nuevos ControlNets?

Respuesta: Cada tarea de Opción de Orientación de Imagen cuesta 2 tokens por tarea. (Por favor, ten en cuenta que Imagen a Imagen no atrae un costo adicional de token)

¿Con qué pipeline funciona mejor la Guía de Imagen?

Respuesta: Todos los modelos y flujos de trabajo incluyendo Alchemy, PhotoReal y Magia del Aviso. (Nota que Magia del Aviso V2 solo soporta Aviso de Imagen)

Los resultados son inconsistentes, ¿qué puedo hacer?

Respuesta: Si no estás obteniendo los resultados de imagen que deseas, sugerimos ajustar la ponderación o seleccionar una imagen de referencia diferente.

Comentarios

Sabemos que la Guía de Imagen ha sido una funcionalidad muy esperada y estamos ansiosos por ver lo que todos crearán con ella. Dicho esto, estas funcionalidades son nuevas, por lo que nos encantaría saber si encuentran algún problema o tienen cualquier otro comentario general sobre las actualizaciones.

Introducción.​