OpenAI crea una API de uso múltiple para sus capacidades de IA basadas en texto

Las empresas, incluida Stitch Fix, ya están experimentando con DALL-E 2

Han pasado solo unas pocas semanas desde que OpenAI comenzó a permitir a los clientes usar comercialmente imágenes creadas por DALL-E 2, su sistema de texto a imagen de IA notablemente poderoso. Pero a pesar de las limitaciones técnicas actuales y la falta de licencias por volumen, sin mencionar la API, algunos pioneros dicen que ya están probando el sistema para varios casos de uso comercial, esperando el día en que DALL-E 2 se vuelva lo suficientemente estable como para implementarlo en producción. .

Stitch Fix, el servicio en línea que utiliza algoritmos de recomendación para personalizar la ropa, dice que tiene experimentado con DALL-2 para visualizar sus productos en función de características específicas como el color, la tela y el estilo. Por ejemplo, si un cliente de Stitch Fix pidió un “jean ceñido, elástico, rojo y de tiro alto” durante el programa piloto, se usó DALL-E 2 para generar imágenes de ese artículo, que un estilista podría usar para combinarlo con un artículo similar. producto en el inventario de Stitch Fix.

“DALL-E 2 nos ayuda a mostrar las características más informativas de un producto de una manera visual y, en última instancia, ayuda a los estilistas a encontrar el artículo perfecto que coincida con lo que un cliente ha solicitado en sus comentarios escritos”, dijo un portavoz a TechCrunch por correo electrónico.

Una generación DALL-E 2 del piloto de Stitch Fix. El mensaje fue: “suave, verde oliva, gran color, bolsillos, estampado, textura linda, cárdigan largo”.

Por supuesto, DALL-E 2 tiene peculiaridades, algunas de las cuales hacen que los primeros usuarios corporativos se detengan. Eric Silberstein, vicepresidente de ciencia de datos de la startup de comercio electrónico Klaviyo, describe en un entrada en el blog sus impresiones mixtas del sistema como una herramienta potencial de marketing.

Señala que las expresiones faciales en los modelos humanos generados por DALL-E 2 tienden a ser inapropiadas y los músculos y las articulaciones desproporcionados, y que el sistema no siempre comprende perfectamente las instrucciones. Cuando Silberstein le pidió a DALL-E 2 que creara la imagen de una vela sobre una mesa de madera contra un fondo gris, DALL-E 2 a veces borraba la tapa de la vela y la mezclaba con el escritorio, o añadía un borde incongruente alrededor de la vela.

Los experimentos de Silberstein con DALL-E 2 para la visualización de productos.

“Para fotos con humanos y fotos de humanos modelando productos, no se podía usar tal cual”, escribió Silberstein. Aún así, dijo que consideraría usar DALL-E 2 para tareas como dar puntos de partida para ediciones y transmitir ideas a los artistas gráficos. “Para fotos de archivo sin humanos e ilustraciones sin pautas de marca específicas, DALL·E 2, para mi ojo no experto, podría reemplazar razonablemente la ‘forma antigua’ en este momento”, continuó Silberstein.

Los editores de Cosmopolitan llegaron a una conclusión similar. conclusión cuando se asociaron con la artista digital Karen X. Cheng para crear una portada para la revista utilizando DALL-E 2. Llegar a la portada final requirió una indicación muy específica de Cheng, que según los editores ilustra la limitación de DALL-E 2 como generador de arte

Pero la rareza de la IA funciona a veces, como una característica, en lugar de un error. Por su Sorteo Ketchup Campaña, Heinz hizo que DALL-E 2 generara una serie de imágenes de botellas de ketchup utilizando términos de lenguaje natural como “ketchup”, “ketchup art”, “fuzzy ketchup”, “ketchup en el espacio” y “ketchup renacimiento”. La compañía invitó a los fanáticos a enviar sus propias indicaciones, que Heinz seleccionó y compartió en sus canales sociales.

Botellas de Heinz como “imaginadas” por DALL-E 2, una parte de la reciente campaña publicitaria de Heinz.

“Con las imágenes de IA dominando las noticias y las redes sociales, vimos una oportunidad natural para extender nuestra campaña ‘Draw Ketchup’; arraigado en la idea de que Heinz es sinónimo de la palabra ketchup, para probar esta teoría en el espacio de la IA”, dijo Jacqueline Chao, gerente senior de marca de Heinz, en un comunicado de prensa.

Claramente, las campañas impulsadas por DALL-E 2 pueden funcionar cuando el tema es la IA. Pero varios usuarios comerciales de DALL-E 2 dicen que han manejado el sistema para generar activos que no muestran los signos reveladores de las limitaciones de la IA.

Jacob Martin, ingeniero de software, usó DALL-E 2 para crear un logotipo para OctoSQL, un proyecto de código abierto que está desarrollando. Por alrededor de $ 30, aproximadamente el costo de servicios de diseño de logotipos en Fiverr — Martin terminó con una caricatura de un pulpo que a simple vista parece una ilustración humana.

“El resultado final no es ideal, pero estoy muy contento con él”, escribió Martin en un entrada en el blog. “En lo que respecta a DALL-E 2, creo que en este momento todavía se encuentra en una fase de “primera iteración” para la mayoría de los bits y propósitos, la principal excepción son los bocetos a lápiz; esos son asombrosamente buenos… Creo que el verdadero avance vendrá cuando DALL-E 2 sea 10x-100x más barato y más rápido”.

El logo de OctoSQL, generado después de varios intentos con DALL-E 2.

Un usuario de DALL-E 2, Don McKenzie, jefe de diseño de la startup de desarrollo Deephaven, llevó la idea un paso más allá. Probó aplicando el sistema para generar miniaturas en el blog de la empresa, motivado por la ocurrencia que las publicaciones con imágenes obtienen mucha más participación que las que no las tienen.

“Como un pequeño equipo compuesto principalmente por ingenieros, no tenemos el tiempo ni el presupuesto para encargar obras de arte personalizadas para cada una de nuestras publicaciones de blog”, escribió McKenzie en una publicación de blog. “Hasta ahora, nuestro enfoque ha sido pasar 10 minutos desplazándonos a través de imágenes relacionadas tangencialmente pero que en última instancia no encajan de sitios de fotos de archivo, descargar algo que no sea terrible, colocarlo en el frente y presionar publicar”.

Después de gastar un fin de semana y $45 en créditos, McKenzie dice que pudo reemplazar unas 100 publicaciones de blog con imágenes generadas por DALL-E 2. Fue necesario jugar con las indicaciones para obtener los mejores resultados, pero McKenzie dice que valió la pena el esfuerzo.

“En promedio, diría que tomó un par de minutos y de cuatro a cinco indicaciones por publicación de blog para obtener algo con lo que estaba contento”, escribió. “Estábamos gastando más dinero y tiempo en imágenes de archivo al mes, con un peor resultado”.

Para las empresas que no tienen tiempo para dedicarlo a las lluvias de ideas, ya existe una startup que intenta comercializar las capacidades de generación de activos de DALL-E 2. Unstock.ai, construido sobre DALL-E 2, promete “imágenes e ilustraciones de alta calidad bajo demanda”, sin cargo, por el momento. Los clientes ingresan un aviso (p. ej., “Vista superior de tres peces dorados en una pecera”) y luego eligen un estilo preferido (arte vectorial, fotorrealista, dibujado a lápiz) para crear imágenes, que se pueden recortar y cambiar de tamaño.

Unstock.ai esencialmente automatiza la ingeniería rápida, un concepto en IA que busca incrustar una descripción de tarea en el texto. La idea es proporcionar instrucciones detalladas a un sistema de IA para que cumpla de manera confiable lo que se le pide; en general, los resultados para un aviso como “Fotograma de una mujer tomando café, caminando al trabajo, teleobjetivo” serán mucho más consistentes que “Una mujer caminando”.

Es probable que sea un presagio de las aplicaciones por venir. Cuando se contactó para hacer comentarios, OpenAI se negó a compartir números sobre los usuarios comerciales de DALL-E 2. Pero anecdóticamente, la demanda parece estar ahí. Han surgido soluciones no oficiales a la falta de API de DALL-E 2 en la web, ensambladas por desarrolladores ansiosos por convertir el sistema en aplicaciones, servicios, sitios web e incluso videojuegos.


Source link