使用Gen-AI复刻图像的本质

Chat-GPT + 中途

在Midjourney发布了/describe功能之前，OpenAI推出了GPT Vision之前，已经有一些工具可以“观察”图像并提供捕捉图像所共享的一般感觉的提示建议。像CLIP Interrogator和Vision AI这样的工具。

任何人还记得 clipinterrogator（通过 HuggingFace）或 astica的视觉AI吗？视觉AI推出了全新版本的计算机视觉 AI —— 描述和字幕，而 CLIP Interrogator 的团队则为稳定扩散 2.0+ 版本推出了版本2。

Screenshot of the original CLIP Interrogator.

虽然这是一个让你回忆起愉快时光的火车，用奥比旺的话来说：“这些不是你要找的机器人” — 但对于这个练习来说，我实际上是这个意思。

捕捉本质

“Lunch atop a Skyscraper,” which depicts construction workers eating lunch on a steel beam high above New York City, taken in 1932 during the construction of the RCA Building at Rockefeller Center. The photograph has been attributed to Charles C. Ebbets, though there has been some debate over the years about who exactly took the photograph due to the lack of clear documentation. It remains an iconic image of the American spirit during the Great Depression. — “Lunch atop a Skyscraper”, Charles C. Ebbets

我相信你对这个图像很熟悉。这是有史以来最具代表性（并引发恐惧感的）图像之一。“摩天大楼之上的午餐”展示的是1932年在洛克菲勒中心建造RCA大厦期间，建筑工人们在高高的钢梁上吃午餐的场景。尽管多年来关于到底是谁拍摄了这张照片一直存在争议，但它被认为是查尔斯·C·埃贝茨拍摄的。由于缺乏明确文件记录，对于这张照片的真正作者存在争议。它仍然是大萧条期间代表美国精神的标志性图像。我曾经在博物馆的墙上看到过这张被放大到真人大小的照片——让人印象深刻。

所以，我们可以将此图像插入Midjourney并使用/描述功能-每次都获得以下变体:

/describe feature at work in **Midjourney**

这是这四个提示的全部内容。仔细查看它们，并注意细节。你注意到了什么？

在Midjourney中，/describe功能会生成比实际上再现图像更具灵感和暗示性的提示。我经常将这个功能比喻为三个盲目的和尚摸大象的故事，每个和尚根据接触到的某一部分来描述这个生物。/describe功能是发现新鲜观点的一种绝佳方式，但往往不会让你更接近捕捉图像的本质。从这4个提示和渲染中，第3个提示让我们离原始图像最接近。（我不得不说，第4个图像的第4张照片真的太恐怖了！）

我认为还有另一种方式，而且可以说是更好的方式。

将GPT-Vision与ChatGPT整合

这是一个逐步摘要，概述了我用于分析和描述图像的过程，可以适用于其他创意内容。我已将其拆分为清晰的指导说明，您可以将其复制到ChatGPT中，用于您自己的图像要素处理器。请将以下内容复制到新的ChatGPT提示中，并在点之间粘贴。

图片上传和初步分析

我将上传一张图片进行分析。
ChatGPT 将对图像进行初始扫描，以识别关键要素，如主题、场景、光照和情绪。

2. 详细分解:

提供图像的多个特征的详细分析:

照片类型：鉴定摄影的体裁或风格（例如新闻摄影、人像摄影、历史摄影）。
主题：描述图片的主要焦点（例如，人物、风景、物体）。
色彩方案：分析图像使用的调色板（例如，单色、饱和、去饱和）。
设置：请注意图像中描绘的位置或环境（例如：城市景观、室内、自然环境）。
氛围：传达无形元素，如氛围或情绪色彩（例如庄重、活泼、紧张）。
心情：反映图像传达的情感冲击或叙事感觉（如沉思、快乐、忧郁）。
构图：描述主题在画面中的布局方式（例如居中、平衡、不对称）。
照明：请注意图像中的光线质量和来源（例如，自然阳光、柔和的照明、强烈的阴影）。

3. 附加见解：

对于描绘历史或重要事件的图像，我希望ChatGPT能够推断或提供有关的信息：

时间段：根据视觉线索估计图像拍摄时的时代或年份（例如，大约1830年）。
摄影师：如果知道的话，可以提及特定摄影师的姓名或风格。
使用的相机和胶卷类型：根据时代和图像质量，建议可能会使用的相机和胶卷类型（例如，数码单反相机，35毫米胶片，数码传感器）。

4. 中途旅程的提示生成

使用详细的细分和额外的洞察力，我希望ChatGPT能生成一个描述性提示，可用于Midjourney或其他创意生成-AI平台。
此提示可直接复制并粘贴到Midjourney中，用于激发灵感或创造全新的图像，捕捉原始照片的真髓。

5. 迭代精化：

用户可以提供反馈或要求特定的附加细节来完善描述性提示。
ChatGPT将基于用户输入对提示进行迭代，以更加紧密地与所需输出相一致。

这有意义吗？

投入运作

我上传了之前与你分享的图片——“摩天大楼顶楼的午餐”，出自查尔斯·C·埃贝茨（Charles C. Ebbets）的作品。根据这张图片，我从ChatGPT获得了一些反馈，我对其进行了修改，并添加了一些细节，得出了以下拆解说明。在斜体部分是我在GPT提供的详细提示之外添加的内容。

照片类型：大约1930年代的历史黑白摄影，使用大画幅相机拍摄白光感照片。主题：大萧条时期的建筑工人休息时。色彩方案：单色黑白图像。背景：位于上世纪30年代纽约市的一座摩天大楼顶端，由查尔斯·C·埃贝茨拍摄。氛围：在危险环境中的日常轻松时刻，穿着工装服。心情：轻松的同伴情谊。构图：一排坐着的团体。通过极深景观，远处是城市。光线：自然日光。城市景观被轻微的云层遮蔽。- ar 10:8 - 风格原始 - 风格化350 - v 6.0

是的，我知道我加入了很多元素，但这正是你作为一名创意专业人士通过你的专业知识和经验来完善细节的地方。以下是那些图片在Midjourney中的效果。

Midjourney renders based on the ChatGPT conversation

目标是影像的精髓，我完全捕捉到了。那最后一张图片上的那个家伙站在最边缘，让我感觉胃在翻江倒海！看看与描述给我们的工作的差异？

让我们尝试用另一张图片。这一次，我只会向你展示一个参考灵感，并重新创造出结果图像的精髓。

Natacha Pisarenko on the outskirts of Kyev, 2022

从ChatGPT的细节中，我得到了以下的分解。再次强调，斜体字是我的补充内容：

照片类型：摄于2022年的当代彩色新闻摄影，使用一台带有全画幅传感器的现代数码单反相机。相机可能为佳能、尼康或索尼。主题：一个身材魁梧的老人站在鳃式袖口无袖T恤和褪色的工装牛仔裤上，双手叉腰，仰望着两座战火摧毁的建筑物的立面，中间是明亮的蓝天。色彩方案：色彩淡化，呈现柔和的色调。环境：基辅郊区遭受2022年俄罗斯轰炸后的废墟城市景观。氛围：战后的庄重感。情绪：沉思而忧郁。构图：前景中单个人物，背景是被摧毁的建筑物。光线：自然柔和的日光。摄影师：纳塔莎·皮萨连科。- ar 10：8 - 原始风格 - 风格化350 - v 6.0

这是我的结果图像。左边的图像没有斜体字。右边的图像包含了我额外添加的术语。精华被捕捉到了！