我遇到的“现代古装病”:一个AI文化理解偏差的实验观察

示例图片

我遇到的“现代古装病”:

一个AI文化理解偏差的实验观察

在进行一项关于历史场景生成的实验时,我遇到了一个令人困惑的现象——无论我如何优化提示词,AI生成的所谓“中国古典场景”始终带有一种难以消除的“现代古装剧感”。这一发现促使我进行了一系列对比测试,并查阅了相关文献,试图理解这一问题的本质。

实验观察:优化提示词的局限

在我的初始实验中,我尝试生成一个中国古典花园中的密谈场景,但生成的人物身着崭新戏服,妆容精致,光影效果酷似现代影视剧。我随即进行了专业化的提示词优化:指定了“明代或清代书生装”,要求“避免现代妆容”,引入“经典中国山水画风格”,强调“风化的纹理”和“自然光线”。然而,结果并未本质改观。

1
2
3
4
第一次提示词:Under a canopy of blooming peach and plum trees, a heated secret meeting unfolds in a serene classical garden. A clever-looking man in scholarly attire leans casually against a carved stone pillar, holding a delicate fan. Facing him, a group of three women in elegant, sheer summer garments of pastel hues—azure, peach, and mint—stand attentively. Their dresses feature intricate embroidery and flutter lightly in the warm breeze. Dappled sunlight filters through the leaves, creating a dreamy, warm filter over the koi pond and arched bridge in the background. Stylized realism, vibrant yet soft, wide 16:9 frame.

优化后提示词:A scene from a historical drama, captured in the style of a classic Chinese landscape painting blended with cinematic realism. Under a canopy of blooming peach and plum trees in a serene classical garden, a heated secret meeting unfolds. A clever-looking man in authentic Ming or Qing dynasty scholarly attire leans casually against a weathered, carved stone pillar. Facing him, three women in elegant, sheer summer garments of pastel hues (azure, peach, mint) stand with the poised restraint of classical figures. Their dresses, featuring intricate embroidery, flutter lightly. The atmosphere is thick with intrigue. Shot on 35mm film with a cinematic color grade, featuring warm, golden hour lighting with dappled sunlight filtering through leaves. The composition is wide 16:9, with a shallow depth of field focusing on the tense exchange, background elements like the koi pond and arched bridge rendered in soft, impressionistic brushstrokes. Avoid modern makeup, photorealistic sharpness, and studio lighting. Emphasize texture of fabrics, aged stone, and natural light.

有趣的是,当我尝试生成西方历史场景时——比如“18世纪法国沙龙中的哲学讨论”或“维多利亚时期的家庭聚会”——AI似乎能够生成相对更具历史沉浸感的图像。人物服饰的细节、室内陈设的风格,都显得更为“自然”,较少出现那种明显的“现代重演”感。这一对比差异引起了我的注意:为什么AI在理解非西方历史文化时,似乎存在一种特殊的“隔膜”?

文献框架下的分析

查阅相关文献后,我发现这一问题并非个例,而是根植于当前文本到图像(TTI)模型的结构性局限之中。

1. 系统性文化偏差的量化证据
《On the Cultural Gap in Text‑to‑Image Generation》(2023)提出的量化框架明确显示,主流扩散模型在生成非西方文化内容时,存在显著的质量和准确性差距。这种“文化鸿沟”在生成东亚历史内容时尤为明显。模型往往将“中国古典”简化为几个高度刻板化的视觉符号(如特定颜色、装饰图案),而无法捕捉其内在的多样性和历史演变。

2. “合成历史”与数据污染
《Synthetic History: Evaluating Visual Representations of the Past in Diffusion Models》(2024)一文直接回应了我的困惑。研究发现,模型生成的“历史”图像,实际上是对已有视觉媒体中历史呈现方式的再合成,而非对历史本身的建模。由于互联网上关于中国历史的视觉资料,绝大部分是近几十年的影视剧、游戏和网红摄影,模型学到的是一部“被现代审美反复过滤后的合成历史”。这解释了为什么我的提示词优化无效——模型的知识库本身就被“影楼风”和“影视城美学”污染了。

3. 知识表征的结构性缺失
《A Systematic Review of Cultural Bias in Text‑to‑Image (TTI) Models》(2025)的综述指出,当前模型缺乏对文化概念的结构化理解。例如,模型可能知道“汉服”这个词,但它无法将之与具体的朝代、社会阶层、礼仪场合相关联。当我要求“明代书生装”时,模型只是模糊地关联了“古装+文人”的常见视觉模式,而无法调用关于明代襴衫的具体形制、面料和穿着方式的知识。这与《Knowledge Graph based Analysis and Exploration of Historical Theatre Photographs》(2020)中倡导的基于知识图谱的结构化历史分析方法形成了鲜明对比——当前模型是“模式匹配”而非“知识推理”。

4. 为何西方场景“看似”更好?
《Stable Bias: Evaluating Societal Representations in Diffusion Models》(2023)和《Deconstructing Bias》(2023)提供了线索。西方历史与美学体系(尤其是文艺复兴以来的艺术传统)在模型训练数据中占据了中心地位相对统一。模型学习了从古典油画到历史电影的一整套相对连贯的视觉语言。当用户(尤其是西方用户)请求“维多利亚时代”场景时,用户的预期与模型从西方艺术史数据中学到的表征之间,重合度较高。然而,这并不意味着模型真正理解了西方历史,只是其训练数据的分布使得输出更符合某种常见的“视觉惯例”。

相比之下,对于中国历史,模型面临三重困境:

  • 数据源的现代性污染:高质量、严肃的中国古代视觉资料(如古画、文物图谱)在训练数据中占比极低。
  • 用户预期的多样性:不同用户对“中国古典”的想象可能源于截然不同的来源(正史剧、仙侠剧、日本动漫、西方东方主义绘画),导致提示词与模型内部表征的匹配更加混乱。
  • 文化转译的损耗:即使使用英文提示词,如“scholarly attire”(书生装),模型也需要经过“英文词汇→抽象概念→视觉模式”的多层映射,每一步都可能引入基于训练数据偏差的扭曲。

问题的本质:缺失的“文化语境层”

综合我的实验与文献分析,笔者认为,核心问题在于当前模型缺乏一个可被灵活调用的“文化-历史语境层”

模型像一个拥有海量剧照的“剧照师”,但它没有“历史顾问”。它能拼贴出看起来“古风”的元素,但无法理解这些元素背后的社会规则、生活逻辑和美学精神。当我说“密谈”时,它想到的是戏剧性的镜头语言;当我说“轻薄夏装”时,它呈现的是现代纱裙的质感而非古典纱罗的垂坠。它生成的,始终是关于历史的现代视觉评论,而非试图接近历史本身的视觉假设。

最后

我的实验观察与文献研究共同指向一个结论:当前文生图模型在处理深层次、非西方的历史文化概念时,面临的根本挑战是表征鸿沟。仅仅优化提示词,是在模型的“症状层”进行调整,无法触及其在“知识层”和“语境层”的缺陷。

未来的改进方向,或许不在于追求更大的通用模型,而在于:

  1. 发展专业化的文化计算模型:针对特定历史文化领域,构建融合了结构化知识(如历史图谱、服饰制度)的微调模型或插件。
  2. 革新数据构建范式:主动纳入更多元、高质量的本土历史视觉资料与学术研究成果,平衡数据分布。
  3. 探索新的交互范式:允许用户与模型就历史背景、人物关系进行“多轮对话式共建”,逐步构建语境,而非一次性输出定型图像。

只有当模型学会在生成图像时,不仅考虑“看起来像什么”,更能思考“在何种历史情境下可能是什么”,我们才有可能跨越这道“现代古装”的滤镜,瞥见更为真切的历史光影。这不仅是技术挑战,更是一场关于如何让AI理解人类文明复杂性的深刻探索。

参考文献

  1. Synthetic History: Evaluating Visual Representations of the Past in Diffusion Models – 2024
  2. A Systematic Review of Cultural Bias in Text‑to‑Image (TTI) Models – 2025
  3. On the Cultural Gap in Text‑to‑Image Generation – 2023
  4. Deconstructing Bias: A Multifaceted Framework for Diagnosing Cultural and Compositional Inequities in Text‑to‑Image Generative Models – 2023
  5. Stable Bias: Evaluating Societal Representations in Diffusion Models – 2023
  6. AI文生图模型测评:从基础美学到文化理解的多维度分析 – 2025
  7. AI图像生成技术的蓬勃发展与语料、语境的作用 – 2025, 微信公众号文章
  8. Knowledge Graph based Analysis and Exploration of Historical Theatre Photographs – 2020