🫐 艺术市场知识图谱 · 基础设施思路

清华美院 · 艺术史论系 · 艺术管理方向

25
实体类型
15+
关系类型
v0.2
本体版本
15
文献支撑

整体定位

以清华美院为平台,用AI手段为中国当代艺术市场构建一个结构化的知识图谱——把散落在拍卖行、画廊、博览会、新闻里的信息连起来,形成一个可查询、可分析、持续更新的知识底座。

六个核心板块

做知识图谱不只是本体设计。作为一个要能运转的基础设施,至少包含六个同等重要的板块:

🦴
① 本体设计骨架——定义实体和关系,"市场里有什么、怎么连"
🩸
② 数据采集与入库血肉——把真实数据灌进来,最重的体力活
🛡️
③ 数据质量与治理免疫系统——可信度、冲突处理、审核机制
🏗️
④ 图谱存储与工程身体——把本体变成可运行的系统
🧠
⑤ 智能分析大脑——GNN网络分析、价格预测、模式发现
🖐️
⑥ 查询与交互界面——RAG查询、可视化、让人能用起来

本体是起点但不是全部。六个板块互相依赖,缺哪个基础设施都立不住。

① 本体设计 · 骨架

定义艺术市场里有哪些实体、它们之间有什么关系。这是知识图谱的地基,也是学术上最有持久价值的部分——目前文献中没有针对中国艺术市场的形式化本体。

当前状态:本体v0.2

25种实体:

艺术家 画廊 拍卖行 藏家 策展人 美术馆 基金会 展览 拍卖场次 博览会 作品 系列 版数 拍卖成交记录 一级市场交易 媒介 艺术运动 地域 价格水平 学术机构 驻留项目 奖项 媒体报道 流派归属断言 媒体机构

15+种关系:独家代理 · 区域代理 · 项目合作 · 寄售 · 参展 · 举办 · 共展 · 参加博览会 · 策划 · 收藏 · 转型 · 教育背景 · 师承 · 驻留 · 获奖 · 版数 · 媒体报道 · 流派归属

设计亮点:

完整本体细节见 学术版文档

与CIDOC-CRM的关系

CIDOC-CRM(ISO 21127)是文化遗产领域的标准本体,关注"文物从哪来、经历了什么"。我们关注的是"谁在推谁、谁在买谁、市场怎么运转"——侧重不同,但在Artwork、Artist、Provenance等概念上有交集。

保持与CIDOC-CRM的可映射性,未来可与博物馆/文化遗产数据库对接,但不以对标CIDOC-CRM为目标。

待推进

② 数据采集与入库 · 血肉

本体是空架子,数据才是血肉。这是最重的体力活,也是基础设施能不能立住的关键——不是跑一次就完,要能持续更新。

数据来源(三条腿走路)

自动持续抓取:

人工维护与输入:

官方数据库接入(远期):

信息抽取pipeline

非结构化文本 → 结构化知识的核心流程:

GPT-4/Claude API spaCy中文NER

V1数据切口

全本体设计,但V1从画廊—艺术家—博览会—拍卖主线灌入:

从最有数据、最能出效果的地方开始,逐步扩展。

③ 数据质量与治理 · 免疫系统

数据质量决定了整个图谱的可用性。做不好这一块,其他都打折扣。

可信度分层

每条数据标注来源、可信度、采集时间、有效期:

时效性衰减:拍卖成交价衰减慢(历史记录长期有效),一级市场系数衰减中(1-2年更新),社媒传闻衰减快(数周后可信度下降)。

治理机制

④ 图谱存储与工程 · 身体

把本体和数据变成可运行的系统。选型原则:够用、可控、长期可维护,未来有协作者加入时对非CS背景的人友好。

技术栈
组件选型理由
图数据库Neo4j成熟、可视化好、社区活跃
信息抽取GPT-4 / Claude API非结构化文本→三元组
数据采集Python爬虫 + 定时任务持续更新
KG EmbeddingPyKEEN / AmpligraphTransE/ComplEx
GNNPyTorch GeometricGAT/R-GCN
视觉嵌入CLIP / ViT作品图像→向量
RAG查询子图检索 + LLM自然语言查询
前端Web应用(待定)图谱可视化 + 查询界面
工程考量

⑤ 智能分析 · 大脑

图谱建好之后能做什么——这是价值输出层。从"存了数据"到"能发现东西"。

网络分析
价格预测
跨市场信号传导

拍卖市场表现会传导到博览会一级市场——通过KG中的时间序列关联建模:

案例:苏富比2026伦敦春拍白手套($1.75亿)→ ABHK 2026(3周后),可回溯验证传导假设

模式发现

PyG GAT/R-GCN CLIP PyKEEN

⑥ 查询与交互 · 界面

让人能用起来。使用门槛决定了基础设施是否真的能被采纳——研究者不会写Cypher查询,画廊主不会看原始图数据。

RAG自然语言查询

查询示例:

可视化与报告

RAG LangChain/LlamaIndex Web可视化

🗺️ 建设节奏

六个板块不是线性推进,而是有优先级和并行关系:

阶段重点板块说明
当前① 本体 + ② 数据采集本体v0.2已有,重心转向数据灌入
同步③ 数据治理 + ④ 工程数据入库的同时建立质量体系和Neo4j
紧随⑥ 查询(RAG)和数据入库同步推进——能查才能验证数据质量
数据积累后⑤ 智能分析需要足够数据量支撑GNN训练和网络分析

里程碑:做到有真实数据、可查询、可演示的程度,对外发布"我们在做这件事"。

👥 用户与场景

研究者(第一批用户)
画廊 / 拍卖行 / 藏家(远期B端)

📄 产出

条件与优势
论文方向(建设过程中的阶段性产出)

博士论文:上述各方向的集成。

📋 当前进展与下一步

已完成
下一步

最后更新:2026-03-06 · 清华美院 · 艺术史论系
📖 学术版文档(本体/文献/技术细节)