🫐 艺术市场知识图谱

以清华美院为平台的艺术市场基础设施 · 艺术史论系 · 学术版文档

25
核心实体
15+
核心关系
v0.2
本体版本
15
文献覆盖

🎯 项目概述

目标

以清华大学美术学院为平台,以人工智能为手段,构建中国当代艺术市场的第一个开放知识图谱基础设施。结构化艺术市场中的实体、关系与事件,服务研究者、从业者和机构的分析、查询与决策需求。

定位

这是一个行业基础设施建设项目,不仅是博士论文工具。博士学位是学术背书,论文是建设过程中的阶段性产出。第一批用户为研究者,远期面向画廊、拍卖行、藏家等B端提供数据服务。

技术路线

知识图谱 (Neo4j) GNN (PyG) RAG LLM

基础设施视角详见 基础设施计划页面

📐 本体设计 v0.2

🔄 v0.1 → v0.2 Diff(2026-03-05)

反馈来源:导师/同行讨论 2026-03-05

新增 修改 拆分

实体变更(18 → 25):

关系变更(8 → 15+):

建模增强:

核心实体(25类)
v0.1保留 v0.2修改 v0.2新增

艺术家 ✏️ 画廊 ✏️ 拍卖行 藏家 策展人 美术馆 基金会 展览 ✏️ 拍卖场次 博览会 ✏️ 作品 ✏️ 系列 拍卖成交记录 一级市场交易记录 媒介 艺术运动 ✏️ 地域

🆕 版数 Edition 🆕 价格水平 ArtistPriceLevel 🆕 学术机构 🆕 驻留项目 🆕 奖项 🆕 媒体报道 🆕 流派归属断言 🆕 媒体(机构)

核心关系(15+)
v0.1保留 拆分 v0.2新增

独家代理 exclusive 区域代理 regional 项目合作 project 寄售 consignment 参展 exhibits_in 举办 hosts 共展 co-exhibited ✏️ 参加博览会 participates_in 策划 curates 收藏 collects 转型 transforms_into

🆕 educated_at 🆕 mentored_by 🆕 residency_at 🆕 awarded 🆕 has_edition 🆕 covered_by 🆕 attributed_to_movement

💡 核心洞察:代理关系语义化(4种)+ 共展网络加权 = 更精确的市场定位分析

🤝 代理关系语义化 v0.2

represents 拆分为 4 种关系,反映真实市场中代理绑定的复杂度:

关系绑定强度说明
exclusive_representation★★★★★独家全球/区域代理
regional_representation★★★★特定区域代理(如大中华区)
project_collaboration★★★项目制合作,非长期绑定
consignment★★寄售,最弱绑定

每种均含 formality(合同/口头/隐含)、start/end_dateupgrade_from(关系升级路径)

🖼️ Edition 版数建模 v0.2

从 Artwork 拆出独立实体,解决版数作品(版画/摄影/雕塑铸造)的追踪问题:

💡 动机:同一件作品的不同版数在市场上表现可能差异巨大(版数1 vs 版数8 价格相差数倍),必须独立追踪

📰 MediaCoverage 媒体报道 v0.2

媒体报道作为事件实体建模,支持量化分析艺术家/展览/画廊的媒体曝光度:

🔬 数据建模设计

📊 数据可信度 + 时效性 v0.2

三级可信度:

时效性衰减 decay_rate:

每条数据附带:{confidence, source_type, valid_from, valid_until, decay_rate}

💰 价格建模

数据来源分层:

🆕 ArtistPriceLevel:系数时间序列实体,追踪 coefficient(元/sqcm) 随时间的变化

二级市场:拍卖记录 + 异常检测(anomaly_score)

价格事件作为独立实体建模

🔗 共展网络权重函数 v0.2

weight = f(exhibition_type, institutional_weight, context, recency)

exhibition_type 权重:

context 权重:

加上 institutional_weight(机构声望系数)和 recency(时间衰减因子)

💹 Flipping 检测 v0.2

定义:一级市场购入后短期进入拍卖转售

关联指标:flipping_ratio = 落槌价 / 一级市场价

高频flipping的画廊可能暗示市场操纵,可交叉验证同一藏家行为模式

📡 跨市场信号传导:拍卖 → 博览会 v0.2

拍卖市场的表现会传导到博览会的一级市场交易,可通过KG中的时间序列关联建模和验证。

传导机制:

KG建模:

AuctionSale.sell_through_rate (时间序列) ↔ 同期/后续 ArtFair.PrimarySale (滞后2-4周)

可验证案例:苏富比2026伦敦春拍白手套($1.75亿,+110% YoY)→ ABHK 2026(3周后开幕)。预测:整体买气受提振,但蓝筹展位与新兴展位表现分化加剧。ABHK结束后可回溯验证。

可分析问题:

🧑‍💼 藏家分层建模
🎨 Career Stage 推导 待验证

⚠️ 待实证检验 — 需10个代表性艺术家 bottom-up 验证

阶段触发条件(满足任一)
Emerging默认初始;首次画廊展览
Mid-career首次机构个展;tier-2+画廊独家代理;拍卖破50万
Established蓝筹画廊代理;回顾展;拍卖破500万;大型双年展

阈值需校准 · 不同媒介阈值可能不同 · 需考虑逆向流动

⏱️ 时间建模

📖 方法论

Top-down + Bottom-up 交叉验证 v0.2

Movement归属的"断言"处理:

通过 MovementAttribution 断言实体,记录"谁在什么时候说X属于Y流派",而非直接标注。支持同一艺术家被不同来源归属到不同流派,保持学术中立。

学术贡献定位:

📚 文献地图(15篇)

🔍 综合发现摘要
🚀 研究空白(我们的机会)
🔴 核心竞品 / 直接相关(5篇)

与项目核心目标(艺术市场KG+GNN+预测)直接对应,需重点分析和对标

🔴 核心 Castellano et al. 2023 — ArtGraph + ViT + GAT 多模态多任务分类器 · AIxIA 2023

📄 论文:"Recognizing the Style, Genre, and Emotion of a Work of Art Through Visual and Knowledge Graph Embeddings"

👥 团队:CILAB, University of Bari(意大利巴里大学AI实验室)· AIxIA 2023 (LNCS vol. 13796), Springer

🔬 研究内容

这篇论文的核心贡献是构建了 ArtGraph——一个大规模异构艺术知识图谱,包含16种节点类型(artwork、artist、gallery、style、genre、emotion等),并在此基础上设计了一个端到端的多模态多任务分类系统。系统同时利用作品的视觉信息和知识图谱中的结构化关系信息,联合预测风格(27类)、体裁(19类)和情绪(9类)三个任务。

关键创新在于 Inductive设计:新作品只需提供图像和基本元数据即可获得分类预测,无需将整个图重新训练。这对实际部署至关重要——拍卖行每天都有新作品上架,不可能每次重训模型。情绪分类数据来自 ArtEmis 众包数据集(81K+ WikiArt标注),将主观审美体验量化为可训练的标签。

ArtGraph v2已开源(Zenodo),包含完整的图结构和预训练embedding,代码也在GitHub公开。这使得复现和扩展非常便捷,是我们项目的重要技术基础。

🛠 技术方法

🔄 向我们项目的迁移路径

ArtGraphGATViT多任务学习InductivePyG

🔴 核心 El Vaigh et al. 2021/2025 — GCNBoost → GNNBoost: Transductive + 伪标签 · ICMR 2021 / MTA 2025

📄 论文:"GCNBoost: Artwork Classification by Label Propagation through a Knowledge Graph" (ICMR 2021) → "GNNBoost: Boosting Artwork Classification with Graph Embeddings" (Multimedia Tools and Applications, 2025)

👥 团队:大阪大学(El Vaigh, Garcia, Renoust, Chu, Nakashima, Nagahara)· GCNBoost被引37次

🔬 研究内容

这一系列工作的核心创新是 Transductive Learning(转导学习)应用于艺术品分类:测试数据在训练时已经存在于图中(只是没有标签),通过图中的共享属性节点(如同一艺术家、同一时期、同一技法)将标签信息从已标注样本"传播"到未标注样本。这与Castellano的Inductive方法形成互补——Transductive适合图相对固定的场景,Inductive适合实时新数据。

另一个关键创新是 伪标签策略(Pseudo-labeling):先用预训练CNN分类器对未标注数据生成初始预测标签,再将这些伪标签数据加入知识图谱构建Extended Knowledge Graph (EKG)。通过图结构的约束和传播,伪标签中的噪声被有效抑制。这对我们项目极其重要——艺术市场数据中大量信息是半结构化的,人工全量标注不现实。

从GCNBoost到GNNBoost的四大升级体现了方法的成熟化:(1) GCN→GAT引入注意力机制,对伪标签噪声更鲁棒;(2) 单任务→多任务学习;(3) CrossEntropy→Focal Loss解决数据不平衡;(4) 新增浮世绘数据集实现跨文化验证,证明方法不局限于西方艺术。

🛠 技术方法

🔄 向我们项目的迁移路径

Transductive伪标签GATFocal LossEKG多任务学习

📊 与Castellano 2023的互补关系

GCNBoost/GNNBoostCastellano 2023
学习范式TransductiveInductive
图网络GCN→GATGAT
核心创新伪标签+标签传播多模态多任务
视觉特征ResNet50ViT
处理新数据须在图中无需在图中
不平衡数据Focal Loss(强)无特殊处理
🔴 核心 Bassan 2024/25 — KG+DL 艺术品价格预测 · 帕多瓦大学硕士 最直接竞品

📄 论文:"A Data-Driven Approach to Art Price Prediction: Integrating Knowledge Graphs and Predictive Analytics"

👥 作者:Davide Bassan · Università degli Studi di Padova(帕多瓦大学,意大利)· 硕士论文 2024/25学年

⚠️ 全文受限访问(Accesso riservato),已拟邮件联系作者获取

🔬 研究内容

Bassan的硕士论文是目前文献中 与我们项目最直接对标的先行者——同样采用知识图谱+深度学习的技术路线来预测艺术品价格。从摘要推断,其KG包含的核心实体类型有:artist、artwork、gallery、auction house、historical pricing data,目标是理解和预测艺术市场趋势,辅助投资者、藏家和从业者决策。

作为硕士论文,其预期规模有限:KG实体类型可能5-6种,数据源和图的规模受限于单人研究周期。我们的ontology v0.2已达25种实体+15+关系,在本体设计的深度和广度上有显著超越空间。但Bassan的工作证明了KG+DL在艺术价格预测领域的可行性,是重要的概念验证。

关键待确认信息:(1) 使用了哪种图嵌入方法(TransE? R-GCN? 还是简单的feature concat?);(2) 数据来源和规模;(3) 价格时序如何处理;(4) 评估指标和baseline对比。这些信息需要获取全文后才能深入分析。

🛠 技术方法(从摘要推断)

🔄 向我们项目的迁移路径

直接竞品KG+DL价格预测待获取全文

📎 帕多瓦大学仓库 · 2024/25
🔴 核心 ArtRAG (Wang et al. 2025) — ACKG + RAG框架 · ACM Multimedia 2025

📄 论文:"ArtRAG: Retrieval-Augmented Generation with Structured Context for Visual Art Understanding"

👥 团队:Wang et al. · ACM Multimedia 2025

🔬 研究内容

ArtRAG提出了一个 无需训练(training-free) 的RAG框架,核心创新是自动从领域文本构建 Art Context Knowledge Graph (ACKG)。ACKG组织了艺术家、主题、流派、历史事件等实体及其关系,形成一个结构化的艺术知识库。这与传统RAG直接检索文本片段不同——ArtRAG检索的是 结构化的子图上下文

推理流程:给定一幅artwork和用户问题 → 多粒度结构化上下文检索器通过语义相似度和图拓扑距离双通道选取相关子图 → 将子图结构化信息组装为prompt上下文 → 指导多模态大语言模型(MLLM)生成多视角artwork解释。在SemArt和Artpedia两个基准数据集上,ArtRAG超越了此前需要训练的基线方法。

核心技术优势在于 结构化上下文 vs 传统的扁平文本检索:子图包含实体间的关系路径,使LLM能生成更有逻辑链条的解释(如"这幅作品属于印象主义→受莫奈影响→使用broken color技法"),而非简单的关键词匹配。

🛠 技术方法

🔄 向我们项目的迁移路径

RAGACKG子图检索Training-freeMLLM

🔴 核心 Biased Auctioneers — Aubry, Kräussl et al. 2023 · Journal of Finance

📄 论文:"Biased Auctioneers"

👥 团队:Aubry, Kräussl, Manso, Spaenjers · Journal of Finance 2023(金融学顶刊)

🔬 研究内容

这篇发表于金融学顶级期刊的论文构建了一个神经网络算法,利用视觉特征(作品图像)和非视觉特征(艺术家、尺寸、媒介、拍卖行等元数据)生成艺术品拍卖价格预测。核心发现:当机器估值显著高于拍卖行给出的预估价时,实际成交价/预估价比率(hammer-to-estimate ratio)显著更高,且流拍率更低——这意味着 拍卖行的价格预估存在系统性的信息无效率

更深层的发现:(1) ML的额外预测贡献在"价格分散度低"和"均价低"的艺术家群体中更大——说明拍卖行对这类艺术家投入的研究资源不足;(2) 拍卖行预测误差在艺术家层面和拍卖行层面均具 持续性(persistence),且可被预测——某些拍卖行/某些艺术家的估值偏差是结构性的,非随机噪声。

学术影响力极高(JoF是金融学"Big Three"期刊之一),证明了ML+art pricing方向的学术认可度。其方法论虽未使用KG/GNN,但揭示的市场现象为我们项目提供了明确的应用场景。

🛠 技术方法

🔄 向我们项目的迁移路径

JoF顶刊多模态NN估值偏差误差持续性拍卖数据

🟡 方法论参考(5篇)

核心方法/框架可迁移到本项目,提供具体技术路径

🟡 方法 Vasic et al. 2025 — KG vs LLM 对比,CIDOC-CRM · ACM JOCCH 2025

📄 论文:"Knowledge Graphs vs. Large Language Models: Competitors or Partners in Supporting Virtual Museums"

👥 团队:Vasic, Fill, Quattrini, Pierdicca · ACM Journal on Computing and Cultural Heritage 2025

🔬 研究内容

本文系统性地比较了三种策略支持虚拟博物馆知识管理:(1) 传统本体方法——使用CIDOC-CRM(文化遗产领域的事实标准本体)进行语义建模;(2) LLM扩展方法——用LLM辅助CIDOC-CRM的实例化和语义标注;(3) 纯LLM方法——完全依赖LLM进行知识问答和排序。

实验在绘画排序和知识问答两个任务上评估。核心结论:本体+LLM组合最优。纯LLM因缺乏领域特定知识容易产生事实性错误(尤其对小众艺术家和地方性作品),纯本体虽然准确但构建人力成本极高、覆盖面有限。LLM辅助本体构建可以大幅降低成本同时保持较高准确性。

对我们的方法论决策有直接指导意义——验证了"不要在KG和LLM之间做二选一,而是混合使用"的策略,并提供了CIDOC-CRM作为本体参照系的具体实践。

🛠 技术方法

🔄 向我们项目的迁移路径

CIDOC-CRMKG+LLM混合方法对比语义标注

🟡 方法 Graham, Yates et al. 2023 — GPT-3 → KG Pipeline · PLOS ONE

📄 论文:"Investigating Antiquities Trafficking with GPT-3 Enabled Knowledge Graphs: A Case Study"

👥 团队:Graham, Yates et al. · PLOS ONE 2023(全文开放获取)

🔬 研究内容

这篇论文展示了一个完整的 LLM半自动KG构建pipeline:从129篇古物交易新闻文章出发,使用GPT-3的one-shot prompting将非结构化文本转化为(subject, predicate, object)三元组。具体流程:文章预处理 → GPT-3 one-shot prompt提取SPO三元组 → 三元组编译整合 → KG构建 → Ampligraph库训练KG Embedding模型(TransE/ComplEx) → 向量空间中计算实体距离 → 预测缺失链接。

最引人注目的是实际成果:系统成功发现了此前人工分析未注意到的交易商-博物馆关联,这种 假设生成(hypothesis generation) 能力对于理解复杂网络关系极有价值。与人工标注版本对比,GPT-3提取的KG在链接预测任务上表现可比,但节省了数月的人力标注时间。

虽然领域是古物走私而非当代艺术市场,但 pipeline的通用性极高——将prompt模板和实体schema替换为我们的ontology,就可以从中文拍卖目录、新闻报道、批评文章中自动提取三元组填充知识图谱。

🛠 技术方法

🔄 向我们项目的迁移路径

KG冷启动LLM→SPOOne-shot PromptAmpligraph链接预测

🟡 方法 Malikova 2025 — RAG Demo · Aalto University Thesis

📄 论文:"Applying Large Language Models and Knowledge Graphs to Relational Search Problems"

👥 作者:Malikova · Aalto University 硕士论文 2025

🔬 研究内容

本论文比较了三种关系搜索方法:KG结构化检索、LLM开放生成、RAG(LLM+KG上下文)。领域为芬兰文化史(黄金时代艺术家与城市的关系网络)。实验发现:KG精确但覆盖有限(只知道图里有的);LLM覆盖广但幻觉严重(尤其对小众人物——芬兰黄金时代的很多艺术家在国际上知名度低,LLM容易编造);RAG改善了结构和准确性但仍需事后验证。

最终结论:混合方案最优。论文还开发了一个小型demo应用,展示了三种方法的交互式对比界面。虽然规模较小(硕士论文),但提供了一个完整的RAG原型参考,包括前端界面设计和后端pipeline架构。

对我们项目的关键启示:中国当代艺术有大量新兴艺术家,LLM对这些人的了解非常有限,很容易产生幻觉——KG是可靠性的保障,RAG架构是将KG可靠性与LLM生成能力结合的最佳方式。

🛠 技术方法

🔄 向我们项目的迁移路径

RAG幻觉控制Demo原型三方对比

🟡 方法 Chen et al. 2025 — 多模态风格分类 AKDF · ICASSP 2025

📄 论文:"Knowledge Is Powerful: Art Knowledge-Driven Framework for Painting Style Classification Integrating Multimodal Knowledge"

👥 团队:Chen, Wang, Xin, Zhang · ICASSP 2025(IEEE信号处理顶会)

🔬 研究内容

AKDF(Art Knowledge-Driven Framework)解决的核心问题是绘画风格分类——艺术风格(如印象主义vs后印象主义)的区分需要同时理解视觉特征和艺术史知识。传统方法只看图像,AKDF的创新在于 引入多模态知识:(1) 利用多模态模型和prompt从图像中提取风格相关的文本描述;(2) 通过增强双线性池化(Enhanced Bilinear Pooling)融合文本与图像特征;(3) 设计基于标签嵌入的对比学习辅助任务,将风格标签的语义知识注入模型。

额外创新包括纹理特征提取和体裁分类辅助任务——风格和体裁存在关联(如风景画中印象主义比例更高),多任务学习可捕获这种关联。在WikiArt数据集上,AKDF比之前的SOTA提升了3个百分点以上。

🛠 技术方法

🔄 向我们项目的迁移路径

Bilinear Pooling对比学习Label Embedding多任务学习WikiArt

🟡 方法 Jeyaraman 2025 — Temporal R-GCN(金融→艺术迁移)· SMU Thesis

📄 论文:"Temporal Relational Graph Convolutional Network for Finance"

👥 作者:Jeyaraman · Singapore Management University 硕士论文 2025

🔬 研究内容

Jeyaraman提出了 Temporal R-GCN(时序关系图卷积网络),在标准R-GCN(Relational Graph Convolutional Network)基础上引入时间维度。标准R-GCN已经支持多种关系类型(如公司-行业、公司-管理层、公司-合作方),但假设关系是静态的。T-RGCN的核心创新在于建模 实体关系随时间的变化——例如某公司CEO在t1换人,或某公司在t2进入新行业。

在金融预测任务上,T-RGCN通过捕获时序图结构的演化来预测股票/资产价格。这种"时序异构图"的思想直接适用于艺术市场——艺术家的画廊代理关系会变化(从新兴画廊→蓝筹画廊),展览历史是时序事件序列,价格本身就是时间序列。

🛠 技术方法

🔄 向我们项目的迁移路径

GNN价格预测T-RGCN时序图动态KG金融→艺术迁移

🟢 背景 / 工具参考(5篇)

提供特定技术点、背景知识或辅助工具参考

🟢 背景 Fedderke & Carugno 2024 — ML Art Pricing · SSRN

📄 论文:"Machine Learning and Fine Art Pricing"

👥 团队:Fedderke & Carugno · SSRN Working Paper 2024

🔬 研究内容

使用传统机器学习方法(非图结构方法)对艺术品拍卖价格建模。基于经典的 Hedonic Pricing Model(特征定价模型)——将艺术品价格分解为一系列可观测属性的函数(艺术家声誉、尺寸、媒介、拍卖行声望、拍卖时期等)。ML方法(预计为XGBoost/LightGBM等梯度提升树)替代传统的线性hedonic回归,捕获非线性特征交互。

可能还涉及艺术品价格指数(Art Price Index)的构建方法——这是艺术市场经济学的核心工具,用于衡量整体市场或特定细分市场的价格走势。作为传统ML方法的代表,为我们的GNN方法提供了重要的baseline对标。

🛠 技术方法

🔄 向我们项目的迁移路径

Hedonic PricingXGBoost/LightGBMBaseline拍卖数据

📎 SSRN
🟢 背景 Shabason et al. — Data-Centric AI · Taylor & Francis

📄 论文:"Enhancing Investable Art Market Accessibility and Explainability through Data-Centric AI Techniques"

👥 团队:Shabason, Ivanov, Malovitsa, Maksimov, Egorova · Taylor & Francis(书章节)

🔬 研究内容

采用 Data-Centric AI 理念——与传统的Model-Centric AI(关注模型架构)不同,Data-Centric AI强调数据质量是AI性能的第一决定因素。在艺术投资市场语境下,这意味着数据清洗、标注质量控制、数据增强等步骤的优先级应高于模型调优。

论文预计还涉及可解释ML模型(如SHAP/LIME)用于艺术品投资分析——投资者需要理解"为什么AI认为这幅画值X价格",而不仅仅是一个数字。可解释性在金融投资决策中是监管要求(如EU AI Act),在艺术市场虽无强制要求但对用户信任至关重要。

🛠 技术方法

🔄 向我们项目的迁移路径

Data-Centric AISHAP/LIME可解释性数据质量

🟢 背景 Indrawan et al. 2023 — 多模态价格预测 · IEEE ICTC

📄 论文:"Multimodal Approach for Painting Price Prediction"

👥 团队:Indrawan et al. · IEEE ICTC 2023

🔬 研究内容

采用多模态方法预测绘画价格,核心是融合两种信息源:(1) 视觉特征——通过CNN或ViT从artwork图像中提取,编码风格、构图、色彩等视觉信息;(2) 结构化元数据——艺术家、尺寸、媒介、拍卖行等传统hedonic变量。融合可能采用late fusion或attention-based fusion策略,最终输出价格回归预测。

虽然是会议短文(细节可能有限),但这篇论文直接验证了"视觉特征对价格预测有增量价值"这一假设——即不仅仅是艺术家名气和尺寸决定价格,作品本身"长什么样"也重要。

🛠 技术方法

🔄 向我们项目的迁移路径

多模态融合CNN/ViT价格回归视觉特征

🟢 工具 Tree-KG 框架 — 清华团队 2026

📄 来源:清华团队 · MCP研究院报道 2026-03-04

🔬 研究内容

Tree-KG框架可在30分钟内将一本教科书转换为结构化知识图谱。利用LLM自动从长文本中提取实体和关系,构建树状知识图谱结构。相比传统KG构建需要数月人力,Tree-KG极大降低了门槛。

🛠 技术方法

🔄 向我们项目的迁移路径

自动KG构建长文本处理LLM提取

🟢 工具 Wikontic — 本体构建方法

🔬 研究内容

基于维基百科的本体概念构建方法,结合众包知识与形式化本体的混合路径。为从非结构化文本到形式化本体的转化提供系统性方法论。

🔄 向我们项目的迁移路径

本体构建众包+形式化

🔀 技术迁移矩阵(15篇 × 14个技术点)
技术点 Cast. GNN↑ Bass. ArtR. Bias. Vasic Grah. Mali. Chen Jey. Fedd. Shab. Indr. Tree Wiki.
KG自动构建
KG Embedding
RAG (KG+LLM)
CIDOC-CRM对齐
多模态融合
GNN/GCN/GAT
时序建模
价格预测
伪标签/标签传播
对比学习
可解释性
拍卖行为分析
链接预测
本体构建方法

🔴 Cast.=Castellano · GNN↑=GNNBoost · Bass.=Bassan · ArtR.=ArtRAG · Bias.=Biased Auctioneers
🟡 Vasic · Grah.=Graham · Mali.=Malikova · Chen · Jey.=Jeyaraman
🟢 Fedd.=Fedderke · Shab.=Shabason · Indr.=Indrawan · Tree=Tree-KG · Wiki.=Wikontic
← 横向滚动 →

🗺️ 实施路线

整体策略

全本体设计,垂直切口先跑通。本体覆盖完整生态(25实体+15+关系),但V1数据灌入以画廊—艺术家—博览会—拍卖主线为主。

技术选型原则:够用、可控、能讲清楚。我们是艺术管理研究者用AI做基础设施,不是CS团队秀技术。长期可维护性优先于学术新颖度。

数据策略(三条腿走路):

Phase 1:数据层 + KG构建(博一重点) 当前阶段

核心目标:建成有真实数据、可查询的KG原型

数据采集:

KG构建:

阶段产出:

核心参考:Graham 2023ArtRAG (ACKG构建)Vasic 2025Tree-KG

工具/技术栈:Neo4jGPT-4/Claude APIPython爬虫spaCy中文NER

Phase 2:RAG查询层(与Phase 1同步推进)

核心目标:让非技术用户能用自然语言查询KG——降低使用门槛是基础设施能被用起来的关键

为什么与Phase 1同步:RAG不是锦上添花,是核心交互方式。只有查询体验好,研究者才会用,基础设施才能立住。

核心参考:ArtRAG (子图检索)Malikova 2025 (RAG原型)

工具/技术栈:LangChain/LlamaIndexMLLM APICypher

Phase 3:多模态Embedding(博一下—博二上)

核心目标:为KG节点配上特征向量,支撑后续GNN分析

核心参考:Castellano 2023 (ArtGraph+GAT)Chen 2025 (AKDF)Indrawan 2023 (多模态价格)

工具/技术栈:ViT/CLIPPyKEENPyTorchPyG

Phase 4:GNN智能分析与预测(博二)

核心目标:从"能查"到"能分析"——网络分析、价格预测、趋势发现

网络分析:

价格预测:

低标注场景策略:

核心参考:Jeyaraman 2025 (T-RGCN)GNNBoost (伪标签)Biased Auctioneers (JoF)Bassan 2024 (竞品对标)Fedderke 2024 (baseline)

工具/技术栈:PyG (PyTorch Geometric)R-GCN / GATXGBoost

Phase 5:展示层 + 对外发布 + 开放 里程碑

核心目标:让行业知道"清华美院在做这件事"——可演示、可发布、可被引用

展示层:

发布场合:

开放与商业化(远期):

📄 论文产出(副产品)

建设过程中自然产生多篇论文,但论文服务于项目,不是项目服务于论文:

博士论文:上述各方向的集成——系统性地展示AI驱动的艺术市场基础设施建设方法论与实践

📋 待办清单

最后更新:2026-03-05 · v0.2 · 15篇文献 · ← 返回研究备忘录