OpenDataArena
让数据价值触手可及
排行榜
数据血缘
数据集对比
配置
贡献
工具
数据血缘
索引 + 实时检索
Data
Lineage
追溯来源、共同源与污染风险
内置文本与多模态索引,支持实时补全未收录数据的血缘信息。
org/name 输入
深度 + 模态
未收录可检索
三步完成分析
01
输入目标数据集
支持单个或多个目标,未收录数据也可直接输入。
02
设定深度与模态
选择文本或多模态,并用深度控制回溯范围。
03
查看图谱与洞察
查看共同来源、污染路径和关键节点关系。
🧭
上游追溯
回溯 source data、中间数据集和关键依赖链。
🔀
多目标对比
并排分析多个目标,快速定位共同来源与交叉依赖。
⚠️
污染检测
识别 Benchmark 污染路径,辅助评测与训练检查。
🧠
结构洞察
汇总类别、数据类型、摘要与节点统计。
已索引数据集
—
文本 + 多模态索引
已索引关系边
—
source → target 依赖
风险基准集
—
污染检测基准
模态支持
—
文本 / 多模态切换
排行榜数据概览
Dataset
HF Target ↗
—
年份
—
规模
—
综合得分
—
数据类型
—
💡
输入目标数据集名称和最大深度,系统将以树形结构展示该数据集的来源(向上追溯)
目标数据集
⬡
+
最大深度
−
3
+
数据模态
错误的模态选择会影响数据分类准确性
📝
文本
🎨
多模态
生成可视化
目标数据集控制
取消勾选可隐藏对应数据树
目标互为来源时,仅在来源子树中展示
节点大小会根据下载量自动调节
支持拖拽节点,点击可查看数据卡片
血缘图预览
等待开始分析
⌕
复制链接
导出 JSON
隐藏洞察
清空结果
● READY
正在加载数据...
+
−
⌂
🕸
输入数据集后点击生成
—
节点数
—
边数
—
实际深度
—
解析耗时
⚠️
检测到重复输入
点击查看数据卡片
数据集信息
×