news 2026/6/19 6:46:05

CGCNN数据集制作全攻略:CIF文件与id_prop.csv格式详解

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
CGCNN数据集制作全攻略:CIF文件与id_prop.csv格式详解

CGCNN数据集制作全攻略:CIF文件与id_prop.csv格式详解

【免费下载链接】cgcnnCrystal graph convolutional neural networks for predicting material properties.项目地址: https://gitcode.com/gh_mirrors/cg/cgcnn

想要使用CGCNN(Crystal Graph Convolutional Neural Networks)进行材料性质预测?数据集准备是关键第一步!🎯 本文将为你详细解析CGCNN数据集的完整制作流程,特别是CIF文件和id_prop.csv格式的规范要求。

🔍 CGCNN数据集结构总览

CGCNN是一个强大的晶体图卷积神经网络工具,专为预测材料性质而设计。要使用它,你需要准备一个标准格式的数据集。数据集目录结构如下:

你的数据集目录/ ├── id_prop.csv # 核心属性文件 ├── atom_init.json # 原子初始化文件 ├── 1000041.cif # CIF晶体结构文件 ├── 1000050.cif # CIF晶体结构文件 └── ... # 更多CIF文件

📊 id_prop.csv文件格式详解

id_prop.csv是CGCNN数据集的核心配置文件,它建立了晶体结构与目标属性之间的对应关系。

基本格式要求

这是一个简单的两列CSV文件,没有任何表头:

1000041,1.0 1000050,2.0 1101051,3.0 1507756,4.0

列说明

列名数据类型说明
第一列字符串或整数晶体唯一标识符(ID)
第二列浮点数或整数目标属性值

实际应用示例

回归任务示例(data/sample-regression/id_prop.csv):

1000041,1.0 1000050,2.0 1101051,3.0 1507756,4.0 7206075,5.0

分类任务示例(data/sample-classification/id_prop.csv):

1000041,1 1000050,0 1101051,1 1507756,0

🏗️ CIF文件格式解析

CIF(Crystallographic Information File)是晶体学信息文件,用于描述晶体结构。每个CIF文件对应一个晶体样本。

CIF文件关键部分

典型的CIF文件包含以下重要信息:

data_1000041 _cell_length_a 5.62 _cell_length_b 5.62 _cell_length_c 5.62 _cell_angle_alpha 90 _cell_angle_beta 90 _cell_angle_gamma 90 _chemical_formula_sum 'Cl Na' _space_group_IT_number 225 loop_ _atom_site_label _atom_site_type_symbol _atom_site_fract_x _atom_site_fract_y _atom_site_fract_z Na1 Na 0.000 0.000 0.000 Cl1 Cl 0.500 0.500 0.500

命名规范

  • 文件名必须与id_prop.csv中的ID完全一致
  • 使用.cif作为文件扩展名
  • 示例:ID为1000041的晶体对应文件名为1000041.cif

🛠️ atom_init.json文件说明

atom_init.json文件为每个元素提供初始化向量,通常使用项目提供的默认文件即可。

文件位置

  • 示例文件:data/sample-regression/atom_init.json
  • 包含92种元素的特征向量(对应原子序数1-92)

使用建议

对于大多数应用,直接使用项目提供的atom_init.json文件即可,无需修改。

📝 数据集制作完整流程

步骤1:收集晶体结构数据

  1. 从Materials Project、COD等数据库下载CIF文件
  2. 确保每个晶体有唯一的标识符

步骤2:准备属性数据

  1. 整理每个晶体的目标属性(如形成能、带隙等)
  2. 创建id_prop.csv文件

步骤3:组织文件结构

  1. 创建数据集目录
  2. 将所有CIF文件放入该目录
  3. 复制atom_init.json文件到目录中
  4. 将id_prop.csv放入目录

步骤4:验证数据集

  1. 检查所有CIF文件能否被pymatgen正确读取
  2. 验证id_prop.csv中每个ID都有对应的CIF文件
  3. 确保文件命名一致

💡 实用技巧与注意事项

1. 数据集规模建议

  • 训练集:至少100个样本可获得较好效果
  • 验证集:建议占总数据10-20%
  • 测试集:建议占总数据10-20%

2. 常见问题解决

问题:找不到足够邻居构建图解决:在data.py中调整radius参数(默认8Å)

问题:CIF文件读取失败解决:确保CIF文件格式标准,使用pymatgen验证

3. 高级配置选项

在CGCNN的CIFData类中,可以调整以下参数:

参数默认值说明
max_num_nbr12每个原子的最大邻居数
radius8.0邻居搜索半径(Å)
dmin0高斯距离最小值
step0.2高斯距离步长

🚀 快速开始示例

假设你已经准备好了数据集,以下是使用CGCNN的简单步骤:

  1. 克隆仓库

    git clone https://gitcode.com/gh_mirrors/cg/cgcnn cd cgcnn
  2. 准备环境

    conda create -n cgcnn python=3 scikit-learn pytorch torchvision pymatgen -c pytorch -c conda-forge conda activate cgcnn
  3. 训练模型

    python main.py --train-size 6 --val-size 2 --test-size 2 data/sample-regression

📈 应用场景与扩展

回归任务

  • 材料形成能预测
  • 弹性模量计算
  • 带隙预测

分类任务

  • 金属/半导体分类
  • 晶体结构类型识别
  • 材料稳定性判断

🔗 相关资源

  • 官方文档:cgcnn/data.py - 数据集加载实现
  • 示例数据:data/sample-regression/ - 回归任务示例
  • 示例数据:data/sample-classification/ - 分类任务示例

✅ 总结

掌握CGCNN数据集制作是成功应用该模型的关键。记住三个核心文件:id_prop.csvatom_init.json*.cif文件。按照本文的指南,你可以轻松准备自己的材料数据集,开始材料性质预测的探索之旅!🚀

无论你是材料科学研究者还是机器学习爱好者,正确的数据集格式都是获得准确预测结果的基础。现在就开始准备你的第一个CGCNN数据集吧!

【免费下载链接】cgcnnCrystal graph convolutional neural networks for predicting material properties.项目地址: https://gitcode.com/gh_mirrors/cg/cgcnn

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/19 6:43:15

Narou.rb:日本网络小说下载与管理的终极解决方案

Narou.rb:日本网络小说下载与管理的终极解决方案 【免费下载链接】narou Narou.rb - 小説家になろうのダウンローダ&縦書き整形&管理アプリ。Kindle(などの電子書籍端末)でなろうを読む場合に超便利です! …

作者头像 李华
网站建设 2026/6/19 6:43:03

MGT5100时序与电气规格解析:硬件稳定性的设计基石

1. 项目概述与核心价值在嵌入式硬件开发领域,尤其是涉及复杂系统级芯片(SoC)或通信处理器时,最让工程师头疼的往往不是算法逻辑,而是那些密密麻麻的时序图和电气参数表。我见过太多项目,软件跑得飞起&#…

作者头像 李华
网站建设 2026/6/19 6:37:23

洛雪音乐免费音源终极配置指南:解锁全网无损音乐的完整教程

洛雪音乐免费音源终极配置指南:解锁全网无损音乐的完整教程 【免费下载链接】lxmusic- lxmusic(洛雪音乐)全网最新最全音源 项目地址: https://gitcode.com/gh_mirrors/lx/lxmusic- 还在为各大音乐平台的会员费用而烦恼吗?想要免费享受高品质的无…

作者头像 李华
网站建设 2026/6/19 6:33:01

ERPNext开源ERP完整教程:中小企业如何零成本实现数字化转型

ERPNext开源ERP完整教程:中小企业如何零成本实现数字化转型 【免费下载链接】erpnext Free and Open Source Enterprise Resource Planning (ERP) 项目地址: https://gitcode.com/GitHub_Trending/er/erpnext 还在为昂贵的商业ERP软件而烦恼吗?ER…

作者头像 李华
网站建设 2026/6/19 6:28:00

CANN/asc-devkit:BRCB矢量计算函数

asc_brcb 【免费下载链接】asc-devkit 本项目是CANN 推出的昇腾AI处理器专用的算子程序开发语言,原生支持C和C标准规范,主要由类库和语言扩展层构成,提供多层级API,满足多维场景算子开发诉求。 项目地址: https://gitcode.com/c…

作者头像 李华
网站建设 2026/6/19 6:20:56

如何快速构建智能标注系统:OpenMMLab MMPose的完整指南

如何快速构建智能标注系统:OpenMMLab MMPose的完整指南 【免费下载链接】mmpose OpenMMLab Pose Estimation Toolbox and Benchmark. 项目地址: https://gitcode.com/GitHub_Trending/mm/mmpose 在计算机视觉领域,人体姿态估计已成为AI技术的重要…

作者头像 李华