Nhanes临床数据库挖掘实战：从零到一的数据获取与整合-深圳市維司達科技有限公司

1. NHANES数据库入门：为什么选择这个宝藏数据库？

第一次接触NHANES数据库时，我和大多数新手一样感到无从下手。这个由美国CDC维护的国民健康与营养调查数据库，包含了人口统计、体检、实验室检测和问卷调查等海量数据。但真正让我决定深入研究它的原因很简单——在PubMed上随便搜几个临床问题，都能看到大量高质量论文在使用这个数据库。

举个例子，我最近看到一篇关于糖尿病与肺功能关系的论文，作者就是通过分析NHANES数据得出了"血糖水平与肺功能存在非线性关联"的结论。这种基于大规模人群的真实世界数据，比单中心的临床研究更有说服力。而且最棒的是，这些数据完全免费开放！

提示：NHANES数据采用两年为一个收集周期，2007-2008年的数据是最常用的基准数据集之一，因为包含了完整的肺功能检测和糖代谢指标。

2. 数据获取的两种姿势：网页下载 vs R包直连

2.1 官网手动下载：适合数据探索阶段

打开NHANES官网（https://wwwn.cdc.gov/nchs/nhanes/），你会看到数据被分为5大类：

DEMO：人口统计学数据（年龄、性别、种族等）
EXAM：体检数据（血压、肺功能等）
LAB：实验室数据（血糖、血脂等）
DIET：饮食调查
Q：问卷调查数据

以2007-2008周期为例，点击对应年份后，右侧会显示所有可用数据文件。这里有个小技巧：先下载"Documentation"文件夹里的代码本，里面详细说明了每个变量的含义。我曾经因为没有仔细看代码本，把胰岛素单位搞错了，结果分析全白做了...

2.2 nhanesA包：批量下载的利器

对于需要多周期数据的研究，我更推荐使用R的nhanesA包。安装很简单：

install.packages("nhanesA") library(nhanesA)

比如要获取2007-2008年的人口统计数据：

demo_data <- nhanes('DEMO_E')

这个包会自动识别数据周期后缀（_E代表2007-2008），省去了手动匹配的麻烦。实测下载速度比网页快很多，特别是当需要多个数据集时。

3. 实战：复现糖尿病-肺功能研究的数据准备

3.1 确定核心变量清单

根据目标论文，我们需要提取以下变量：

人口统计：年龄、性别、种族、婚姻状况
代谢指标：空腹血糖、糖化血红蛋白、胰岛素
肺功能：FEV1（第一秒用力呼气量）、FVC（用力肺活量）

这些变量分布在不同的数据模块中，需要逐个击破。建议先用Excel做个变量映射表，记录每个变量所在的数据集名称和变量名。我刚开始做的时候没注意整理，结果合并数据时各种混乱。

3.2 分模块数据提取技巧

人口统计数据提取：

demo <- nhanes('DEMO_E') %>% select(SEQN, RIAGENDR, RIDAGEYR, RIDRETH3, DMDMARTL)

实验室数据提取：

# 血糖数据 glu <- nhanes('GLU_E') %>% select(SEQN, LBDGLUSI, LBDINSI) # 糖化血红蛋白 ghb <- nhanes('GHB_E') %>% select(SEQN, LBXGH)

肺功能数据：

spx <- nhanes('SPXRAW_E') %>% select(SEQN, SPXNFEV1, SPXNFVC)

注意：SEQN是每个参与者的唯一ID，所有数据合并都基于这个关键字段。我有次忘记包含这个字段，结果数据完全对不上号...

4. 数据清洗与合并：从原始数据到分析就绪

4.1 缺失值处理实战

NHANES数据中常见缺失值代码：

777：拒绝回答
999：不知道
NA：真实缺失

清洗示例：

demo_clean <- demo %>% mutate( RIAGENDR = ifelse(RIAGENDR == 9, NA, RIAGENDR), RIDAGEYR = ifelse(RIDAGEYR >= 80, 80, RIDAGEYR) # 高龄组截断 )

4.2 多表合并的三种策略

方法1：基础merge函数

merged_data <- merge(demo, glu, by = "SEQN", all = TRUE)

方法2：dplyr的join系列

library(dplyr) full_data <- demo %>% full_join(glu, by = "SEQN") %>% full_join(ghb, by = "SEQN") %>% full_join(spx, by = "SEQN")

方法3：purrr的reduce

library(purrr) data_list <- list(demo, glu, ghb, spx) final_data <- reduce(data_list, full_join, by = "SEQN")

我通常先用full_join保留所有可能的样本，等分析时再根据需求筛选。曾经因为用了inner_join，不小心排除了关键亚组，导致结果偏差。

5. 数据保存与后续分析准备

5.1 保存为CSV

write.csv(final_data, "nhanes_diabetes_lung.csv", row.names = FALSE)

5.2 保存为RDS（保留格式）

saveRDS(final_data, "nhanes_final.rds")

RDS格式会保留因子水平等元数据，下次读取时直接用：

data <- readRDS("nhanes_final.rds")

5.3 创建分析代码本

最后别忘了记录每个变量的来源和处理过程。我习惯用Rmarkdown写个数据字典，包含：

变量名
原始数据集
取值范围
处理逻辑（如截断、转换等）

这个习惯帮我省去了很多后期debug的时间，特别是当需要重新分析或者合作者询问数据处理细节时。

Nhanes临床数据库挖掘实战：从零到一的数据获取与整合