别再混淆DDF和NDDF了！用Python实例详解方向距离函数在绿色全要素生产率测算中的选择与应用-深圳市維司達科技有限公司

用Python实战解析DDF与NDDF：绿色全要素生产率测算的核心差异与选择策略

在效率测算与绿色生产率研究领域，方向距离函数(DDF)与非径向方向距离函数(NDDF)是两种广泛应用的方法论工具。许多刚接触该领域的研究者常将二者混为一谈，导致模型选择不当或结果解读偏差。本文将通过Python代码实例，深入剖析两种方法的数学本质、适用场景与操作差异，帮助读者根据具体研究目标做出明智选择。

1. 方向距离函数的基础原理与核心差异

1.1 数学形式对比

DDF（方向距离函数）采用径向测度方式，所有投入产出项按相同比例调整。其标准形式可表示为：

# DDF数学表达式伪代码 def DDF(inputs, outputs, g): beta = uniform_scaling_factor # 统一缩放系数 projected_inputs = inputs - beta * g_inputs projected_outputs = outputs + beta * g_outputs return efficiency_score

而NDDF（非径向方向距离函数）则允许不同投入产出项有差异化调整比例，更符合现实经济系统中各要素灵活变动的特点：

# NDDF数学表达式伪代码 def NDDF(inputs, outputs, g): beta_x = [variable_scaling_factors] # 差异化缩放系数数组 projected_inputs = inputs - beta_x * g_inputs projected_outputs = outputs + beta_y * g_outputs return efficiency_score

关键差异可通过下表直观对比：

特征	DDF	NDDF
调整方式	径向（比例统一）	非径向（比例独立）
方向向量约束	严格方向一致性	允许方向权重差异
适用场景	均衡调整需求	非均衡调整需求
结果解释	单一效率值	多维效率分解

1.2 弱可处置性处理差异

在环境污染与能源消耗分析中，"弱可处置性"（Weak Disposability）假设至关重要——即减少污染排放需要以牺牲部分产出为代价。两种模型对此的处理方式截然不同：

DDF实现：通过联立方程约束投入产出关系
NDDF实现：可直接在方向向量中设置非对称权重

# 弱可处置性在NDDF中的Python实现示例 weight_vector = [0.1, 0.1, 0.3, 0.5] # 污染排放权重更高 directional_factor = [0, 0, 1, -1] # 投入减少，污染排放减少

2. Python实战：从数据准备到模型求解

2.1 数据预处理规范

使用Pandas进行数据标准化处理是确保结果可靠的关键步骤：

import pandas as pd from sklearn.preprocessing import MinMaxScaler def preprocess_data(inputs, outputs, bad_outputs): # 合并所有维度数据 full_data = pd.concat([inputs, outputs, bad_outputs], axis=1) # 归一化处理（避免量纲影响） scaler = MinMaxScaler() normalized_data = pd.DataFrame( scaler.fit_transform(full_data), columns=full_data.columns ) # 拆分回原始结构 n_inputs = normalized_data.iloc[:, :inputs.shape[1]] n_outputs = normalized_data.iloc[:, inputs.shape[1]:inputs.shape[1]+outputs.shape[1]] n_bad_outputs = normalized_data.iloc[:, inputs.shape[1]+outputs.shape[1]:] return n_inputs, n_outputs, n_bad_outputs

注意：能源投入与污染排放数据建议保留原始单位，仅在模型求解前进行标准化，最终结果需转换回原始量纲解释。

2.2 模型求解核心代码

基于PuLP库构建NDDF模型的完整实现：

import pulp class NDDFModel: def __init__(self, inputs, outputs, bad_outputs, weights): self.inputs = inputs.values self.outputs = outputs.values self.bad_outputs = bad_outputs.values self.weights = weights self.n_dmus, self.n_inputs = inputs.shape _, self.n_outputs = outputs.shape _, self.n_bad = bad_outputs.shape def solve(self): results = [] for dmu in range(self.n_dmus): prob = pulp.LpProblem(f"NDDF_DMU_{dmu}", pulp.LpMaximize) # 定义变量 lambdas = pulp.LpVariable.dicts("lambda", range(self.n_dmus), lowBound=0) betas_x = pulp.LpVariable.dicts("beta_x", range(self.n_inputs), lowBound=0) betas_y = pulp.LpVariable.dicts("beta_y", range(self.n_outputs), lowBound=0) betas_b = pulp.LpVariable.dicts("beta_b", range(self.n_bad), lowBound=0) # 设置目标函数 prob += pulp.lpSum( [self.weights[i] * betas_x[i] for i in range(self.n_inputs)] + [self.weights[self.n_inputs + r] * betas_y[r] for r in range(self.n_outputs)] + [self.weights[self.n_inputs + self.n_outputs + s] * betas_b[s] for s in range(self.n_bad)] ) # 添加约束条件 for i in range(self.n_inputs): prob += pulp.lpSum( [lambdas[j] * self.inputs[j][i] for j in range(self.n_dmus)] ) <= self.inputs[dmu][i] - betas_x[i] * self.inputs[dmu][i] for r in range(self.n_outputs): prob += pulp.lpSum( [lambdas[j] * self.outputs[j][r] for j in range(self.n_dmus)] ) >= self.outputs[dmu][r] + betas_y[r] * self.outputs[dmu][r] for s in range(self.n_bad): prob += pulp.lpSum( [lambdas[j] * self.bad_outputs[j][s] for j in range(self.n_dmus)] ) == self.bad_outputs[dmu][s] - betas_b[s] * self.bad_outputs[dmu][s] # 求解 prob.solve() # 存储结果 results.append({ 'efficiency': pulp.value(prob.objective), 'betas_x': [betas_x[i].varValue for i in range(self.n_inputs)], 'betas_y': [betas_y[r].varValue for r in range(self.n_outputs)], 'betas_b': [betas_b[s].varValue for s in range(self.n_bad)], 'status': pulp.LpStatus[prob.status] }) return pd.DataFrame(results)

3. 方向向量的策略设置与政策模拟

3.1 能源节约与污染减排的不同侧重

通过调整方向向量权重，可使模型适应不同的政策研究需求：

# 侧重能源节约的权重设置 energy_saving_weights = [0.4, 0.4, 0.2] # 能源投入权重较高 # 侧重污染减排的权重设置 pollution_reduction_weights = [0.2, 0.2, 0.6] # 污染排放权重较高

实际应用中常见的三种方向向量配置方案：

均衡型：[1,1,1,1,1,1]（所有要素同等重要）
产出导向型：[0,0,0,1,0,0]（仅考虑期望产出扩张）
环保约束型：[0,0,1,0,1,1]（重点优化能源与污染指标）

3.2 结果可视化与分析

使用Matplotlib进行效率值的多维度比较：

import matplotlib.pyplot as plt def plot_efficiency_comparison(ddf_results, nddf_results): fig, ax = plt.subplots(figsize=(10, 6)) indices = range(len(ddf_results)) ax.plot(indices, ddf_results['efficiency'], 'b-', label='DDF') ax.plot(indices, nddf_results['efficiency'], 'r--', label='NDDF') ax.set_xlabel('DMU Index') ax.set_ylabel('Efficiency Score') ax.set_title('DDF vs NDDF Efficiency Comparison') ax.legend() ax.grid(True) plt.show()

4. 研究场景匹配与模型选择指南

4.1 适用场景决策矩阵

研究特征	推荐模型	理由
要素调整比例需一致	DDF	如研究资本-劳动替代关系等均衡调整问题
存在明显要素异质性	NDDF	如能源/污染/劳动等要素的调整弹性不同
政策模拟需要灵活权重	NDDF	可针对特定政策目标（如碳减排）定制方向向量
大数据集快速计算需求	DDF	计算复杂度较低，适合初步筛查
需要细分效率来源	NDDF	可分解各要素的贡献度

4.2 常见误区与解决方案

误区1：认为NDDF总是优于DDF

解决方案：对于要素同质性强的场景，DDF反而能提供更稳定的估计

误区2：忽视方向向量的经济含义

解决方案：每次分析前明确方向向量的政策对应关系，例如：
- [0,0,1,0,1,1]对应"节能减排"政策情景
- [1,1,0,1,0,0]对应"经济增长优先"情景

误区3：直接比较两种模型的效率值大小

解决方案：关注效率排序而非绝对值，或使用Malmquist-Luenberger指数进行跨期比较

在实际研究过程中，建议采用以下验证流程确保模型可靠性：

先用DDF进行基准分析
使用NDDF进行要素敏感性测试
比较两种模型的结果差异点
结合领域知识解释差异来源

5. 前沿扩展与混合方法实践

对于需要兼顾径向与非径向优势的研究，可考虑以下混合策略：

class HybridModel: def __init__(self, inputs, outputs, radial_vars, non_radial_vars): self.radial_vars = radial_vars # 需要径向处理的变量索引 self.non_radial_vars = non_radial_vars # 需要非径向处理的变量索引 def build_model(self): # 创建混合目标函数 objective = pulp.lpSum( [self.weights[i] * beta for i in self.radial_vars] + # 径向部分 [self.weights[j] * beta_j for j in self.non_radial_vars] # 非径向部分 ) # 添加对应约束条件...

典型应用场景包括：