news 2026/4/23 13:42:37

Day26 复习日

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
Day26 复习日

@浙大疏锦行

kaggle参与比赛注意事项:

仅可使用官方提供的数据集,在平台内完成数据预处理且不得修改数据集结构,提交文件需为仅含指定列的 CSV 格式,遵守每日提交次数限制;代码需使用平台支持的库、包含完整可复现流程且为原创,禁止抄袭或依赖外部缓存、已训练模型权重,个人参赛不可与他人协作共享代码或结果,同时需确保提交文件大小符合限制,模型训练目标需与竞赛评估指标一致。

参与比赛代码:

# 1. 导入必要库 import pandas as pd import numpy as np from sklearn.model_selection import train_test_split from sklearn.ensemble import RandomForestClassifier from sklearn.impute import SimpleImputer from sklearn.preprocessing import OneHotEncoder from sklearn.compose import ColumnTransformer from sklearn.pipeline import Pipeline from sklearn.metrics import accuracy_score # 2. 加载数据集 train_data = pd.read_csv('/kaggle/input/titanic/train.csv') test_data = pd.read_csv('/kaggle/input/titanic/test.csv') submission_template = pd.read_csv('/kaggle/input/titanic/gender_submission.csv') # 3. 分离特征与标签(训练集) X = train_data.drop(['Survived', 'PassengerId', 'Name', 'Ticket', 'Cabin'], axis=1) # 剔除无关特征 y = train_data['Survived'] test_passenger_ids = test_data['PassengerId'] # 保存测试集ID用于提交 X_test = test_data.drop(['PassengerId', 'Name', 'Ticket', 'Cabin'], axis=1) # 测试集特征处理 # 4. 定义预处理流程(处理缺失值+编码分类特征) # 分类特征:Sex, Embarked;数值特征:Pclass, Age, SibSp, Parch, Fare categorical_features = ['Sex', 'Embarked'] numerical_features = ['Pclass', 'Age', 'SibSp', 'Parch', 'Fare'] # 数值特征预处理:用中位数填充缺失值 numerical_transformer = SimpleImputer(strategy='median') # 分类特征预处理:用最频繁值填充缺失值+独热编码 categorical_transformer = Pipeline(steps=[ ('imputer', SimpleImputer(strategy='most_frequent')), ('onehot', OneHotEncoder(handle_unknown='ignore')) # 忽略测试集未出现的分类值 ]) # 整合预处理流程 preprocessor = ColumnTransformer( transformers=[ ('num', numerical_transformer, numerical_features), ('cat', categorical_transformer, categorical_features) ]) # 5. 构建模型管道(预处理+训练) model = Pipeline(steps=[ ('preprocessor', preprocessor), ('classifier', RandomForestClassifier(n_estimators=100, random_state=42)) # 随机森林模型 ]) # 6. 训练模型(可拆分验证集评估效果) X_train, X_val, y_train, y_val = train_test_split(X, y, test_size=0.2, random_state=42) model.fit(X_train, y_train) # 验证集评估(可选,用于优化模型) y_val_pred = model.predict(X_val) val_accuracy = accuracy_score(y_val, y_val_pred) print(f"验证集准确率:{val_accuracy:.4f}") # 7. 用完整训练集重新训练(提升模型泛化能力) model.fit(X, y) # 8. 测试集预测 y_test_pred = model.predict(X_test) # 9. 生成提交文件 submission = pd.DataFrame({ 'PassengerId': test_passenger_ids, 'Survived': y_test_pred }) # 保存提交文件(Kaggle会自动识别该路径下的文件用于提交) submission.to_csv('/kaggle/working/titanic_submission.csv', index=False) print("提交文件生成完成!") print(submission.head()) # 查看前5行确认格式正确
版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/23 10:46:51

Spotify下载器完全指南:打造个人永久音乐库

Spotify下载器完全指南:打造个人永久音乐库 【免费下载链接】spotify-downloader Download your Spotify playlists and songs along with album art and metadata (from YouTube if a match is found). 项目地址: https://gitcode.com/gh_mirrors/spotifydownlo/…

作者头像 李华
网站建设 2026/4/22 15:29:08

OpenRGB终极指南:告别臃肿软件,一键掌控所有RGB设备

OpenRGB终极指南:告别臃肿软件,一键掌控所有RGB设备 【免费下载链接】OpenRGB Open source RGB lighting control that doesnt depend on manufacturer software. Supports Windows, Linux, MacOS. Mirror of https://gitlab.com/CalcProgrammer1/OpenRG…

作者头像 李华
网站建设 2026/4/23 10:43:46

快速理解ESP32与OneNet云平台MQTT通信机制

从零构建物联网通信链路:ESP32与OneNet的MQTT实战解析 你有没有遇到过这样的场景? 手里的温湿度传感器已经接好,代码也烧录进ESP32了,Wi-Fi连上了,串口也在不停打印数据——但当你打开OneNet平台的设备页面时&#x…

作者头像 李华
网站建设 2026/4/23 12:13:24

OpenRGB终极指南:一站式统一控制所有RGB设备灯效

还在为不同品牌的RGB设备需要安装多个控制软件而烦恼吗?华硕、雷蛇、海盗船各自为政的时代即将结束!OpenRGB开源项目通过逆向工程实现了跨平台、跨厂商的统一RGB灯光控制,让你彻底告别软件冲突和资源浪费。无论你使用Windows、Linux还是MacOS…

作者头像 李华
网站建设 2026/4/18 23:16:30

csdn官网直播授课讲解IndexTTS2部署实战

IndexTTS2 部署实战:从零构建高自然度中文语音合成系统 在智能语音助手、有声读物平台和数字人应用日益普及的今天,用户对语音输出的“拟人感”提出了更高要求。机械朗读早已无法满足需求,大家期待的是富有情感、语调自然、甚至能模仿特定说…

作者头像 李华
网站建设 2026/4/23 10:48:25

SD-XL Refiner 1.0 图像优化神器:让你的AI图片秒变专业级

你是否曾经对着AI生成的图片摇头叹息?明明提示词写得很好,但出来的图片总是差那么点意思——细节模糊、质感粗糙、整体感觉不够专业?别担心,今天我要向你介绍一个能让你的AI图片瞬间升级的秘密武器:SD-XL Refiner 1.0&…

作者头像 李华