[原创]人工智能竞赛_泰坦尼克生存率预测-编程技术-看雪-安全社区|安全招聘|kanxue.com

[原创]人工智能竞赛_泰坦尼克生存率预测

发表于: 2022-1-6 17:21 28371

[原创]人工智能竞赛_泰坦尼克生存率预测

pureGavin

2022-1-6 17:21

28371

最近搞了个kaggle的比赛，感觉是一个很好的入门的案例，在此记录一下

比赛链接：https://www.kaggle.com/c/titanic

环境：vsCode+jupyter notebook

这道题本身比较基础，比赛题目的意思是需要从train.csv文件中找到乘客生存率与乘客信息之间的关联并进行训练，将训练后的结果对test.csv中的乘客进行预测，判断test表中的乘客的生存几率

train.csv文件内容大致如下图

test.csv内容大致如下图

可以看到test.csv里的乘客少了Servived这一项数据

这是一个简单的二分类任务，因为生存的结果就只有两个，活着和死去（应该是没有既活着又死去的情况吧），我的想法是直接用随机森林来做预测

随机森林是众多二分类模型乃至所有人工智能模型中最简单易懂的模型之一了，随机森林由许多决策树组成，决策树的结构如下图所示

树中的内容并不重要，重要的是数的判断方式，这种判断方式比较符合人类的判断方式，决策树最终会输出一个bool值来表示结果，而随机森林就是将许多个决策树放在一起，并统计最终的结果

因此随机森林模型的结构应当如下图所示

随机森林的优点是不容易过拟合且训练速度很快，缺点也很明显，因为所有特征都会被用作判断标准，所以如果数据中有许多权值不高的特征的话会影响模型的精度

登录后可查看完整内容

[招生]科锐逆向工程师培训(2024年11月15日实地，远程教学同时开班, 第51期)

最后于 2022-1-6 17:23 被pureGavin编辑，原因：错字

#其他

上传的附件：

first-titanic-and-also-kaggle-attempt.ipynb （32.99kb，10次下载）
my-titanic.ipynb （14.50kb，9次下载）
titanic-data-science-solutions.ipynb （228.86kb，12次下载）
test.csv （27.96kb，9次下载）
train.csv （59.76kb，9次下载）

收藏・9

免费・4

支持

最新回复 (15)
有毒雪币： 15191 活跃值： (16857) 能力值： (RANK：730 ) 在线值：发帖 56 回帖 529 粉丝 327 关注私信	有毒 10 2 楼这很有意思啊！ 2022-1-6 17:29 0
pureGavin 雪币： 14539 活跃值： (17553) 能力值： ( LV12，RANK：290 ) 在线值：发帖 84 回帖 1419 粉丝 259 关注私信	pureGavin 3 3 楼有毒这很有意思啊！居然得到毒哥的认可了！ 2022-1-6 17:40 0
有毒雪币： 15191 活跃值： (16857) 能力值： (RANK：730 ) 在线值：发帖 56 回帖 529 粉丝 327 关注私信	有毒 10 4 楼 pureGavin 居然得到毒哥的认可了！别骂了别骂了，这个内容我真的不熟，就觉得很好玩 2022-1-6 19:34 0
obaby 雪币： 14983 活跃值： (5285) 能力值： ( LV15，RANK：880 ) 在线值：发帖 53 回帖 646 粉丝 81 关注私信	obaby 20 5 楼这个我也做过，尝试了不同的方法。不过效果吗，比大神的差远了 2022-1-6 20:12 0
mudebug 雪币： 9044 活跃值： (6260) 能力值： ( LV3，RANK：20 ) 在线值：发帖 9 回帖 308 粉丝 41 关注私信	mudebug 6 楼喜欢这种主题文章 2022-1-7 06:59 0
pureGavin 雪币： 14539 活跃值： (17553) 能力值： ( LV12，RANK：290 ) 在线值：发帖 84 回帖 1419 粉丝 259 关注私信	pureGavin 3 7 楼 obaby 这个我也做过，尝试了不同的方法。不过效果吗，比大神的差远了怎么也不贴一下你的代码，我感觉分数之所以提不上去，就是因为有些与幸存率无关的数据比如passengerID也被当做特征算进去了，随机森林对这种有无关特征的样本就容易过拟合 2022-1-7 09:31 0
obaby 雪币： 14983 活跃值： (5285) 能力值： ( LV15，RANK：880 ) 在线值：发帖 53 回帖 646 粉丝 81 关注私信	obaby 20 8 楼 pureGavin 怎么也不贴一下你的代码，我感觉分数之所以提不上去，就是因为有些与幸存率无关的数据比如passengerID也被当做特征算进去了，随机森林对这种有无关特征的样本就容易过拟合是的，数据清洗和特征选择挺关键的。给的数据本身纬度不少但是缺失数据较多，缺失数据的补充也是个技术活。http://h4ck.org.cn/2019/11/%E5%9F%BA%E4%BA%8Erandomforestclassifier%E7%9A%84titanic%E7%94%9F%E5%AD%98%E6%A6%82%E7%8E%87%E5%88%86%E6%9E%90/ 代码现在手上没有，直接提个我的blog链接吧 2022-1-7 09:53 0
pureGavin 雪币： 14539 活跃值： (17553) 能力值： ( LV12，RANK：290 ) 在线值：发帖 84 回帖 1419 粉丝 259 关注私信	pureGavin 3 9 楼 obaby 是的，数据清洗和特征选择挺关键的。给的数据本身纬度不少但是缺失数据较多，缺失数据的补充也是个技术活。http://h4ck.org.cn/2019/11/%E5%9F%BA%E4%BA%8Erando ... 大佬牛逼，带带我可以吗 2022-1-7 10:26 0
obaby 雪币： 14983 活跃值： (5285) 能力值： ( LV15，RANK：880 ) 在线值：发帖 53 回帖 646 粉丝 81 关注私信	obaby 20 10 楼 pureGavin 大佬牛逼，带带我可以吗大佬，表酱紫~~我也是菜到起飞啊，业余爱好干这个，与实际干这个的水平差的太多了。可不敢害人啊~~ 最后于 2022-1-7 10:31 被obaby编辑，原因： 2022-1-7 10:30 0
1900 雪币： 22413 活跃值： (25361) 能力值： ( LV15，RANK：910 ) 在线值：发帖 95 回帖 162 粉丝 551 关注私信	1900 6 11 楼为啥不用Pytorch或者tf 2022-1-17 09:48 0
pureGavin 雪币： 14539 活跃值： (17553) 能力值： ( LV12，RANK：290 ) 在线值：发帖 84 回帖 1419 粉丝 259 关注私信	pureGavin 3 12 楼 1900 为啥不用Pytorch或者tf 杀鸡焉用牛刀 2022-1-18 09:27 0
月明呀雪币： 663 活跃值： (504) 能力值： ( LV2，RANK：10 ) 在线值：发帖 10 回帖 61 粉丝 1 关注私信	月明呀 13 楼我一直想问下，这是一个中专生的水平？兄弟，方便问下你多大了吗 2022-1-23 13:00 0
pureGavin 雪币： 14539 活跃值： (17553) 能力值： ( LV12，RANK：290 ) 在线值：发帖 84 回帖 1419 粉丝 259 关注私信	pureGavin 3 14 楼月明呀我一直想问下，这是一个中专生的水平？兄弟，方便问下你多大了吗 22，有什么问题么？ 2022-1-24 08:56 0
ugui 雪币： 10 活跃值： (923) 能力值： ( LV2，RANK：10 ) 在线值：发帖 1 回帖 14 粉丝 1 关注私信	ugui 15 楼有自己代码有例子代码挺好的期待后续更多 2022-2-7 11:18 0
pureGavin 雪币： 14539 活跃值： (17553) 能力值： ( LV12，RANK：290 ) 在线值：发帖 84 回帖 1419 粉丝 259 关注私信	pureGavin 3 16 楼 ugui 有自己代码有例子代码挺好的期待后续更多后续不一定能发出来了，一直在搞得北京大学的一个竞赛，自动驾驶的目标识别，感觉问题有点儿大，有部分函数的运算过程看不懂…… 然后现在只能恶补数学知识了 2022-2-9 10:22 0
	游客登录 \| 注册方可回帖回帖表情雪币赚取及消费高级回复

pureGavin

发帖

1419

回帖

290

RANK

关注

私信

他的文章

关于我们

联系我们

企业服务

看雪公众号

最新回复 (15)
有毒雪币： 15191 活跃值： (16857) 能力值： (RANK：730 ) 在线值：发帖 56 回帖 529 粉丝 327 关注私信	有毒 10 2 楼这很有意思啊！ 2022-1-6 17:29 0
pureGavin 雪币： 14539 活跃值： (17553) 能力值： ( LV12，RANK：290 ) 在线值：发帖 84 回帖 1419 粉丝 259 关注私信	pureGavin 3 3 楼有毒这很有意思啊！居然得到毒哥的认可了！ 2022-1-6 17:40 0
有毒雪币： 15191 活跃值： (16857) 能力值： (RANK：730 ) 在线值：发帖 56 回帖 529 粉丝 327 关注私信	有毒 10 4 楼 pureGavin 居然得到毒哥的认可了！别骂了别骂了，这个内容我真的不熟，就觉得很好玩 2022-1-6 19:34 0
obaby 雪币： 14983 活跃值： (5285) 能力值： ( LV15，RANK：880 ) 在线值：发帖 53 回帖 646 粉丝 81 关注私信	obaby 20 5 楼这个我也做过，尝试了不同的方法。不过效果吗，比大神的差远了 2022-1-6 20:12 0
mudebug 雪币： 9044 活跃值： (6260) 能力值： ( LV3，RANK：20 ) 在线值：发帖 9 回帖 308 粉丝 41 关注私信	mudebug 6 楼喜欢这种主题文章 2022-1-7 06:59 0
pureGavin 雪币： 14539 活跃值： (17553) 能力值： ( LV12，RANK：290 ) 在线值：发帖 84 回帖 1419 粉丝 259 关注私信	pureGavin 3 7 楼 obaby 这个我也做过，尝试了不同的方法。不过效果吗，比大神的差远了怎么也不贴一下你的代码，我感觉分数之所以提不上去，就是因为有些与幸存率无关的数据比如passengerID也被当做特征算进去了，随机森林对这种有无关特征的样本就容易过拟合 2022-1-7 09:31 0
obaby 雪币： 14983 活跃值： (5285) 能力值： ( LV15，RANK：880 ) 在线值：发帖 53 回帖 646 粉丝 81 关注私信	obaby 20 8 楼 pureGavin 怎么也不贴一下你的代码，我感觉分数之所以提不上去，就是因为有些与幸存率无关的数据比如passengerID也被当做特征算进去了，随机森林对这种有无关特征的样本就容易过拟合是的，数据清洗和特征选择挺关键的。给的数据本身纬度不少但是缺失数据较多，缺失数据的补充也是个技术活。http://h4ck.org.cn/2019/11/%E5%9F%BA%E4%BA%8Erandomforestclassifier%E7%9A%84titanic%E7%94%9F%E5%AD%98%E6%A6%82%E7%8E%87%E5%88%86%E6%9E%90/ 代码现在手上没有，直接提个我的blog链接吧 2022-1-7 09:53 0
pureGavin 雪币： 14539 活跃值： (17553) 能力值： ( LV12，RANK：290 ) 在线值：发帖 84 回帖 1419 粉丝 259 关注私信	pureGavin 3 9 楼 obaby 是的，数据清洗和特征选择挺关键的。给的数据本身纬度不少但是缺失数据较多，缺失数据的补充也是个技术活。http://h4ck.org.cn/2019/11/%E5%9F%BA%E4%BA%8Erando ... 大佬牛逼，带带我可以吗 2022-1-7 10:26 0
obaby 雪币： 14983 活跃值： (5285) 能力值： ( LV15，RANK：880 ) 在线值：发帖 53 回帖 646 粉丝 81 关注私信	obaby 20 10 楼 pureGavin 大佬牛逼，带带我可以吗大佬，表酱紫~~我也是菜到起飞啊，业余爱好干这个，与实际干这个的水平差的太多了。可不敢害人啊~~ 最后于 2022-1-7 10:31 被obaby编辑，原因： 2022-1-7 10:30 0
1900 雪币： 22413 活跃值： (25361) 能力值： ( LV15，RANK：910 ) 在线值：发帖 95 回帖 162 粉丝 551 关注私信	1900 6 11 楼为啥不用Pytorch或者tf 2022-1-17 09:48 0
pureGavin 雪币： 14539 活跃值： (17553) 能力值： ( LV12，RANK：290 ) 在线值：发帖 84 回帖 1419 粉丝 259 关注私信	pureGavin 3 12 楼 1900 为啥不用Pytorch或者tf 杀鸡焉用牛刀 2022-1-18 09:27 0
月明呀雪币： 663 活跃值： (504) 能力值： ( LV2，RANK：10 ) 在线值：发帖 10 回帖 61 粉丝 1 关注私信	月明呀 13 楼我一直想问下，这是一个中专生的水平？兄弟，方便问下你多大了吗 2022-1-23 13:00 0
pureGavin 雪币： 14539 活跃值： (17553) 能力值： ( LV12，RANK：290 ) 在线值：发帖 84 回帖 1419 粉丝 259 关注私信	pureGavin 3 14 楼月明呀我一直想问下，这是一个中专生的水平？兄弟，方便问下你多大了吗 22，有什么问题么？ 2022-1-24 08:56 0
ugui 雪币： 10 活跃值： (923) 能力值： ( LV2，RANK：10 ) 在线值：发帖 1 回帖 14 粉丝 1 关注私信	ugui 15 楼有自己代码有例子代码挺好的期待后续更多 2022-2-7 11:18 0
pureGavin 雪币： 14539 活跃值： (17553) 能力值： ( LV12，RANK：290 ) 在线值：发帖 84 回帖 1419 粉丝 259 关注私信	pureGavin 3 16 楼 ugui 有自己代码有例子代码挺好的期待后续更多后续不一定能发出来了，一直在搞得北京大学的一个竞赛，自动驾驶的目标识别，感觉问题有点儿大，有部分函数的运算过程看不懂…… 然后现在只能恶补数学知识了 2022-2-9 10:22 0
	游客登录 \| 注册方可回帖回帖表情雪币赚取及消费高级回复