首页
社区
课程
招聘
[原创]人工智能竞赛_泰坦尼克生存率预测
发表于: 2022-1-6 17:21 28371

[原创]人工智能竞赛_泰坦尼克生存率预测

2022-1-6 17:21
28371

最近搞了个kaggle的比赛,感觉是一个很好的入门的案例,在此记录一下

比赛链接:https://www.kaggle.com/c/titanic

环境:vsCode+jupyter notebook


这道题本身比较基础,比赛题目的意思是需要从train.csv文件中找到乘客生存率与乘客信息之间的关联并进行训练,将训练后的结果对test.csv中的乘客进行预测,判断test表中的乘客的生存几率

train.csv文件内容大致如下图

test.csv内容大致如下图

可以看到test.csv里的乘客少了Servived这一项数据


这是一个简单的二分类任务,因为生存的结果就只有两个,活着和死去(应该是没有既活着又死去的情况吧),我的想法是直接用随机森林来做预测

随机森林是众多二分类模型乃至所有人工智能模型中最简单易懂的模型之一了,随机森林由许多决策树组成,决策树的结构如下图所示

树中的内容并不重要,重要的是数的判断方式,这种判断方式比较符合人类的判断方式,决策树最终会输出一个bool值来表示结果,而随机森林就是将许多个决策树放在一起,并统计最终的结果

因此随机森林模型的结构应当如下图所示

随机森林的优点是不容易过拟合且训练速度很快,缺点也很明显,因为所有特征都会被用作判断标准,所以如果数据中有许多权值不高的特征的话会影响模型的精度


[招生]科锐逆向工程师培训(2024年11月15日实地,远程教学同时开班, 第51期)

最后于 2022-1-6 17:23 被pureGavin编辑 ,原因: 错字
上传的附件:
收藏
免费 4
支持
分享
最新回复 (15)
雪    币: 15191
活跃值: (16857)
能力值: (RANK:730 )
在线值:
发帖
回帖
粉丝
2
这很有意思啊!
2022-1-6 17:29
0
雪    币: 14539
活跃值: (17553)
能力值: ( LV12,RANK:290 )
在线值:
发帖
回帖
粉丝
3
有毒 这很有意思啊!
居然得到毒哥的认可了!
2022-1-6 17:40
0
雪    币: 15191
活跃值: (16857)
能力值: (RANK:730 )
在线值:
发帖
回帖
粉丝
4
pureGavin 居然得到毒哥的认可了!
别骂了别骂了,这个内容我真的不熟,就觉得很好玩
2022-1-6 19:34
0
雪    币: 14983
活跃值: (5285)
能力值: ( LV15,RANK:880 )
在线值:
发帖
回帖
粉丝
5

这个我也做过,尝试了不同的方法。不过效果吗,比大神的差远了

2022-1-6 20:12
0
雪    币: 9044
活跃值: (6260)
能力值: ( LV3,RANK:20 )
在线值:
发帖
回帖
粉丝
6
喜欢这种主题文章
2022-1-7 06:59
0
雪    币: 14539
活跃值: (17553)
能力值: ( LV12,RANK:290 )
在线值:
发帖
回帖
粉丝
7
obaby 这个我也做过,尝试了不同的方法。不过效果吗,比大神的差远了
怎么也不贴一下你的代码,我感觉分数之所以提不上去,就是因为有些与幸存率无关的数据比如passengerID也被当做特征算进去了,随机森林对这种有无关特征的样本就容易过拟合
2022-1-7 09:31
0
雪    币: 14983
活跃值: (5285)
能力值: ( LV15,RANK:880 )
在线值:
发帖
回帖
粉丝
8
pureGavin 怎么也不贴一下你的代码,我感觉分数之所以提不上去,就是因为有些与幸存率无关的数据比如passengerID也被当做特征算进去了,随机森林对这种有无关特征的样本就容易过拟合
是的,数据清洗和特征选择挺关键的。给的数据本身纬度不少但是缺失数据较多,缺失数据的补充也是个技术活。http://h4ck.org.cn/2019/11/%E5%9F%BA%E4%BA%8Erandomforestclassifier%E7%9A%84titanic%E7%94%9F%E5%AD%98%E6%A6%82%E7%8E%87%E5%88%86%E6%9E%90/ 代码现在手上没有,直接提个我的blog链接吧
2022-1-7 09:53
0
雪    币: 14539
活跃值: (17553)
能力值: ( LV12,RANK:290 )
在线值:
发帖
回帖
粉丝
9
obaby 是的,数据清洗和特征选择挺关键的。给的数据本身纬度不少但是缺失数据较多,缺失数据的补充也是个技术活。http://h4ck.org.cn/2019/11/%E5%9F%BA%E4%BA%8Erando ...
大佬牛逼,带带我可以吗
2022-1-7 10:26
0
雪    币: 14983
活跃值: (5285)
能力值: ( LV15,RANK:880 )
在线值:
发帖
回帖
粉丝
10
pureGavin 大佬牛逼,带带我可以吗

大佬,表酱紫~~我也是菜到起飞啊,业余爱好干这个,与实际干这个的水平差的太多了。可不敢害人啊~~

最后于 2022-1-7 10:31 被obaby编辑 ,原因:
2022-1-7 10:30
0
雪    币: 22413
活跃值: (25361)
能力值: ( LV15,RANK:910 )
在线值:
发帖
回帖
粉丝
11
为啥不用Pytorch或者tf
2022-1-17 09:48
0
雪    币: 14539
活跃值: (17553)
能力值: ( LV12,RANK:290 )
在线值:
发帖
回帖
粉丝
12
1900 为啥不用Pytorch或者tf
杀鸡焉用牛刀
2022-1-18 09:27
0
雪    币: 663
活跃值: (504)
能力值: ( LV2,RANK:10 )
在线值:
发帖
回帖
粉丝
13
我一直想问下,这是一个中专生的水平?兄弟,方便问下你多大了吗
2022-1-23 13:00
0
雪    币: 14539
活跃值: (17553)
能力值: ( LV12,RANK:290 )
在线值:
发帖
回帖
粉丝
14
月明呀 我一直想问下,这是一个中专生的水平?兄弟,方便问下你多大了吗
22,有什么问题么?
2022-1-24 08:56
0
雪    币: 10
活跃值: (923)
能力值: ( LV2,RANK:10 )
在线值:
发帖
回帖
粉丝
15
有自己代码 有例子代码 挺好的 期待后续更多
2022-2-7 11:18
0
雪    币: 14539
活跃值: (17553)
能力值: ( LV12,RANK:290 )
在线值:
发帖
回帖
粉丝
16
ugui 有自己代码 有例子代码 挺好的 期待后续更多
后续不一定能发出来了,一直在搞得北京大学的一个竞赛,自动驾驶的目标识别,感觉问题有点儿大,有部分函数的运算过程看不懂…… 然后现在只能恶补数学知识了
2022-2-9 10:22
0
游客
登录 | 注册 方可回帖
返回
//