R中使用Dplyr重命名以及一个老套的回归模型_天天讯息


【资料图】

同样来自哥大的工程课程machine learning,这是一堂由IBM的首席研究员讲授的机器学习课程。

头图是谐音烂梗,2017年学校附近的小破电影院重映了Emma Watson的 Regression(中文叫做回溯迷踪,电影老套又平庸),我们这次使用的模型也叫做Regression。。。

背景:研究即将接受根治性前列腺切除术的男性前列腺特异性抗原水平与一些临床指标之间的相关性 (拜托,这种数据超硬核的好不好)。

该数据集来自斯坦福大学的Stamey et al. (1989)

data:https://statweb.stanford.edu/~tibs/ElemStatLearn/datasets/prostate.data

description:https://statweb.stanford.edu/~tibs/ElemStatLearn/datasets/prostate.info.txt

变量包括对数癌症体积(lcavol)、对数前列腺重量(lweight)、年龄、良性前列腺增生量(lbph)、精囊浸润(svi)、包膜穿透率(lcp)、Gleason评分(Gleason)和Gleason分数4或5的百分比(pgg45)。(注意:svi是一个二元变量,gleason是一个有序分类变量)

现在让我们扩充第2到9列的数据,因为第一列是观测ID没啥意义,第10列是“训练集”标识也没啥意义。我们现在需要将数据进行组合,以生成合格的训练和测试数据集。

要小心,因为R的Dply包中的重命名函数很容易出错。我们需要给组合的列9一个名称,使其成为我们的因变量。当我们将数据集组合为data frame这一格式时,名称“V9”自动分配给第9列,这还挺方便。

如果我们跳过函数“as.data.frame”,则列9没有名称(null),Dply的重命名函数将崩溃。后续就是老套的回归训练啦,这里不做展开。

推荐DIY文章
当前热点-从场景出发 耳机选购指南
电脑上无法登录微信怎么办?可以先退出电脑微信登录页面这样操作 世界观速讯
世界时讯:笔记本电脑开机没声音怎么解决 你只需重新加载声卡驱动
手机文件夹怎么加密码 还不知道的小伙伴赶快来这里看看 天天即时
番茄花园xp美化版系统官网下载 有需要的网友可以下载安装|当前报道
全球视讯!电脑花屏是什么原因?电脑花屏的修复方法 希望大家可以解决问题
精彩新闻

超前放送