【资料图】
同样来自哥大的工程课程machine learning,这是一堂由IBM的首席研究员讲授的机器学习课程。
头图是谐音烂梗,2017年学校附近的小破电影院重映了Emma Watson的 Regression(中文叫做回溯迷踪,电影老套又平庸),我们这次使用的模型也叫做Regression。。。
背景:研究即将接受根治性前列腺切除术的男性前列腺特异性抗原水平与一些临床指标之间的相关性 (拜托,这种数据超硬核的好不好)。
该数据集来自斯坦福大学的Stamey et al. (1989)
data:https://statweb.stanford.edu/~tibs/ElemStatLearn/datasets/prostate.data
description:https://statweb.stanford.edu/~tibs/ElemStatLearn/datasets/prostate.info.txt
变量包括对数癌症体积(lcavol)、对数前列腺重量(lweight)、年龄、良性前列腺增生量(lbph)、精囊浸润(svi)、包膜穿透率(lcp)、Gleason评分(Gleason)和Gleason分数4或5的百分比(pgg45)。(注意:svi是一个二元变量,gleason是一个有序分类变量)
现在让我们扩充第2到9列的数据,因为第一列是观测ID没啥意义,第10列是“训练集”标识也没啥意义。我们现在需要将数据进行组合,以生成合格的训练和测试数据集。
要小心,因为R的Dply包中的重命名函数很容易出错。我们需要给组合的列9一个名称,使其成为我们的因变量。当我们将数据集组合为data frame这一格式时,名称“V9”自动分配给第9列,这还挺方便。
如果我们跳过函数“as.data.frame”,则列9没有名称(null),Dply的重命名函数将崩溃。后续就是老套的回归训练啦,这里不做展开。