【原创】R语言Logistic逻辑回归算法案例数据分析报告

发布时间 : 2024/5/11 21:03:22 星期六文章【原创】R语言Logistic逻辑回归算法案例数据分析报告更新完毕开始阅读

【原创】定制代写开发r/python/spss/matlab/WEKA/sas/sql/C++/stata/eviews/Computer science assignment代写/代做Project/数据挖掘和统计分析可视化调研报告/程序/PPT等/爬虫数据采集服务（附代码数据）, 咨询QQ：3025393450

有问题到百度搜索“大数据部落”就可以了欢迎登陆官网：http://y0.cn/datablog

R语言Logistic逻辑回归算法案例

如果线性回归用于预测连续的Y变量，则逻辑回归用于二元分类。

如果我们使用线性回归来模拟二分变量（作为Y），则得到的模型可能不会将预测的Y s限制在0和1之内。此外，线性回归的其他假设（例如误差的正态性）可能会被违反。因此，我们建模事件ln的对数几率（P1 - P.）升?（P1- P），其中，P是事件的概率。

上面的等式可以使用参数glm()设置来建模。但是我们对事件的概率比事件的对数几率更感兴趣。因此，上述模型的预测值，即事件的对数几率，可以转换为事件概率，如下所示：family\

使用该plogis()函数实现此转换，如下所示，当我们构建logit模型并进行预测时。

有问题到百度搜索“大数据部落”就可以了欢迎登陆官网：http://y0.cn/datablog

示例问题

让我们尝试使用基于adult数据中可用的人口统计变量的逻辑回归来预测个人是否会获得超过50,000美元的收入。在这个过程中，我们将：

1. 导入数据 2. 检查课堂偏见 3. 创建培训和测试样本 4. 计算信息值以找出重要变量 5. 构建logit模型并预测测试数据 6. 做模型诊断

导入数据

inputData <- read.csv(\content/uploads/2015/09/adult.csv\) head(inputData)

#=> AGE WORKCLASS FNLWGT EDUCATION EDUCATIONNUM MARITALSTATUS

有问题到百度搜索“大数据部落”就可以了欢迎登陆官网：http://y0.cn/datablog

#=> 1 39 State-gov 77516 Bachelors 13 Never-married #=> 2 50 Self-emp-not-inc 83311 Bachelors 13 Married-civ-spouse #=> 3 38 Private 215646 HS-grad 9 Divorced #=> 4 53 Private 234721 11th 7 Married-civ-spouse #=> 5 28 Private 338409 Bachelors 13 Married-civ-spouse #=> 6 37 Private 284582 Masters 14 Married-civ-spouse # OCCUPATION RELATIONSHIP RACE SEX CAPITALGAIN CAPITALLOSS #=> 1 Adm-clerical Not-in-family White Male 2174 0 #=> 2 Exec-managerial Husband White Male 0 0 #=> 3 Handlers-cleaners Not-in-family White Male 0 0 #=> 4 Handlers-cleaners Husband Black Male 0 0 #=> 5 Prof-specialty Wife Black Female 0 0 #=> 6 Exec-managerial Wife White Female 0 0 # HOURSPERWEEK NATIVECOUNTRY ABOVE50K #=> 1 40 United-States 0 #=> 2 13 United-States 0 #=> 3 40 United-States 0 #=> 4 40 United-States 0

有问题到百度搜索“大数据部落”就可以了欢迎登陆官网：http://y0.cn/datablog

#=> 5 40 Cuba 0 #=> 6 40 United-States 0

检查类偏差

理想情况下，Y变量中事件和非事件的比例应大致相同。因此，让我们首先检查因变量中类的比例ABOVE50K。 table(inputData$ABOVE50K) # 0 1 # 24720 7841

显然，存在阶级偏差，当事件的比例远小于非事件的比例时观察到的条件。所以我们必须以大致相等的比例对观测结果进行采样，以获得更好的模型

创建培训和测试样本

解决类偏差问题的一种方法trainingData是以相等的比例绘制（开发样本）的0和1 。在这样做时，我们会将inputData未包含的其余部分用于培训testData（验证样本）。因此，开发样本的大小将小于验证，这是可以的，因为有大量的观察结果（> 10K）。

【原创】R语言Logistic逻辑回归算法案例数据分析报告

下载：【原创】R语言Logistic逻辑回归算法案例数据分析报告.doc

最近浏览

最新搜索

站内搜索