本项目旨在通过机器学习方法,分析红酒的化学成分与其质量评分之间的关系,解决传统感官评价存在主观性的问题,提高红酒质量评估的客观性和准确性。
探究红酒中11种化学成分与质量评分之间的关联性,构建基于机器学习的红酒质量预测模型,实现根据红酒化学成分预测其质量评分。
采用数据清洗、特征分析、回归建模、分类对比和模型优化的技术路线,结合机器学习方法构建红酒质量预测模型。
本文包括数据理解与清洗、数据可视化分析、回归预测建模、分类模型对比分析、创新性与应用价值、结论与展望等章节,详细阐述红酒数据分析与质量预测模型构建的全过程。
原始数据包含红酒的化学成分和质量评分,共计1596个样本,字段结构包括化学成分和质量评分。
通过描述性统计分析,了解各化学成分的均值、标准差等统计特征,为后续分析奠定基础。
数据清洗包括缺失值处理、异常值处理和重复值处理,确保数据集的完整性和一致性。
通过直方图展示各化学成分的分布情况,分析其统计特性,揭示化学成分与质量评分的关系。
通过相关系数矩阵热图和特征配对图,分析化学成分之间的相关性及其与质量评分的关系。
构建线性回归模型,评估模型参数及性能指标,包括截距、关键系数、MSE和R²等,分析模型的预测效果。
基于训练好的线性回归模型,对新样本进行预测,并对比预测评分与实际评分的误差。
构建多种分类模型,包括逻辑回归、KNN、随机森林和XGBoost,对比不同模型的预测性能。
通过准确率对比柱状图,展示不同分类模型的预测性能,确定最优模型。
酒精和挥发性酸度是影响红酒质量的核心因素,随机森林模型为最佳预测模型,准确率达62.83%。