近年来,Python编程语言受到越来越多研究人员的青睐,并在多种编程语言排行榜中不断夺冠。同时,随着深度学习的飞速发展,人工智能技术在各个领域的应用越来越广泛。机器学习是人工智能的基础。因此,掌握常用机器学习算法的工作原理,能够使用Python构建实际的机器学习模型,是人工智能相关研究的前提和基础。以实际案例的形式,介绍如何提炼创新,如何发表高水平论文等相关经验。旨在帮助掌握Python编程的基本知识和技能,特征工程(数据清洗、变量降维、特征选择、组优化算法)、回归拟合(线性回归、BP神经网络、极限学习机)、分类识别(KNN)、贝叶斯分类、支持向量机、决策树、随机森林、AdaBoost、XGBoost和LightGBM等)、聚类分析(K-means、DBSCAN、层次聚类)、关联分析(关联规则、协同过滤、Apriori算法)的基本原理和Python代码实现方法。从“基础编程→机器学习→代码实现”逐步掌握。分类和识别(KNN)、贝叶斯分类、支持向量机、决策树、随机森林、AdaBoost、XGBoost和LightGBM等)、聚类分析(K-means、DBSCAN、层次聚类)、关联分析(关联规则、协同过滤,Apriori算法)基本原理和Python代码实现方法。从“基础编程→机器学习→代码实现”逐步掌握。分类和识别(KNN)、贝叶斯分类、支持向量机、决策树、随机森林、AdaBoost、XGBoost和LightGBM等)、聚类分析(K-means、DBSCAN、层次聚类)、关联分析(关联规则、协同过滤,Apriori算法)基本原理和Python代码实现方法。从“基础编程→机器学习→代码实现”逐步掌握。
一:Python编程基础与进阶
Python 编程入门
1、Python环境搭建(下载、安装、版本选择)。
2、如何选择Python编辑器?(IDLE、Notepad++、PyCharm、Jupyter……)
3. Python基础(数据类型和变量、字符串和编码、列表和元组、条件判断、循环、函数定义和调用等)
4. 常见错误及程序调试
5、第三方模块的安装和使用
6.文件读写(I/O)
7. 实践练习
Python 高级和改进
1. Numpy模块库(Numpy安装;ndarray类型属性和数组创建;数组索引和切片;Numpy常用功能介绍和使用)
2. Pandas模块库(DataFrame数据结构、表格转换、排序、拼接、融合、分组操作等)
3、Matplotlib基础图形绘制(折线图、柱形图、饼图、气泡图、直方图、箱线图、散点图等)
4.图形样式美化(颜色、线型、标记、字体等属性的修改)
5.图形布局(多个子图,规则和不规则布局,在画布上任意位置添加轴)
6.高级图形绘制(3D图、等高线图、棉签图、哑铃图、漏斗图、树图、华夫图等)
7.坐标轴的高级应用(共享绘图区坐标轴、坐标轴比例样式设置、坐标轴显示控制、坐标轴位置移动)
8. 实践练习
二:特征工程
数据清洗
1.描述性统计分析(数据频率分析:统计直方图;数据集中趋势分析:算术平均数、几何平均数、众数、极差和四分位数、均值差、标准差、离散系数;数据分布:偏度系数、峰度;数据相关分析:相关系数)
2.数据标准化和规范化(为什么需要标准化和规范化?)
3. 缺失值处理(删除、填充)
4. 实践
可变降维
一、主成分分析(PCA)的基本原理
2.偏最小二乘法(PLS)的基本原理
三、案例实践
4. 实践
特征选择
1、常用的特征选择方法(优化搜索、Filter和Wrapper等;前向和后向选择方法;区间方法;无信息变量消除方法;正则稀疏优化方法等)
2.案例实践
3. 实践
三:回归拟合模型
组优化算法
1、遗传算法(GA)的基本原理(以遗传算法为代表的群体优化算法的基本思想是什么?目前国内外的研究热点有哪些?)
2.遗传算法的Python代码实现
3.案例实践1:一元函数的优化计算(最大值和最小值)
4.案例实践2:离散变量的优化计算(基于遗传算法的特征变量选择)
5. 实践练习
线性回归模型
1、单变量线性回归模型和多元线性回归模型(回归参数估计、回归方程显着性检验、残差分析)
2.岭回归模型(工作原理,岭参数k的选取,带岭回归的变量选取)
3. LASSO模型(工作原理、特征选择、建模预测、超参数调整)
4. Elastic Net模型(工作原理、建模预测、超参数调整)
五、案例实践
6. 实践练习
前向神经网络
1、BP神经网络的基本原理(人工智能的发展经历了哪些波折?人工神经网络有哪些分类?BP神经网络的拓扑和训练过程是怎样的?梯度下降是什么?方法?BP神经网络建模的本质是什么?)
2. BP神经网络的Python代码实现(如何划分训练集和测试集?为什么需要归一化?归一化有必要吗?什么是梯度爆炸和梯度消失?)
3. BP神经网络参数优化(隐藏层神经元个数、学习率、初始权重和阈值等如何设置?什么是交叉验证?)
4.几个值得研究的问题(欠拟合和过拟合、泛化性能评价指标设计、样本不平衡问题等)
5. 极限学习机 (ELM) 的工作原理
6、案例演示
7. 实践练习
四:分类识别模型
KNN、贝叶斯分类和支持向量机
1.KNN分类模型(KNN算法的核心思想,距离测量方法的选择,K值的选择如何构建预测模型,分类决策规则的选择)
2.朴素贝叶斯分类模型(BernoulliNB、朴素贝叶斯-like CategoricalNB、高斯朴素贝叶斯besfGaussianNB、多项朴素贝叶斯MultinomialNB、Complementary Naive Bayes ComplementNB)
3、SVM的工作原理(SVM的本质是解决什么问题?SVM的四种典型结构是什么?核函数的作用是什么?除此之外,你还能帮我们做什么?)
4.案例实践
5. 实践练习
决策树、随机森林、LightGBM、XGBoost
1、决策树的工作原理(灵感来自微软小兵的读心术;什么是信息熵和信息增益?ID3算法和C4.5算法的区别和联系);除了构建模型,决策树还可以帮助我们做什么呢?
2、随机森林的工作原理(为什么需要随机森林算法?广义和狭义的“随机森林”指的是什么?“随机”体现在哪里?随机森林的本质是什么?如何可视化并解释随机森林的结果?)
3. AdaBoost 与 Gradient Boosting 的工作原理
4、常用GBDT算法框架(XGBoost、LightGBM)
五、案例实践
6. 实践练习
五:聚类分析算法
K-Means、DBSCAN、分层聚类
一、K-means聚类算法的工作原理
2. DBSCAN(Density-Based Spatial Clustering of Applications with Noise)聚类算法的工作原理
三、层次聚类算法的工作原理
四、案例说明
5. 实践练习
六:关联分析算法
关联规则协同过滤Apriori算法
1.关联规则算法是如何工作的
2.协同过滤算法的工作原理
三、Apriori算法的工作原理
四、案例说明
5. 实践练习
七:总结
一、信息检索及常用科研工具
1、如何无障碍访问谷歌、YouTube等网站?(谷歌访问助手、VPN等)
2.如何查文件?我们如何跟踪最新的论文?
3.如何使用谷歌学术和ResearchGate
4. 我应该去哪里找到支持论文的数据和代码?
5. 使用文档管理工具(Endnote、Zotero等)
6、当代码出现错误时如何构建预测模型,如何高效解决?
7. 实践练习
总结与问答讨论
1. SCI不同部门的论文有什么区别?你知道为什么你的纸看起来这么薄吗?
2、从审稿人的角度来看,SCI期刊论文需要具备哪些要素?(审稿人的关注点是什么?如何回应审稿人的意见?)
3、如何提炼和挖掘创新?(如果很难在算法层面做原创工作,如何结合自己的实际问题来提取和挖掘创新?)
4、相关学习资料的分享和复制(书籍推荐、在线课程推荐等)
5.问答讨论(提前准备问题)