使用python做数据分析5天
使用python做数据分析5天 详细内容
使用python做数据分析5天
使用python做数据分析
课程介绍
本课程是使用python做数据分析的课程
课程目标
理解python的特征
知晓python的结构
会使用相应方法,完成部分数据分析工作
培训对象
有数据库基础知识
有编程基础知识
有统计学基本知识
有数据分析、数据挖掘、统计分析的基本概念对数据分析感兴趣
课程长度
5天
课程内容
第1天
主题
Python的优点和不足
大纲
优点
1、python语言更接近自然语言
2、python是开放源码的自由软件
3、python可移植在各种平台上
4、python支持面向过程的函数编程,也支持面向对象的抽象编程
5、可扩展和可嵌入
6、各种功能丰富的库
7、编码规范。各种强制缩进方式提供了可读性。
不足
8、运行速度可能不理想。
9、python是开源软件,通过封装加密进行商业化,就是一个问题。
10,、繁多的标准库和第三方库
主题
重要的python库
大纲
1、NumPy (numerical python)
2、Pandas 处理结构化数据的大量数据结构和函数
3、Matplotlib 绘制数据图表
4、IPython 交互式窗口,科学计算工具集的一部分
5、SciPy 专门解决科学计算中,标准问题域的包的集合。
6、Scikit-learn 机器学习库
主题
Python的安装和配置
大纲
1、anaconda
2、Windows系统下的安装
3、Linux系统下的安装
主题
Ipython基础
大纲
1、IPython交互式计算和开发环境
2、Ipython启动、简单命令
3、内省
4、使用历史命令
5、与操作系统交互
6、软件开发工具
7、ipython html notebook
8、用ipython提高代码开发效率
9、ipython高级功能
主题
Ipython编码效率与高级功能
大纲
1、利用python提高代码效率的几点提示
2、高级Ipython功能
第2天
主题
numpy数组和矢量计算
大纲
1、NumPy的ndarray:多维数组
2、通用函数 数组函数
3、利用数组进行数据处理
4、用于数组文件的输入输出
5、线性代数
6、随机数生产
7、随机漫步
主题
pandas 数据处理分析工具
大纲
1、pandas的数据结构介绍
2、基本功能
3、汇总和计算描述统计
4、处理缺失数据
5、层次化索引
6、其他有关pandas的话题
主题
数据加载 转储
大纲
1、读写文本格式的数据
2、二进制数据格式
3、使用HTML和Web API
4、使用数据库
5、使用excel文件
6、使用hadoop大数据
主题
简单数据清洗
大纲
1、合并数据集
2、重塑和轴向旋转
3、数据转换
4、字符串操作
主题
python的绘图和可视化
大纲
1、python的图形化工具生态系统
2、matplotlib API入门
3、pandas中的绘图函数
4、绘制地图
第3天
主题
数据的分组计算--分层样本
大纲
1、GroupBy技术
2、数据聚合
3、分组运算和转换
4、透视表和交叉表
主题
时间序列
大纲
1、日期和时间数据类型及工具
2、时间序列基础
3、日期的范围、频率以及移动
4、时区处理
5、时期及其算数运算
6、重采样及频率转换
7、时间序列绘图
8、移动窗口函数
9、性能和内存使用方面的注意事项
主题
numpy高级应用
大纲
1、ndarray对象的内部机制
2、高级数组操作
3、广播
4、ufunc高级应用
5、结构化和记录式数组
6、关于排序
7、numpy的matrix类
8、高级数组输入输出
9、性能建议
主题
蒙特卡洛模拟
大纲
1、纯python
2、用numpy向量化
3、用对数欧拉方法实现全向量化
4、图形化分析
5、技术分析
主题
统计学 正态检验
大纲
1、正态性检验
2、基准案例
3、现实世界的数据
第4天
主题
金融应用 投资优化组合
大纲
1、基本理论
2、数据
3、投资组合优化
4、有效边界
5、资本市场线
主题
k 近邻算法
大纲
1、k近邻算法概述
2、准备数据:从文本文件中解析数据
3、分析数据:使用matplotlib创建散点图
4、准备数据:归一化数值
5、测试算法:作为完整程序验证分类器
6、使用算法:构建完整可用的系统
主题
决策树
大纲
1、决策树的构造
信息增益
划分数据集
递归构建决策树
2、使用matplotlib注解绘制树形图
matplotlib注解
构造注解树
3、测试和存储分类器
测试算法:使用决策树执行分类
使用算法:决策树的存储
主题
概率论 朴素贝叶斯
大纲
1、基于贝叶斯决策理论的分类方法
2、条件概率
3、使用条件概率来分类
4、使用朴素贝叶斯进行文档分类
5、使用python进行文本分类
主题
Logistic 回归分析
大纲
1、基于Logistic回归和sigmoid函数的分类
2、基于最优化方法的 最佳回归系数确定
梯度上升法
训练算法:使用梯度上升找到最佳参数
分析数据:画出决策边界
训练算法:随机梯度上升
第5天
主题
支持向量机
大纲
1、SVM应用的一般框架
2、基于最大间隔分隔数据
3、寻找最大间隔
4、SMO高效优化算法
5、利用完整plattSMO算法加速优化
6、在复杂数据上应用核函数
主题
回归 ----- 预测数值型数据
大纲
1、用线性回归找到最佳拟合直线
2、局部加权线性回归
3、缩减系数来“理解”数据
岭回归
lasso
向前逐步回归
4、权衡偏差与方差
主题
树回归
大纲
1、复杂数据的局部性建模
2、连续和离散型特征的树的构建
3、将CART算法用于回归
构建树 运行代码
4、树剪枝
预剪枝 后剪枝
5、模型树
6、树回归与标准回归的比较
主题
大数据与mapreduce
大纲
1、mapreduce:分布式计算框架
2、hadoop流
3、mapreduce上的机器学习
4、在python中使用mrjob来自动化MapReduce
5、真的需要MapReduce吗?
孙增辉老师的其它课程
hadoop 大数据技术培训 5天 02.03
大数据处理技术培训课程介绍Hadoop实现了一个分布式文件系统(HadoopDistributedFileSystem),简称HDFS。HDFS有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上;而且它提供高传输率(highthroughput)来访问应用程序的数据,适合那些有着超大数据集(largedataset)的应用程序。课程目标掌握
讲师:孙增辉详情
信息安全5天 12.08
信息安全课程介绍本课程涵盖了信息安全从概念到细节的多个方面。本课程同样适用于初学者和专业人员,相对全面地提供了一站式的参考内容。课程目标安全基础数据安全如何保护网络上的资产网络安全计算机安全应用程序安全安全操作培训对象相关的技术人员、管理人员、运维人员课程长度5天课程内容第1天主题信息安全概述大纲信息保护的重要性信息安全的演变合理的安全投资安全方法论建立一个
讲师:孙增辉详情
应用容器引擎 Docker5天 12.08
应用容器引擎Docker课程介绍Docker是基于GO语言实现的云开源项目,诞生于2013年初。Docker希望达到应用组件级别的“一次封装,到处运行”。学员可以简单将docker容器理解为沙盒。每个容器运行一个应用,不同的容器互相隔离,容器之间也可以建立通信机制。容器的创建和停止十分快速,容器自身对资源的需求也十分有限,远远低于虚拟机。很多时候直接把容器党
讲师:孙增辉详情
云计算 openstack5天 12.08
云计算openstack课程介绍云计算从提出到成熟,中间经历了较长的时间。云计算的各种概念也在不断发展更新。本课程能够给想要学习云计算知识的人们,提供一个可供学习的云计算系统,帮助大家学习、实验和使用。课程目标了解云计算,知道云计算产生的原因以及应用场景。了解云存储,知道云计算系统中大数据的存储方式。私有云和公有云。云计算的两种不同应用场景,它们的联系与区别
讲师:孙增辉详情
mysql 4天 12.08
MYSQL数据库课程介绍本课程介绍MySQL的启动、连接等基础应用开始,SQL语句的使用、MySQL内置函数、备份与恢复、数据库优化、数据库安全等主题,介绍相关开发实例课程目标了解mysql数据库的体系结构创建和管理mysql数据库备份和恢复数据库培训对象软件开发人员、数据库管理员课程长度5天(30学时)培训方式案例分析、情景演练课程内容第1天主题体系结构大
讲师:孙增辉详情
oracle 数据库管理(DBA) 5天 12.08
Oracle数据库管理(DBA)课程介绍本课程是你作为Oracle专业人员走向成功的第一步。课程设计为你打下基本的数据库管理的坚实基础并帮助你准备通过OracleCertifiedAssociate考试。课程目标课程中,你将学习如何安装和维护Oracle数据库。学员将获得Oracle数据库结构的概念性理解,以及它的组件是如何彼此协调工作的。学员将学习如何创建
讲师:孙增辉详情
Oracle调优培训 3 天 12.08
Oracle调优培训课程介绍该培训课程面向大中型企业中的数据库相关的开发人员和管理人员。课程的主要内容是Oracle11g数据库性能调优的各种实例、方法、技巧以及与之对应的原理的讲解通过本课程地学习。学员可以大大的提升数据库性能调优的能力。课程结合大量案例,使学员能够理论结合实际,学以致用。课程目标←掌握Oracle11g数据库性能调优的各种实例、方法、技巧
讲师:孙增辉详情
oracle数据库性能优化 4天 12.08
Oracle数据库调优课程课时:4天1.课程适合对象Oracle数据库运维人员(DBA)2.培训所需实验设备及软件清单编号设备及软件名称对应课程1Oracle11g数据库课程安排上午(9:00-12:00)下午(14:00-17:00)第一天(1).Oracle数据库性能诊断工具•最根本的性能信息工具——数据库数据字典和动态性能视图•诊断性能定位问题工具:S
讲师:孙增辉详情
SAS 数据分析 从入门到精通 5天 12.08
SAS数据分析从入门到精通课程介绍SAS数据分析软件是应用最广泛的商业统计分析软件之一。本课程是从基础开始到专业应用的整体内容,帮助您理解数据分析的操作。课程目标SAS编程基础SAS常用函数及应用SAS数据集处理操作SAS宏编程SASPROCSQL描述统计T检验方差分析回归分析。培训对象数据库管理员、开发人员课程长度5天(30学时)培训方式案例分析、情景演练
讲师:孙增辉详情
Spark大数据分析 5天 12.08
Spark数据分析课程介绍本课程将关注spark的数据分析技术实际应用。课程目标数据分析培训对象开发人员课程长度5天(30学时)培训方式案例分析、情景演练课程内容第1天主题Spark的环境搭建与运行大纲Spark的本地安装与配置Spark集群Spark编程模型主题数据分析系统商业案例大纲个性化目标营销和客户细分预测建模与分析机器学习的系统架构第2天主题Spa
讲师:孙增辉详情
- [潘文富] 中小企业招聘广告的内容完
- [潘文富] 优化考核方式,减少员工抵
- [潘文富] 厂家心目中的理想化经销商
- [潘文富] 经销商的产品驱动与管理驱
- [潘文富] 消费行为的背后
- [王晓楠] 辅警转正方式,定向招录成为
- [王晓楠] 西安老师招聘要求,西安各区
- [王晓楠] 西安中小学教师薪资福利待遇
- [王晓楠] 什么是备案制教师?备案制教
- [王晓楠] 2024年陕西省及西安市最
- 1社会保障基础知识(ppt) 21149
- 2安全生产事故案例分析(ppt) 20177
- 3行政专员岗位职责 19034
- 4品管部岗位职责与任职要求 16208
- 5员工守则 15448
- 6软件验收报告 15383
- 7问卷调查表(范例) 15103
- 8工资发放明细表 14540
- 9文件签收单 14184