04_线性回归 1 概述 回归模型是机器学习和统计学中的一种基本模型,用于预测连续型输出变量。简单的说,给定一组输入变量(自变量)和对应的输出变量(因变量),回归模型旨在找到输入变量和输出变量之间的映射关系。 线性回归分类: 一元线性回归:建立一个因变量与单个自变量之间线性关系的模型,也就是只有一个特征。 y = wx + b $\small{y}$ 是目标变量(因变量), x 是输入变量(自变量), b 是偏 2024-07-14 机器学习 #机器学习 #线性回归
03_KNN算法 1 概述 K近邻算法(k-nearest neighbors, KNN)是一种用于分类和回归的非参数统计方法。KNN 算法的原理是从历史数据中找到 $\small{k}$ 个跟新输入的实例最邻近的实例,根据它们中的多数所属的类别来对新实例进行分类或者输出新实例的目标值。K近邻算法没有显式的学习训练过程,它用的是“近朱者赤,近墨者黑”这样一种简单朴素的思想来实现分类或回归。 分类问题:在K个最近邻 2024-07-13 机器学习 #机器学习 #KNN
02_机器学习基本理论 1 机器学习三要素 机器学习方法 = 模型 + 策略 + 算法 模型(model):总结数据的内在规律,用数学语言描述的参数系统 策略(strategy):选取最优模型的评价准则 算法(algorithm):选取最优模型的具体方法 2 机器学习方法分类 3 建模流程 收集数据:收集用于训练和测试的数据集,确保数据代表实际问题的不同方面 数据清洗:对数据进行清洗,去除掉脏数据和不可用的数据 2024-07-12 机器学习 #机器学习
01_机器学习概览 1 绪论 1.1 引言 机器学习:利用经验改善系统自身的性能。 任何经验在计算机内都以数据形式存在。 计算问题分类: P问题:可以在多项式时间(合理时间)内求解 NP问题:在多项式时间内求不出答案,但可以验证一个解 在计算学习理论当中,有一个很重要的理论模型PAC模型。 如果对于任意小的: 误差上限 ε > 0(表示学得多接近真理) 置信下限 1 − δ(表示学得多可靠) 存在 2024-07-09 机器学习 #机器学习
09_Seaborn基本图表 Seaborn 是对 Matplotlib 进行了更高级的封装,而且也能和 Pandas 无缝整合,可以用更少的代码构建出更好的统计图表。 12345678# 联网加载官方的小费数据集import seaborn as snsimport sslssl._create_default_https_context = ssl._create_unverified_contexttips_df = s 2024-06-30 数据处理与分析 #Seaborn
08_Matplotlib数据可视化 1 绘图流程 创建画布plt.figure() 绘制图像plt.plot(x, y)等 显示图像plt.show() 1234import matplotlib.pyplot as pltplt.figure(figsize=(10, 8))plt.plot([1, 2, 3, 4], [10, 20, 15, 30])plt.show() svg 使用以下魔法方法可以在画图的时候生成矢 2024-06-28 数据处理与分析 #Matplotlib
07_Pandas数据操作和清洗 1 基本数据操作 123456import numpy as npimport pandas as pddf1 = pd.read_excel('data/new_data2.xlsx')print(df1)df2 = pd.DataFrame(data={'姓名': ['赵六', '钱七'], ' 2024-06-25 数据处理与分析 #Pandas
06_Pandas索引运算 Pandas索引操作有两种常见类型: 基于位置的索引(Position-based Indexing) 基于标签的索引(Label-based Indexing) 实际操作中,第二种操作更常用。 123import numpy as npimport pandas as pdimport matplotlib.pyplot as plt 1 DataFrame结构 1.1 column/ind 2024-06-23 数据处理与分析 #Pandas
05_Pandas数据结构 Numpy和Pandas的关系:就像先掌握算术才能学代数一样,NumPy就是数据分析的”算术基础”,虽然可以直接用计算器(Pandas),但理解底层原理才能走得更远。 Pandas 核心数据机构是Series(数据系列)、DataFrame(数据窗/数据框),Series可以看做表中的一列,DataFrame则是整个表格,由多个列构成。除此之外还有一个特殊的Index类,为Series和DataF 2024-06-22 数据处理与分析 #Pandas
04_Numpy结构化数组 1 创建结构化数组 1import numpy as np 类似C++的结构体,但更加强大,数组的每个元素可以包含多个字段,可以单独处理数组的每一个字段。 1.1 字典方式 dtype的参数是一个字典: names:指定字段名称 formats:指定数据类型,可以使用Python类型或Numpy类型 123456my_dtype = { 'names': ( 2024-06-07 数据处理与分析 #Numpy