深度学习心得03| 机器学习基础之分类任务classification task

关键词

  • 分类任务 Classification Task
  • 对数几率回归 logistic regression

分类任务 Classification Task




二分类与多分类

1、模型结构 Model Architecture

输入$x$

当 $P_{w,b}(C_1|x)>0.5$ 即$z>0$输出 $C_1$

当 $P_{w,b}(C_1|x) \leq 0.5$ 即$z\leq0$输出 $C_2$

双弯曲函数图像

$P_{w,b}(C_1|x)=\sigma(z)=\frac {1}{1+ exp(-z)}$

$z=w•x+b=\sum_{i}w_i x_i+b$

$f_{w,b}(x)=P_{w,b}(C_1|x) $

线性回归 逻辑回归
第一步
函数
$f_{w,b}(x)=\sum_{i}w_i x_i+b $
输出任意值
$f_{w,b}(x)=\sigma(\sum_{i}w_i x_i+b)$
输出0或1

2、损失函数 Loss Function

训练集

$x^1$ $x^2$ $x^3$ …… $x^m$
$C_1$ $C_1$ $C_2$ …… $C_1$
$\hat{y}^1=1$ $\hat{y}^2=1$ $\hat{y}^3=0$ …… $\hat{y}^m=1$

$$
L(w,b)=f_{w,b}(x^1)f_{w,b}(x^2)(1-f_{w,b}(x^3))……f_{w,b}(x^m)
$$

$$
w^,b^=arg max_{w,b} L(w,b)
$$

$$
w^,b^=arg min_{w,b} -lnL(w,b)
$$

$$
-lnL(w,b)=-lnf_{w,b}(x^1)-lnf_{w,b}(x^2)-ln(1-f_{w,b}(x^3))……-lnf_{w,b}(x^m)
$$

把下式带入

$$
lnf_{w,b}(x^i)=\hat{y}^i lnf_{w,b}(x^i) + (1- \hat{y}^i)(1-lnf_{w,b}(x^i))
$$

线性回归 逻辑回归
第二步
评估函数的效果
训练集$(x^n,\hat{y}^n)$
$\hat{y}$:一个实数
$L(f) = \frac 1 {2} \sum_{i=1}^m (f(x^{(i)})-y^{(i)})^2$
训练集$(x^n,\hat{y}^n)$
$\hat{y}$:1是class1 2是class2
$L(f) = \sum_{i=1}^m C(f(x^{(i)})-y^{(i)})$

$$
L(f)=\sum_{n} \delta (f(x^n) \ne \hat{y}^n
$$

对$\delta()$的理解

当$f(x^n) = \hat{y}^n)$ 为0

当$f(x^n) \ne \hat{y}^n)$ 为1

在训练集合上对正确的结果进行累计

3、最优化 Optimization

向量表示的例子 Vector Representation Example

$f(x)=y$ $f:R^N→R^M$

$x:$ 输入 $N$ 维向量

$y:$ 输出 $M$ 维向量




手写识别分类

输入是一个像素为$26×26$的图像(矩阵),用一个$256$的向量表示

输出是一个$one-hot$的向量,只有一个分量为$1$,其他分量为$0$




单个神经元

输入为词典为这个单词的编号