机器学习-5.逻辑回归
逻辑回归
逻辑回归(Logistic Regression)是一种用于解决二分类问题的机器学习方法。虽然逻辑回归在名称中含有“回归”一词,但其实际上主要用于分类问题。逻辑回归的主要思想是将由线性回归所得的值通过一个逻辑函数映射到0和1之间的概率值,从而将线性回归模型转化为一个分类模型。逻辑回归最早是由统计学家和生物学家使用,用于建立生物学实验结果与概率的关系。后来,随着计算机科学的发展,逻辑回归成为机器学习领域的重要算法之一,被广泛用于分类问题。逻辑回归的优势在于简单易懂、计算效率高,特别适用于大规模数据集。然而,在处理复杂非线性关系的问题上,逻辑回归可能受到限制,这时候更复杂的模型(如支持向量机、深度学习等)可能更为适用。
基本思想
逻辑回归的基本思想是通过逻辑函数(也称为sigmoid函数)将线性回归的结果映射为一个概率值,然后利用概率值解决二分类问题。逻辑回归的基本思想中包含着三个主要因素:线性回归、逻辑函数、决策边界。
线性回归很好理解,给定一个输入的特征向量 \(x=\begin{bmatrix} x_1,x_2,\dots,x_n \\
\end{bmatrix}^{T}\),以及权重向量 \(w=\begin{bmatrix} w_1,w_2,\dots,w_n \\
\end{bmatrix}^{T}\),以及偏置项 \(b\),可以计算线性回归结果:
\[z = w^{T}x+b=w_1x_1+w_2x_2+\dots+w_nx_n+b\]
逻辑函数\(f\)的作用是将线性回归的结果映射到一个概率值,即:
\[f: z \rightarrow p \in [0,1]\]
在实际中,我们的逻辑函数一般为\(sigmoid\)函数,其函数形式为:
\[sigmoid(z)=\frac{1}{1+e^{-z}}\]
其函数图像为:
sigmoid函数的主要优点如下:
- 输出范围为(0,1): sigmoid函数的输出范围在0和1之间,这与概率的范围一致。这使得逻辑回归的输出可以被解释为属于某个类别的概率。
- 可导性:
sigmoid函数是可导的,这使得使用梯度下降等优化算法来最小化损失函数成为可能。梯度下降等优化方法对于机器学习模型的训练非常重要,而Sigmoid函数的可导性使得模型参数可以通过梯度下降等优化方法进行有效地更新。
- 单调递增性: sigmoid函数是单调递增的,这意味着输入变量的增加必然导致输出的增加。这一特性有助于模型学习输入特征与输出概率之间的关系,使得模型更容易收敛。
- 数学上平滑: sigmoid函数的平滑性质有助于在优化过程中避免梯度爆炸或梯度消失的问题,这在深度学习等领域尤为重要。
- 对异常值的鲁棒性: sigmoid函数在极端值上趋于饱和,对于一些异常值的影响相对较小。这有助于模型对于噪声或异常值的鲁棒性。
决策边界是指当我们通过逻辑函数得到概率值 \(p\) 后,我们如何判别实例\(x\)属于哪一个类别。当我们在面对的是二分类问题时,设 \(y \in \{0,1\}\) 表示实例\(x\)的类别,概率值\(p\)表示条件概率:
\[p = P(y=1 | x)\]
则我们选用的决策边界为:
\[\hat{y}= \left \{ \begin{array}{rcl} 1, & {p >0.5}\\ 0,& {p \leq 0.5}\\ \end{array} \right.\]
其中,\(\hat{y}\)为实例\(x\)的预测类别。
模型
输入
- 输入空间: \(\mathcal{X}
\in \mathbb{R}^{n}\).
- 输入实例: \(x = \begin{bmatrix} x^{(1)},x^{(2)},\dots,x^{(n)} \\ \end{bmatrix}^T \in \mathcal{X}\).
其中,输入空间\(\mathcal{X}\)为\(n\)维实数空间的子集,输入实例\(x\)为\(n\)维特征向量。
输出
由于我们只考虑二分类问题,因此实例点的类别只有正类与负类两种。
- 输出空间: \(\mathcal{Y} =
\{ 0,1 \}\)
- 输出实例: \(y \in \mathcal{Y}\).
其中,输出空间\(\mathcal{Y}\)为只包含1,0两个元素的集合,1与0分别代表二分类问题中的正类与负类。输出实例\(y\)代表相对应的输出实例\(x\)的类别。
数据集
逻辑回归的训练数据集\(T_{train}\)为:
\[T_{train}=\{ (x_1,y_1),(x_2,y_2),\dots,(x_N,y_N) \}\]
其中,\(x_i \in \mathcal{X}=\mathbb{R}^{n},y_i \in \mathcal{Y}=\{0,1\},i=1,2,\dots,N\),\(N\)表示训练数据的样本容量。
模型
逻辑回归的模型形式表现为条件概率分布:
\[\begin{split} P(Y=1|X) &= \frac{1}{1+e^{-(w^{T}x+b)}} \\ P(Y=0|X) &= \frac{e^{-(w^{T}x+b)}}{1+e^{-(w^{T}x+b)}} \end{split}\]