机器学习入门(2)-机器学习主要术语

机器学习系统通过学习如何组合输入信息来对从未见过的数据做出有用的预测。

标签是要预测的事物，即线性回归中的 y 变量。例如未来某个股票的涨跌，图片的动物品种。

简单的说即你想要机器预测的内容。

特征是输入变量，即简单线性回归中的 x 变量。简单的机器学习项目可能会使用单个特征，而比较复杂的机器学习项目可能会使用数百万个特征，按如下方式指定： $$ { x_1, x_2, ... x_n } $$ 举例在识别垃圾邮件的时候，特征变量可能是：

等等...

样本是指数据的特定实例：x。（我们采用粗体 x 表示它是一个矢量。）我们将样本分为以下两类：

有标签样本即同时包含标签和特征。即：

labeled examples: {features, label}: (x, y)

我们使用有标签样本来训练模型。

无标签样本即只包含特征，没有具体标签的样本，我们需要使用训练好的模型来预测该样本的特征。

举例在识别垃圾邮件中，我们明确知道是垃圾邮件或正常邮件的为有标签样本，不知道的为无标签样本。

模型定义了特征与标签之间的关系。例如，垃圾邮件检测模型可能会将某些特征与“垃圾邮件”紧密联系起来。我们来重点介绍一下模型生命周期的两个阶段：

回归模型可预测连续值。例如，回归模型做出的预测可回答的问题如下：

回归模型可以回答确切数值

分类模型可预测离散值。例如分类模型做出的预测可回答：

分类模型可以回答二分问题

编辑

上次更新: 2023/02/17, 16:53:03