逻辑模型¶
逻辑模型¶
思维导图¶
一、逻辑模型基础概念¶
定义:通过逻辑表达式划分实例空间,使每个区隔内数据更一致,本质偏向规则系统,可解释性强。
常见类型:概念学习、决策树模型、规则模型等。
核心思想:源自计算机科学与工程,易转化为人类可理解的规则。
二、概念学习¶
1. 定义与核心逻辑¶
定义:利用布尔函数的输入输出训练样例,推断该布尔函数的归纳学习过程(狭义归纳学习)。
关键判定:实例\(x\)满足假设\(h\)的所有约束时,\(h(x)=1\)(分类为正例)。
2. 任务表述¶
已知条件:实例集合\(X\)(含6个属性及取值)、假设集合\(H\)(属性约束为“?”“∅”或特定值)、目标概念\(c\)(\(X \to \{0,1\}\))、训练样例集合\(D\)(正例+反例)。
求解目标:在\(H\)中找到假设\(h\),使对所有\(x \in X\),\(h(x)=c(x)\)恒成立。
3. 假设空间¶
定义:全部可能的概念构成的集合,包含语法不同和语义不同的假设。
一般到特殊序:若对所有\(x \in X\),\(h_k(x)=1\)可推出\(h_j(x)=1\),则\(h_j \geq_g h_k\)(\(h_j\)更一般)。
一致与版本空间:假设\(h\)与训练样例\(X\)一致,即对所有\(
4. 学习算法¶
(1)FIND-S算法¶
目标:寻找极大特殊假设。
步骤:初始化\(h\)为最特殊假设→遍历每个正例,若属性约束不满足正例则替换为更一般约束→输出最终假设。
特点:仅用正例学习,沿“特殊→一般”偏序链搜索,输出单一假设。
(2)候选消除算法¶
目标:找到与训练样例一致的所有假设(版本空间)。
核心逻辑:用正例泛化假设,用反例特化假设,通过边界集合\(S\)(最特殊假设)和\(G\)(最一般假设)表征版本空间。
基础方法(列表后消除):初始化\(VS\)为\(H\)中所有假设→遍历样例,移除不满足\(h(x)=c(x)\)的假设→输出剩余假设。
三、决策树¶
1. 定义与特点¶
定义:树形结构分类/回归模型,通过逐层判断特征值到达叶子节点完成分类(非必为二叉树)。
表达能力:强于基于合取表达的概念学习,可转化为析取范式逻辑表达式。
核心策略:选择信息增益(或基尼指数)最大的特征构建节点,即优先选择分类价值最高的特征。
2. 关键度量指标¶
(1)熵与信息增益¶
熵(不确定性度量):随机变量\(X\)的熵\(H(X)=-\sum_{i=1}^n p_i \log p_i\);经验熵\(H(D)\)描述数据集分类不确定性。
条件熵:\(H(Y|X)=\sum_{i=1}^n p_i H(Y|X=x_i)\),描述给定特征\(X\)后分类的不确定性。
信息增益:\(g(D,A)=H(D)-H(D|A)\),衡量特征\(A\)降低分类不确定性的程度,值越大分类能力越强。
(2)基尼指数¶
定义:分类问题中,概率分布的基尼指数\(Gini(p)=1-\sum_{k=1}^K p_k^2\),越大则随机性越强。
样本集合的基尼指数:\(Gini(D,A)=\frac{|D_1|}{|D|}Gini(D_1)+\frac{|D_2|}{|D|}Gini(D_2)\),用于选择最优切分特征和切分点。
3. 经典算法¶
(1)ID3算法(分类树)¶
核心逻辑:以信息增益最大为准则选择特征,递归构建决策树。
步骤:若样本全属同一类或无特征可选,返回单节点树→计算特征信息增益,选择最优特征→按特征取值划分样本,递归构建子树→若信息增益小于阈值,返回单节点树(标记为样本数最多的类)。
(2)CART树(分类与回归树)¶
分类树:以基尼指数最小为准则选择特征和切分点,构建二叉树。
回归树:以均方误差最小为准则划分样本,叶子节点输出为对应区域样本的均值,模型表达式\(f(x)=\sum_{m=1}^M c_m I(x \in R_m)\)。
构建步骤:遍历特征和切分点→选择最优切分(最小化均方误差/基尼指数)→递归划分样本→剪枝优化(基于验证集或正则化项)。
4. 优化与扩展¶
过拟合处理:剪枝(基于验证集泛化误差或正则化项\(C(T)=\sum_{t=1}^{|T|} N_t H_t(T)+\alpha|T|\))。
特征选择改进:C4.5算法用信息增益比替代信息增益,避免偏向取值多的特征。
任务扩展:从分类任务延伸到回归任务,核心是将输出从离散类别改为连续值(区域均值)。
四、核心小结¶
关键概念:理解假设空间、版本空间的定义,区分假设与概念的差异。
学习逻辑:概念学习通过“特殊→一般”或“一般→特殊”搜索假设空间;决策树通过分步最优策略(最大化信息增益/最小化基尼指数)构建模型。
任务延伸:掌握从分类问题(ID3、CART分类树)到回归问题(CART回归树)的逻辑模型适配方法。
- 选手访谈
- 2025-12-20 04:47:58