中山大学人工智能课程复习笔记
绪论
人工智能三大学派
- 符号主义,又称为逻辑主义
- 连接主义,又称为仿生学派
- 通过模拟人类的神经元来模拟人类的智力活动
- 代表工作:人工神经网络
- 缺点:缺乏可解释性
- 行为主义,又称为控制论学派
- 认为智能行为的基础是“感知-动作”的反应机制
- 代表工作:强化学习,演化算法,Brooks六足行走机器人
知识的表示与推理
一阶逻辑(谓词逻辑):文法和语义
项:
- 每个变量都是一个项
- 如果\(t_1,...,t_n\)是项,\(f\)是一个n维函数,那么\(f(t_1,..,t_n)\)是项
公式:
- 如果\(t_1,...,t_n\)是项,\(P\)是一个n维谓词,那么\(P(t_1,..,t_n)\)是原子公式
- 如果\(t_1,t_2\)是项,那么\((t_1=t_2)\)是原子公式
- 如果\(\alpha,\beta\)是公式,\(v\)是变量,那么\(\neg\alpha,\alpha\wedge\beta,\alpha\vee\beta,\exist v.\alpha,\forall v.\alpha\)都是公式
变量辖域:一个变量\(x\)在一个公式\(A\)中是这样的形式出现的:\(\exist xB,\forall xB\),其中B是A的子公式,则x是约束出现,否则都是自由出现
句子:一个没有自由变量的公式
置换:\(\alpha[v/t]\)意味着\(\alpha\)中所有自由出现的变量v被替换成t
解释:M=<D,I>
- D是论域,非空集合
- I是一个来自于谓词和函数集合的映射
指称:一个变量赋值\(\mu\)表示一个从变量到论域的映射
\(M,\mu\vDash\alpha\):读作\(M,\mu\)满足\(\alpha\)
如果\(\alpha\)是一个句子,则\(M,\mu\vDash\alpha\)与\(\mu\)无关,所以可以直接写成\(M\vDash\alpha\)
可满足性:
- 如果S是一个句子的集合,M满足S,则称M是S的一个模型,如果存在M可以满足S,则称S是可满足的
逻辑蕴含:S |= α 当且仅当对任意一个 M, 都有如果 M |= S 则 M |= α
基于归结的推理过程
把S当作KB知识库,如何证明知识库可以满足\(\alpha\)就需要用到归结推理。
文字:原子公式和它的非
子句:子句是文字的析取,如果一个公式是合取,需要写成析取的集合
消除掉子句中那些冲突的文字的这个过程叫做推导
所以确认KB是否满足\(\alpha\)的过程为:
- 把KB和\(\neg\alpha\)写成子句形式得到S
- 确认S是否可以推导\(\alpha\)
对于一阶逻辑的情况我们需要重新考虑以上两个步骤
转为子句的过程:
- 消除蕴含符号
- 否定内移,移动到谓词前,量词记得变换
- 变量标准化,不同变量使用不同符号
- 消除存在量词:使用一个新的常量代替此前的存在量词下的变量,若存在量词前有全称量词,则使用一个由全称量词变量组成的函数去代替存在量词下的变量
- 转换为前束范式,
- 转为合取范式
- 子句化
合一:找到冲突文字即使文字中有变量,然后将两个子句合为一个子句。
合一的一个重要组成是置换,注意不是所有公式都可以合一,只有变量有置换
合一项:使得两个公式语法相等的一个置换
最一般合一项(MGU):对于其他合一项,一定可以写成最大合一项合另一个合一项的复合
计算MGU的过程:
这样得到的合一项一定是最一般合一项,同时也得到了合一后的子句,从而推出一个新的子句。
注意每一次循环都要对S进行置换
这样我们就有了归结的全部过程:
对于存在性的查询,我们还可以给出具体的答案,过程如下:
盲目搜索
搜索问题的形式化定义
- 搜索的状态空间
- 使状态发生改变的动作集合
- 初始状态
- 目标状态
搜索算法
输入:
- 初始状态
- 后继函数S(x,a):返回在状态x通过动作a可以到达新状态的集合
- 目标检测函数
- 单步的代价函数C(x,a,y):返回从状态x通过动作a到状态y的代价
输出:
- 从初始状态到目标状态的一个状态系列
树搜索
- 边界是我们还没有探索但是想探索的状态
搜索的关键性质
完备性:如果有一个解,搜索能否一定找到解
最优性:搜索能否总是找到最小代价的解
时间复杂性:所生成或扩展过的节点的最大数量
空间复杂性:必须保存在内存中的节点的最大数量
宽度优先搜索
总是选择边界上的第一个节点进行扩展
令b为任何状态的后继状态的最大数量,令d为找到最优解的动作数量
深度优先算法
将当前状态的后继放在边界的前面,因此总是扩展最深的节点
完备性:
- 无限状态空间:无
- 有限状态空间,但是有无穷条路径:无
- 有限状态空间且没有重复路径:有
最优性:无
令m为状态空间中的最长路径长度
时间复杂度:\(O(b^m)\),很差如果m远大于d
空间复杂度\(O(bm)\),线性空间
一致代价搜索
边界上的路径按代价的增序排列,始终扩展代价最下的路径,如果每个代价一致就是宽度优先
假设每条边的代价\(\epsilon\)都为正数且不能任意小,假设最优解路径的代价为\(C^*\)
完备性:有
最优性:有
时间复杂度\(O(b^{C^*+1})\)
空间复杂度\(O(b^{C^*+1})\)
深度受限搜索
宽度优先在空间复杂度方面存在问题,深度优先又有可能选择了一条很长的或无限长的路径
深度受限搜索:执行DFS,但只到预先指定的深度L
迭代加深搜索
解决深度优先和宽度优先的问题
从深度限制 L = 0 开始,我们迭代增加深度限制,对每个深度限制执行深度受限搜索
完备性:有
最优性:有,如果动作代价一致
双向搜索
同时从初始状态向前搜索和从目标状态向后搜索
假设使用的BFS
完备性:有
最优性:有(一致代价)
时空复杂性\(O(b^{d/2})\)
总结
图搜索
图搜索需要考虑重复路径
路径检测
路径检测确保一个节点不同于路径上它的任何祖先节点
环检测
确保得到的后继节点不同于任何先前扩展过的节点
总结
启发式搜索
基本思路是设计一个启发式函数h(n),用于猜测从节点n到达目标节点的代价
贪婪最佳优先搜索
使用h(n)来对边界上的节点进行排序
然而这个方法忽略了达到n的代价,因此这个算法可能会探索那些接近目标但远离初始状态的节点
所以贪婪最佳搜索不是最优的
A*搜索
定义一个评价函数f(n) = g(n)+h(n):
- g(n)表示从初始状态到节点n路径的代价
- h(n)表示从节点n到一个目标节点的代价的启发式
使用f(n)来对边界上的节点进行排序
可采纳性:每个节点的启发式估计小于真实的代价\(h(n) \le h*(n)\)
一致性:\(h(n_1) \le c(n_1->n_2)+h(n_2)\),一致性蕴含可采纳性
时空复杂性:当所有节点的h(n)=0,退化成一致代价搜索,所以时空复杂性与一致代价搜索一样(最差)
可采纳性蕴含最优性,如果只有可采纳性,则环检测不保证最优性,可以记录下以前路径的节点,如果新的路径代价更低,可重新探索
有单调性,则环检测保证最优性
IDA*搜索
决策树
决策树表示一个函数,该函数将属性值向量作为输入,并返回一个”决策“(单个输出值)
- 节点:用属性标记
- 边:用属性值标记
- 叶子:用决策标记
决策树的表示
决策树表示属性值约束的合取的析取
任何的布尔函数都可以写成决策树,也可以通过真值表把表中的每一行对应决策树中的一条路径。
决策树的学习
目的:是为了找到一颗最符合测试样例的决策树
思路:选择一个”最重要“的属性做为(子)树的根,从而不断的递归下去。
信息增益
如何选择一个最重要的属性?
我们使用信息增益的概念,它是用信息论的基本概念-熵来定义的。
熵是对随机变量不确定性的度量:一个只有一个值的随机随机变量没有不确定性,其熵被定义为0;抛一枚硬币具有”1 bit“的熵。
我们定义以概率\(P(V_k)\)取值\(V_k\)的随机变量\(V\)的熵为: \[ H(V) = -\sum_k{P(V_k)log_2P(V_k)} \] 所以以概率q为真的布尔变量的熵为: \[ B(q) = -(qlog_2q+(1-q)log_2(1-q)) \] 对于一个目标属性来说,我们可以把整个训练集当作一个布尔变量,假如这个训练集有p个正例,n个负例,那么该训练集的熵就为 \[ H(GOAL) = B(\frac{p}{p+n}) \] 具有d个不同值的属性A可以将训练集E划分为\(E_1,...,E_d\)
每个子集都有\(p_k\)个正例和\(n_k\)个负例,因此测试属性A之后剩余的熵为: \[ Reminder(A) = \sum_{k=1}^{d}{\frac{p_k+n_k}{p+n}B(\frac{p_k}{p_k+n_k})} \] 对A的测试属性的信息增益是熵的减少: \[ Gain(A) = B(\frac{p}{p+n})-Reminder(A) \] 选择信息增益最大的属性
Gini指数
熵模型拥有大量耗时的对数运算,基尼指数在简化模型的同时还保留了熵模型的优点。
基尼指数反映了从数据集中随机抽取两个样例,其类别标记不一致的概率
如果一个数据集D包含来自n类的样本,那么它的Gini指数为: \[ Gini(D) = \sum_{i=1}^np_i(1-p_i) \] 其中\(p_i\)是类i在D中的概率。
很显然对于决策树来说只有两类”Yes“或”No“,所以: \[ Gini(D) = 2p(1-p) \] p为其中正例的比例
假设属性A的取值将D划分为\(D_1,...,Dm\) \[ Gini(D|A) = \sum_{i=1}^{m}\frac{D_i}{D}Gini(D_i) \] 选择具有最小基尼指数的属性作为节点即可