AI第5章-计算智能资料课件



《AI第5章-计算智能资料课件》由会员分享,可在线阅读,更多相关《AI第5章-计算智能资料课件(82页珍藏版)》请在装配图网上搜索。
1、单击此处编辑母版标题样式,,单击此处编辑母版文本样式,,第二级,,第三级,,第四级,,第五级,,,,*,单击此处编辑母版标题样式,,单击此处编辑母版文本样式,,第二级,,第三级,,第四级,,第五级,,,*,Artificial Intelligence (AI),人工智能,第,5,章 计算智能,Computational Intelligence,,(CI),,内 容,第,5,章 计算智能,1,、概述,2,、神经网络,3,、模糊计算,4,、遗传算法,,现代科技发展的一个显著特点就是学科间的交叉、渗透和促进。,(,如生物信息学,),,,计算智能,是另一个有说服力的示例。,,计算智能涉及,神经计
2、算,、,模糊计算,、,进化计算,、,粒群计算,、,蚁群计算,、,自然计算,、,免疫计算,和,人工生命,等领域。,,反映了,多学科交叉与集成,的发展趋势。,5.1,概述,,,,通过,人工方法,模仿人类智能已有很长历史(如仿生学的众多成果),,,都是人类人工模仿智能的典型例证,而现代人工智能领域则力图抓住,智能的本质,。,,,,人工神经网络,(,ANN,)主要是通过,Hopfield,网络,的促进和,反向传播,(BP),网络,训练多层感知器,来推广的,将神经网络,(NN),归类于人工智能可能不太合适,而归类于计算智能(,CI,)应更能说明问题实质。,,,进化计算,、,人工生命,和,模糊逻辑系统,的
3、某些课题,也都归类于计算智能。,,第一个对,计算智能,的,定义,由贝兹德克(,Bezdek,)于,1992,年提出。他认为,从严格意义上讲,计算智能,取决于,制造者提供的,数据数值,,而不依赖于知识;另一方面,人工智能则应用知识。,,他认为,,人工神经网络,应当称为,计算神经网络,。,,,尽管,计算智能,与,人工智能,的,界限,并不十分明显,,但讨论它们的,区别和联系,是有必要的。,,贝兹德克对相关术语给予一定的符号和简要说明或定义。,,他给出有趣的,ABC,:,,,A,-,Artificial,,表示人工的(非生物的),即人造的。,,,B,-,Biological,,表示物理的+化学的+,(
4、?),=生物的。,,,C,-,Computational,,表示数学+计算机。,,ABC,与神经网络,(NN),、模式识别,(PR),和智能,(I),之间的关系,:,可看出:,计算智能是一种,智力方式的,低层认知,,它与人工智能的,区别只,,,是,认知层次从中层下降至低层而已,中层系统含有知识,),,而,,低层系统则没有。,,当一个系统,只涉及,数值,(,低层,),数据,,,含有,模式识别部分,,不使用,人工智能意义上的知识,,,且,具有,计算适应性、计算容错性、接近人的速度、 近似于人的误差率这,4,个特性,,则该系统就是,计算智能系统,。,,一个计算智能系统以,非数值方式,加上,知识值,
5、,即成为,人工智能系统,。,,从学科范畴看:,,,计算智能,是在,神经网络,(NN,),、,进化计算,(EC,),及,模糊系统,(FS,),这三个领域发展相对成熟的基础上,形成的一个统一的学科概念。,1,、什么是计算智能,,Computational Intelligence,Darwin Principle,Collective Behavior of Society,,Neural Network,EvolutionaryComputation,FuzzySystem,Others,Genetic Algorithm,Evolutionary Strategy,Evolutio
6、nary programming,Genetic Programming,Particle Swarm,Ant,Artificial System,,神经网络,,对人类智能的,结构,模拟方法,。通过对大量人工神经元的,广泛并行,,互联,,构造人工神经网络系统以模拟生物神经系统的智能机理。,,进化计算,,对人类智能的,演化,模拟方法,。通过对生物遗传和演化过程的认识,,,,用,进化算法,模拟人类智能的进化规律。,,模糊计算,,对人类智能的,逻辑,模拟方法,,通过对人类处理模糊现象认知能力,,的认识,用,模糊逻辑,模拟人类的智能行为。,,计算智能不仅涉及,神经网络,、,模糊系统,和,进化计算,三
7、个,,主要分支,还包括:,粒子群算法,,蚁群算法,,人工免疫系统,,人工生命,,模拟退火算法,,粗集理论与粒度计算,支持向量机,,量子计算,,DNA,计算,,智能,agent,,……,,生物智能,(Biological Intelligence,,,BI),,由脑的物理化学过程反映出来的,,,脑智能的基础。,,人工智能,(Artificial Intelligence,,,AI),,非生物的,,,人造的,,,常用符号表示,来源于人类知识的精华。,,计算智能,(Computational Intelligence,,,CI),,由数学方法和计算机实现的,来源于数值计算的传感器。,,ABC,:,,
8、,A,rtificial,,,B,iological,,,C,omputational,2,、关系,,另一种观点,:,计算智能,和,人工智能,是不同的范畴。,,虽然人工智能与计算智能之间有重合,但计算,,智能是一个全新的学科领域,无论是生物智能,,还是机器智能,计算智能都是其,最核心,的部分,,,,而人工智能则是,外层,。,,,实践证明,只有将,AI,和,CI,很好地,结合,起来,才能更好地,,模拟人类智能,才是智能科学发展的正确方向。,,内容提要,第,5,章 计算智能,1,、概述,2,、神经计算,3,、模糊计算,4,、遗传算法,,5.2,神经计算,以,神经网络,为基础的计算。,,广义上,神经
9、网络可泛指,生物神经网络,,也可指,人工神,,经网络,。,,,人工神经网络,(,Artificial Neural Network,),是指模拟,人,,脑神经系统,的,结构,和,功能,,运用大量的处理部件,由人工方,,式建立起来的,网络系统,。,,人脑是,ANN,的原型,,ANN,是对人脑神经系统的模拟。,,人工智能领域中,在不引起混淆的情况下,神经网络一般都,,指的都是,ANN,。,,现代计算机虽有很强的,计算和信息处理能力,,但解决,,像模式识别、感知、评判和决策等复杂问题的能力却远远,,不及人。特别是其只能按人预先编好的程序机械地执行,,,缺乏向环境学习、适应环境的能力。,,人脑是由大量
10、的,基本单元(神经元),经过,复杂的互连,,而构成的一种高度复杂、非线性、并行处理的,信息处理系,,统,,,单个神经元的反应速度在毫秒级,比起计算机的基本单,,元,---,逻辑门,(反应时间在,10,-9,s,量级)慢,5,~,6,个数量级。但,,由于人脑的神经元数量巨大(约为,10,10,个),每个神经元可,,与几千个其他神经元连接(总连接数约为,6×10,13,),因而,,对有些问题的处理速度反而比计算机要快得多,且能耗要,,低得多。由此可见,人脑的性能要比现代计算机高得多。,,所谓,人工神经网络,,是,模仿人脑工作方式,而设计的,一,,种机器,,可用电子或光电元件实现,也可用软件在常规计
11、,,算机上仿真。,,或者说是一种,具有大量连接的并行分布处理器,,具有,,通过学习获取知识并解决问题的能力,且知识是分布存储,,在,连接权,(对应于生物神经元的突触)中,而不是像常规,,计算机那样按地址存储在特定的存储单元中。,,符号(功能)主义:符号逻辑推理,,联结(结构)主义:人工神经网络,,行为主义:智能行为模拟, “模式,-,动作”,,,联结主义的观点:,智能的,寓所,在大脑皮层,是由大量,非线,,,性神经元,互联而成,并行处理的神经网络,。,人工智能的各种学派:,,总体而言,人工神经网络(,ANN,)是反映,人脑结构及功能,的一种,,抽象数学模型,,是由大量,神经元节点,互连而成,的
12、,复杂网络,,用以模拟人,,类进行,知识的表示与存储,以及,利用知识进行推理,的行为。,,简单地讲,,ANN,是一个,数学模型,,可用电子电路实现,也可用计,,算机程序来模拟,是,人工智能研究的一种方法,。,,人工神经网络力求从,四个方面,模拟人脑的智能行为:,物理结构,,,计,,算模拟,,,存储与操作,,,训练,。,,5.2.1,人工神经网络研究的进展,1,、萌芽期,(,20,世纪,40,年代),,,1890,年,美国生物学家,W. James,首次阐明了有关人脑结构及其功能,,,,以及相关学习、联想、记忆的基本规律。,,1943,年,心理学家,McCulloch,和数学家,Pitts,建立
13、起了著名的,阈值加,,权和,模型,简称为,M-P,模型,。,,1949,年,心理学家提出,,神经元之间突触联系是可变的,假,,说,---,Hebb,学习律,。,,2,、第一高潮期,(,1950-1968,),,以,Minsky,,,Rosenblatt,,,Widrow,等为代表人物。,,1957,年,Rosenblatt,定义了一个神经网络结构,称为,感知器,。将,神经,,网络研究从纯理论的探讨推向工程实现,在,IBM,计算机上进行了模拟,,,并可用电子线路模拟。,,3,、反思期,(,1969-1982,),,1969,年,Minsky,和,Papert,在,《,感知机,》,一书中指出感知机
14、的缺陷,(,异,,或运算不可表示,),,使得神经网络的研究从兴起期进入了停滞期。,,芬兰学者,Kohonen,提出了,自组织映射理论,(SOM),,美国学者,,Grossberg,提出了,自适应谐振理论,(ART),,这些研究成果对神经网络以后,,的发展产生了重要影响。,,4,、第二高潮期,(,1983-1990,),,1982,年,,Hopfield,提出,Hopfield,模型,。,1984,年,,Hopfield,设计研制了,,Hopfield,网的电路,。较好地解决了著名的,TSP,问题,引起了较大轰动。,,1985,年,,Hinton,、,Sejnowsky,、,Rumelhart,
15、等人在,Hopfield,网络中引,,入随机机制,提出,Boltzmann,机,。,,1986,年,,Rumelhart, Hinton,提出,多层感知机,与,反向传播,(BP),学习,,算法,,该方法克服了感知器非线性不可分类问题,给神经网络研究带来,,了新的希望。,,,1990,年,12,月,中国首届神经网络大会,在北京举行。,,5,、成熟期,(,1991-,),,平稳发展,应用广泛,与其他领域的结合:与进化计算结合、与模,,糊逻辑结合、,……,。,,,实际应用:,计算机视觉、自然语言理解、优化计算、智能控制等。,,,并行分布处理:,并行结构,耐故障。,(,实时、动态,),,非线性映射:,
16、任意非线性映射能力。,(,非线性问题,),,通过训练进行学习:,通过数据记录进行训练,能处理由数学,,模型或描述规则难以处理的问题。,,适应与集成:,自适应和信息融合能力。,(,复杂、大规模、多变量,),,硬件实现:,快速和大规模处理能力。,(,并行处理,),人工神经网络的特性:,,神经网络的,生物学机理,。,,⑴、,神经元结构包括,四个部分,,,胞体:,神经细胞的本体,维持细胞生存功能,,,树突:,接收来自其他神经元的信号(输入),,,轴突:,输出信号,,,突触:,与另一个神经元相联系的特殊部位,5.2.2,人工神经网络的结构,,◇,一个神经元有,两种状态,:兴奋、抑制。,,◇,平时处于,抑
17、制状态,的神经元,其树突和胞体接收其它神经元由突触,,传来的,兴奋电位,,多个输入在神经元中以,代数和,的方式叠加。,,◇,,如果输入的兴奋电位总量超过某个,阈值,,神经元会被激发进入,兴奋,,状态,,发出输出脉冲,并由突触传递给其他神经元。,,◇,,神经元被触发后进入,不应期,,在不应期内不能被触发,然后阈值逐,,渐下降,恢复抑制状态。,⑵、神经元的,基本工作机制,(简化),,◇,神经元及其连接。,,◇,神经元之间的,连接强度,决定信号传递的强弱。,,◇,神经元之间的连接强度可以随,训练,改变。,,◇,信号可以起,刺激,作用,也可以起,抑制,作用。,,◇,一个神经元接受信号的,累积效果,决定
18、该神经元的状态。,,◇,每个神经元有一个“,阈值,”。,⑶、生物神经网络的,六个基本特征,,MP,模型:,,一种,人工神经元,的,数学模型,,是,最早的,神经元模型之一。,,,是大多数神经网络模型的基础。,,,MP,模型示意图:,1,、神经元及其特性,输入,输出,中间状态,,人工神经元,是仿照,生物神经元,提出的,神经元可以有,N,个输入,:,每个输入端与神经元之间有一定的,连接权值,:,神经元,总的输入,为对每个输入的,加权求和,,同时,减去阈值,θ,。,u,代表神经,,元的活跃值,即,神经元状态,:,,神经元的,输出,y,是对,u,的映射:,二值函数,f,,称为,输出函数,(,激励函数,,
19、,激活函数,),,有几种形式:,,S,型函数,双曲正切函数,,输出函数“,f,”,的作用:,,,◇,,控制,输入,对,输出,的,激活作用,。,,,◇,对输入、输出进行,函数转换,。,,,◇,将可能,无限域的输入,变换成,有限范围,内的输出。,,2,、人工神经网络的基本特性和结构,,结构,由,基本处理单元,及其,互连方法,决定。,,,人工神经网络由,神经元模型,构成。,,这种由许多神经元组成的信息处理网络具有,并行分布结构,,每个神经元具有,单一输出,,并且能够与其它神经元连接。,,存在许多,(,多重,),输出连接方法,每种连接方法对应一个连接权系数。,,严格地说,人工神经网络是一种具有下列特性
20、的,有向图,:,,(1),对于每个节点,i,存在一个,状态变量,x,i,;,,(2),从节点,i,至节点,j,,存在一个,连接权系数,w,ij,;,,(3),对于每个节点,i,,存在一个,阈值,,i,;,,(4),对于每个节点,i,,定义一个,变换函数,,f,i,( x,i,,w,ij,,,,i,),;,,,对于最一般的情况,此函数的形式为:,,,神经元模型,确定之后,一个神经网络的,特性,及,能力,即主,,要取决于,网络的拓扑结构,及,学习方法,。,,人工神经网络(,ANN,)可以看成是以,人工神经元,为节点,,,用,有向加权弧,连接起来的,有向图,。,,,人工神经元,就是对,生物神经元
21、,的模拟。,,,有向弧,则是,轴突,—,突触,—,树突,对的模拟。,,有向弧的,权值,表示相互连接的两个人工神经元之间,相互,,作用的强弱,。,,人工神经网络的,结构,基本上分为两类:,递归,(,反馈,),网络,、,,和,前馈网络,。,⑴、递归网络,,在递归网络中,,多个神经元互连,以组织成一个互连神经网络,如图所示。,,有些神经元的,输出,被,反馈至,同层,或,前层,神经元。因此,信号能够从,正向,和,反向,流通。,(,Hopfield,网络),,递归网络又叫做,反馈网络,。,V,i,,:表示节点的状态,,x,i,:节点的输入,(,初始,),值,,x,i,’,:收敛后的输出值,,(,i=1,
22、2,…,n,),,⑵、前馈网络,,前馈网络具有,递阶分层结构,,由一些,同层,神经元间,不存在,互连的层级,组成。,从输入层至输出层,的信号通过,单向连接流通,;,(,感知器,),,神经元从一层连接至下一层,,不存在,同层神经元间的连接,。,,实线,---,指明实际信号流通,,,,虚线,---,表示反向传播。,,(,连接权值,),,3,、人工神经网络的主要学习方法,,人工神经网络,最具有吸引力的特点,是它的学习能力。,,1962,年,,Rosenblatt,给出了人工神经网络著名的,学习,,定理:,人工神经网络,可以学会它能表达的任何东西,。,,神经网络的,适应性,是通过学习实现的,学习是神经
23、网,,络研究的一个重要内容,人工神经网络的学习过程表现为,,对,连接权值的训练,。,,,人工神经网络的,学习方法,,,涉及到,学习方式,和,学习规则,的确定,不,,同的学习方法其学习方式和学习规则是不同的。,,⑴、学习方式,,通过向环境学习,获取知识并改进自身性能,是,NN,的一个重要特,,点。一般情况下,性能的改善是,按某种预定的度量,,通过,调节自身参数,,(,权值,)随时间逐步达到的。,,,按环境提供信息量的多少,,学习方式有,3,种,:,监督学习,(有师学,,习)、,非监督学习,(无师学习)、,再励学习,(强化学习)。,,①,监督学习(有师学习),此学习方式需要外界,存在,一个,教师,
24、,可对,给定的,一组输入,提供,应有,,的,输出结果,(,正确答案,→,已知的输出)。,,,输出数据,称为,训练样本集,,学习系统,(,ANN,),可根据,已知输出,与,实际,,输出,之间的,差值,(,误差信号,),来调节系统参数。,,②,非监督学习(无师学习),,不存在,外部教师,学习系统完全按照环境提供数据的,某些规律,来,,调节自身参数或结构(是一种自组织过程),以表示出外部输入的,某,,种固有特性,(如聚类或某种统计上的分布特征)。,,③,再励学习(强化学习),介于有师与无师两种情况之间。外部环境对系统输出结果只给出,,评价信息,(奖或惩),而不是给出正确答案,学习系统通过,强化,那些
25、,,受奖的动作来改善自身的性能。,,① 误差纠正学习,,令,y,k,(n),为输入,x,k,(n),时,神经元,k,在,n,时刻的,实际输出,,,d,k,(n),表示,应,,有的输出,,则,误差信号,可写为:,误差纠正学习的,最终目的,:使,某一基于,e,k,(n),的目标函数,达到最小,,以使,,网络中,每一输出单元,的实际输出,在某种意义上,逼近应有的输出,。,⑵、学习规则,,一旦选定了目标函数形式,误差纠正学习就变成了一个典型的“,最,,优化,”问题。,最常用的目标函数,是“,均方误差判据,”,定义为,误差平方和,,的均值,。,其中,,E,为求,期望算子,。,,上式的前提是,被学习的过程
26、,是,宽平稳,的,具体方法可用“,最优梯度,,下降法,”。直接用,J,作为目标函数时,,,需要知道整个学习过程的统计特性,,,,为解决这一问题,通常用,J,在时刻,n,的,瞬时值,ξ(n),代替,J,,即:,各数据偏离平均数的距离的平均数。(标准差),表示实验误差大小的偏差平方和。,,属“等精度测量”,即在相同条件下,各次测量值,X,i,对测定平均值,X,的偏差平方和后再求和。,∑,(X,i,-X),2,概率意义下的“加权平均”。根据大数定理,有,n,次结果的平均值将趋向数学期望值。,,问题变为:,求,ξ(n),对权值,w,的极小值,根据,梯度下降法,可得:,这就是通常所说的,误差纠正学习规则
27、,(或称,delta,学习规则)。在,,自适应滤波理论,中,对这种学习的收敛性有较深入的分析。,其中,,η,为学习步长。,,②,Hebb,学习,,由神经心理学家,Hebb,提出的学习规则可归纳为:“当某一突触,(,连,,接,),两端,的神经元,同步激活,(,同为激活,\,同为抑制,),时,该连接的强度应,,为增强,反之减弱”。,式中,,y,k,(n),,,x,j,(n),分别为,w,kj,两端神经元的状态,其中最常用的,,一种情况是:,因,△,w,kj,与,y,k,(n),,,x,j,(n),的相关成正比,也称为“,相关学习规则,”。,用数学方式可描述为:,,③ 竞争学习,,网络,各输出单元,
28、互相竞争,,最后只有一个最强者激活。最常见的,,一种情况是,输出神经元之间,有“,侧向抑制性连接,”。,,即原输出单元中如有某一单元较强,则它将获胜并抑制其他单元,,,,最后只有此强者处于激活状态。,最常用的竞争学习规则可写为:,,当,学习系统,(,神经网络,),所处环境平稳,时,(,统计特性不随时间变化,),,,理论上通过,监督学习,可学到环境的统计特性,这些统计特性可被学习系,,统,作为经验,记住。但若环境是,非平稳,的,(,统计特性随时间变化,),,通常的,,监督学习没有能力跟踪这种变化。,,为解决此问题,需要网络有一定的,自适应能力,,此时对每一个不同,,输入都作为一个,新的例子,来对
29、待。,⑶,、学习与自适应,,此时,模型,(即,ANN,)被当做一个,预测器,,基于前一个时刻输入,x,(n-1),,和模型在,n-1,时刻的参数,它估计,n,时刻的输出,x’(n),,,x’(n),与实际值,x(n),,(应有的正确答案)比较,其,差值,称为“,信息,”。,,若信息,e(n)=0,,则不修正模型参数,否则修正模型参数,以便跟踪,,环境的变化。,,4,、基于神经网络的知识表示,这里,知识并不像在产生式系统中那样,独立地表示为每,,一条规则,,而是,将某一问题的若干知识在同一网络中表示,。,,例如,在有些神经网络系统中,知识是用神经网络所对,,应的,有向权图,的,邻接矩阵,及,阈值
30、向量,表示的。,,5,、基于神经网络的推理,通过,网络计算,实现。,,把用户提供的,初始证据,用作,网络的输入,,通过网络计,,算最终得到,输出结果,。,,,一般来说,,正向网络推理,的,步骤,:,,,◇,将,已知数据,,输入网络输入层的,各个节点,;,,,◇,利用,特性函数,,分别计算网络中,各层的输出,;,,,◇,用,阈值函数,,对输出层的输出进行判定,从而得到,输出结果,。,,5.2.3,人工神经网络的典型模型及其算法,,人工神经网络相关算法,,,已在智能处理系统中广泛应用。迄今为止,已经开发和应用了,30,多种人工神经网络模型。,,在此,我们仅对典型网络模型及其算法作简要介绍。,,,1
31、,、反向传播,(BP),模型,,2,、,Hopfield,网络,,3,、自适应共振理论,(ART),模型,,1,、反向传播,(BP),模型,神经元的网络输入,:,net,i,= x,1,w,1i,+x,2,w,2i,+…+x,n,w,ni,,输入向量、输出向量的,维数,、网络隐藏层的,层数,和各个隐藏层神经元的,个数,的决定了,网络拓扑,。,,,增加,隐藏层的,层数,和隐藏层神经元,个数,不一定总能提高,网络精度,和,表达能力,。,,BP,网一般都选用,二级(,3,层)网络,。因为可以证明如果,BP,网络中,隐层单元,可以根据需要,自由设定,,那么一个,三层网络,可以实现,以任意精度近似任意连
32、续函数,。,,将,待识别模式,的输入矢量输入至输入层,并传至后面的隐含层,最后通过连接权输出到输出层。网络中每个神经元通过求,输入权值,和,非线性激励函数传递结果,来工作。其数学描述为:,式中,,out,i,---,所考虑层中,第,i,个神经元,的,输出,。,,,out,j,,---,前一层中,第,j,个神经元,的,输出,。,,,φ,( ),,---,激励函数,。,,,net,i,,---,网络中第,i,个神经元。,,对非线性激励函数,φ,的使用有几种常用形式,其中经常采用的是前面介绍过的,Sigmoid,函数,:,,BP,算法基本思想:,,样本集,:,S={(X,1,,Y,1,),(X,2
33、,,Y,2,),…,(Xs,Ys)},,逐一根据样本集中的样本,(X,k,,Y,k,),计算出,实际输出,O,k,及其,误差,E,1,,,,然后对,各层神经元的权值,W,(1),,W,(2),,…,W,(L),各做一次调整,重复这个循环,直到,∑,Ep<ε,(所有样本的误差之和)。,,用,输出层的误差,调整,输出层“权矩阵”,,并用此误差,估计,输出层的直接前导层,的误差;再用输出层前导层误差,估计,更前一层的误差(逐层前推),,如此获得所有其它各层的误差估计;并用这些估计实现,对权矩阵的修改,。,,形成将,输出端表现出的误差,沿着与输入信号相反的方向,逐级向输入端传递的过程,。,,BP,算法
34、训练过程概述,前提,---,样本,(,训练,),集,(,输入值,理想,(,期望,),输出值,),,1,、首先定义网络误差,,对于,BP,反向传播训练算法,通常使用的,网络误差,是熟知的“,均方差,”。但事实上并不是必须使用均方差,可使用任何,连续可微误差函数,,不过选择其他误差函数会增加额外的复杂性。,,须注意,不论选用哪种函数作为误差函数,必须在网络,输出期望值,与,实际值,之间,提供一个有意义的度量,---,距离,。,假设这样的训练集合存在,即可讨论怎样利用它来训练一个网络。,,均方差定义:,式中,,Ep,是第,p,个样本,(,x,p,,t,p,),的,误差,;,,,t,pj,是第,j,个
35、神经元,输出的,期望值,(即训练集合);,,o,pj,是第,j,个神经元,输出的,实际值,。,,上式中,每一项都反映,单个输出神经元,对,整个误差,的,影响,,,取绝对误差(期望值和实际值之差)的平方,。,,,可以看出:,远离期望值的那些输出对总误差影响最大,增加“幂指数”,影响则更明显。,,B,P,反向传播算法是“,梯度下降训练算法,”中比较简单的一种,。,,核心,思想,:,调整权值,使网络,总误差最小,。,,梯度下降法,也称为“,最速下降法,”,。,基本思想:,,从当前点出发,取函数在该点处,下降最快的方向,,作为搜索方向。,,任一点的,负梯度方向,,是函数值在该点下降最快的方向。,,将,
36、n,维问题,转换为一系列沿负梯度方向,用,一维搜索方法,寻优问题。,,网络中的,每个权值,都是,N,维误差空间,中的,一个元素,,在误差空间中,权值,作为,独立的变量,,且相应,误差表面,(,曲线,),的形状,由,训练集合,和,误差函数,共同决定,。,,权值的误差函数,负梯度,指向,误差函数减小最快的方向,。如果在权值空间沿这个矢量移动,最终将达到,极小值,(,该点梯度为零,),。,,但该点可能是,局部极小点,,如下图给出误差空间中梯度与,Ep,之间的关系,形象地指出了误差函数达到局部最小值的情形。,,,其中,:,,△,p,W,ji,表示连接,L-1,层,的,源神经元,i,和,L,层,的,目的
37、神经元,j,权值的变化,。,,权值的这个变化,导致了权值空间中,梯度沿,降低误差方向,变化,。,,(正比关系变化),上述结果的数学描述:,权值误差函数负梯度关系式:,,因此,,首先必须计算偏微分,---,/,应用公式:,目标:,确定如何调整每个权值,使网络收敛。,任务:,将上式转换成,适合于计算机实现,的,微分方程,。,上式说明:,每个权值,W,ji,将沿着,局部误差表面,最速下降的负梯度方向变化,,一步的关系式。,,O,pl,是对,L-1,层的所有神经元输出求和得到,因此可计算第二项偏微分:,展开,:,net,pj,由下式给出:,得:,,定义误差信号,δ,pj,:,两式合并,得:,前述,→,
38、权值误差函数负梯度关系式:,式中,常数,η,是,学习速率,,它控制在权值空间中,对应每步沿负梯度方向变化的大小。,乘上一个比例常数,η,,重写得:,,为了得到可用的微分方程,,暂不考虑,δ,pj,的变化,,运用微分公式:,已知,输出,O,pj,是,net,pj,的函数,表示为:,激励函数,为计算,,必须分别考虑下面两种情况:,◇,目的神经元,j,是一输出神经元。,,◇,目的神经元,j,是一隐含层神经元。,,⑴、输出层中的目的神经元,对于输出层中的目的神经元,直接得到以,O,pj,为自变量的误差函数,Ep,,可得出:,可将,δ,pj,(,输出层的目的神经元,)写成:,,⑵、隐含层中的目的神经元,
39、对于隐含层中的目的神经元,不能直接对误差函数微分。,,利用微分公式:,对,L+1,层中的所有神经元求和。根据,net,pk,的定义,可计算式中第二个因子:,,得:,由定义可以得到:,得到:,将前述两式与上式合并:,+,隐含层误差信号,δ,pj,可表示为:,,小结:,概括上述结果,公式,,给出了关于,δpj,的微分方程,,它对隐含层和输出层权值都有效。,,公式,对应输出层和隐含层权值,δpj,的表达式。,和,修正上述公式。,分别是,公式,给出的是对应于均方差,公式,的解。,因此,若使用其他误差函数,则必须要,,为得到,适于计算机的,微分方程,,现仅计算,选择一个特定的输出函数,。因此,必须,,并
40、求函数的解。,利用,Sigmoid,函数,得:,,由上式和前述公式,可改写为:,,,对上式求导,得:,继续计算,,即:,将前述公式,代入上式,可将,表示为,O,pj,的函数:,将上式与前述公式一同考虑:,,可写出在计算机上用,BP,算法对网络训练所需的微分方程,其中误差函数是均方差函数,输出函数是,Sigmoid,函数。,,从推导过程中可看到,若选择另外的误差或激励函数,需要对上述公式进行修正。,综上所述,,BP,反向传播训练算法所需的微分方程是:,其中,,η,为学习速率;,,,δ,pj,为,L,层神经元,j,的误差信号;,,,O,pj,为,L-1,层神经元,i,的输出。,,误差信号,δ,pj
41、,可表示为:,其中,,O,pj,代表,L,层神经元,j,的输出;,,O,pi,代表,L-1,层神经元,i,的输出;,,δ,pk,代表,L+1,层神经元,k,的误差信号。,,真正的梯度下降是沿着,梯度确定的方向,,以,无穷小步长,进行的,很明显,这是不切实际的。,,因此定义,学习速率,η,,式中确定了沿梯度方向的一个有限步长。这里,η,是常量,它相当于确定步长的增益。,,其,核心思想,就是:选择足够大的,η,,使得网络迅速收敛,而不会因调整过度而振荡。,,反向传播学习的全部过程,既包括它的,前向路径,,也包括其,反向路径,。,,采用反向传播算法时,,网络权值,必须首先用一,小随机值,进行检查初始
42、化。选择小初始权值非常重要,若初始权值选择太大,会导致网络不可训练。,,初始化后,训练集矢量就可用于网络。使网络向前运行产生一实际值集合,利用反向传播可以建立一新权值集合,总误差经多次迭代后减小,如果不是如此,可调整训练参数。,,,BP,算法中的几个问题:,◇,收敛速度问题,,收敛速度很慢,其训练需要很多步迭代。,,◇,局部极小点问题,,逃离,/,避开局部极小点:修改,W,的初值并不是总有效。,,逃离,---,统计方法;,[Wasserman,,,1986],将,Cauchy,训练与,BP,算法结,,合起来,可在保证训练速度不被降低的情况下,找到全局极小点。,,◇,网络瘫痪问题,,在训练中,权
43、可能变得很大,这会使神经元的网络输入变得很大,,,,从而又使得其激活函数的导函数在此点上的取值很小。根据相应式子,,,,此时的训练步长会变得非常小,进而将导致训练速度降得非常低,最,,终导致网络停止收敛。,,◇,稳定性问题,,用修改量的综合实施权的修改。,,连续变化的环境,它将变成无效的。,,◇,步长问题,,BP,网络的收敛是基于无穷小的权修改量。,,步长太小,收敛就非常慢。,,步长太大,可能会导致网络的瘫痪和不稳定。,,自适应步长,使得权修改量能随着网络的训练而不断变化。,,[1988,年,,Wasserman],,◇,网络隐层中神经元数目及层数的选取尚无理论直到,一般凭借经验,,,选取。,,
- 温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 36个关键词详解2025政府工作报告
- 学习2025年政府工作报告中的八大科技关键词
- 2025年政府工作报告要点速览接续奋斗共谱新篇
- 学习2025政府工作报告里的加减乘除
- 深化农村改革党课ppt课件(20250305)
- 弘扬雷锋精神凝聚奋进力量学习雷锋精神的丰富内涵和时代价值
- 深化农村改革推进乡村全面振兴心得体会范文(三篇)
- 2025年民营企业座谈会深度解读PPT课件
- 领导干部2024年述职述廉述责述学述法个人报告范文(四篇)
- 读懂2025中央一号党课ppt课件
- 2025年道路运输企业主要负责人安全考试练习题[含答案]
- 2024四川省雅安市中考英语真题[含答案]
- 2024湖南省中考英语真题[含答案]
- 2024宁夏中考英语真题[含答案]
- 2024四川省内江市中考英语真题[含答案]