1.Bootstraping:名字来⾃成语“pull up by your own bootstraps”,意思是依靠你⾃⼰的资源,称为⾃助法,它是⼀种有放回的抽样⽅法,它是⾮参数统计中⼀种重要的估计统计量⽅差进⽽进⾏区间估计的统计⽅法。其核⼼思想和基本步骤如下:(1)采⽤重抽样技术从原始样本中抽取⼀定数量(⾃⼰给定)的样本,此过程允许重复抽样。(2)根据抽出的样本计算给定的统计量T。
(3)重复上述N次(⼀般⼤于1000),得到N个统计量T。(4)计算上述N个统计量T的样本⽅差,得到统计量的⽅差。
应该说Bootstrap是现代统计学较为流⾏的⼀种统计⽅法,在⼩样本时效果很好。通过⽅差的估计可以构造置信区间等,其运⽤范围得到进⼀步延伸。
bagging:bootstrap aggregating的缩写。让该学习算法训练多轮,每轮的训练集由从初始的训练集中随机取出的n个训练样本组成,某个初始训练样本在某轮训练集中可以出现多次或根本不出现,训练之后可得到⼀个预测函数序列h_1,??h_n,最终的预测函数H对分类问题采⽤投票⽅式,对回归问题采⽤简单平均⽅法对新⽰例进⾏判别。
[训练R个分类器f_i,分类器之间其他相同就是参数不同。其中f_i是通过从训练集合中(N 篇⽂档)随机取(取后放回)N次⽂档构成的训练集合训练得到的。对于新⽂档d,⽤这R个分类器去分类,得到的最多的那个类别作为d的最终类别。]
boosting:其中主要的是AdaBoost(Adaptive Boosting)。初始化时对每⼀个训练例赋相等的权重1/n,然后⽤该学算法对训练集训练t轮,每次训练后,对训练失败的训练例赋以较⼤的权重,也就是让学习算法在后续的学习中集中对⽐较难的训练例进⾏学习,从⽽得到⼀个预测函数序列h_1,?,h_m,其中h_i也有⼀定的权重,预测效果好的预测函数权重较⼤,反之较⼩。最终的预测函数H对分类问题采⽤有权重的投票⽅式,对回归问题采⽤加权平均的⽅法对新⽰例进⾏判别。
(类似Bagging⽅法,但是训练是串⾏进⾏的,第k个分类器训练时关注对前k-1分类器中错分的⽂档,即不是随机取,⽽是加⼤取这些⽂档的概率。)(pku,sewm,shinningmonster.)Bagging与Boosting的区别:
⼆者的主要区别是取样⽅式不同。Bagging采⽤均匀取样,⽽Boosting根据错误率来取样,因此Boosting的分类精度要优于Bagging。Bagging的训练集的选择是随机的,各轮训练集之间相互独⽴,⽽Boostlng的各轮训练集的选择与前⾯各轮的学习结果有关;Bagging的各个预测函数没有权重,⽽Boosting是有权重的;Bagging的各个预测函数可以并⾏⽣成,⽽Boosting的各个预测函数只能顺序⽣成。对于象神经⽹络这样极为耗时的学习⽅法。Bagging 可通过并⾏训练节省⼤量时间开销。bagging和boosting都可以有效地提⾼分类的准确性。在⼤多数数据集中,boosting的准确性⽐bagging⾼。在有些数据集中,boosting会引起退化---Overfit。
Boosting思想的⼀种改进型AdaBoost⽅法在邮件过滤、⽂本分类⽅⾯都有很好的性能。2.激活函数
关于激活函数,⾸先要搞清楚的问题是,激活函数是什么,有什么⽤?不⽤激活函数可不可以?答案是不可以。激活函数的主要作⽤是提供⽹络的⾮线性建模能⼒。如果没有激活函数,那么该⽹络仅能够表达线性映射,此时即便有再多的隐藏层,其整个⽹络跟单层神经⽹络也是等价的。因此也可以认为,只有加⼊了激活函数之后,深度神经⽹络才具备了分层的⾮线性映射学习能⼒。那么激活函数应该具有什么样的性质呢?
可微性:当优化⽅法是基于梯度的时候,这个性质是必须的。单调性:当激活函数是单调的时候,单层⽹络能够保证是凸函数。
输出值的范围:当激活函数输出值是有限的时候,基于梯度的优化⽅法会更加稳定,因
为特征的表⽰受有限权值的影响更显著;当激活函数的输出是⽆限的时候,模型的训练会更加⾼效,不过在这种情况⼩,⼀般需要更⼩的learning rate
从⽬前来看,常见的激活函数多是分段线性和具有指数形状的⾮线性函数2.1sigmoid
sigmoid是使⽤范围最⼴的⼀类激活函数,具有指数函数形状,它在物理意义上最为接近⽣物神经元。此外,(0,1)的输出还可以被表⽰作概率,或⽤于输⼊的归⼀化,代表性的如Sigmoid交叉熵损失函数。
然⽽,sigmoid也有其⾃⾝的缺陷,最明显的就是饱和性。从上图可以看到,其两侧导数逐
渐趋近于0
具有这种性质的称为软饱和激活函数。具体的,饱和⼜可分为左饱和与右饱和。与软饱和对
应的是硬饱和,即
sigmoid的软饱和性,使得深度神经⽹络在⼆三⼗年⾥⼀直难以有效的训练,是阻碍神经⽹络发展的重要原因。具体来说,由于在后向传递过程中,sigmoid向下传导的梯度包含了⼀个f′(x)因⼦(sigmoid关于输⼊的导数),因此⼀旦输⼊落⼊饱和
区,f′(x)就会变得接近于0,导致了向底层传递的梯度也变得⾮常⼩。此时,⽹络参数很难得到有效训练。这种现象被称为梯度消失。⼀般来说,sigmoid⽹络在5层之内就会产⽣梯度消失现象
此外,sigmoid函数的输出均⼤于0,使得输出不是0均值,这称为偏移现象,这会导致后⼀层的神经元将得到上⼀层输出的⾮0均值的信号作为输⼊。2.2tanh
tanh也是⼀种⾮常常见的激活函数。与sigmoid相⽐,它的输出均值是0,使得其收敛速度要⽐sigmoid快,减少迭代次数。然⽽,从途中可以看出,tanh⼀样具有软饱和性,从⽽造成梯度消失。2.3ReLU,P-ReLU,Leaky-ReLU
ReLU的全称是Rectified Linear Units,是⼀种后来才出现的激活函数。可以看到,当x<0时,ReLU硬饱和,⽽当x>0时,则不存在饱和问题。所以,ReLU能够在x>0时保持梯度不衰减,从⽽缓解梯度消失问题。这让我们能够直接以监督的⽅式训练深度神经⽹络,⽽⽆需依赖⽆监督的逐层预训练。
然⽽,随着训练的推进,部分输⼊会落⼊硬饱和区,导致对应权重⽆法更新。这种现象被称为“神经元死亡”。与sigmoid类似,ReLU的输出均值也⼤于0,偏移现象和神经元死亡会共同影响⽹络的收敛性。
ReLU还经常被“诟病”的⼀个问题是输出具有偏移现象[7],即输出均值恒⼤于零。偏移现象和神经元死亡会共同影响⽹络的收敛性。本⽂作者公开在arxiv的⽂章[8]中的实验表明,如果不采⽤Batch Normalization,即使⽤MSRA初始化30层以上的ReLU⽹络,最终也难以收敛。相对的,PReLU和ELU⽹络都能顺利收敛,这两种改进的激活函数将在后⾯介绍。实验所⽤代码见https://http://www.doczj.com/doc/330ff18309a1284ac850ad02de80d4d8d05a014d.html /Coldmooon/Code-for-MPELU/。ReLU另外⼀个性质是提供神经⽹络的稀疏表达能⼒,在Bengio教授的Deep Sparse Rectifier Neural Network[6]⼀⽂中被认为是ReLU带来⽹络性能提升的原因之⼀。但后来的研究发现稀疏性并⾮性能提升的必要条件,⽂献RReLU[9]也指明了这⼀点。针对在x<0的硬饱和问题,我们对ReLU做出相应的改进,使得
这就是Leaky-ReLU,⽽P-ReLU认为,α也可以作为⼀个参数来学习,原⽂献建议初始化a 为0.25,不采⽤正则。PReLU[10]是ReLU和LReLU的改进版本,具有⾮饱和性.
与LReLU相⽐,PReLU中的负半轴斜率a可学习⽽⾮固定。原⽂献建议初始化a为0.25,不采⽤正则。个⼈认为,是否采⽤正则应当视具体的数据库和⽹络,通常情况下使⽤正则能够带来性能提升。
虽然PReLU引⼊了额外的参数,但基本不需要担⼼过拟合。例如,在上述cifar10+NIN实验中,PReLU⽐ReLU和ELU多引⼊了参数,但也展现了更优秀的性能。所以实验中若发现⽹络性能不好,建议从其他⾓度寻找原因。
与ReLU相⽐,PReLU收敛速度更快。因为PReLU的输出更接近0均值,使得SGD更接近natural gradient。证明过程参见原⽂[10]。
此外,作者在ResNet中采⽤ReLU,⽽没有采⽤新的PReLU。这⾥给出个⼈浅见,不⼀定正确,仅供参考。⾸先,在上述LReLU实验中,负半轴斜率对性能的影响表现出⼀致性。对PReLU采⽤正则将激活值推向0也能够带来性能提升。这或许表明,⼩尺度或稀疏激活值对深度⽹络的影响更⼤。其次,ResNet中包含单位变换和残差两个分⽀。残差分⽀⽤于学习对单位变换的扰动。如果单位变换是最优解,那么残差分⽀的扰动应该越⼩越好。这种假设下,⼩尺度或稀疏激活值对深度⽹络的影响更⼤。此时,ReLU或许是⽐PReLU更好的选择。
数学形式与PReLU类似,但RReLU[9]是⼀种⾮确定性激活函数,其参数是随机的。这种随机性类似于⼀种噪声,能够在⼀定程度上起到正则效果。作者在cifar10/100上观察到了性能提升。2.4ELU
融合了sigmoid和ReLU,左侧具有软饱和性,右侧⽆饱和性。右侧线性部分使得ELU能够缓解梯度消失,⽽左侧软饱能够让ELU对输⼊变化或噪声更鲁棒。ELU的输出均值接近于零,所以收敛速度更快。在ImageNet上,不加Batch Normalization30层以上的ReLU⽹络会⽆法收敛,PReLU⽹络在MSRA的Fan-in(caffe)初始化下会发散,⽽ELU⽹络在Fan-in/Fan-out下都能收敛2.5Maxout
在我看来,这个激活函数有点⼤⼀统的感觉,因为maxout⽹络能够近似任意连续函数,且当w2,b2,…,wn,bn为0时,退化为ReLU。Maxout能够缓解梯度消失,同时⼜规避了ReLU 神经元死亡的缺点,但增加了参数和计算量。2.6Noisy Activation Functions
当激活函数发⽣饱和时,⽹络参数还能够在两种动⼒下继续更新:正则项梯度和噪声梯度。引⼊适当的噪声能够扩⼤SGD的参数搜索范围,从⽽有机会跳出饱和区。在激活函数中引⼊噪声的更早⼯作可追溯到[5],但⽂献[5]的⼯作并不考虑噪声引⼊的时间和⼤⼩。本篇的特点在于,只在饱和区才引⼊噪声,且噪声量与饱和程度相关——原式与泰勒展开式⼀次项之差δ。算法1中g表⽰sigmoid,⽤于归⼀化δ。注意,ReLU的δ恒为0,⽆法直接加噪声,所以作者把噪声加在了输⼊上。2.7CReLU
作者在观察第⼀层滤波器(filter)时发现,滤波器相位具有成对现象(pair-grouping phenomenon)。这⼀发现揭⽰了⽹络的底层学到了⼀些冗余滤波器来提取输⼊的正负相位信息的可能性。因此可以考虑采⽤适当的操作移除这些冗余滤波器。对此,作者提出了CReLU,将激活函数的输⼊额外做⼀次取反,等价于将输⼊相位旋转180°。这种策略可以看作在⽹络中加⼊相位的先验。实验在cifar10上观察到能以更少的参数获得性能提升。
使⽤CReLU时,要有意识的将滤波器数量减半,否则,⽹络参数变为2倍。2.8MPELU
MPELU[8]是我们组的⼯作,将分段线性与ELU统⼀到了⼀种形式下。在NIN+CIFAR10,本⽂作者发现ELU与LReLU性能⼀致,⽽与PReLU差距较⼤。经过分析,ELU泰勒展开的⼀次项就是LReLU。当在ELU前加⼊BN让输⼊集中在0均值附近,则ELU与LReLU 之差——泰勒展开⾼次项会变⼩,粗略估计,约55.57%的激活值误差⼩于0.01。因此,受PReLU启发,令α可学习能够提⾼性能。此外,引⼊参数β能够进⼀步控制ELU的函数形状。正式定义为:
α和β可以使⽤正则。α,β固定为1时,MPELU退化为ELU;β固定为很⼩的值时,MPELU近似为PReLU;当α=0,MPELU等价于ReLU。
MPELU的优势在于同时具备ReLU、PReLU和ELU的优点。⾸先,MPELU具备ELU的收敛性质,能够在⽆BatchNormalization的情况下让⼏⼗层⽹络收敛。其次,作为⼀般化形式,MPELU较三者的推⼴能⼒更强。简⾔之,MPELU=max(ReLU,PReLU,ELU)。
深度学习快速发展,催⽣了形式各异的激活函数。⾯对琳琅满⽬的成果,如何做出选择⽬前尚未有统⼀定论,仍需依靠实验指导。⼀般来说,在分类问题上建议⾸先尝试ReLU,其次ELU,这是两类不引⼊额外参数的激活函数。然后可考虑使⽤具备学习能⼒的PReLU和本⽂作者提出的MPELU,并使⽤正则化技术,例如应该考虑在⽹络中增加Batch Normalization层。3.激活函数:
传统神经⽹络中最常⽤的两个激活函数,Sigmoid系(Logistic-Sigmoid、Tanh-Sigmoid)被视为神经⽹络的核⼼所在.从数学上来看,⾮线性的Sigmoid函数对中央区的信号增益较⼤,对两侧区的信号增益⼩,在信号的特征空间映射上,有很好的效果,通过对加权的输⼊进⾏⾮线性组合产⽣⾮线性决策边界.从神经科学上来看,中央区酷似神经元的兴奋态,两侧区酷似神经元的抑制态,因⽽在神经⽹络学习⽅⾯,可以将重点特征推向中央区,将⾮重点特征推向两侧区.
Relu函数为现在深度学习使⽤⽐较⼴泛的激活函数,相⽐前⾯两个,其优点在于计算简单,导数简单,收敛快,单侧抑制,相对宽阔的兴奋边界,稀疏激活性;缺点在于在训练的时候,⽹络很脆弱,很容易出现很多神经元值为0,从⽽再也训练不动.⼀般将学习率设置为较⼩值来避免这种情况的发⽣.⽐较:
激活函数的⼀些可取的属性包括:
⾮线性:当激活函数是⾮线性的,然后⼀个两层神经⽹络可以证明是⼀个通⽤函数近似值.⽽identity激活函数不满⾜这个属性.当多层⽹络使⽤identity激活函数,整个⽹络就相当于⼀个单层模型.
连续可微的:这个属性对基于梯度优化⽅法是必要的.⼆进制激活函数在0点没有可微性,它在其他值上全部可导为0,基于梯度优化⽅法对于它毫⽆进展.
范围:当激活函数的范围是有限的,基于梯度的训练⽅法往往更稳定,因为模式显著影响⼏个有限权重.当范围是⽆限的,训练通常更有效率,因为模式显著影响⼤部分权重.在后⼀种情况下,较⼩的学习利率通常是必要的.单调:当激活函数是单调时,与单层模型相关的错误表⾯是凸的.
平滑性:有单调导数的平滑函数已经被证明在某些情况下推⼴地更好.这些属性表明这些激活函数和Occam's razor更⼀致.原点附近近似identity:当激活函数有这个属性,对于⼩的随机值初始化权重,神经⽹络将有效地学习.当激活函数没有这个属性,在初始化权值必须使⽤特殊例⼦.在下⾯的表中,激活函数,表明有该属性.常见函数:
10产⽣式模型与判别式模型
—产⽣式模型中,观察序列作为模型的⼀部分;
—判别式模型中,观察序列只作为条件,因此可以针对观察序列设计灵活的特征。产⽣式模型:⽆穷样本==》概率密度模型=产⽣模型==》预测判别式模型:有限样本==》判别函数=预测模型==》预测
4.概率图模型表⽰
由链式法则求联合概率;由条件独⽴性进⾏分解;由独⽴性进⾏因⼦分解(条件参数化)(条件独⽴性隐含了因⼦分解,反之成⽴)
将联合分布分解为条件概率分布(CPD)的乘积5.波利亚罐⼦模型证明
6.正交试验设计
均匀分散,齐整可⽐。正交表是⼀整套规则的设计表格,⽤L为正交表的代号,n为试验的次数,t为⽔平数,c为列数,也就是可能安排最多的因素个数。例如L9(3^4)它表⽰需作9次实验,最多可观察4个因素,每个因素均为3⽔平。
正交表的性质(1)每⼀列中,不同的数字出现的次数是相等的。例如在两⽔平正交表中,任何⼀列都有数码“1”与“2”,且任何⼀列中它们出现的次数是相等的;如在三⽔平正交表中,任何⼀列都有“1”、“2”、“3”,且在任⼀列的出现数均相等。
(2)任意两列中数字的排列⽅式齐全⽽且均衡。例如在两⽔平正交表中,任何两列(同⼀横⾏内)有序对⼦共有4种:(1,1)、(1,2)、(2,1)、(2,2)。每种对数出现次数相等。在三⽔平情况下,任何两列(同⼀横⾏内)有序对共有9种,1.1、1.2、1.3、2.1、2.2、2.3、3.1、3.2、3.3,且每对出现数也均相等。
通俗的说,每个因素的每个⽔平与另⼀个因素各⽔平各碰⼀次,这就是正交性。
6.1考虑进⾏⼀个三因素、每个因素有三个⽔平的试验。如果作全⾯试验,需作3^3=27次。图:正交试验设计⽰意图
若从27次试验中选取⼀部分试验,常将A和B分别固定在A1和B1⽔平上,与C的三个⽔平进⾏搭
配,A1B1C1,A1B1C2,A1B1C3。作完这3次试验后,若A1B1C3最优,则取定C3这个⽔平,让A1和C3固定,再分别与B因素的三个⽔平搭配,A1B2C3,A1B3C3。这2次试验作完以后,若A1B2C3最优,取定B2,C3这两个⽔平,再作两次试验
A2B2C3,A3B2C3,然后与⼀起⽐较,若A3B2C3最优,则可断⾔A3B2C3是我们欲选取的最佳⽔平组合。这样仅作了7次试验就选出了最佳⽔平组合。
我们发现,这些试验结果都分布在⽴⽅体的⼀⾓,代表性较差,所以按上述⽅法选出的试验⽔平组合并不是真正的最佳组合。如果进⾏正交试验设计,利⽤正交表安排试验,对于三因素三⽔平的试验来说,需要作9
次试验,⽤“Δ”表⽰,标在图中。如果每个平⾯都表⽰⼀个⽔平,共有九个平⾯,可以看到每个平⾯上都有三个“Δ”点,⽴⽅体的每条直线上都有⼀个“Δ”点,并且这些“Δ”点是均衡地分布着,因此这9次试验的代表性很强,能较全⾯地反映出全⾯试验的结果,这就是正交实验设计所特有的均衡分散性。我们正是利⽤这⼀特性来合理的设计和安排试验,以便通过尽可能少的试验次数,找出最佳⽔平组合。
6.2设计过程
1)确定试验因素及⽔平数;2)选⽤合适的正交表;3)列出试验⽅案及试验结果;4)对正交试验设计结果进⾏分析,包括极差分析和⽅差分析;5)确定最优或较优因素⽔平组合。7.全概率公式与贝叶斯公式
8.贝叶斯置信区间
什么是贝叶斯统计简单地说:贝叶斯统计是综合未知参数的先验信息与样本信息,依据贝叶斯定理,求出后验分布,根据后验分布推断未知参数的统计⽅法.它与经典统计的主要区别有:在统计推断中是否能包括先验信息未知参数是否可以看作是随机变量事件的概率是否⼀定要有频率解释概率是否可⽤经验来确定
区间估计在贝叶斯统计中,当获得随机变量x对应的参数µ的后验分布π(µ/x)后,就可计算µ落在某区间[a,b]内的后验概率,譬如1-α,即P(a≤µ≤b/x)=1-α按上述⽅法计算出的区间被称为\"贝叶斯可信区间(Bayesian credible interval,BCI)\以别于经典统计中的\"置信区间(confidence interval,CI)\".这⾥的贝叶斯可信区间和置信区间虽是同类概念,但⼆者却有以下两点重要区别:1,解释不同贝叶斯⽅法求得的可信区间是⼀个具体的可信区间.⽐如,通过贝叶斯⽅法计算出某地成年男⼦红细胞总体均数µ的95%可信区间是[531,542](万/mm3),这时我们可写出:P(531≤µ≤542/x)=0.95.这可以说:\"µ属于或落⼊[531,542]的概率为0.95\贝叶斯统计的这⼀结论是
基于总体参数µ是随机变量这⼀基础上的.可对于经典统计的置信区间就不能这么说,因为经典统计认为µ是常量,它要么在
[531,542]内,要么在此区间外,不能说\"µ在[531,542]内的概率为0.95\";只能说:\"在100次使⽤这个置信区间时,⼤约95次盖住了µ\".此种频率解释有时很难被⼈理解,从⽽造成频率学派在教学上的⼀⼤难点.另外从应⽤⾓度来说,对那些难以重复(如罕见疾病的疗效判断),或仅能重复⼀次,两次⽽不可能或不必要多次重复的试验来说,这种解释似乎变得没有什么实际意义【4】.相⽐之下,贝叶斯可信区间的解释简单,⾃然,易被⼈们理解和采⽤.中国卫⽣信息学会公共卫⽣信息专业委员会2006年度学术交流会
浙江4绍兴现实情况是:很多实际⼯作者把经典统计的置信区间当作贝叶斯可信区间去使⽤和理解.2,求法不同
在经典统计中寻求置信区间有时是困难的,因为他要设法构造⼀个枢轴量(含有被估参数的随机变量),使其分布不含有未知参数,这是⼀项技术性很强的⼯作,不熟悉\"抽样分布\"是很难
完成的【6】.⽽寻求贝叶斯可信区间只利⽤后验分布,不需要再去寻求另外的分布.两种⽅法相⽐,贝叶斯可信区间的寻求常常要简单⼀些.
9.⽐较三种模型:HMMs and MRF and CRF
HMMs(隐马尔科夫模型):状态序列不能直接被观测到(hidden);每⼀个观测被认为是状态序列的随机函数;
状态转移矩阵是随机函数,根据转移概率矩阵来改变状态。HMMs与MRF的区别是只包含标号场变量,不包括观测场变量。MRF(马尔科夫随机场):有向图⽅法,便于分析因果关系,将图像模拟成⼀个随机变量组成的⽹格。
其中的每⼀个变量具有明确的对由其⾃⾝之外的随机变量组成的近邻的依赖性(马尔科夫性)。CRF(条件随机场),⼜称为马尔可夫随机域:⼀种⽤于标注和切分有序数据的条件概率模型。从形式上来说CRF可以看做是⼀种⽆向图模型,考察给定输⼊序列的标注序列的条件概率。概率⽆向图⽅法,记得在语⾔模型中⽐较常见。
条件随机场(conditional random field,简称CRF),是⼀种鉴别式机率模型,是随机场的⼀种,常⽤于标注或分析序列资料,如⾃然语⾔⽂字或是⽣物序列。
如同马尔可夫随机场,条件随机场为⽆向性之图模型,图中的顶点代表随机变量,顶点间的连线代表随机变量间的相依关系,在条件随机场当中,随机变量Y的分布为条件机率,给定的观察值则为随机变量X。原则上,条件随机场的图模型布局是可以任意给定的,⼀般常⽤的布局是链结式的架构,链结式架构不论在训练(training)、推论(inference)、或是解码(decoding)上,都存在有效率的算法可供演算。
条件随机场跟隐藏式马可夫模型常被⼀起提及,条件随机场对于输⼊和输出的机率分布,没有如隐藏式马可夫模型那般强烈的假设存在。
在视觉问题的应⽤:
HMMs:图像去噪、图像纹理分割、模糊图像复原、纹理图像检索、⾃动⽬标识别等MRF:图像恢复、图像分割、边缘检测、纹理分析、⽬标匹配和识别等
CRF:⽬标检测、识别、序列图像中的⽬标分割
P.S.标号场为隐随机场,它描述像素的局部相关属性,采⽤的模型应根据⼈们对图像的结构与特征的认识程度,具有相当⼤的灵活性。
空域标号场的先验模型主要有⾮因果马尔可夫模型和因果马尔可夫模型。标注偏置问题(Label Bias Problem)和HMM、MEMM、CRF模型⽐较
PS:标注偏置问题存在于最⼤熵马尔可夫模型(MEMM)中,虽然MEMM解决了HMM输出独⽴性假设的问题,但是只解决了观察值独⽴的问题,状态之间的假设则是标注偏置问题产⽣的根源,CRF则解决了标注偏置问题,是HMM模型的进⼀步优化。
HMM模型中存在两个假设:⼀是输出观察值之间严格独⽴,⼆是状态的转移过程中当前状态只与前⼀状态有关(⼀阶马尔可夫模型)。
10.o和s分别代表观察序列和标记序列—产⽣式模型—构建o和s的联合分布p(s,o)
—判别式模型—构建o和s的条件分布p(s|o)假定输⼊x,类别标签y
—产⽣式模型(⽣成模型)估计联合概率P(x,y),因可以根据联合概率来⽣成样本—:HMMs —判别式模型(判别模型)估计条件概率P(y|x),因为没有x的知识,⽆法⽣成样本,只能判断分类:SVMs,CRF,MEM
因篇幅问题不能全部显示,请点此查看更多更全内容