117人 2021湖南株洲市市直事业单位地下招聘医疗岗通告
本文目录导航:
2021湖南株洲市市直事业单位地下招聘医疗岗通告【117人】
依据您提供的文本内容,以下是针对2021年湖南株洲市市直事业单位地下招聘医疗岗位通告的文本改写和润饰,以优化内容质量并确保语义不变:---**一、招聘准则**本次招聘保持品学兼优、以德为先的用人规范,以及地下、对等、竞争、择优的准则。
**二、招聘岗位与方案**2021年我市市直事业单位共方案招聘346名上班人员。
其中,面向社会地下招聘336名(医疗岗位详见附件1),面向株洲市市直及县城市机关事业单位在编在岗上班人员(工勤人员除外)地下选调10名(详细岗位见附件2)。
**三、招聘条件**(一)面向社会地下招聘人员应满足以下基本条件:1. 具有中华人民共和国国籍;2. 遵守中华人民共和国宪法和法律;3. 具有良好的品行和职业品德;4. 具有岗位所需的专业或技艺条件;5. 顺应岗位要求的身材条件;6. 合乎岗位其余要求。
有严重违纪违规记载或其余不合乎报名条件的情景者,不得报名。
(二)面向株洲市市直及县城市机关事业单位地下选调人员应满足以下基本条件:1. 在现单位上班1年以上,新选拔的应在现职岗位任满1年;2. 合乎选调岗位要求的其余资历条件。
存在试用期内、未满最低服务年限或其余不合乎选调条件的情景者,不得报名。
**四、信息发布**地下招聘(选调)的相关信息将经过株洲市人力资源和社会保证局官方网站地下发布。
**五、报名程序**(一)报名期间:2021年8月6日9:00至8月9日17:30。
(二)报名方式:1. 驳回网上报名方式。
应聘者应登录株洲人事考试网(),进入相应报名入口,准确填报信息并上行合乎要求的电子照片。
2. 准考据由考生自行在线下载打印,打印期间为8月18日至20日。
**六、资历审查**资历审查分为初步审查和复审。
用人单位将依据岗位条件对应聘人员启动初步审查。
经过初步审查的应聘者,将进入复审环节。
复审期间和地点将另行通知。
**七、考试**(一)考试比例:岗位报名人数与招聘(选调)方案的比例准则上不低于3:1。
不凡岗位可依据实践状况调整。
(二)考试方式:包括口试、面试、实践操作才干测试(详细方式见附件1、附件2)。
**八、体检与调查**依据综分解绩排名,按岗位招聘数1:1的比例确定体检和调查人员。
体检参照公务员规范执行,参与吸毒检测名目。
体检合格者进入调查环节,片面调查应聘者的遵纪违法、思维政治表现、品德质量、业务才干、上班实绩等状况,并复核应聘者资历条件。
**九、公示与聘用**依据考试效果、体检和调查结果,确定拟招聘(选调)人员,并在株洲市人力资源和社会保证局官方公示7个上班日。
公示无异议后,操持聘用(选调)手续,签署聘用合同,履行试用期,试用期包括在聘用合同期内。
试用期满且合格者,予以正式聘用。
**十、特意揭示**1. 亲密关注通告和通知,因团体要素形成的结果,责任自傲。
2. 考试不设辅导用书,不举行也不委托任何培训机构。
3. 诚信介入考试,不故弄玄虚,不违纪违规,不轻易丢弃。
4. 配合做好防疫措施,提供必要证明,接受防疫审核。
**十一、咨询与监视**(一)咨询:详细岗位状况、招聘条件等疑问,请咨询招聘单位(咨询方式见附件)。
(二)监视:中共株洲市纪委株洲市监委驻市人力资源和社会保证局纪检监察组(监视)。
---以上内容对原文启动了语句的流利性改写,并对局部错别字、遗漏字启动了批改,确保信息的准确性和条理性。
启事和启示在语法配置上有哪些区别?
启事与启示,虽一字之差,却包括着丰盛的语义差异。
首先,让咱们从语法配置上区分:启事,作为名词,其实质是通告或申明,通常不带宾语,用于发布信息或寻求协助。
例如,当咱们失落东西时,会张贴“寻物启事”来寻觅失物,或是单位招聘时,会发布“招聘启事”来招徕人才。
但是,启示一词则更为灵敏,它既是名词,亦可作为动词经常使用,能承载一个对象,暗示或启示某种了解和执行。
如当教员面对在校生的不懂时,或许会给出“启示”,即疏导他们找到疑问的答案,这是一种教诲和启示的环节。
正如你或许听到:“教员,是否给我一些启示,让我明确这个疑问的解答?”经过这些例子,咱们可以看到“通知”与“启示”之间的实质区别:通知并重于信息的传播,而启示则强调启示和了解的疏导。
因此,选用失当的词汇,能使表白更准确,更具压服力。
总之,启事和启示虽都与启示相关,但在经常使用时需留意其不同的语义和配置。
宿愿这些区分能协助你在日常交换中更准确地运用这两个词。
短语结构规定
1.引言从50年代的机器翻译和人工智能钻研算起,NLP(Natural Language Processing,人造言语处置)已有长达半个世纪的历史。
在这个进程中,学术界曾提出许多关键的实践和方法,取得了丰盛的效果。
笔者以为,近二十年在这一畛域中可谓里程碑式的奉献有如下三个:(1)复杂特色集和合一语法;(2)言语学钻研中的词汇主义;( 3)语料库方法和统计言语模型。
这三个效果将继续对言语学、计算言语学和NLP钻研发生深远影响。
为了更好地理解这些效果的意义, 先引见与此相关的两个理想。
2.两个理想2.1理想之一——短语结构语法不能有效地刻画人造言语在人造言语处置中,为了识别一个输入句子的句法结构,首先要把句子中的词一个一个地切分进去,而后去查词典,给句子中的每个词指派一个适宜的词性(part of speech);之后再用句法规定把句子里包括的句法成分,如名词短语、动词短语、小句等,一一地识别进去。
进而判别每个短语的句法配置,如主语、谓语、宾语等,及其语义角色,最终失掉句子的意义示意,如逻辑语义表白式。
这就是一个句法剖析的全环节。
本文要提到的第一个理想是:短语结构语法(Phrase Structure Grammar,简称PSG)不能有效地刻画人造言语。
PSG在Chomsky言语学实践中占有关键位置,并且在人造言语的句法刻画中担当无足轻重的角色。
但是它有一些基本色的弱点,关键表现为,它经常使用的是像词类和短语类那样的繁多标志,因此不能有效地指明和解释人造言语中的结构歧义疑问。
请看汉语中“V+N”组合。
假设咱们把“打击、委托、调查”等词指派为动词(V);把“力度、方式、盗版、 甲方”等词视为名词(N),并赞同“打击力度”、“委托方式”是名词短语(NP), “打击盗版”、“委托甲方”是动词短语(VP),那么就会发生如下两条有歧义的句法规定:(1)NP→VN(2)VP→VN换句话讲,当计算机观察到文本中相邻发生的“V+N”词类序列时,仍不能确定它们组成的终究是NP还是VP。
咱们把这样的歧义叫做“短语类型歧义”。
例如:·该公司正在招聘〔开售V人员N〕NP。
·地球在始终〔扭转V状态N〕VP。
上方再来看“N+V”的组合,也雷同会发生带有短语类型歧义的规定对,如:(3)NP→NV例:市场调查;政治影响。
(4)S→NV例:多少钱攀升;形势稳固。
其中标志S代表小句。
不只如此,有时当机器观察到相邻发生的“N+V”词类序列时,甚至不能判别它们是不是在同一个短语中。
也就是说,“N+V”词类序列或许组成名词短语NP或小句S,也有或许基本就不在同一个短语里。
前面这种歧义称为“短语边界歧义”。
上方是两个相关的例句:·中国的〔铁路N树立V〕NP开展很快。
·〔中国的铁路N〕NP树立V得很快。
前一个例句中,“铁路树立”组成一个NP;而在后一个例句中,这两个相邻的词却分属于两个不同的短语。
这足以说明, 基于繁多标志的PSG不能充沛地描画人造言语中的句法歧义现象。
上方再看一些这样的例子。
(5)NP→V N1 de N2(6)VP→V N1 de N2其中de代表结构助词“的”。
例如,“〔削苹果〕VP的刀”是NP;而“削〔苹果的皮〕NP”则是VP。
这里既有短语类型歧义,又有短语边界歧义。
比如,“削V苹果N”这两个相邻的词,或许形成一个VP,也或许分处于两个相邻的短语中。
(7)NP→P N1 de N2(8)PP→P N1 de N2规定中P和PP区分示意介词和介词短语。
例如,“〔对上海〕PP 的印象”是NP;而“对〔上海的在校生〕NP”则是PP。
相邻词“对P上海N”或许组成一个PP,也或许分处于两个短语中。
(9)NP→NumP N1 de N2其中NumP示意数量短语。
规定(9)只管示意的是一个NP, 但可区分代表两种结构意义:(9a)NumP〔N1 de N2〕NP如:五个〔公司的职员〕NP(9b)〔NumP N1〕NP de N2如:〔五个公司〕NP的职员(10)NP→N1 N2 N3规定(10)示意的也是一个NP,但“N1+N2”先联合,还是“N2+N3”先联合,会发生两种不同的结构方式和意义,即:(10a)〔N1 N2〕NP N3如:〔现代汉语〕NP词典(10b)N1〔N2 N3〕NP如:新版〔汉语词典〕NP以上探讨的第一个理想说明:·由于解放力不够,繁多标志的PSG 规定不能充沛消解短语类型和短语边界的歧义。
用数学的言语讲,PSG规定是必要的, 却不是充沛的。
因此,机器仅仅依据规定左边的一个词类序列来判别它是不是一个短语,或许是什么短语,都有某种不确定性。
·驳回复杂特色集和词汇主义方法来重建人造言语的语法系统,是近二十年来环球言语学界对此作出的最关键的致力。
2.2理想之二——短语结构规定的笼罩有限经过大规模语料的调查,人们发现一种言语的短语规定的散布合乎齐夫率(Zipfs Law)。
Zipf是一个统计学家和言语学家。
他提出,假设对某个言语单位(不论是字母还是词)启动统计,把这个言语单位在一个语料库里发生的频度(frequency)记作F,而且依据频度的降序对每个单元指派一个整数的阶次(rank)R。
结果发现R和F 的乘积近似为一个常数。
即F[*]R≈const(常数)或许说,被观察的言语单元的阶次R与其频度F成正比相关。
在词频的统计方面,齐夫律显示,不论被调查的语料仅仅是一本长篇小说,还是一个大规模的语料库,最常发生的100 个词的发生次数就会占到语料库总词次数(tokens)的近一半。
假设语料库的规模是100万词次, 那么其中频度最高的100个词的累计发生次数大略是50万词次。
假设整个语料库含有5万词型(types),那么其中的一半(也就是2.5 万条左右)在该语料库中只发生过一次性。
即使把语料库的规模放大十倍,变成1000万词次,统计规律大体不变。
幽默的是,80年代Sampson对英语语料库中的PSG规定启动统计,发现它们的散布雷同是歪曲的,大体表现为齐夫率(Aarts et al. 1990)。
也就是说,一方面经常遇到的语法规定只要几十条左右,它们的发生频度极高;另一方面,规定库中大约一半左右的规定在语料库中只发生过一次性。
随着语料库规模的扩展,新的规定仍始终出现。
Chomsky 曾提出过这样的假定,以为对一种人造言语来说,其语法规定的数目是有限的,而据此生成的句子数目是有限的。
但语料库调查的结果不是这样。
这个发现至少说明,单纯依托言语学家的语感来编写语法规定无法能胜任大规模实在文本处置的需求,咱们必定寻觅可以从语料库中间接失掉大规模言语常识的新方法。
几十年来,NLP学界宣布过少量璀璨效果,有词法学、语法学、 语义学的,有句法剖析算法的,还有许多驰名的人造言语运行系统。
而对该畛域影响最大的、里程碑式的效果应数上方三个。
3.三个里程碑3.1里程碑之一:复杂特色集复杂特色集(complex feature set)又叫多重属性(multiple features)刻画。
在言语学里,这种刻画方法最早出如今语音学中,起初被Chomsky学派驳回来扩展PSG的刻画才干。
如今无论是在言语学界还是计算言语学界,简直一切语法系统在词汇层的刻画中均驳回复杂特色集,并应用这些属性来强化句法规定的解放力。
一个复杂特色集F 包括恣意多个特色名f[,i]和特色值v[,i]对。
其方式如:F={…,fi=vi,…},i=1,…,n特色值v[,i]既可以是一个便捷的数字或符号, 也可以是另外一个复杂特色集。
这种递归式的定义使复杂特色集取得了弱小的表现才干。
如北京大学俞士汶等(1998)开发的《现代汉语语法信息词典详解》,对一个动词界定了约40项属性刻画,对一个名词界定了约27项属性刻画。
一条含有词汇和短语属性解放的句法规定具有如下的普通方式:〈PSG规定〉:〈属性解放〉 :〈属性传递〉普通来说,PSG 规定包括右部(条件:符号序列的婚配形式)和左部(举措:短语归并结果)。
词语的“属性解放”间接来自系统的词库,而短语的“属性解放”则是在自底向上的短语归并环节中从其形成成分的核心语(head)那里承袭过去的。
在Chomsky的实践中这叫做X-bar 实践。
X-bar代表某个词类X所形成的、仍具有该词类属性的一个成分。
假设X=N,就是一个具有名词个性的N-bar。
当一条PSG 规定的右部婚配成功,且“属性解放”局部失掉满足,这条规定才干被执行。
此时,规定左部所命名的短语被生成,该短语的复杂特色集经过“属性传递”局部灵活生成。
20世纪80年代末、90年代初学术界提出了一系列新的语法,如狭义短语结构语法(GPSG)、核心语驱动的短语结构语法(HPSG)、词汇配置语法(LFG)等等。
这些方式语法其实都是在词汇和短语的复杂特色集刻画背景下发生的。
合一(unification )算规律是针对复杂特色集的运算而提进去的。
“合一”是成功属性婚配和赋值的一种算法,所以上述这些新语法又统称为“基于合一的语法”。
3.2里程碑之二:词汇主义在NLP畛域中,第二个里程碑式的奉献叫词汇主义(lexicalism )。
言语学家Hudson(1991)曾宣称词汇主义是当今言语学实践开展的头等偏差。
其发生要素也同前面所观察的两个理想有关。
词汇主义方法不只提出了一种颗粒度更细的言语常识示意方式,而且表现了一种言语常识递增式开发和积攒的新思绪。
这里首先要解释一下这样一个矛盾。
一方面,言语学界一贯以为,不划分词类就无法讲语法,如前面引见的短语结构语法。
也就是说,语法“无法能”依据一般的词来写规定。
但是另一方面,人们近来又留意到,任何归类都会失落集体的某些关键信息。
所以从前文提到的第一个理想登程,要想强化语法解放才干,词汇的刻画应当深化到比词类更纤细的词语自身过去。
换句话讲,言语学号召在词汇层驳回颗粒度更小的刻画单元。
从实质过去说,词汇主义偏差反映了言语刻画的主体曾经从句法层转移到词汇层;这也就是所谓的“小语法,大词库”的思维。
上方咱们来看与词汇主义有关的一些上班。
3.2.1词汇语法(Lexicon-grammar)法国巴黎大学Gross传授在20世纪60 年代就创立了一个钻研核心叫LADL,并提出词汇语法的概念(ladl. jussieu. fr/)。
·把12,000个关键动词分红50个子类。
·每个动词都有一个特定的论元集。
·每一类动词都有一个特定的矩阵,其中每个动词都用400 个不同句式来逐一刻画(“+”代表可进入该句式;“-”示意不能)。
·已开发英、法、德、西等欧洲言语的大规模刻画。
·INTEX是一个适用于大规模语料剖析的工具, 已先后被环球上五十多个钻研核心驳回。
3.2.2框架语义学(Frame Semantics)Fillmore是格语法(Case Grammar)的开创人,他前几年掌管了美国人造迷信基金的一个名为框架语义学的名目(icsi. berkeley. edu/framenet)。
该名目从WordNet上选取了2000个动词,从中失掉75个语义框架。
例如动词“categorize”的框架被定义为:一团体(Cognizer)把某个对象(Item)视为某个类(Category)。
同原先的格框架相比,原来普通化的举措主体被详细化为认知者Cognizer,举措客体被详细化为事物Item,并依据特定体动词的性质参与了一个作为分类结果的语义角色Category。
名目组还从英国国度语料库中挑出相关句子50,000个, 经过人工给每个句子标注了相应的语义角色。
例如:Kim categorized the book as fiction.(Cog)(Itm)(Cat)3.2.3WordNetWordNet是一个刻画英语词汇层语义相关的词库,1990 年由普林斯顿大学Miller开发(princeton. edu:80/~wn/),到如今已有很多个版本,所有发布在因特网上,供钻研人员自在下载。
欧洲有一个Euro-WordNet,以相似的格局来表现各种欧洲言语的词汇层语义相关。
WordNet刻意刻画的是词语之间的各种语义相关, 似乎义相关(synonymy)、反义相关(antonymy)、高低义相关(hyponymy),局部一全体相关(part-of)等等。
这种词汇语义学又叫做相关语义学。
这一学派同传统的语义场实践和语义属性刻画实践相比,其最大的长处在于第一次性在一种言语的整个词汇表上成功了词汇层的语义刻画。
这是其余学派素来没有做到的。
其它实践迄今仅仅逗留在教科书或某些学术论文中,素来没有失掉工程规模的运行。
上方是WordNet的详情:·95,600条虚词词型(动词、名词、描画词)·被划分红70,100个同义词集(synsets)3.2.4知网(How-Net)知网是董振东和董强(1997)设计的一个汉语语义常识网(com)。
·自下而上地依据概念对汉语虚词启动了穷尽的分类。
·15,000个动词被划分红810类。
·定义了300个名词类,100个描画词类。
·所有概念用400个语义元语来定义。
知网的特点是既有WordNet 所刻画的同一类词之间的语义相关(如:同义、反义、高低义、局部-全体等),又刻画了不同类词之间的论旨相关和语义角色。
3.2.5MindNetMindNet是微软钻研院NLP组设计的(/nlp/)。
其设计思维是试图用三元组(triple )作为所有常识的示意基元。
一个三元组由两个节点和一条衔接边组成。
每个节点代表一个概念,衔接这两个概念节点的边示意概念之间的语义依存相关。
所有三元组经过句法剖析器智能失掉。
详细来说,就是经过对两部英语词典(Longman Dictionary of Contemporary English和American Heritage Dictionary)及一部百科全书(Encarta)中的所有句子启动剖析, 取得每个句子的逻辑语义示意(logical form,简称LF)。
而LF原本就是由三元组形成的,如(W1,V-Obj,W2)示意:W1是一个动词, W2是其宾语中的核心词,因此W2附属于W1,它们之间的相关是V-Obj。
比如(play,V-Obj,basketball)便是一个详细的三元组。
又如(W1,H-Mod,W2),W1代表一个偏正短语中的核心词(head word),W2 是其润饰语(modifier),因此W2附属于W1,它们之间的相关是H-Mod。
这种资源齐全是智能做进去的,所得的三元组无法能没有失误。
但是那些发生频度很高的三元组普通来说是正确的。
MindNet 曾经运行到语法审核、句法结构排歧、词义排歧、机器翻译等许多场所。
3.3里程碑之三:统计言语模型第三个奉献就是语料库方法,或许叫做统计言语模型。
假设用变量W 代表一个文本中顺序陈列的n个词,即W=w[,1]w[,2]…w[,n], 则统计言语模型的义务是给出恣意一个词序列W在文本中发生的概率P(W )。
应用概率的乘积公式,P(W)可开展为:P(W)=P(w[,1])P(w[,2]│w[,1])P(w[,3]│w[,1]w[,2])...P(w[,n]│w[,1]w[,2]…w[,n-1])(1)式中P(w[,1])示意第一个词w[,1]的发生概率,P(w[,2]│w[,1])示意在w[,1]发生的状况下第二个词w[,2]发生的条件概率,依此类推。
不美观出,为了预测词w[,n]的发生概率, 必定已知它前面一切词的发生概率。
从计算过去看,这太复杂了。
假设近似以为恣意一个词w[,i] 的发生概率只同它紧邻的前一个词有关,那么计算就得以大大简化。
这就是所谓的二元模型(bigram),由(1)式得:P(W)≈P(w[,1])Ⅱ[,i=2,…,n]P(w[,i]│w[,i-1])(2)式中Ⅱ[,i=2,…,n]P(w[,i]│w[,i-1])示意多个概率的连乘。
须要着重指出的是:这些概率参数都可以经过大规模语料库来估值。
比如二元概率P(w[,i]│w[,i-1])≈count(w[,i-1]w[,i])/count(w[,i- 1])(3)式中count(…)示意一个特定词序列在整个语料库中发生的累计次数。
若语料库的总词次数为N, 则恣意词w[,i]在该语料库中的发生概率可预计如下:P(w[,1])≈count(w[,i])/N同理,假设近似以为恣意词w[,i]的发生只同它紧邻的前两个词有关, 就失掉一个三元模型(trigram):P(W)≈P(w[,1])P(w[,2]│w[,1])Ⅱ[,i=3,…,n]P(w[,i]│w[,i-2]w[,-1])(5)统计言语模型的方法有点像天气预告。
用来预计概率参数的大规模语料库好比是一个地域历年积攒起来的气候记载,而用三元模型来做天气预告,就像是依据前两天的天气状况来预测今日的天气。
天气预告当然无法能百分之百正确。
这也算是概率统计方法的一个特点。
3.3.1语音识别语音识别作为计算机汉字键盘输入的一种代替方式,越来越遭到信息界人士的青眼。
所谓听写机就是这样的商品。
据报道,中国的移动电话用户已超越一亿,随着移动电话和团体数字助理(PDA)的遍及, 尤其是当这些随身携带的器件都可以无线上网的时刻,宽广用户更迫切希冀经过语音识别或手写板而不是小键盘来输入冗长的文字信息。
其实,语音识别义务可视为计算以下条件概率的极大值疑问:W[*]=argmax[,W]P(W│speech signal)=argmax[,W]P(speech signal│W)P(W)/P(speech signal)=argmax[,W]P(speech signal│W)P(W)(6)式中数学符号argmax[,w]示意对不同的候选词序列W计算条件概率P (W│speech signal)的值,从而使W[*] 成为其中条件概率值最大的那个词序列,这也就是计算机选定的识别结果。
换句话讲,经过式(6 )的计算,计算机找到了最适宜以后输入语音信号speech signal的词串W[ *]。
式(6)第二行是应用贝叶斯定律转写的结果,由于条件概率P (speech signal│W)比拟容易估值。
公式的分母P(speech signal)对给定的语音信号是一个常数,不影响极大值的计算,故可以从公式中删除。
在第三行所示的结果中,P(W)就是前面所讲的统计言语模型,普通驳回式(5)所示的三元模型;P(speech signal│W)叫做声学模型。
到此,读者或许曾经明确,汉语拼音输入法中的拼音—汉字转换义务其实也是用雷同方法成功的,而且两者所用的汉语言语模型(即二元或三元模型)是同一个模型。
目前市场上的听写机产品和微软拼音输入法(3.0 版)都是用词的三元模型成功的,简直齐全不用句法—语义剖析手腕。
由于据可比的评测结果,用三元模型成功的拼音-汉字转换系统,其出错率比其它产品缩小约50%。
3.3.2词性标注一个词库中大约14%的词型具有不止一个词性。
而在一个语料库中,占总词次数约30%的词具有不止一个词性。
所以对一个文本中的每一个词启动词性标注,就是经过高低文的解放,成功词性歧义的消解。
历史上曾经先后发生过两个智能词性标注系统。
一个驳回高低文相关的规定,叫做TAGGIT(1971),另一个运行词类的二元模型,叫做CLAWS (1987)(见Garside et al.1989)。
两个系统都区分对100 万词次的英语非受限文本实施了词性标注。
结果显示, 驳回统计言语模型的CLAWS系统的标注正确率大大高于基于规定方法的TAGGIT系统。
请看下表的对比:系统名 TAGGIT(1971)CLAWS(1987)标志数 方法 3000条CSG规定 隐马尔科夫模型标注精度 77% 96%测试语料 布朗LOB令C和W区分代表词类标志序列和词序列,则词性标注疑问可视为计算以下条件概率的极大值:C[*]=argmax[,C]P(C│W)=argmax[,C]P(W│C)P(C)/P(W)≈argmax[,C]Ⅱ[,i=1,…,n]P(w[,i]│c[,i])P(c[,i]│c[,i-1])(7)式中P(C│W)是已知输入词序列W的状况下,发生词类标志序列C 的条件概率。
数学符号argmax[,C] 示意经过调查不同的候选词类标志序列C,来寻觅使条件概率取最大值的那个词类标志序列C[*]。
后者应当就是对W的词性标注结果。
公式第二行是应用贝叶斯定律转写的结果,由于分母P(W)对给定的W是一个常数,不影响极大值的计算,可以从公式中删除。
接着对公式启动近似剖析。
首先,引入独立性假定,以为恣意一个词w[,i] 的发生概率近似只同以后词的词类标志c[,i]有关, 而与周围(高低文)的词类标志有关。
于是词汇概率可计算如下:P(W│C)≈Ⅱ[,i=1,…,n]P(w[,i]│c[,i])(8)其次,驳回二元假定,即近似以为恣意一个词类标志c[,i] 的发生概率只同它紧邻的前一个词类标志c[,i-1]有关。
则P(C)≈P(c[,1])Ⅱ[,i=2,…,n]P(c[,i]│c[,i-1])(9)P(c[,i]│c[,i-1])是词类标志的转移概率, 也叫做基于词类的二元模型。
上述这两个概率参数都可以经过带词性标志的语料库来区分预计:P(w[,i]│c[,i])≈count(w[,i],c[,i])/count(c[,i]) (10)P(c[,i]│c[,i-1])≈count(c[,i-1]c[,i])/count(c[,i-1]) (11)据文献报道,驳回统计言语模型方法,汉语和英语的词性标注正确率都可以到达96%左右(白拴虎1992)。
3.3.3介词短语PP的依靠歧义在英语中,介词短语终究依靠于前面的名词还是前面的动词,是句法剖析中一种经常出现的结构歧义疑问。
下例标明怎么用语料库方法处置这个疑问,以及这种方法终究能到达多高的正确率。
例句:Pierre Vinken, 61 years old, joined the board as a nonexecutive director.令A=1示意名词依靠,A=0为动词依靠,则上述例句的PP依靠疑问可表为:(A=0,V=joined,N1=board,P=as,N2=director)令V,N1,N2区分代表句中动词短语、宾语短语、介宾短语的核心词, 并在一个带有句法标注的语料库(又称树库)中统计如下四元组的概率P[,r]:P[,r]=(A=1│V=v,N1=n1,P=p,N2=n2)(10)对输入句子启动PP依靠判别的算法如下:若P[,r]=(1│v,n1,p,n2)≥0.5,则判定PP依靠于n1,否则判定PP依靠于v。
Collins & Brooks(1995)试验经常使用的语料库是宾夕法尼亚大学标注的《华尔街日报》(WSJ)树库,其中包括:训练集20,801个四元组,测试集3,097个四元组。
他们对PP依靠智能判定精度的高低限作了如下剖析:一概视为名词依靠(即A≡1)59.0%只思考介词p的最经常出现依靠 72.2%三位专家只依据四个核心词判别88.2%三位专家依据全句判别93.2%很显著,智能判别准确率的下限是72.2%,由于机器不会比只思考句中介词p的最经常出现依靠做得更差;下限是88.2%, 由于机器无法能比三位专家依据四个核心词作出的判别更拙劣。
论文报告,在被测试的3,097个四元组中,系统正确判别的四元组为2,606个,因此平均准确率为84.1%。
这与上方提到的下限值88.2%相比,应该说是相当不错的结果。
4.论断言语学家的致力,不论是用复杂特色集和合一语法,还是词汇主义方法,都是在原先所谓的理性主义框架下作出的严重奉献。
词汇主义方法特意值得推崇,由于它不只提出了一种颗粒度更细的言语常识示意方式,而且表现了一种言语常识递增式开发和积攒的新思绪。
尤其值得注重的是在泛滥词汇资源的开发环节中,语料库和统计学方法施展了很大的作用。
这也是阅历主义方法和理性主义方法相互融合的可喜开始。
笔者置信,语料库方法和统计言语模型是以前人造言语处置技术的干流,它们的适用价值已在很多运行系统中失掉证明。
统计言语模型的钻研,尤其在结构化对象的统计建模方面,仍有宽广的开展空间。
【参考文献】:Aarts, Jan & Willen Meijs (eds.). 1990. Corpus Linguistics: Theory and Practice〔C〕. Amsterdam: , M. and J. Brooks. 1995. Preposition phrase attachment through a backed-off model〔P〕. In Proceedings of the3rd Workshop of Very Large Corpora. Cambridge, , R., G. Leech and G. Sampson, (eds.). 1989. The Computational Analysis of English: A Corpus-Based Approach〔C〕. London: , R. A. 1991. English Word Grammar〔M〕. Cambridge, Mass.: Basil Blackwell.白拴虎,1992,汉语词性智能标注系统钻研〔MA〕。
清华大学计算机迷信与技术系硕士学位论文。
董振东、董强,1997,知网〔J〕。
《言语文字运行》第3期。
俞士汶等,1998,《现代汉语语法信息词典详解》〔M〕。
北京:清华大学出版社。
文章评论