英文分词
分词英文
presentparticiple就是了,过去分词就是pastparticiple。participle就是分词的意思。一下记住了俩词组,要感谢我就选我的为正确答案吧。
英语中分词的表现形式
讲解得很清楚
过去式 pt past tense过去分词 pp Past participle现在分词 p.pr present participle
英文分词
分词是动词的一种形式,兼具形容词的特点和动词的部分特点(例如表示某种时态、语态(主被动态)等),英语中有两种分词:过去分词(也叫做完成分词)、现在分词。
过去分词:DONE现在分词:BEING好象是...
分词是"非谓语动词"的另一种形式,它有两种形式:现在分词(Present Participle)和过去分词(Past Participle)。 要点提示: 初学者在使用分词的时候往往有这样一种困惑--在选用分词去担当句子的某个成分时,不知道是选用它的现在分词形式,还是选用它的过去分词形式。我们认为,要解决好这个问题必须首先要强化两个概念: 1)分词的动作意义是一回事;而分词的形式又是一回事。 2)要分清现在分词与过去分词的区别。因此,在讨论分词的句法作用之前,让我们先讨论一下这两个概念问题。 # 这里所说的"分词的动作意义"是指抛开它的形式,只谈"动作表达的意思"。而"分词的形式"是指现在分词形式与过去分词形式。如:当work作"工作" 的意义用时,无论working还是worked的"动作意义"都是"工作"。 同样,当do作为"做"的意义用时,did和done的"动作意义"都是"做"。这就是说,在决定"分词的形式"之前,先要利用"动作意义"去分析句子的意思,去分析"分词动作"与有关方面的词之间的关系。根据不同的关系再来决定用分词的不同形式。请看下面两个填空题的句子: A)I heard my brother ( singing , sung ) in the next room . B)I heard the song ( singing , sung ) in English . # 要分清现在分词与过去分词的区别。 分清现在分词与过去分词的区别是我们决定用何词形式的重要依据。下面我们看看这两种分词形式的区别: 现在分词: 1)分词和与其相关的名词、代词之间构成 一种"主谓关系",即"主动态"。这里 说的与分词相关的名词、代词要依分词在句中担当成分的不同而不同。如:分词若在句中充当定语,那么被它所修饰的词就是"相关词";要是分词作宾语补足语,那么宾语就是"相关词"; 分词若在句中充当表语或是状语,那么句子的主语就是分词的"相关词"。 2)现在分词表示一个"正在发生的动作"; 或是表示一个"在现在或过去一段时间内经常化的动作"。 过去分词: 1)分词和与其相关的名词、代词之间构成一种"动宾关系",即"被动态"。这里所说的"与分词的相关词"的所指与"现在分词中讲的所指"一样。 2)过去分词表示一个"业已完成的动作"或是表示一个"在以前某个未知时间发生的动作"。 现在我们用实例来说明分词的这两大区别。 例一 I don't like canned food , I prefer something fresh . 我不喜欢吃罐装食品,我爱吃新鲜的。 The story is very much interesting . 这个故事非常有趣。 She is interested in music . 她对音乐很感兴趣。 Hearing Xiong Ni win the first place finally , we all jumped with joy . 听到熊倪最后获得了第一名,我们都高兴得跳起来了。 Hurt by their impolite words , he flared up . 由于他们那些不礼貌的话伤害了他,他突然发火了。 Mother heard her kid opening the door . 妈妈听见她的孩子在开门。 Mother heard the door opened . 妈妈听见门打开了。 例二 China belongs to developing countries . 中国属于发展中国家。 China has no time to lose to catch up with the developed countries in the world . 中国要分秒必争地赶上世界的发达国家。 He saw a man in uniform coming towards him . 他看见一位穿制服的人朝他走过来。 The window is broken . 这窗户是破的。 The man delivering mails to my office every day is a retired worker . 给我办公室送邮件的人是位退休工人. Our president is a man loved by all . 我们的总裁是一位受人爱戴的人。 经过上面的分析,我们再来讨论分词在句子中的作用就比较容易了。分词在句子里1)作定语,2)作表语,3)作状语,4)作宾语补足语。 1)作定语 单个分词作定语,分词一般说来写在被修饰的名词、代词之前;分词短语作定语时,分词放在被修饰词之后。 现在分词作定语,主要说明"正在进行的动作"或是"一个在现在或过去某段时间内的经常化动作" 。 过去分词作定语,主要说明"业已完成的动作"或是"一个在以前某个未知时间发生的动作" 。如果与上述两点不符,就不能用分词作定语,而要改用定语从句作定语。下面我们来具体看看分词作定语的情况: That is an interesting TV theater .那是一部非常有趣的电视剧。 They reduced the number of animals used in experiments. 他们减少了用于试验的动物数量。 The girl standing by her mother looked very timid. 站在她妈妈旁边的那个女孩看上去很胆小。 The letter reaching me today is from my family. (错误) The letter that reached me is from my family. (正确) 我今天收到的那封信是我家里寄来的。 另外,分词作定语还有"being + 过去分词"的形式。这种表达形式的意义是"分词动作正在进行;但分词动作与其所修饰的词之间是动宾关系" 。例如: The cloverleaf intersection being built is designed by a young man . 那座正在兴建的立交桥是一位年轻人设计的。 The topics being discussed everywhere recently is concerned about the Olympics 2000 .最近到处在议论的话题都与两千年奥运会有关。 2)作表语 现在分词作表语主要是表示主语的性质、特征;而过去分词作表语则多表示主语所处的状态。例如: The news is really exciting .那消息真让人兴奋。 He got very much excited when he heard that Fu Mingxia won the 26th gold medal for China .当他听到伏明霞为中国获得第26块金牌时,他非常激动。 The food smells inviting .这道菜香味怡人。 She looked disappointed after she lost the game. 输掉那场比赛后,她看上去很失望。 What he said sounds convincing. 他的话听起来很有说服力。 The shop was closed when she got there .她到那儿时,那家商店关门了。 3) 作状语 分词,无论是现在分词还是过去分词,作状语时,往往说明这样几种情况: -- 分词表示的动作总是句子主语发出的动作之一;也就是说句子的主语或是在逻辑上是分词动作的执行者,这时,主语和分词动作构成的是"主谓关系",是"主动态";或是在形式上是分词动作的主语,在这种情况下,主语和分词动作构成的是"动宾关系",是"被动态"。总之,分词的主语必须与句子的主语一致,或是同一个人或是同一件事。从另一方面看,我们可以说--分词作状语时,如果主语和分词动作构成的是"主谓关系",我们用现在分词;如果主语和分词动作构成的是"动宾关系",我们就用过去分词。 -- 分词动作与谓语动作基本上在前后差不多的世间发生,或是同时发生。 -- 在句子中,对谓语动作而言,分词动作要相对次要一些。也就是说,我们总是选一个最重要的动作为句子的谓语,而把其它的次要动作写成分词形式。 上述的情况也可视为使用分词作状语的前提条件。 由于分词有两种形式,所以分词作状语的意义和作用也不尽相同:现在分词作状语主要是对谓语动作加以修饰、烘托;过去分词作状语主要是说明谓语动作发生的背景、条件。分词作状语,常用来说明谓动作发生的原因、方式、时间、条件、结果等方面的情况。例如: Not knowing his phone number, I wrote him a letter . (表示原因)由于不知道他的电话号码,我给他写了一封信。 Choked by the heavy smoke , he could hardly breathe . (表示原因)他被浓烟呛了,几乎不能呼吸了。 When leaving the airport , Yang Xia and Din Meiyuan waved with tears to the Chinese delegates left in Sydney. (表示时间)当杨霞和丁美媛离开机场时,他们含而泪向留在悉尼的中国奥运代表们挥手告别。 Seen from the top of the hill, the city looks significant . (表示时间)从山顶看这座城市时,它看起来很壮丽。 Laughing and talking loudly, the audience left the stadium after the match. (表示伴随性的方式)比赛结束后,观众们大声说着,笑着离开了赛场。 Surrounded by his students , the professor sat there cheerfully . (表示伴随性的方式)那位教授在学生们的簇拥下,兴高采烈地坐在那儿。 Considering the poorer financial status, they decided to delay their project . (表示条件)鉴于较差的经济状况,他们决定将工程推迟。 Given better attention, the accident could have been avoided. (表示条件)要是多加注意,那次事故就可以避免了。 分词作时间或条件状语时,为了明确其意义有时可在分词前加上when , while , if 等连词。例如: Please take notes while listening to the report .听报告时请作好笔记。 When explaining it to her , you should be patient . 对她解释这件事时,你应该耐心些。 If merely drawn on your imagination , the report will not be convincing . 假若仅靠你的想象去写,报告是不会有说服力的。 另外,若想明确表示分词动作发生在谓语动作之前,可用分词的完成形式(其中包括主动式和被动式): --"Having + 过去分词"(主动式), --"Having + been + 过去分词"(被动式)。 --分词作状语还有"being + 过去分词"的形式。 这种表达形式的意义是"分词动作正在进行;但分词动作与句子的主语之间是动宾关系" 。 这种形式与单纯的过去分词或过去分词短语作状语不相同之处是:它不仅说明了分词动作与句子的主语之间是动宾关系;而且还强调了分词动作正在进行。例如: Having been discussed several times , the decision was finally made . 进行了几次讨论之后,终于作出了决定。 Being surrounded by a large crowd of his fans , Jordan could hardly move a step further. 乔丹被他的一大群球迷簇拥着,他几乎无法挪动一步。 当句子的主语既不是分词的逻辑主语也不是它的形式主语时,也就是说这时主语和分词之间没有关系,分词可以带上自己的逻辑主语而构成独立结构(Absolute Construction)。独立结构在形式和作用上都与分词作状语的情况相似,但它不算作句子成分。例如: The game being over, the audience stood up and cheered for the winner. (表示时间)比赛结束时,观众站起来为胜者欢呼。 The decision having been made, they began to think of how to carry it out . (表示时间)决议已经作出,他们开始考虑怎样执行它。 4) 作宾语补足语和主语补足语 分词作宾语补足语和主语补足语其实是同一成分用于两种不同的句式中。具体地说,主动态句子中的宾语补足语就是被动态句子中的主语补足语。分词作宾语补足语时,如果分词与宾语构成"主谓关系",用现在分词;如果构成"动宾关系",则用过去分词。常用分词作宾语补足语的动词有:find , feel , get , have , hear , keep , notice , see , watch等。例如: When I passed by his office , I found John reading something carefully . (宾语补足语)我经过约瀚的办公室时,发现他正在认真地看什么文件。 I heard my sister singing that song in English outside. (宾语补足语)我听到妹妹在外面用英文唱那首歌。 My sister was heard singing that song in English outside. (主语补足语)有人听到我妹妹在外面用英文唱那首歌。 They once heard the song sung in English. (宾语补足语)他们曾听见有人用英文唱那首歌。 The song was once heard sung in English. (主语补足语)有人曾听见那首歌被人用英文唱过。 另外,"being + 过去分词"的形式也能用作"宾语补足语"。 这种表达形式的意义是"分词动作正在进行;但分词动作与宾语之间是动宾关系"。例如: When we came near his garden, we found his house being painted . 当我们走近他的花园时,发现他的房子正在做油漆。 They heard the topic being discussed all over the community. 他们听到那个话题在社区上下为人们谈论着。 She noticed the new wall being scratched by her litter son. 她发现那面新墙正被她的小儿子画得乱七八糟。 在复合宾语结构中,有些动词如:feel , hear , notice see , watch等后面既可以用现在分词作宾语补足语,也可用不带to的不定式来充当。但这两种情况在表达的意义上有所不相同:用现在分词作宾语补足语,强调分词动作在发生和进行之中;用不带to的不定式来充当宾语补足语,则着重说明不定式动作从发生到结束的全过程。因此,说话人可根据需要和可能来确定自己的选择。例如: I saw him crossing the street 我看见他正在过街。 I saw him cross the street 我看见他过街去了。 They heard him reading something aloud in the next room. 他们听见他在隔壁房间朗读。 They heard him read something aloud in the next room for a while. 他们听见他在隔壁房间朗读了一会儿。
讲解得很清楚
中文分词和英文分词的区别
何为分词?中文分词与其他的分词又有什么不同呢?分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。我们知道,在英文的行文中,单词之间是以空格作为自然分界符的,而中文只是字、句和段可以通过明显的分界符来简单划界,唯独词没有一个形式上的分界符,虽然英文也同样存在短语的划分问题,但是在词这一层上,中文比之英文要复杂的多、困难的多。中文分词的意义和作用要想说清楚中文分词的意义和作用,就要提到智能计算技术。智能计算技术涉及的学科包括物理学、数学、计算机科学、电子机械、通讯、生理学、进化理论和心理学等等。简单的说,智能计算就是让机器“能看会想,能听会讲”。要想实现这样的一个目标,首先就要让机器理解人类的语言,只有机器理解了人类的语言文字,才使得人与机器的交流成为可能。再反观我们人类的语言中,“词是最小的能够独立活动的有意义的语言成分”,所以对于中文来讲,将词确定下来是理解自然语言的第一步,只有跨越了这一步,中文才能象英文那样过渡到短语划分、概念抽取以及主题分析,以至于自然语言理解,最终达到智能计算的最高境界,实现人类的梦想。从现阶段的实际情况来看,英文已经跨越了分词这一步,也就是说在词的利用上已经先我们一步,并且已经展现了良好的应用前景,无论是信息检索还是主题分析的研究都要强于中文,究其根本原因就是中文要通过分词这道难关,只有攻破了这道难关,我们才有希望赶上并超过英文在信息领域的发展,所以中文分词对我们来说意义重大,可以说直接影响到使用中文的每一个人的方方面面。中文分词的应用中文分词主要应用于信息检索、汉字的智能输入、中外文对译、中文校对、自动摘要、自动分类等很多方面。下面就以信息检索为例来说明中文分词的应用。通过近几年的发展,互联网已经离我们不再遥远。互联网上的信息也在急剧膨胀,在这海量的信息中,各类信息混杂在一起,要想充分利用这些信息资源就要对它们进行整理,如果由人来做这项工作,已经是不可能的,而如果面对中文信息不采用分词技术,那么整理的结果就过于粗糙,而导致资源的不可用,例如:“制造业和服务业是两个不同的行业”和“我们出口日本的和服比去年有所增长”中都有“和服”,而被当作同一类来处理,结果是检索“和服”的相关信息,会将他们都检索到,在信息量少的情况下,似乎还能够忍受,如果是海量信息,这样的结果就会令人讨厌了。通过引入分词技术,就可以使机器对海量信息的整理更准确更合理,在“制造业和服务业是两个不同的行业”中“和服”不会被当做一个词来处理,那么检索“和服”当然不会将它检索到,使得检索结果更准确,效率也会大幅度的提高。所以中文分词的应用会改善我们的生活,使人们真正体会到科技为我所用。
1、根据空格拆分单词(split) 2、删除停止词 3、提取词干(最终得到特征的一步token、 term)
例子:Machine learning is a field of computer science that uses statistical techniques to givecomputer systems the ability to learn from data.
步骤1: 英文由标点符号、空格、单词组成,所以只用根据空格和标点符号将词语分开。
步骤2: 删除停止词 停止词: stop words 在英文中 is a of that to with from
使用频率比较高的词语,实际上是冠词、介词、连词,如果将这些词语都放入模型当中进行训练,那么会大幅度影响模型的训练效率。
(machine, learning, field, computer, science, uses, statistical, techniques, systems,ability, learn, data}
步骤3: 提取词干
这一步主要针对的是西方语言来说的(英语、拉丁语、法语等等)。用以上例子来说,learning, learn包含了相同的词干learn,所以在大多数提取特征的方法中,会将learn和learning合并为- -一个term。(machine, learn, field, computer, science, use, statistical, technique, system, ability,data }
和英文不同,中文语句是由连续的字符组成序列后呈现的,没有像英文一样的分隔符,所以相对来说,中文分词要稍微的困难一些。
一句没有标点符号的句子,如果加上的标点符号不同,意思千差万别。 例子: 无米面也可无鸡鸭也可无鱼肉也可无银钱也可 无米面也可,无鸡鸭也可,无鱼肉也可,无银钱也可。 无米,面也可;无鸡,鸭也可;无鱼,肉也可;无银,钱也可。
对于目前的中文分词来说,许多网络用语也比较难以分割。不明|觉|厉。
在python当中,我们使用了 jieba分词 。 jieba分词的原理 1、基于trie树结构实现高效的词图扫描,生成句子中汉字所有可能成词情况所构成的有向无环图DAG; 2、采用动态规划查找最大路径、找出基于词频的最大切分组合。 3、对于未登录词,采用了基于HMM或者最大熵模型等来实现分词。
中文分词,即 Chinese Word Segmentation,即将一个汉字序列进行切分,得到一个个单独的词。表面上看,分词其实就是那么回事,但分词效果好不好对信息检索、实验结果还是有很大影响的,同时分词的背后其实是涉及各种各样的算法的。
中文分词与英文分词有很大的不同,对英文而言,一个单词就是一个词,而汉语是以字为基本的书写单位,词语之间没有明显的区分标记,需要人为切分。根据其特点,可以把分词算法分为四大类:
基于规则的分词方法
基于统计的分词方法
基于语义的分词方法
基于理解的分词方法
下面我们对这几种方法分别进行总结。
基于规则的分词方法
这种方法又叫作机械分词方法、基于字典的分词方法,它是按照一定的策略将待分析的汉字串与一个“充分大的”机器词典中的词条进行匹配。若在词典中找到某个字符串,则匹配成功。该方法有三个要素,即分词词典、文本扫描顺序和匹配原则。文本的扫描顺序有正向扫描、逆向扫描和双向扫描。匹配原则主要有最大匹配、最小匹配、逐词匹配和最佳匹配。
最大匹配法(MM)。基本思想是:假设自动分词词典中的最长词条所含汉字的个数为 i,则取被处理材料当前字符串序列中的前 i 个字符作为匹配字段,查找分词词典,若词典中有这样一个 i 字词,则匹配成功,匹配字段作为一个词被切分出来;若词典中找不到这样的一个 i 字词,则匹配失败,匹配字段去掉最后一个汉字,剩下的字符作为新的匹配字段,再进行匹配,如此进行下去,直到匹配成功为止。统计结果表明,该方法的错误率 为 1/169。
逆向最大匹配法(RMM)。该方法的分词过程与 MM 法相同,不同的是从句子(或文章)末尾开始处理,每次匹配不成功时去掉的是前面的一个汉字。统计结果表明,该方法的错误率为 1/245。
逐词遍历法。把词典中的词按照由长到短递减的顺序逐字搜索整个待处理的材料,一直到把全部的词切分出来为止。不论分词词典多大,被处理的材料多么小,都得把这个分词词典匹配一遍。
设立切分标志法。切分标志有自然和非自然之分。自然切分标志是指文章中出现的非文字符号,如标点符号等;非自然标志是利用词缀和不构成词的词(包 括单音词、复音节词以及象声词等)。设立切分标志法首先收集众多的切分标志,分词时先找出切分标志,把句子切分为一些较短的字段,再用 MM、RMM 或其它的方法进行细加工。这种方法并非真正意义上的分词方法,只是自动分词的一种前处理方式而已,它要额外消耗时间扫描切分标志,增加存储空间存放那些非 自然切分标志。
最佳匹配法(OM)。此法分为正向的最佳匹配法和逆向的最佳匹配法,其出发点是:在词典中按词频的大小顺序排列词条,以求缩短对分词词典的检索时 间,达到最佳效果,从而降低分词的时间复杂度,加快分词速度。实质上,这种方法也不是一种纯粹意义上的分词方法,它只是一种对分词词典的组织方式。OM 法的分词词典每条词的前面必须有指明长度的数据项,所以其空间复杂度有所增加,对提高分词精度没有影响,分词处理的时间复杂度有所降低。
此种方法优点是简单,易于实现。但缺点有很多:匹配速度慢;存在交集型和组合型歧义切分问题;词本身没有一个标准的定义,没有统一标准的词集;不同词典产生的歧义也不同;缺乏自学习的智能性。
基于统计的分词方法
该方法的主要思想:词是稳定的组合,因此在上下文中,相邻的字同时出现的次数越多,就越有可能构成一个词。因此字与字相邻出现的概率或频率能较好地反映成词的可信度。可以对训练文本中相邻出现的各个字的组合的频度进行统计,计算它们之间的互现信息。互现信息体现了汉字之间结合关系的紧密程度。当紧密程 度高于某一个阈值时,便可以认为此字组可能构成了一个词。该方法又称为无字典分词。
该方法所应用的主要的统计模型有:N 元文法模型(N-gram)、隐马尔可夫模型(Hiden Markov Model,HMM)、最大熵模型(ME)、条件随机场模型(Conditional Random Fields,CRF)等。
在实际应用中此类分词算法一般是将其与基于词典的分词方法结合起来,既发挥匹配分词切分速度快、效率高的特点,又利用了无词典分词结合上下文识别生词、自动消除歧义的优点。
基于语义的分词方法
语义分词法引入了语义分析,对自然语言自身的语言信息进行更多的处理,如扩充转移网络法、知识分词语义分析法、邻接约束法、综合匹配法、后缀分词法、特征词库法、矩阵约束法、语法分析法等。
扩充转移网络法
该方法以有限状态机概念为基础。有限状态机只能识别正则语言,对有限状态机作的第一次扩充使其具有递归能力,形成递归转移网络 (RTN)。在RTN 中,弧线上的标志不仅可以是终极符(语言中的单词)或非终极符(词类),还可以调用另外的子网络名字分非终极符(如字或字串的成词条件)。这样,计算机在 运行某个子网络时,就可以调用另外的子网络,还可以递归调用。词法扩充转移网络的使用, 使分词处理和语言理解的句法处理阶段交互成为可能,并且有效地解决了汉语分词的歧义。
矩阵约束法
其基本思想是:先建立一个语法约束矩阵和一个语义约束矩阵, 其中元素分别表明具有某词性的词和具有另一词性的词相邻是否符合语法规则, 属于某语义类的词和属于另一词义类的词相邻是否符合逻辑,机器在切分时以之约束分词结果。
基于理解的分词方法
基于理解的分词方法是通过让计算机模拟人对句子的理解,达到识别词的效果。其基本思想就是在分词的同时进行句法、语义分析,利用句法信息和语义信息来处理歧义现象。它通常包括三个部分:分词子系统、句法语义子系统、总控部分。在总控部分的协调下,分词子系统可以获得有关词、句子等的句法和语义信息来对分词歧义进行判断,即它模拟了人对句子的理解过程。这种分词方法需要使用大量的语言知识和信息。目前基于理解的分词方法主要有专家系统分词法和神经网络分词法等。
专家系统分词法
从专家系统角度把分词的知识(包括常识性分词知识与消除歧义切分的启发性知识即歧义切分规则)从实现分词过程的推理机中独立出来,使知识库的维护与推理机的实现互不干扰,从而使知识库易于维护和管理。它还具有发现交集歧义字段和多义组合歧义字段的能力和一定的自学习功能。
神经网络分词法
该方法是模拟人脑并行,分布处理和建立数值计算模型工作的。它将分词知识所分散隐式的方法存入神经网络内部,通过自学习和训练修改内部权值,以达到正确的分词结果,最后给出神经网络自动分词结果,如使用 LSTM、GRU 等神经网络模型等。
神经网络专家系统集成式分词法
该方法首先启动神经网络进行分词,当神经网络对新出现的词不能给出准确切分时,激活专家系统进行分析判断,依据知识库进行推理,得出初步分析,并启动学习机制对神经网络进行训练。该方法可以较充分发挥神经网络与专家系统二者优势,进一步提高分词效率。
以上便是对分词算法的基本介绍。
java英文分词和中文分词的区
首先,空格没有中英文之分逗号的话就这样吧自己定义一个String a=",";//中文逗号String b="ffff,saaa,ssss";b = (",", a);public class T {public static void main(String[] args) {String a = ",";String b = "ffff,saaa,ssss";(b);b = (",", a);(b);}}//运行结果//ffff,saaa,ssss//ffff,saaa,ssss
众所周知,英文是以词为单位的,词和词之间是靠空格隔开,而中文是以字为单位,句子中所有的字连起来才能描述一个意思。例如,英文句子I am a student,用中文则为:“我是一个学生”。计算机可以很简单通过空格知道student是一个单词,但是不能很容易明白“学”、“生”两个字合起来才表示一个词。把中文的汉字序列切分成有意义的词,就是中文分词,有些人也称为切词。我是一个学生,分词的结果是:我 是 一个 学生。中文分词技术属于自然语言处理技术范畴,对于一句话,人可以通过自己的知识来明白哪些是词,哪些不是词,但如何让计算机也能理解?其处理过程就是分词算法。现有的分词算法可分为三大类:基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法。1、基于字符串匹配的分词方法这种方法又叫做机械分词方法,它是按照一定的策略将待分析的汉字串与一个“充分大的”机器词典中的词条进行配,若在词典中找到某个字符串,则匹配成功(识别出一个词)。按照扫描方向的不同,串匹配分词方法可以分为正向匹配和逆向匹配;按照不同长度优先匹配的情况,可以分为最大(最长)匹配和最小(最短)匹配;按照是否与词性标注过程相结合,又可以分为单纯分词方法和分词与标注相结合的一体化方法。常用的几种机械分词方法如下:1)正向最大匹配法(由左到右的方向);2)逆向最大匹配法(由右到左的方向);3)最少切分(使每一句中切出的词数最小)。还可以将上述各种方法相互组合,例如,可以将正向最大匹法和逆向最大匹法结合起来构成双向匹配法。由于汉语单字成词的特点,正向最小匹配和逆向最小匹配一般很少使用。一般说来,逆向匹配的切分精度略高于正向匹配,遇到的歧义现象也较少。统计结果表明,单纯使用正向最大匹配的错误率为1/169,单纯使用逆向最大匹配的错误率为1/245。但这种精度还远远不能满足实际的需要。实际使用的分词系统,都是把机械分词作为一种初分手段,还需通过利用各种其它的语言信息来进一步提高切分的准确率。一种方法是改进扫描方式,称为特征扫描或标志切分,优先在待分析字符串中识别和切分出一些带有明显特征的词,以这些词作为断点,可将原字符串分为较小的串再来进机械分词,从而减少匹配的错误率。另一种方法是将分词和词类标注结合起来,利用丰富的词类信息对分词决策提供帮助,并且在标注过程中又反过来对分词结果进行检验、调整,从而极大地提高切分的准确率。对于机械分词方法,可以建立一个一般的模型,在这方面有专业的学术论文,这里不做详细论述。2、基于理解的分词方法这种分词方法是通过让计算机模拟人对句子的理解,达到识别词的效果。其基本思想就是在分词的同时进行句法、语义分析,利用句法信息和语义信息来处理歧义现象。它通常包括三个部分:分词子系统、句法语义子系统、总控部分。在总控部分的协调下,分词子系统可以获得有关词、句子等的句法和语义信息来对分词歧义进行判断,即它模拟了人对句子的理解过程。这种分词方法需要使用大量的语言知识和信息。由于汉语语言知识的笼统、复杂性,难以将各种语言信息组织成机器可直接读取的形式,因此目前基于理解的分词系统还处在试验阶段。3、基于统计的分词方法从形式上看,词是稳定的字的组合,因此在上下文中,相邻的字同时出现的次数越多,就越有可能构成一个词。因此字与字相邻共现的频率或概率能够较好的反映成词的可信度。可以对语料中相邻共现的各个字的组合的频度进行统计,计算它们的互现信息。定义两个字的互现信息,计算两个汉字X、Y的相邻共现概率。互现信息体现了汉字之间结合关系的紧密程度。当紧密程度高于某一个阈值时,便可认为此字组可能构成了一个词。这种方法只需对语料中的字组频度进行统计,不需要切分词典,因而又叫做无词典分词法或统计取词方法。但这种方法也有一定的局限性,会经常抽出一些共现频度高、但并不是词的常用字组,例如“这一”、“之一”、“有的”、“我的”、“许多的”等,并且对常用词的识别精度差,时空开销大。实际应用的统计分词系统都要使用一部基本的分词词典(常用词词典)进行串匹配分词,同时使用统计方法识别一些新的词,即将串频统计和串匹配结合起来,既发挥匹配分词切分速度快、效率高的特点,又利用了无词典分词结合上下文识别生词、自动消除歧义的优点。到底哪种分词算法的准确度更高,目前并无定论。对于任何一个成熟的分词系统来说,不可能单独依靠某一种算法来实现,都需要综合不同的算法。笔者了解,海量科技的分词算法就采用“复方分词法”,所谓复方,相当于用中中的复方概念,即用不同的才综合起来去医治疾病,同样,对于中文词的识别,需要多种算法来处理不同的问题。
1、根据空格拆分单词(split) 2、删除停止词 3、提取词干(最终得到特征的一步token、 term)
例子:Machine learning is a field of computer science that uses statistical techniques to givecomputer systems the ability to learn from data.
步骤1: 英文由标点符号、空格、单词组成,所以只用根据空格和标点符号将词语分开。
步骤2: 删除停止词 停止词: stop words 在英文中 is a of that to with from
使用频率比较高的词语,实际上是冠词、介词、连词,如果将这些词语都放入模型当中进行训练,那么会大幅度影响模型的训练效率。
(machine, learning, field, computer, science, uses, statistical, techniques, systems,ability, learn, data}
步骤3: 提取词干
这一步主要针对的是西方语言来说的(英语、拉丁语、法语等等)。用以上例子来说,learning, learn包含了相同的词干learn,所以在大多数提取特征的方法中,会将learn和learning合并为- -一个term。(machine, learn, field, computer, science, use, statistical, technique, system, ability,data }
和英文不同,中文语句是由连续的字符组成序列后呈现的,没有像英文一样的分隔符,所以相对来说,中文分词要稍微的困难一些。
一句没有标点符号的句子,如果加上的标点符号不同,意思千差万别。 例子: 无米面也可无鸡鸭也可无鱼肉也可无银钱也可 无米面也可,无鸡鸭也可,无鱼肉也可,无银钱也可。 无米,面也可;无鸡,鸭也可;无鱼,肉也可;无银,钱也可。
对于目前的中文分词来说,许多网络用语也比较难以分割。不明|觉|厉。
在python当中,我们使用了 jieba分词 。 jieba分词的原理 1、基于trie树结构实现高效的词图扫描,生成句子中汉字所有可能成词情况所构成的有向无环图DAG; 2、采用动态规划查找最大路径、找出基于词频的最大切分组合。 3、对于未登录词,采用了基于HMM或者最大熵模型等来实现分词。
分开分散英文单词
分散seperate;分开fall apart。
separate; part; split; uncouple; unpack; break up; deleave; decollate; rupture; demesh;disjoin; distribute; separate from [into]; divide ... from ...; set apart from
seperate
外国人分别时用的7个地道英语口语!