伊芙·卡莉虽然不知道林灰为什么突然这么问。
但这种有可能得到林灰提点的机会,伊芙·卡莉怎可能轻易放弃。
伊芙·卡莉先是给林灰陈述了一下当前西方在计算语义文本相似度的时候向量通常客串的角色。
而后伊芙·卡莉才正式开始回答林灰先前问她的问题:
“引入向量后才能使得机器更方便的处理语义文本的信息。
如果不引入向量的话在处理语义文本相似度的时候我们能选择的方案很少。
而且不引入向量的情况下,我们在计算语义文本相似度所选择的方案多多少少都有点LOW。
比如说,基于字符串的方法,这种方法都是对原始文本进行比较。
主要包括编辑距离、最长公共子序列、N-Gram相似度等来进行衡量。
就以编辑距离来说吧,其衡量两个文本之间相似度的根据是依据两个文本之间由一个转换成另一个所需的最少编辑操作次数。
这种算法界定的编辑操作包括增加、删除、替换三种。
最长公共子系列是根据……
这套衡量标准甚至有点像Microsoft Word格式来衡量一般。
基于字符串的方法虽然原理简单、实现方便。
但这种方法没有考虑到单词的含义及单词和单词之间的相互关系。
涉及到同义词、多义词等问题都无法处理。
目前很少单独使用基于字符串的方法计算文本相似度。
而是将这些方法的计算结果作为表征文本的特征融入更加复杂的方法中。
Loading...
未加载完,尝试【刷新】or【关闭小说模式】or【关闭广告屏蔽】。
尝试更换【Firefox浏览器】or【Chrome谷歌浏览器】打开多多收藏!
移动流量偶尔打不开,可以切换电信、联通、Wifi。
收藏网址:www.lengleng.cc
(>人<;)