3.4.1 机器理解语义的难题

1.语义理解的含义

语义理解的主要问题还是中文比较复杂,容易产生歧义,我们试着从以下三种情况来讲解。

(1)同一词汇在不同语境下有着不同的含义

想必大家都听过中国人教老外说“意思”的笑话:A说“您这是什么意思”,B说“我只是意思意思”,A接着说“这就没意思了”。老实讲缺乏中文语境训练的老外第一次看到这样的对话确实容易懵圈。

(2)有些短语可能会造成歧义

相同的短语不同的人读下来,对意思的理解可能截然相反,例如用户搜索了“杰克租罗斯一间房子”,既可以理解成杰克有一间房子,租给了罗斯,也可以理解成罗斯有一间房子,租给了杰克。

(3)有些搜索依赖于搜索系统对知识图谱的构建

例如搜索“变形金刚里的擎天柱和超能勇士里的黑猩猩队长有什么样的关系”,这时候系统如果没有理解两部动画片的关系,没有建立相应角色对应的知识图谱,是很难反馈给用户满意的结果的。

2.搜索系统解决方案

针对上述相对复杂的语义理解问题,搜索系统常用的解决方案分为两种:字面匹配和语义匹配。

(1)字面匹配

字面匹配指的是将索引项与查询词,按照前缀、后缀、覆盖等方式,计算其相似度,字面相似度越高(包括文字内容、文字顺序)的结果排序越靠前,这是一种相对简单的解决方案。

(2)语义匹配

语义匹配则要考虑视频内容与搜索词在语义信息层面的相关度,需要用到视频内容的以下特征。

□文本特征:将视频内容的标题与简介切词后,考量这些词汇与搜索词的匹配权重。

□知识特征:通过理解视频本身想要表达的内容,结合知识库来构建用户搜索词对应的知识库体系内容。

□后验特征:用户在哪些场景下点击过视频、观看了多久等,系统不仅只是记录用户信息与视频信息,也会记录这一过程中的环境信息系统,从而用这些用户后验行为来标记可能的语义理解。

尽管目前系统努力通过字面匹配和语义匹配的方法来增加对用户搜索词的语义理解,但还是不能非常完美地解决这个问题。知识库建设不够全面、后验特征随机性太强,可以说语义理解是搜索系统会一直面临的挑战。