原标题:谈当前语义检索的优势与局限
当前的语义检索根据对比文件与本申请之间的要素重合度,来评估两者整体的相似度,并不能真正理解专利技术的核心和技术组合要义。但语义检索依托其对要素表达的语义扩展和建立关联特征潜在的内在关系,可一次找出多篇相似的对比文件,相对于传统检索的特色和优势也是显而易见的。本文对语义检索结果进行了进一步的研究分析,探寻当前语义检索的优势与局限,希望能提供另一个角度的观点和参考建议。
2017年的专利信息年会(如今的
知识产权年会)上,曾有国外的演讲者说:现在人工智能技术已经便宜到专利圈也用得起了。然而多年过去了,专利圈谈到“智能”能让人有印象的似乎仍然只有起源于上个世纪90年代美国的语义检索。由于语义检索远远未达到强人工智能的程度,其基于相似性检索无法真正理解专利技术的核心和技术组合要义,因此,用户对“人工智能”的期望与实际检索应用时的落差就催生了文章《由当前智能语义检索的不足思考专利检索的特质》
【1】中的疑问:“在人工智能机器‘阿尔法狗’(AlphaGo)已经能够击败围棋顶级高手的时代,为什么智能语义检索还不及一名初级审查员的检索水平?”
本文以文章《由当前智能语义检索的不足思考专利检索的特质》中的案例为例,对语义检索结果进行了进一步的研究分析,探寻当前语义检索的优势与局限,希望能提供另一个角度的观点和参考建议。
需要说明的是,专利检索是一项复杂的工作,尤其是Y类文献的选择,专业检索员的不可代替性显著,而语义检索可以在一定程度上辅助专业检索员,提升工作效能。与此同时,语义检索对广大企业IPR来说,在检索能力、数据库资源与专业检索员存在一定差距的情况下,可以通过语义检索工具来缩小上述差距,从而更好地提升企业专利创新度。
一、语义检索结果大有乾坤
案例:一种养猪用料槽(201710070290.0)中,原文主要焦点在于语义检索所推荐的最接近的现有技术(推送的相关度最高的第一个检索结果)与人工检索到的最接近的现有技术相差较远,无法作为对比文件使用。
与权利要求1相关的主要特征是:下料桶(1)沿长度方向的内壁垂直设有挡板(4)以及与所述挡板相适应的滑槽,所述挡板(4)可沿所述下料桶内壁在所述滑槽内滑动,所述挡板与所述出料口(3)同侧,所述挡板侧壁与所述下料桶顶部接触处设有夹紧件(10)。
其带来的主要有益效果是同设置可沿下料桶侧壁滑动的挡板,间接的调节出料口的开口大小,实现出料可控制功能。
人工检索到的最接近现有技术(对比文件1)是一种多孔料槽(CN20505248U),公开了可沿滑槽上下移动的挡板3及相关定位销轴,但挡板的定位方式与本申请不同。而通过S系统智能辅助检索,Patentics智能语义检索所得的最接近的现有技术虽然领域相同,但都没有涉及本案核心技术特征和技术效果,无法用于单篇或多篇组合否定权利要求1的创造性。
在原文中,作者仅对语义检索推荐的最相关的一件专利进行了对比,得出了三个结论。经过笔者对智能检索结果进行进一步的研究和分析后,对三个结论进行以下补充。
本次分析采用的语义检索系统是Patentics(以下简称P系统)和HimmPat(以下简称H系统)两个语义检索系统,两者在官方网站上都公布过相近的语义检索精度测试结果,从大数据统计测试的角度评价,基本可以代表当前的语义检索技术水平。
使用本案的专利号码进行语义检索,虽然推荐的最相关的专利并不能作为对比文件,但如果继续往后看,在大多数检索员可承受的前300个检索结果的浏览中,发现了以下专利。各专利号码、附图与相关描述如下:
CN201905118U 新型猪用双面自动采食槽
CN204104481U 羊饲喂装置
所述流量调节板4顶端中部与流量调节杆5固定,流量调节杆5通过其上的条形孔7与料箱2侧壁螺栓连接,通过在条形孔7内上或下移动螺栓6带动流量调节杆5及流量调节板4升或降。便于调节下料量。
槽形的料斗(2)内纵向设有投料控制板(3),投料控制板(3)下部与料斗(2)边沿之间设有下料缝隙,投料控制板(3)为一活动的板,所述活动的板设置于由一组限位件(31)构成的通道中,本实施例中限位件(31)由投料控制板(3)两侧的杆件构成上下的通道,所述的杆件上还可设置固定装置(32)以固定投料控制板(3),固定装置(32)为固定螺栓,通过该活动的板可以控制投料控制板(3)下部与料斗(2)边沿之间设有下料缝隙大小,以控制下料量,还可以定时关闭或打开
CN205389902U 一种养猪用饲料槽
CN205658176U 一种喂养食槽
养猪用饲料槽还设有放料调节杆4,放料调节杆4的一端设有控制开关组件3;另一端放置在分隔板5底端;控制开关组件包括与放料调节杆的横轴杆3-1,横轴杆3-1的左端设有突出轴3-2与设置在饲料主槽上的定位孔3-3;横轴杆3-1的中部与放料调节杆4活动连接。
料箱框架上装有调整整块挡板高度的高度调整装置,上述高度调整装置包括螺接在在料箱框架上的调整杆5,调整杆5的底部固接在整块挡板上,调整杆5上螺接有将其固定在料箱框架上的压紧螺母6,本实施例使用时,将饲料自进料口投入到料箱1中,通过上述调整杆5的提拉或推下,可以调整整块挡板的高度位置,从而调整出料口3的大小。
以下是两个检索系统对四件相关专利相关度的评价和相关专利在检索结果中所在的位置。
最高相关度
|
相似专利
|
CN201905118U
|
CN204104481U
|
CN205389902U
|
CN205658176U
|
92%
|
P系统
|
87%
|
86%
|
87%
|
88%
|
95%
|
H系统
|
90%
|
90%
|
91%
|
90%
|
对比文件位置
|
P系统
|
193
|
286
|
>400
|
94
|
H系统
|
250
|
182
|
103
|
233
|
从智能检索结果靠前位置获得的以上4篇专利与人工检索的对比文件1一样,同样公开了本案权利要求1的核心特征:设置挡板调节出料口开口大小,实现出料可控制功能,可用于结合评价权利要求1的创造性。四篇专利中,与权利要求1中的“挡板”对应的分别是“调节板”、“控制板”、“活动板”和“挡板”,可见,正如原文所述,语义检索确实根据了对比文件与本申请之间的要素重合度,来评估两者整体的相似度。而更进一步的是,其对要素的表达也进行了语义扩展。同时,四件专利中基本都包括了控制“挡板”高度的调节固定装置,以及对“挡板”作用“调节出料口大小”的文字描述。这与本案对“挡板”配件以及“挡板”作用的描述也形成了重合度。也就是说即使不是“挡板”本身的技术特征,由于在此场景中,配件和作用效果描述等已经与“挡板”形成了特定情形下的绑定关系,因此,即使名称不叫“挡板”,关联特征的重合度也会间接拉近两篇专利之间的相关度。依靠这些语义扩展和潜在的内在关系,使得语义检索可以一次找出多篇相似的对比文件,而这在传统检索中是很难做到的。
二、当前语义检索的优化模式
然而,语义检索始终不能理解发明本身,就像原文中提到的第三点:本案声称所要解决的技术问题、撰写的权利要求方案,和声称所能实现的有益效果方面,三者之间多有出入。导致对于把握主旨、提炼要素产生较大的困扰。对此,两个语义检索系统也分别提出了自己的优化模式。
1、多重语义检索模式
H系统提出了多重语义检索,也就是在使用号码进行语义检索的基础上,继续添加与核心发明内容相关的文字描述,增加核心发明内容的权重,可以让检索结果更偏向于核心发明内容。例如,本案的核心是调节出料口大小,因此,可以将关键词“调节”作为第二重语义检索条件继续加入语义检索中进行检索。在检索结果前100件专利中,就发现了如下7件新的相似的专利文献。由此可见,加入人工挑选的核心发明点的多重语义检索确实能起到积极的作用。
CN203226150U 一种可调节式双面料箱
CN206260530U 一种移动可调禽类饲喂装置
如需改变进食槽3的进料量,通过调整调节板6就可以随时实现。如果将调节板6向上提起,进料量就增加,如果将调节板6向下调整,进料量就减少
调节旋杆2可旋转控制调节板3与槽体1底部内壁的闭合或打开状态,需要从槽体1中放出饲料时,旋转调节旋杆2,调节板3下端被调节旋杆2提升,调节板3与槽体1底部内壁处于不接触状态,使饲料通过开口落入料槽4,反方向旋转调节旋杆2,调节板3与槽体1底部内壁闭合
CN203692150U 猪用食槽装置
CN204132148U 饲喂量可调的食槽装置及其流量调节机构
流量调节板12设于料箱11底部的出料口处并且与流量调节杆13的下端连接,当旋动旋柄16时,其可通过流量调节杆13带动流量调节板12活动,从而调节料箱11出料口的大小,进而实现对下料流量的调节。
当需要调节饲料的流量时,仅需拔出调节销轴21然后转动旋柄18,旋柄18在旋转的同时将会通过过渡板20带动流量调节杆14,流量调节杆14的活动将直接带动流量调节板13上下活动,从而实现对饲料流量的调节,调节到位后,将调节销轴21插入至相应的调节孔中即可锁定。
CN201667894U 哺乳猪自动食槽
CN202773683U 一种动物饲料槽
流量调节板4通过顶端具有滑槽11的流量调节杆5和螺栓6固定在料箱2壁上,螺栓6穿过流量调节杆5上的滑槽11。通过调节螺栓6与滑槽11的位置来实现调节板4的上下移动,从而实现对进料量的控制。
挡板1d在饲料储槽1的侧板一1b表面滑动实现联通通道3大小的调节。可以通过在侧板一1b两端设置滑槽等结构实现挡板1d的上下滑动,上下滑动的挡板1d可以根据动物进食需要调节联通通道3的大小
CN203072607U 喂料器
下料控制开关2控制下料调节器5,调节器5控制储料器1底部下料口的开口大小,饲料下溜量经过下料口受到控制
2、语义检索人工干预模式
另一个方向的解决方案则是P系统提出的人工干预方案,将布尔检索与语义检索配合使用,使用布尔检索排除噪音,同时使用语义检索对布尔检索结果进行排序,充分利用两种检索方式的优势。例如,在语义检索基础上,将本案的核心关键词可以将关键词“调节 or 可调”加入布尔检索条件。在检索结果前100件专利中,也发现了如下4件原有的相似专利文献,且出现的位置都有提前。由此可见,加入核心关键词进行布尔检索限定,也确实能起到积极的作用。
三、当前语义检索的局限
从以上检索结果来看,通过语义检索和其优化检索模式,可以获得更多的11件有效的对比文件1,从相关对比文件获取的数量上,当前的语义检索已经显示出其相对于传统检索的特色和优势,多重语义以及人工干预等优化模式也在提升检索效果的同时赋予了语义检索更广泛的应用空间。但从以上两个系统的检索结果中也可看出,虽然都能获取对比文件,但不同的语义检索系统无论在相关度的判定、对比文件获取数量和位置都有很大的不同。这些不同最终导致的则是,用户有时输入一个专利号码很快就能找到X对比文件,对语义检索赞叹有加;有时又因为检索结果差异太大而心生质疑。语义检索在统计层面的优势在个案中可能失效。而究其原因,经笔者研究发现,当前语义检索的局限主要体现在以下三个方面。
1、 语义词的选取会影响语义解读效果
在H系统发布的《2019年局专利检索大赛电学领域真题能教会你什么》【2】中提到了一种智能家居控制方法的案例,其核心方案为对于同一局域网下的多台类型相同的物联网设备,智能音箱设备可以根据用户发出的语音指令确定声源所处的位置,自动识别出距离声源所处位置最近的设备,并控制该设备为用户服务。
当笔者尝试在第一次语义检索后加入核心发明点关键词“位置”进行多重语义检索时,发现检索结果没有任何变化。而当仅使用“位置”进行语义检索时,果然没有任何检索结果。
这一发现说明,H系统的语义检索系统并未选取“位置”作为语义词。而在P系统中输入“位置”则可以检索出“空间”、“位置”、“定位”等相关的专利文献,说明P系统的语义检索系统选取了“位置”作为语义词。虽然在此场景中,与“位置”具有绑定关系的“距离”等词也可增加文献之间的特征重合度,但关键概念的缺失必然会对检索结果产生影响。
2、 语义算法对语义词的解读偏差会带偏检索结果
汉语博大精深,在不同的领域,同样的词语所表达的意思可能会完全不同、也可能侧重不同。在笔者实际检索的过程中发现,有时语义检索系统对语义词的解读结果,会和我们日常认知的有所不同。这种解读偏差,就会导致用户并不能根据输入的文本正确找到真正想要搜索的专利。
例如:在P系统中输入“物流”进行语义检索,检索结果大多为化学方面的专利,根据页面左侧的相关语义词和词云显示的信息,可以大概推断其对“物流”的语义理解更偏向于化工生成过程的物质形态和流动。而在H系统中输入“物流”进行语义检索,检索结果则偏向于与仓储运输相关的物流概念。然而,两种概念都是真实的检索场景,语义检索系统能否区分不同场景下的不同含义则是体现算法水平的重要方面。
3、发散性词语的聚焦度会影响语义的关联表达效果
语义搜索的一个魅力就在于用户不用精确的输入原文中存在的文字就可以找到相似的专利,也即是具有一种关联联想的功能。那么对于一个语义词而言,如果聚焦度太低,搜索的结果就会太过发散,很难命中需要的专利;而如果聚焦度太高,搜索的结果又可能会太过集中,导致漏检。
不论是P系统还是H系统,都没有对算法做过详细的解读,笔者只能通过一些简单的搜索对两家算法在聚焦度上的表现进行测试。
例如当输入“冬奥会”进行语义检索时,P系统的检索结果发散度较高,推送的最相关的专利分散在不同的领域,如体育用具、文具、乐器、景观、广告甚至导航,几乎无法找出某个检索指向。而H系统则集中在滑雪机方面,聚焦度较高。
使用“白宫”进行语义检索,P系统的检索结果指向了地图导航和自然语言处理两个检索方向。而H系统则集中在与飞行器相关的专利,仍然表现出了较高的聚焦度。
在H系统官方给出的多重语义检索案例中,均使用了关键词或较短的文字描述进行第二重语义检索,或许就与其关键词语义检索结果的聚焦效果有关。然而遗憾的是,P系统暂未推出多重语义检索的功能,笔者不能进一步测试。
通过这个测试我们可以发现,两家算法在发散性词语的聚焦度上差别很大。然而,并没有一个客观的衡量标准来评价到底焦距到什么程度才是最优的。不同的聚焦度可能会在不同的场景下发挥较优的效果,同时也就会在其他场景下效果较差。那么语义检索本身选择的聚焦度的不同,就会影响其本身的普适性。
综上所述,语义词选取的不同,算法对词义理解的不同,以及算法聚焦度的不同都会对检索结果造成不同的影响,各检索系统如何保证语义词覆盖的全面性,对词义理解的准确性(包括对一词多义的理解),以及算法在聚焦与发散之间的平衡,从而保证每一次检索都不失灵指向正确的检索方向,仍是系统商们需要重点研究和突破的问题。
四、小结
当前的语义检索根据对比文件与本申请之间的要素重合度,来评估两者整体的相似度,并不能真正理解专利技术的核心和技术组合要义。但语义检索依托其对要素表达的语义扩展和建立关联特征潜在的内在关系,可一次找出多篇相似的对比文件,相对于传统检索的特色和优势也是显而易见的。而无论是多重语义检索还是结合布尔检索的人工干预等优化模式的出现,也在一定程度上克服了语义检索的局限,在提升检索效果的同时赋予了语义检索更广泛的应用空间。而从改进空间来看,当前的语义检索系统可以在语义词选取、对词义的理解以及在算法的聚焦与发散之间找到有效平衡方面努力尝试,争取每一次检索都不失灵指向正确的检索方向。