论文
[…]
卢加诺大学
1
TL;博士:本研究探索了从专利文件中自动生成查询,以方便耗时和劳动密集型的相关专利搜索,并将分配给专利文件的分类纳入模型,以分层分类的形式利用可用的人类判断。
文摘:现有技术检索是专利申请审查程序中的关键步骤。本研究探索了从专利文献中自动生成查询,以方便耗时和劳动密集型的相关专利搜索。在本任务中,识别查询专利中不同领域的歧视性术语是至关重要的,这使我们能够区分相关专利和非相关专利。为此,我们研究了在查询专利的不同领域中出现的术语的分布,并使用语言建模估计技术将其分布与集合的其余部分进行比较。我们实验了基于查询专利和集合之间的Kullback-Leibler分歧的术语加权,以及简约语言模型估计。这两种技术都促进了查询专利中常见而在集合中罕见的单词。我们还将分配给专利文件的分类纳入我们的模型,以分层分类的形式利用可用的人类判断。实验结果表明,使用生成的查询进行检索是有效的,特别是在召回方面,而专利描述被证明是提取查询术语最有用的来源。
36引用
耶路撒冷理工学院
1
TL;博士:这项工作的主要贡献是引入了基于随机森林和多模态特征(文本和视觉)的新闻文章分类框架,以及利用随机森林操作能力的后期融合策略。
文摘:本文主要研betway亚洲究新闻文章分类问题。分类使用从文本中提取的N-gram文本特征和从一个代表性图像中生成的视觉特征进行。应用程序域是从三个知名新闻网站(BBC、路透社和卫报)下载的英语新闻文章,属于四个类别:商业金融、生活方式-休闲、科学技术和体育。使用随机森林机器学习方法进行了各种分类实验,使用N-gram文本特征和来自代表性图像的视觉特征。单独使用N-gram文本特征的准确率(84.4%)比单独使用视觉特征(53%)高得多。然而,同时使用N-gram文本特征和视觉特征导致了稍好的准确性结果(86.2%)。这项工作的主要贡献是引入了基于随机森林和多模态特征(文本和视觉)的新闻文章分类框架,以及利用随机森林操作功能的后期融合策略。
35引用
海德堡大学
1
TL;博士:从大型多语言专利语料库中从所有专利文档章节中提取并行数据的双重方法,以及对其子领域的描述性分析,以使其能够用于面向领域的翻译,例如在应用多任务学习时。
文摘:专利统计机器翻译需要大量的并列句数据。专利文本的翻译通常存在于专利文件的部分,即标题、摘要和权利要求书。然而,该文件的最大部分,即发明的描述或背景没有直接翻译。我们记录了从大型多语言专利语料库的所有专利文档部分提取并行数据的双重方法。由于语言和风格取决于文档部分(标题、摘要、描述、权利要求书)和专利主题(根据国际专利分类),我们将处理过的数据分类为子域,以便能够在面向领域的翻译中使用,例如在应用多任务学习时。我们研究了几种相似度度量,并将其应用于专利主题和专利文档部分的领域。我们研究的产品是从MAREC专betway亚洲利语料库中提取的2300万个平行德英句子的语料库及其子域的描述性分析。
26引用
2012年7月2日
TL;博士:本文展示了实体挖掘的应用程序可以实时执行,并展示了如何利用关联数据来指定感兴趣的实体和提供关于已识别实体的进一步信息。
文摘:在本文中,我们提出了一种在查询时执行实体挖掘来丰富经典web搜索的方法。实体挖掘的结果(按类别分组的实体)可以用对用户有用的信息补充查询答案,这些信息可以在类似于面搜索的交互方案中进一步利用。我们证明了实体挖掘的应用程序可以实时地对答案的热门片段进行挖掘。但是,对片段进行挖掘所返回的实体比对全部内容进行挖掘所返回的实体要少,因此我们报告了这两种场景的比较结果。此外,我们还展示了如何利用关联数据来指定感兴趣的实体,以及如何提供关于已标识实体的进一步信息,从而实现一种基于实体的文档和(语义)数据集成。最后,我们讨论了这种方法在专业搜索中的适用性,特别是在渔业/水产养殖和专利领域。
22引用
[…]
帕多瓦大学
1
TL;博士:讨论了用于形式化量子力学和量子概率的更一般的框架在信息检索中是必要的情况,并描述了为此目的设计的实验。
文摘:在相关文献中,特别是在van Rijsbergen最近的书中,假设一个更通用的框架用于形式化量子力学,然后是量子概率,将有助于超越经典的检索模型,本文首先讨论一个框架,然后是量子概率的情况,考虑量子概率的必要性源于本文中进行的实验观察,查询扩展的最佳术语具有不承认经典概率的概率,而可以在量子概率函数中定义
21引用