互联网上有着过亿级别的书,新闻,文献等,再没有比现在更好的时间去阅读他们了,如果你有时间将所有的选择都筛选一遍的话。 “互联网里有着成吨的文档,” MIT的助理教授Justin Solomon说,“任何一种可以辅助筛选所有这些内容的技术都是极其有用的。” 最近,Solomon通过与MIT-IBM Watson AI实验室以及他自己在MIT的几何数据处理小组合作,在神经信息处理系统大会(NeurIPS)上展示了一种用于截取大量文本的新技术。他们的方法结合了三种流行的文本分析工具——主题建模Topic Modeling,单词嵌入word embeddings和最优传输optimal transport,可以提供比其他同样符合流行的文档分类评估标准的方法更好,更快的结果。 如果某个算法知道你过去喜欢什么,它可以扫描上百万的可能性去寻找相似的内容。随着自然语言处理技术的进步,“你也许会喜欢”这样的推荐正变得更加快速和相关。 在NeurIPS提出的方法中,算法会根据收藏集中的常用单词,将一个收藏集,比如书籍,汇总为各种主题,然后将每本书分为5至15个最重要的主题,基于估算每个主题对该书的总体贡献值。 为了比较书籍,研究人员使用了另外两种工具:单词嵌入Word embeddings(一种将单词转换成数字列表以反映其在常用用法中的相似性的技术)和最优传输Optimal trasnsport(一种用于在多个目的地之间计算移动物体或数据点的最有效方式的框架)。
单词嵌入Word embeddings使得应用两次最优传输optimal transport成为可能:首先在整个收藏集中对比主题,然后,在任两本书之间比较常见主题间的重叠程度。 这个技术在扫描大型书籍收藏集以及冗长文档时特别奏效。在这项研究中研究人员提供了一个样例:弗兰克·斯托克顿(Frank Stockton)的“大战辛迪加”,这是一本19世纪的美国小说,它预言了核武器的兴起。如果你正在寻找一本类似的书,主题模式会协助识别出与其他书籍共享的主要主题,在这个例子中则是航海、自然、军事。 但是,仅凭主题模型并不能识别出托马斯·赫胥黎(Thomas Huxley)在1863年的演讲“有机自然的过去条件”是一个很好的匹配。作家本人是查尔斯·达尔文(Charles Darwin)进化论的拥护者,他的演讲充斥着化石和沉积物,反映了关于地质学的新兴思想。当赫胥黎演讲中的主题通过最优传输方式与斯托克顿的小说相匹配时,就会出现一些交叉的主题:赫胥黎的地理,动植物以及知识主题分别与斯托克顿的航海,自然和军事主题密切相关。 通过书籍的代表性主题而不是单个单词对书籍进行建模,可以使得高端比较成为可能。该项研究的主要作者、IBM研究员Mikhail Yurochkin说:“如果你要求某人比较两本书,他们会将每一本书分解为易于理解的概念,然后对概念进行比较。” 研究表明结果是更快,更准确的比较。研究人员1秒钟时间比较了Gutenberg项目数据集中的1720对书籍,比第二好方法快了超过800倍。这项技术在精准文档排序上面也比其他方法表现更好,比如,Gutenberg数据集中按作者名来排序书籍,亚马逊中按部门排序产品评价,BBC中按体育排序的体育故事等。在一系列可视化实例中,该研究论文的作者们认为他们的方法可以按类型对文档进行整齐地聚类。 除了可以快速更准确的分类文档之外,该方法还提供了一个窗口用于进入模式决策处理。通过显现的主题列表,使用者可以看到为什么该模式正在推荐某一个文档。
|