单文档与多文档新闻摘要

2013年6月3日 由 admin 留言 »

1、自动文摘技术

文档自动摘要技术的研究比较成熟,在年前Yahoo 已经收购了自动新闻摘要应用Summly,又使得自动摘要重新火了一把。在当前市场的比较热门的摘要有Summly、Clipped等国外使用较为广泛的app,最近国内的今日头条在新闻客户端上也加上了摘要内容。即刻新闻移动客户端在新的版本计划中也加上了摘要的内容,这里对新闻的单文档和多文档摘要进行了调研分析。主要概述的论文:http://www.cs.cmu.edu/~nasmith/LS2/das-martins.07.pdf

一般来讲,文档自动摘要分为Extractive和Abstractive两种方法,任务可以分为单文档与多文档摘要两种。

目前大多数的自动摘要都是以Extractive进行的,只是抽取的方法有所改进。有通过原文的句子进行抽取分析、语料库进行机器学习、建立语义网模型等抽取方法。

    基于Abstractive的方法也有很多人进行研究,基本思路是预先设计好一个模板,以及需要填充的字段。比如某新闻的发生时间、人物、地点等,利用计算机自动的在原文本中定位有关的信息片段,最后将这些片段填充到对应的模板的位置上。该方法能够产生较高质量的摘要,但是应用领域较为狭窄,模板不能统一。

2、单文档摘要技术

   一个较为简单的Extractive的单文档摘要生成方法如下所示:
  1. 对输入的文档进行分词处理,将一些停用词等与无关的词进行过滤
  2. 提取每一个句子里面的实词(专有名词、动词等),对于所有的实词进行计算相似度和同义词分析
  3. 对词义不同的词,计算其TF/IDF信息
  4. 计算每个句子在整篇文章中的权重、句子在段落中的权重、段落与段落直接的相似度
  5. 最后计算出每个句子在文档中的重要度,得到粗略的文摘
  6. 对句子与句子直接进行重复检查
  7. 最后得到整篇文摘的摘要

3、多文档摘要技术

    多文档摘要的抽取一般有如下几类:
  • 与单文档类似的方法
    • 通过计算词频、句子位置、主题词等抽取文档的重要内容,在通过多文档之间的相关性进行内容选择和过滤。
  • 采用Abstractive的方法
    • 从多个文档中提取信息填充到预先定制好的模板系统中。
  • 多文档集合判断的方法
    • 通过计算多文档的主题,作为该多文档的质心。判断文档中的句子与文档质心的距离,从而判断哪些句子比较重要。然后通过对句子安装相似程度进行聚类,最后从不同的类别中选取摘要句,从而减少摘要的冗余。

4、Summly的实现(猜测)

123
通过多次使用Summly,发现其是采用聚类分析后的新闻文档,然后选取与该topic中概括性(与topic的主题词、文档标题进行相似度计算)最大的段落作为摘要。
     缺陷:     很多时候选取的摘要部分是第一短内容。有的时候会出现与原文毫无关系的一段话,尤其是在体育新闻中。

5、Clipped的实现

2
   关于Clipped的自然语言处理原理,坦登告诉我们,Clipped能根据语法分析文本,并能识别哪种句子结构包含了最重要的信息。该算法通过分词标注器来分析一个句子,并能确定某一区块的信息与其他部分信息的依赖关系。通过统计和关键字的组合分析,Clipped能够对信息块的重要度进行排名,并选出那些关联系数最高的句子。然后Clipped根据分析结果生成内容摘要,最后还会重新读取它自动生成的摘要进行分析,以确保选定的信息内容是合理的。然后,该算法才会将最终结果呈现给用户阅读。
    Clipped的主要思路还是单文档的Extractive来选取最为重要的三句话返回给用户。
    缺陷:对于某些专业论文计算的比较好,但是普通的新闻有的时候很不连贯,无法概括全部的含义。

6、今日头条的实现(猜测)

    今日头条的新闻很多都来源于微博,猜测是思路是根据新闻聚类将微博内容和新闻同时进行聚类(粒度较小),这样所有相关的微博和新闻都会到一个topic中,然后在选取摘要的时候,选取相似的微博内容作为摘要。当微博摘要不存在的时候,往往选取的是第一段内容。
     缺陷:依赖新浪微博,时效性、领域性要求很强,即便是新浪微博的内容,质量也并不太高。
广告位

评论已关闭.