学海网 文档下载 文档下载导航
设为首页 | 加入收藏
搜索 请输入内容:  
 导航当前位置: 文档下载 > 所有分类 > 高等教育 > 其它 > 一种基于TF·IEF模型的在线新闻事件探测方法

一种基于TF·IEF模型的在线新闻事件探测方法

第35卷第3期国防科技大学学报

V01.35No.3

垫!三生垒旦』Q堕曼盟垒垦Q!堕垒旦Q堕垒坠型堕盟垦堕望堕Q!望垦堡堕璺垦堡g旦堕Q垦Q!塑出坐:兰Q!!

一种基于TF IEF模型的在线新闻事件探测方法+

辉,李国辉,贾立,孙博良

(国防科技大学信息系统与管理学院,湖南长沙410073)

摘要:为了提升在线新闻事件探测的性能,提出一种基于'IT IEF模型的在线新闻事件探测方法。该方法受TF IDF思想的启发,直接计算特征词表征事件的权重,建立新的增量事件模型,并将探测过程分为两个阶段:第一阶段利用Single.Pass将一定时段内收集到的报道聚成微簇;第二阶段将微簇与已有事件进行相似性匹配,然后通过重新计算事件向量实现模型更新。实验结果表明,该方法运算速度快,特征信息丢失少,提高了探测的效率和准确率。

关键词:在线新闻事件探测;TF IEF模型;增量事件模型;Single Pass聚类;中图分类号:TP391

文献标志码:A

文章编号:1001—2486(2013)03—0055—06

on.1inenewseventdetectionbased

on

TF ⅢF

model

ZHANGHui,LIGuohui,JIALi,SUNBoliang

(CollegeofInformationSystemandManagement,NationalUniversityofDefenseTechnology,Changsha

to

410073,China)

on

Abstract:Accordingclustering,isof

events

thecharactersofwebnews

stream,an

on-linenewsevent

detection(ONED)method,based

model

Wag

thetwo—stage

prorMl

propo㈣l

to

solvetheproblemofrepeatedmatching.Anovelincremental

are

event

establishedbycalculatingtermsweighting

direcfly.Twostages

involvedin

our

method.Inthefirststage,thesimilarreportseoHectedin

werematchedwithexisted

certain

period

event

wereclusteredinto

micro-clusters.In

showsthatthe

thesecond,the

micro—clusters

events,and

thenthis

methodupdatedthemodel.Experiment

methodimprovestheefficiency

news

event

andaccuracyofONEDwithlowercomplexityandlessfeatureinformationloss.

event

Keywords:on—linedetection;TF IEFmodel;incrementalmodel;Single Passclustering

在线新闻事件探测(ONED)所要解决的问题就是如何从网络新闻报道流中自动发现最新发生的新闻事件。利用在线新闻事件探测技术,重要信息可以免于被大量的无序新闻所淹没,用户能够快捷地了解近期内发生的重大事件。

近年来,许多学者对新闻事件探测进行了研究。A儿aIl[1|、Papka[2|、Yang[3l、Lam[41等使用TF

IDF

fTerm

Frequency&Inverse

Documentation

word

Frequency)建立报道模型,进而建立新闻专

题。文献[15]使用新闻要素建立报道模型,提出加窗的在线新闻事件探测方法,其中窗口内报道使用凝聚层次聚类建立候选事件集,然后再将候选事件与已有事件进行相似性比较。总的来说,以往的在线新闻事件探测主要采用TF IDF建立报道的向量模型¨。5’9’14。151,以单篇报道作为统计单元,计算报道中的特征权重,而事件模型则用事件包含的所有报道向量的质心表示。这种事件模型本质是以单篇新闻报道向量作为事件向量模型计算的基本单元,仅仅是将多篇报道的向量特征权重进行求和平均,这种模型不能很准确地反映特征在事件中的重要程度。

因此,为了更准确地表征事件模型,受TF IDF思想启发,本文在文献[15]的探测策略基础

上,提出一种基于TF IEF(TermFrequency&

InverseEvent

Frequency)对报道建模,利用Single—Pass聚类方法进行探测。Brants”1等用改进的增量式TF IDF

方法建立报道的单向量模型,而Stocks∞J、

Giridharr7|、张阔【8。91等则用TF IDF建立报道的

多向量模型,这些改进研究主要侧重在报道模型以及充分利用报道的语义特征两个方面。付艳¨¨111等提出一种基于命名实体匹配技术的快速探测方法,这种方法主要侧重减少报道相似性计算的时间开销。张小明¨21等提出增量聚类的自动话题探测,准确率和效率有一定提升。王灿辉¨列等使用TF IWF(Term

收稿日期:2013—03—05

Frequency&Inverse

Frequency)模型的在线新闻事件探

测方法,提高探测的效率和准确率。

基金项目:国家部委资助项目;国家自然科学基金资助项目(61170158);湖南省自然科学基金资助项目(12JJ5028)作者简介:张辉(1983一),男,湖南湘潭人,博士研究生,E—mail:zhanghui@nudt.edu.cn;

李国辉(通信作者),男,教授,博士,博士生导师,E—mail:guohli@nudt.odu.cn

万方数据

第1页

我要评论

相关文档

更多文档:

站点地图 | 文档上传 | 侵权投诉 | 手机版
新浪认证  诚信网站  绿色网站  可信网站   非经营性网站备案
本站所有资源均来自互联网,本站只负责收集和整理,均不承担任何法律责任,如有侵权等其它行为请联系我们.
文档下载 Copyright 2013 doc.xuehai.net All Rights Reserved.  email
返回顶部