摘要: 【目的】論述 Web 信息抽取技術(shù)在新聞?shì)浨榉治鲋械膽?yīng)用,為輿情虛假信息甄別、輿論引導(dǎo)提供新方法,從
而避免對(duì)大眾的思維、想法等造成不良影響。【方法】研究提出了基于行塊分布函數(shù)和基于統(tǒng)計(jì)與網(wǎng)頁(yè)結(jié)構(gòu)兩種不
同的新聞?wù)男畔⒊槿》椒ǎ沟迷趯?duì) Web 新聞數(shù)據(jù)采集和存儲(chǔ)的基礎(chǔ)上,正文信息抽取更加高效和準(zhǔn)確。【結(jié)果】
兩種 Web 信息抽取技術(shù)可以廣泛應(yīng)用于海量新聞數(shù)據(jù)分析、輿情監(jiān)測(cè)等應(yīng)用場(chǎng)景。【結(jié)論】通過(guò)基于行塊分布函數(shù)
的抽取方法和基于統(tǒng)計(jì)信息與網(wǎng)頁(yè)結(jié)構(gòu)的抽取方法,能夠分別對(duì)輕量網(wǎng)頁(yè)和大流量網(wǎng)頁(yè)抽取信息時(shí)表現(xiàn)更優(yōu)。