摘要: 【目的】論述 Web 信息抽取技術在新聞輿情分析中的應用,為輿情虛假信息甄別、輿論引導提供新方法,從
而避免對大眾的思維、想法等造成不良影響。【方法】研究提出了基于行塊分布函數和基于統計與網頁結構兩種不
同的新聞正文信息抽取方法,使得在對 Web 新聞數據采集和存儲的基礎上,正文信息抽取更加高效和準確?!窘Y果】
兩種 Web 信息抽取技術可以廣泛應用于海量新聞數據分析、輿情監測等應用場景?!窘Y論】通過基于行塊分布函數
的抽取方法和基于統計信息與網頁結構的抽取方法,能夠分別對輕量網頁和大流量網頁抽取信息時表現更優。