信息發布是LBS面向用戶終端的主要信息發送方式,是用戶獲取位置及相關信息的重要途徑。隨著Web技術的迅猛發展,信息發布技術也從以往的廣播服務機制逐步向推送服務機制發展。本節主要介紹信息廣播、信息定制、信息抽取和信息推送服務的有關內容。
推送
互聯網己經成為了一個全球性的超級數據庫,豐富的資源信息拓寬了人們的視野,但隨之也帶來了一個問題:網上信息具有分布散、動態變化和結構復雜等特點使得人們面臨著信息過載和信息迷向問題。如何從海量的信息中高效全面地獲取所需信息,如何提高網絡的主動信息服務能力和滿足用戶的個性化需求等問題已經悄然的擺在了人們的面前。
1.信息推送的概念
人們所采用的信息檢索方式還是一種被動的拉取(Pull)方式,主要是通過搜索引擎來進行信息的查找和定位。它通過自動瀏覽程序對Web站點進行自動搜索,對文檔信息進行分類索引,并建立索引數據庫,然后用戶通過瀏覽器發送服務請求,服務器就在所屬的數據庫中檢索,將匹配站點的URL返回給用戶,用戶再進行鏈接,并在其中篩選出滿意的信息。拉取方式自身存在兩個方面的不足:一是獲取信息不僅時間長,而且費用高;二是信息效率低,資源浪費嚴重;三是服務器被動服務,用戶獲取信息及時性差。因此,基于拉取方式的信息獲取技術無論在信息的搜索速度、傳輸速度,還是搜索信息的質量上都越來越難以令人滿意。另外,這種方式客戶機和服務器必須保持實時的連接才能獲取信息。但由于網絡信息更新快,這就要求用戶必須經常上網查看信息,否則很難及時獲得自己所需的最新信息。
信息推送(Push)是指網絡公司通過一定的技術標準或協議,從網上的信息源或信息制作商那里獲取信息,通過固定的頻道向用戶發送信息的新型的信息發布系統。信息推送技術能夠主動地根據用戶的需求,將最新的信息分門別類地傳送到相應的用戶設備中。當有與用戶相關的信息更新時,推送軟件會及時、主動地通知用戶,體現了其主動性。推送軟件并不是把網上的信息隨便推送給用戶,而是根據用戶的特定信息需求為其量身定制的,充分體現了個性化;由于信息推送技術采用了信息代理機制,可以降低重復的、無關的信息在網上傳遞,避免了垃圾信息對網絡資源的大量占用,體現了其高效性。
Pull與Push技術對用戶來說都是信息獲取技術,但二者存在著根本的不同。以pull技術為核心的信息拉取技術,在信息獲取時,用戶必須實時處于主動地位,也就是說,用戶必須參與信息獲取的整個過程。而以Push技術為核心的信息推送技術,在信息推送過程中,服務器始終處于主動地位,用戶卻處于被動地位。與Pull技術相比,Push技術不僅獲取信息的效率高,費用低,而且及時性強,因而它一出現便受到人們的青睞。Push技術能夠通過一定的技術標準或協議,把用戶感興趣的信息,按照用戶的要求及時、主動地推送給用戶。用戶收到信息后,還可以離線瀏覽。Pull與Push的根本區別是:相對一次會話,Pull由客戶發起,主動方是客戶;Push由服務器發起,主動方是服務器。
2.信息推送的特點
信息推送技術的特點可概括為:
1)避免用戶在網上無目的上網查找;
2)提高被推送信息的準確性,控制搜索深度,過濾不必要的信息;
3)被推送的信息內容,可以有教學資料、新聞、電影、音樂、房產信息、股市行情、共享軟件和天氣預報等;
4)被推送的文件類型多樣,可以有文字、圖形、圖像、聲音和小程序等;
5)服務器能對各個用戶的興趣和偏好進行智能性識別、預測,根據用戶要求自動搜集定制信息并定期快速、連續不斷地向目標用戶主動推送,滿足了用戶的個性化需求。
3.信息推送的方法
信息推送技術的工作原理可以簡單地分為3步:首先用戶完成注冊,描述自己的信息需求,如用戶的興趣愛好、所需信息和推送時間等,以便向用戶提供主動、準確的信息服務;然后從網上收集用戶所需信息,并分類整理;最后推送到用戶計算機上。信息推送技術主要有以下3種實現方式。
(l)消息方式
根據用戶提交的信息需求,利用電子郵件或其他消息系統將有關信息發送給用戶。該方式并不具備很強的交互性和強制性,對資源和信息流量的要求不高,可以看出這是最弱意義上的推送,但容易實現。
(2)代理方式
通過使用代理服務器定期或根據用戶指定的時間間隔在網上搜索用戶感興趣的信息內容,然后將結果推送給用戶。對信息的請求和推送都是通過代理來實現的,對用戶來說是透明的。
(3)頻道方式
提供完整的Push服務器、客戶端部件及相關開發工具等一整套集成應用環境,它將某些站點定義為瀏覽器中的頻道,Push服務器負責收集信息形成頻道內容后推送給用戶,而客戶端部件接收到來的數據和提交指令,根據用戶所需相關的信息對數據進行處理。
信息推送技術的出現給人們帶來了一種全新的信息獲取方式,適用于廣大公眾,并不需要用戶掌握專門的技術,而且能不斷地向用戶推送信息源的動態變化。當信息推送技術面對Internet上信息量大、結構復雜、難以人工處理等問題時,需要將Push技術與Pull技術相結合,不僅把信息推送給用戶,而且還要按照用戶預先設定的觸發事件和發送要求,在條件滿足時自動向用戶發送信息。在此基礎上,融入人工智能、知識發現技術、Internet及數據庫技術,從而形成“智能信息推拉”(IIPP)技術,將是一個很好的研究方向。
抽取
信息定制是用戶對信息發布提出的要求,而信息抽取則是信息處理系統針對用戶要求對底層數據進行的數據處理過程。
特別是隨著Internet的迅猛發展,Web已經成為一個巨大的信息源。隨著Web信息數量的快速增長,如何從Web中抽取出所需要的信息,就成為了互聯網信息搜索研究領域中一個重要的研究課題。Web信息抽取是指從Web頁面所包含的無結構、半結構或者結構化的信息中識別用戶感興趣的數據,并將其轉化為結構和語義更為清晰的格式的Web頁面信息抽取的過程。
1.信息抽取的概念
信息抽取(Information Extraction,IE)是從給定自由文本或半結構化文本中抽取預先指定的實體、關系和事件等事實信息,形成具有清晰語義信息的結構化文本的技術。
信息抽取起源于文本理解。從自然文本中獲取結構化信息的研究最早開始于20世紀60年代中期,被看作是信息抽取技術的初始研究。信息抽取的目的就是要讓有用的信息以統一的形式集成在一起。Web信息抽取系統對網頁中的各種結構數據進行抽取、篩選,并作語義化的處理,將生成的語義數據存入知識庫。近幾年,信息抽取技術的研究與應用更為活躍。在研究方面,主要側重于以下幾方面:利用機器學習技術增強系統的可移植能力,探索深層理解技術,篇章分析技術,多語言文本處理能力,Web信息抽取以及對時間信息的處理等。
2.信息抽取技術
(1)基于統計的技術
基于統計的方法是通過統計各個標簽所包含的信息量或鏈接文本與普通文本的比值來獲取網頁的主題信息。這種方法克服了數據源的限制,并不只針對某一類網頁,具有一定的普遍性。
(2)基于視覺特征的技術
在視覺上相關的兩個對象在結構上有可能差距很遠。因此,僅僅從代碼的角度去分析其主題信息是不科學的,因而出現了結合頁面的視覺特征來抽取信息的方法。
(3)基于DOM樹結構的技術
在Web信息抽取中可以在網頁默認的樹結構的基礎上通過一些常見的針對樹的操作,從而總結歸納出待抽取部分的特征。基于DOM樹結構的技術克服了對網頁數據源的限制,可以用來處理各種類型的單正文體和多正文體頁面,其操作過程相對于基于視覺的方法更加易于實現。在基于DOM樹結構的抽取技術領域有許多成型的系統和經典算法,如DSE、MDR和Road Runner等算法。
(4)基于模板的技術
互聯網上存在著大量通過讀取數據庫數據然后填充到統一模板的方式自動生成的網頁,針對這類具有模板的網頁產生了一種基于模板的抽取技術。該技術通過對產生于同一模板的網頁的對比分析總結出一個通用的抽取模板,從而免去了對眾多網頁進行重復處理的繁瑣過程。
3.信息抽取技術比較
(1)自動化程度
基于統計的技術和基于視覺特征的技術在多數情況下都涉及對待抽取內容本身進行區域劃分等處理,需要進行人工干預,因此,操作人員的主觀行為可能會造成區域劃分不合理,從而直接影響信息抽取的效果。基于模板的技術需要依賴于表示待抽取位置的節點串,通常需要針對某一類待抽取對象進行分析和標記,總結出一個統一的模板節點串。盡管利用模板來抽取信息較為便捷,但生成模板的過程卻需要大量的人工操作。基于DOM樹結構的技術針對Web網頁本身的結構優勢,通過對網頁樹進行對比操作,就可以確定頁面內主題信息的位置進而實現信息的抽取,極少受到操作者主觀因素的影響。
(2)適用范圍
基于統計的技術適用于以文字為主題并且文字部分相對于其他部分來講具有明顯數量優勢的一類對象,針對不同的對象應用不同的閾值。基于視覺特征的技術過多地依賴對象的組織結構,因此比較適用于結構清晰、符合一般設計規則并且沒有過多標簽錯誤的頁面。基于DOM樹的技術對對象類型沒有限制,對于出自同一個網站并且具有相似結構的頁面都能進行處理。基于模板的技術適用于相似度較大的頁面,如通過動態查詢數據庫生成的頁面,并且只能針對單正文體網頁。
(3)復雜性
基于統計的技術在理論上易于實現,但其難點在于確定一個合理的閾值。閾值的確定方法會對主題對象的確定產生直接的影響,并且對于不同種類的對象必須分別討論閾值。基于視覺特征的技術對對象的分塊更加注重可視化信息的組織形式。基于DOM樹結構的技術不需要再對抽取對象進行分塊處理,可以直接通過對比得出主題信息區域,但卻需要對每個對象都進行同樣的處理,沒有充分利用已有的結果總結出針對同類相似對象進行處理的統一方法。基于模板的技術免去了對同類對象的重復操作,針對相似對象總結出統一的抽取模板,但在模板的生成方法和模板通用性方面還有待于改善。
定制
隨著社會信息化程度的不斷加深,用戶類型的增多和信息服務獲取的便利在很大程度上激發了用戶信息需求的潛力以及對多樣化信息服務的要求。不同用戶雖然對同一事物感興趣,但可能各自感興趣的角度不同,從而造成一定的需求差異。傳統的廣播機制針對的是普遍用戶群體,不同用戶接收到的是供應模式完全相同的信息,很難滿足偏好差異用戶的知識需求。這些需求催生了信息定制服務的出現。信息定制服務不僅包括定制化的信息供給,還在信息參考、信息咨詢和信息顯示上都給以個性化的支持。
隨著計算機及其網絡技術的發展,用戶個性化定制需求將越來越廣泛地得到應用,迫切地需要高效、輕量的個性化信息定制搜索。個性化信息定制搜索研究方向和問題主要集中于以下幾個方面:
1)多搜索源拉取數據。基于模板的定制信息搜索,只能從單搜索源拉取數據。在研究現有的推拉技術方式,并考慮如何結合現有網絡進行多搜索源進行搜索時,主要應考慮線程的異步和同步執行。
2)智能化個性定制。在實現多搜索源搜索的基礎上,將搜索結果進行智能化比較將是用戶個性化定制的迫切需求。越來越多的用戶個性化定制需求中,考慮如何實現智能化個性化定制,是將來要進行考慮的重點問題。
3)數據統計。不同用戶關注的搜索結果顯示形式不一樣,有的比較側重數據的詳細信息,有的側重整體數據的關聯性。增加數據統計功能展示給用戶,也是下一步要進行考慮的問題。
信息定制服務需要占據大量的信息服務資源,包括信息采集、知識組織、需求整合和內容呈現等人力物力。先進的信息技術可以對信息資源的獲取、過濾、存儲、處理和更新等操作方面提供高效服務。另外,信息服務效率的提高往往使得信息用戶對信息的反應速度加大,提升了信息的價值,帶來迅速、準確的決策和知識擴充。
廣播
信息廣播是指通過廣播技術實現對信息的傳播。在信息發布領域,信息廣播是一種基本的,也是最早開始投入使用并延續至今的信息發布方式。從早期的廣播電臺、電視,到現在的互聯網,廣播依然是人們獲取信息的主要來源渠道。
早期的信息廣播業務主要是音頻、視頻廣播業務。隨著社會發展和技術進步,數據廣播成為基于數字電視傳輸標準之上,除MPEG-2視頻和音頻內容之外的另一個重要的業務擴展。數據廣播包括經由衛星、電纜或地面設施下載軟件,通過廣播信道傳輸因特網服務、互動TV等。根據對數據傳輸的不同需求,數據廣播標準確定了5種不同的應用領域。針對每一種應用領域,規范出了一種數據廣播的封裝格式。
數據管道(Data Piping)規范支持數字電視系統中簡單異步端到端的數據廣播業務,數據直接在TS包的載荷中傳輸。數據流(Data Streaming)規范支持數字電視系統中面向流的端到端的數據廣播業務,可以通過異步或同步的方式進行傳輸。異步數據流定義為流中只有數據,沒有任何定時的需要。同步數據流定義為流中有數據和定時需要,并在接收機處可將數據和時鐘重新生成為與發送端同步的數據流。多協議封裝(Multiprotocol Encapsulation)規范支持數字電視系統中需要用通信協議中的數據報來傳輸的數據廣播業務;數據輪播(Data Carousels)規范支持數字電視系統中周期性數據模塊傳輸的數據廣播業務;對象輪播(Object Carousel)規范用來支持數字電視系統中需要對DSM-CCU-U對象進行周期性廣播的數據廣播業務。
參考資料 >