發布日期:2022-05-20 點擊率:28
1 無線射頻識別RFID
RFID是Radio Frequency Identification的縮寫,中文翻譯為無線射頻識別。RFID作為一種自動識別標簽,是通過射頻信號來自動識別目標對象從而獲取相應的數據。RFID標簽有很多種的識別方式,但最為常見的是存儲一個唯一的序列號來標識一個人或者物品的信息。它是通過一個帶有天線的微芯片來傳輸信息,芯片借助天線將識別信息傳輸給一個RFID閱讀器。這種技術讓用戶能通過一個RFID閱讀器遠距離、非接觸地讀取數據,在這個過程中閱讀器和芯片之間不需要有機械或光學的接觸,并且這個過程不需要人工干預,在任何環境當中均可自發完成。
RFID會使得原來的供應鏈管理系統變得更為智能,它改進了原始的二維條形碼,使得相應的貨物跟蹤和訂單管理的過程變得簡易。近幾年沃爾瑪開始在它們的供應鏈系統中使用這種技術,RFID還被廣泛應用于軍事、郵政、航空、醫療等領域。由RFID的廣泛應用而帶來的新事物就是“物聯網”,它意味著人們能通過無線網絡隨時獲取數以億計物品的位置及相關信息。
Jiawei Han(2006)認為在數據倉庫領域對RFID數據的研究主要分為三個方向:第一個方向在于安全地收集和管理RFID標簽攜帶的信息;第二個方向是清理RFID數據中的誤差數據;第三個方向是創建一個多維度的數據倉庫,以提供對大量RFID數據集的OLAP操作。這也是本文的討論內容。
2 RFID數據特性
RFID數據完全不同于傳統的關聯技術或者數據倉庫技術中的數據,對這些不同之處的研究正是對RFID數據進行數據建倉工作的起點,RFID數據主要有如下一些特性:
數據簡單:RFID所產生的數據可視為一個RFID元數據的流,元數據的結構主要是EPC、Location、Time,EPC是Electronic Product Code的縮寫,即電子產品代碼,它用來唯一識別一個物品。Location是RFID閱讀器讀取該物品時的所在位置,time就是讀取時的時間。這種數據格式并沒有攜帶太復雜的信息,簡單易讀。
數據海量:RFID應用的重要挑戰就是由此產生的海量數據。
數據誤差:RFID數據的另一個重要問題是RFID閱讀器在產生數據流時會有誤差。在實際應用當中RFID閱讀率大概在60%~70%之間。
允許冗余:RFID閱讀器每隔固定一段時間就會產生一個(EPC,location,time)格式的元數據,當一個物體停留在相同的地點一段時間就會有很多元數據產生,這就形成的數據的冗余,我們同樣需要對這些冗余進行處理。
3 RFID數據清理
數據清洗是在數據處理過程中最常見的問題之一,比如在數據倉庫當中進行各種預定義的成熟操作當中都涉及到這一過程。在RFID當中的數據主要存在以下三種問題:缺失值,數據錯誤,數據冗余。
3.1 缺失值和數據錯誤的處理
缺失值和數據錯誤這類問題在RFID應用當中非常常見,因為一些簡陋的無線閱讀器在無線通信過程中會出錯。很多學者針對這類問題提出了若干解決方案,Yijian Bai(2007)提出的有效的RFID數據流過濾技術、Shawn(2007)提出的ESP(Extensible Sensor Stream Processing,在線清洗多層框架系統),付菡提出的基于定長滑動窗口的清洗技術等等。其中ESP作為主要的數據流清洗方法分為五個階段,每個階段都對應一個不同數據處理的邏輯過程。ESP系統針對數據的時間粒度和空間粒度,通過說明性的查詢語言來解決用戶定義的功能,并通過實驗證明ESP也適合于RFID數據流。
針對RFID數據流固有的不可靠性,以及定長滑動窗口的窗口大小不容易確定,Shawn還提出了一種自適應的改變滑動窗口大小的RFID數據清洗方法——SMURF。
3.2 數據冗余
數據冗余的問題在RFID應用當中也非常嚴重。數據的冗余主要有兩個層面:在閱讀層面的冗余以及數據層面的冗余。
?、匍喿x層面的冗余:這種冗余是指一個RFID標簽在同一個地點被不同的RFID閱讀器重復讀取。解決這種問題的一個辦法是,當一個RFID閱讀器打開時其它有交叉部分的閱讀器暫時關閉;其次,每個RFID閱讀器計算出它所覆蓋的RFID標簽的數目,然后將這個數據向它所覆蓋的每個RFID標簽中書寫。如果一個閱讀器一個標簽都沒有鎖定,則這個閱讀器為多余的。
但是這個算法當中有一個假定,就是每個閱讀器會在同一位置持續很長時間,然而在實際中很多閱讀器是隨時移動的。
?、跀祿用娴娜哂啵篐an JW提出了一種簡化RFID數據源的方式。每一個閱讀器產生RFID元數據(EPC,location,time),當一個物品停留在一個地方一段時間后會持續產生這樣的元數據,解決方法將元數據處理成(EPC,location,time_in,time_out)這樣的數據格式。在多數時候許多物品都是一起移動的,比如一整集裝箱的洗發水從工廠出來后,在各物流中心中轉,直至被擺放到貨架上。因此,我們用(EPC list,location,time_in,time_out)格式來進行儲存有助于減少冗余。
4 RFID數據倉庫的構建
因為RFID數據的諸多特性,RFID數據倉庫的建立也不同于傳統的數據倉庫。假設我們已經將數據進行了清洗,得到了以(EPC,location,time_in,time_out)格式的數據。傳統的數據處理技術也許能夠找出在指定地點,指定時間的相應信息,但是對這些數據之間的聯系則缺少相應的研究方法,比如如何尋找某些類別的商品從A地到B地的相關信息方面,并沒有很好的處理技術。為了滿足用戶對信息的需求,并結合RFID數據本身的特點,Hector Gonzalez,Xiaolei Li(2006)提出了構建RFID數據倉庫并進行數據處理的一些相關技術。建立RFID數據倉庫,Han等提出了兩類模型:一類是Path Cube,另外一類是Workflow Cube。
4.1 Path Cube模型
Path cube 壓縮并整合了一些物體移動的過程中的地點時間等信息,它是在物體的維度上建立起來的。這種cube能夠有效率的處理一些OLAP的請求。在建立這種RFID的數據倉庫時使用清洗過的數據按照RFID-Cuboid的形式組合數據。RFID-Cuboid包含三種類型的表:信息表(Information Table),保存每個RFID標簽的物體信息;停留表(Stay Table),存儲在同一個地點停留的物體信息;地圖表(Map Table),存儲多個相互關聯的停留記錄的路徑信息。
信息表(Information Table):該表存儲的是例如物品名稱,制造商,物品價格,物品類別等和物品所經過路徑無關的信息。這類信息的每個維度有一個相互關聯的概念層次。在這張表里,所有傳統的OLAP操作都可以進行使用,和一般常見的數據倉庫類似。
停留表(Stay Table):在RFID數據處理時有一個常見場景就是大批量物品一起移動的。根據上文數據清理部分所述,每個記錄可以調整為這樣的形式
地圖表(Map Table):該表是RFID數據當中特有的一張表,它不同于傳統意義上數據倉庫中的表。這張表中的數據使得處理有聯系的、同一條路徑上的信息變得容易。在每個階段使用這張表可以壓縮數據、減少數據量,同時讓信息的查詢過程變得更有效。
Hector指出通過使用Path cube形式的表之后,數據倉庫所占空間大大降低,同時I/O處理的速度有效降低,這使得處理RFID數據變得更為容易。
4.2 Workflow Cube模型
Workflow cube是一個data cube的模型,在這個模型在多維的抽象層次上涵蓋了物體的移動流中的信息。它主要從兩個角度來觀察這些數據,一個是從物品的角度,另一個是從路徑的角度。
所謂物品的角度就是物品可以有多個抽象層次,物品可以是單個物品層次,也可以是一個小類或者一個大類。如鞋類包括運動鞋、皮鞋等,運動鞋下面又有品牌分類。所謂路徑的角度就是物品存儲可以有多個抽象層次,作為一個賣場不需要關心運來的貨物經過了哪些中轉站,而作為中轉站也不需要關心貨物進入賣場后會放在哪個貨架上。
Workflow cube使用流向圖計算每個工作流的概率,流向圖就是一個樹形結構圖,樹的每個節點是一個地點,樹的連線表示物品在兩個地點間的移動。
Path Cube和Workflow Cube與傳統的data cube有很多共同之處,如每個維度都有一個概念層次,因此它們都可以用星形模式來模擬。Path Cube的不同之處就在于它在多維空間內對物體的移動進行了建模。Workflow Cube則是使用了復雜的概率模型,同時它還從物品和路徑兩個角度來建模。
5 討論與展望
RFID數據有很多自己的特性,需要進行復雜的數據清洗工作,這就需要在處理過程中對數據進行壓縮,并創建有效的數據倉庫結構來存儲這些數據,在減少RFID數據量的同時保留數據本身攜帶的相關信息。這在數據壓縮算法、數據倉庫模型等方面都提供了可供繼續研究的內容。
參考文獻:
[1] 付菡,秦鵬飛,孫宇,等.一種基于滑動窗口的RFID 數據流清洗方法.小型微型計算機系統,2008,(z1).
[2] 孔曉波.物聯網概念和演進路徑.電信工程技術與標準化,2009,(12).
下一篇: PLC、DCS、FCS三大控
上一篇: 供應鏈環境中RFID語義