一次微陣列實(shí)驗(yàn)?zāi)塬@得細(xì)胞在某一條件下的全基因組表達(dá)數(shù)據(jù),包含成千上萬(wàn)個(gè)基因在細(xì)胞中的相對(duì)或豐度,不同條件(細(xì)胞周期的不同階段、藥物作用時(shí)間、腫瘤類型、不同病人等)下的全基因組表達(dá)數(shù)據(jù)就構(gòu)成了一個(gè)G×N的數(shù)據(jù)矩陣M,通常情況下G>>N,其中每一個(gè)元素

代表基因 i 在 N 個(gè)條件下的表達(dá)水平,稱為基因 i 的表達(dá)譜,列向量
(8-1)
對(duì)基因表達(dá)數(shù)據(jù)進(jìn)行聚類、分類等數(shù)據(jù)分析之前,往往需要進(jìn)行預(yù)處理,包括對(duì)丟失數(shù)據(jù)進(jìn)行填補(bǔ)、清除不完整的數(shù)據(jù)或合并重復(fù)數(shù)據(jù)等數(shù)據(jù)清洗,根據(jù)分析的目的進(jìn)行數(shù)據(jù)過濾,以及針對(duì)分析方法選擇合適的數(shù)據(jù)轉(zhuǎn)換方法等。
數(shù)據(jù)清洗是數(shù)據(jù)分析前必須進(jìn)行的一項(xiàng)工作,對(duì)于基因表達(dá)數(shù)據(jù),目的是去除表達(dá)水平是負(fù)值或很小的數(shù)據(jù)、或者明顯的噪聲數(shù)據(jù) ( 單個(gè)異常大或小的峰谷信號(hào) ) ,同時(shí)處理缺失數(shù)據(jù)。 DNA 微陣列實(shí)驗(yàn)得到的數(shù)據(jù)一般是經(jīng)過歸一化處理的,每個(gè)點(diǎn)的信號(hào)強(qiáng)度是前景信號(hào)減去背景信號(hào),因此有時(shí)會(huì)出現(xiàn)負(fù)值或很小的值,顯然負(fù)值是沒有生物學(xué)意義的。對(duì)于這些數(shù)據(jù)點(diǎn),通過數(shù)據(jù)清洗過程可以置為缺失或賦予統(tǒng)一的數(shù)值,例如,對(duì)于寡核苷酸芯片數(shù)據(jù),可以將低于 100 的數(shù)據(jù)全部設(shè)置為 100 。 DNA 微陣列表達(dá)數(shù)據(jù)由于實(shí)驗(yàn)條件和芯片的因素,檢測(cè)得到的信號(hào)強(qiáng)度往往與細(xì)胞中實(shí)際的 mRNA 豐度之間沒有對(duì)應(yīng)關(guān)系,因此,通常是采用兩個(gè)條件下的信號(hào)強(qiáng)度的比值,例如,在 cDNA 微陣列雙色實(shí)驗(yàn)中,zui后得到的往往是 Ratio 值。而寡核苷酸單色實(shí)驗(yàn)的結(jié)果是信號(hào)強(qiáng)度,然而在處理一組數(shù)據(jù)時(shí),也往往選擇一個(gè)樣本作為對(duì)照樣本,將實(shí)驗(yàn)數(shù)據(jù)轉(zhuǎn)換成 Ratio 值。在計(jì)算 Ratio 值時(shí),如果參考樣本的信號(hào)強(qiáng)度很小,就可能得到很大的 Ratio 。如果一個(gè)基因譜中僅僅存在單個(gè)特別大的 Ratio 值,稱之為異常數(shù)據(jù)點(diǎn),這往往是由于噪聲造成的。對(duì)于這個(gè)異常數(shù)據(jù)點(diǎn),必須去除。數(shù)據(jù)的缺失對(duì)于某些后續(xù)數(shù)據(jù)分析方法(例如層次式聚類和 PCA )來說有著非常大的影響,甚至是致命性的,這時(shí)必須采取相應(yīng)的方法。一個(gè)簡(jiǎn)單方法是直接過濾掉這些存在缺失數(shù)據(jù)項(xiàng)的行向量或列向量。另一個(gè)方法是設(shè)定閾值,計(jì)算行向量或列向量中的缺失項(xiàng)數(shù)目,如果達(dá)到該閾值,則將該數(shù)據(jù)項(xiàng)所在行或列從數(shù)據(jù)矩陣 M 中刪除;如果沒有達(dá)到閾值但存在缺失項(xiàng),對(duì)這些缺失項(xiàng)可以進(jìn)行插值。以 0 代替缺失項(xiàng),或用基因表達(dá)譜中的平均值或中值進(jìn)行替代,這些方法都比較簡(jiǎn)單,但是否與真實(shí)值接近,很難進(jìn)行評(píng)估。較為復(fù)雜和可靠的方法是,分析基因表達(dá)譜的模式,從中得到相鄰數(shù)據(jù)點(diǎn)之間的關(guān)系,根據(jù)這種關(guān)系,利用相鄰數(shù)據(jù)點(diǎn)估算得到缺失值。這種方法類似于 k 近鄰方法,需要有足夠的完整的模式來發(fā)現(xiàn)有缺失值的相鄰模式,需要有足夠的值來確定它們的鄰居。
在細(xì)胞中,基因表達(dá)有時(shí)空特異性,在某一條件下,能夠表達(dá)的基因占基因總數(shù)的少部分,而大多數(shù)基因僅維持基礎(chǔ)轉(zhuǎn)錄或不轉(zhuǎn)錄,轉(zhuǎn)錄本豐度很小,因此, DNA 微陣列實(shí)驗(yàn)得到的數(shù)據(jù)矩陣中存在大量的基因表達(dá)譜曲線是平坦的,即基因表達(dá)水平變化很小。對(duì)于這些基因,往往不是生物學(xué)家所關(guān)心的,而它們的存在,卻會(huì)大大增加數(shù)據(jù)分析的復(fù)雜性,而且會(huì)對(duì)一些分析方法的結(jié)果有干擾。對(duì)這些數(shù)據(jù)進(jìn)行過濾是非常有必要的。要保留的基因表達(dá)譜究竟占總體數(shù)據(jù)的多少比例?這個(gè)問題是與分析目的密切相關(guān)的,例如對(duì)于分析細(xì)胞周期相關(guān)的基因表達(dá),保留的基因可能較多;而對(duì)于腫瘤特異基因表達(dá)譜分析,保留的基因往往較少。過濾基因所采用的標(biāo)準(zhǔn)有:①基因表達(dá)譜中zui大值與zui小值的差;②標(biāo)準(zhǔn)差;③均方根;④值大于閾值的數(shù)據(jù)個(gè)數(shù)等。根據(jù)分析的對(duì)象和目的,可以選擇以上一個(gè)或多個(gè)標(biāo)準(zhǔn),確定閾值,從而選擇基因表達(dá)譜。
基因表達(dá)譜數(shù)據(jù)經(jīng)過過濾,在進(jìn)行聚類分析等操作前,往往還需要進(jìn)行數(shù)據(jù)轉(zhuǎn)換。數(shù)據(jù)轉(zhuǎn)換是將數(shù)據(jù)變換為適合數(shù)據(jù)挖掘的形式,可以根據(jù)需要構(gòu)造出新的數(shù)據(jù)屬性以幫助理解分析數(shù)據(jù)的特點(diǎn),或者將數(shù)據(jù)規(guī)范化,使之落在一個(gè)特定的數(shù)據(jù)區(qū)間中。因此,數(shù)據(jù)轉(zhuǎn)換包括對(duì)數(shù)轉(zhuǎn)換和標(biāo)準(zhǔn)化兩個(gè)過程。
許多 DNA 微陣列實(shí)驗(yàn)的結(jié)果是測(cè)量樣本與對(duì)照樣本間信號(hào)強(qiáng)度的 Ratio 值,對(duì)于 Ratio 值,在大多數(shù)情況下是轉(zhuǎn)換到對(duì)數(shù) (log) 空間中進(jìn)行處理,常用的對(duì)數(shù)底為 2, e, 10 ??紤]時(shí)間序列上的基因表達(dá)數(shù)據(jù),實(shí)驗(yàn)結(jié)果是相對(duì)于 0 時(shí)刻的表達(dá)水平。如 圖 8.1 所示,假設(shè)在時(shí)間點(diǎn) 1 ,基因的表達(dá)水平?jīng)]有改變,在時(shí)間點(diǎn) 2 ,上調(diào) 2 倍,而時(shí)間點(diǎn) 3 ,下調(diào) 2 倍,原始的比率值分別為 1.0 、 2.0 、 0.5 。在大多數(shù)應(yīng)用中,需要把上調(diào) 2 倍和下調(diào) 2 倍看作是變化的相同幅度,只是方向不同。在 Ratio 空間中,時(shí)間點(diǎn) 1 和 2 之間的差異是 +1.0 ,而時(shí)間點(diǎn) 1 和 3 之間是 -0.5 ,從數(shù)學(xué)角度看,上調(diào) 2 倍的數(shù)值是下調(diào) 2 倍的 2 倍。而在 log 空間中,(為了簡(jiǎn)化,用 2 為底),這三個(gè)數(shù)據(jù)點(diǎn)分別為 0 、 1.0 、 -1.0 ,上調(diào) 2 倍與下調(diào) 2 倍是關(guān)于 0 對(duì)稱的。因此,對(duì)數(shù)轉(zhuǎn)換可以使小于 1 的值變大,大于 1 的值變小,從而使它們關(guān)于 0 對(duì)稱化,這種變換是否反映了一定的生物學(xué)意義,能更直觀的了解基因的上調(diào)或下調(diào)的幅度?尚沒有定論,但是對(duì)于大多數(shù)基因表達(dá)數(shù)據(jù)分析過程,都是在 log 空間中進(jìn)行的。
(8-2)
(8-4)
其中,
,而要求數(shù)據(jù)滿足分布在 [a,b] 區(qū)間,則變換如下:
<img alt="基因表達(dá)數(shù)據(jù)的預(yù)處理策略" 基因表達(dá)數(shù)據(jù)的預(yù)處理策略"="" border="1" height="48" data-cke-saved-src="http://www.bio1000.com/uploads/allimg/120625/144223N48-10.png" src="http://www.bio1000.com/uploads/allimg/120625/144223N48-10.png" width="160" style="vertical-align: middle; border: 0px;"> (8-5)
還有一種數(shù)據(jù)標(biāo)準(zhǔn)化方法是數(shù)據(jù)的中心化。對(duì)于來自細(xì)胞系的大量腫瘤樣本與一個(gè)共同的對(duì)照樣本比較,每一個(gè)基因,相對(duì)于對(duì)照樣本中那個(gè)基因的表達(dá)水平,都有一系列的 Ratio 值。因?yàn)閷?duì)照樣本通常對(duì)實(shí)驗(yàn)沒有什么幫助,對(duì)照樣本中的基因表達(dá)量是獨(dú)立于分析的。這樣,可以通過調(diào)整每一個(gè)基因的數(shù)值來反映系列觀察值的變化,例如平均值或者中值。這就是平均值 / 中值中心化,中心化可以減少對(duì)照樣本的影響。中心化數(shù)據(jù)同樣可以用于去除某些類型的偏差。例如,許多雙色熒光雜交實(shí)驗(yàn)的結(jié)果沒有校正 Ratio 值的系統(tǒng)偏差,它們是由于 RNA 數(shù)量差異、標(biāo)記效率和圖像獲取參數(shù)偏差所造成的。這樣的偏差對(duì)于所有的基因與一個(gè)固定數(shù)值的 Ratio 有放大的效應(yīng)。在 log 空間的平均值和中值中心化有校正這種偏差的效果。數(shù)據(jù)中心化是基于這樣的一種假設(shè),在特定的實(shí)驗(yàn)中,基因的平均值期望比率是 1.0( 在 log 空間中為 0) 。通常,更多的是使用中值中心化。
目前對(duì)數(shù)據(jù)預(yù)處理這種策略的作用還不是很清楚,還沒有人進(jìn)行系統(tǒng)的研究,提供有說服力的證據(jù)來幫助研究人員針對(duì)特定的任務(wù)選擇特定的數(shù)據(jù)預(yù)處理的策略和方法。在具體應(yīng)用時(shí),往往是根據(jù)分析目的和個(gè)人經(jīng)驗(yàn)選擇不同的方法。