用于檢測(cè)基因表達(dá)水平的 DNA 微陣列實(shí)驗(yàn),應(yīng)用之一是比較實(shí)驗(yàn),目的是比較兩個(gè)條件下的基因表達(dá)差異,從中識(shí)別出與條件相關(guān)的特異性基因,例如,識(shí)別可用于腫瘤分型的特異基因等。為了提高實(shí)驗(yàn)的可靠性,對(duì)于同一樣本,往往有兩次或更多次的重復(fù)實(shí)驗(yàn),但是,由于 DNA 微陣列的費(fèi)用仍然很昂貴,不可能重復(fù)足夠多的次數(shù)來(lái)滿(mǎn)足實(shí)驗(yàn)數(shù)據(jù)分析的要求,因此需要采用統(tǒng)計(jì)方法來(lái)分析這些數(shù)據(jù)。對(duì)于這些表達(dá)數(shù)據(jù)的分析,目的就是要識(shí)別在兩個(gè)條件下有顯著表達(dá)差異的基因。何謂顯著表達(dá)差異?通常是指一個(gè)基因在兩個(gè)條件中表達(dá)水平的檢測(cè)值在排除實(shí)驗(yàn)、檢測(cè)等因素外,達(dá)到一定的差異,具有統(tǒng)計(jì)學(xué)意義,同時(shí)也具有生物學(xué)意義。常用的分析方法有三類(lèi),*類(lèi)稱(chēng)之為倍數(shù)分析,計(jì)算每一個(gè)基因在兩個(gè)條件下的 Ratio 值,若大于給定閾值,則為表達(dá)差異顯著的基因;第二類(lèi)方法采用統(tǒng)計(jì)分析中的 t 檢驗(yàn)和方差分析,計(jì)算表達(dá)差異的置信度,來(lái)分析差異是否具有統(tǒng)計(jì)顯著性;第三類(lèi)是建模的方法,通過(guò)確定兩個(gè)條件下的模型參數(shù)是否相同來(lái)判斷表達(dá)差異的顯著性,例如貝葉斯方法。
倍數(shù)分析
早期基于 cDNA 微陣列技術(shù)的比較實(shí)驗(yàn),用倍數(shù)來(lái)分析基因表達(dá)水平差異,即計(jì)算基因在兩個(gè)條件下表達(dá)水平的 Ratio 值。用
,可表示基因 g 在條件 1 和 2 下的表達(dá)水平差異。對(duì)于 cDNA 微陣列實(shí)驗(yàn),是將兩個(gè)條件下的樣本混合后與 cDNA 微陣列進(jìn)行雜交實(shí)驗(yàn),得到的是成對(duì)數(shù)據(jù),對(duì)每次實(shí)驗(yàn)得到的數(shù)據(jù)計(jì)算
。而對(duì)于寡核苷酸芯片,首先分別計(jì)算兩個(gè)樣本的重復(fù)實(shí)驗(yàn)的歸一化表達(dá)水平的平均值,然后計(jì)算其 Ratio 值。當(dāng)
<1 或
<1 表示基因在條件 1 是下調(diào)的,而
>2 或 <1/2 ,則認(rèn)為該基因的表達(dá)差異是顯著的。然而,對(duì)表達(dá)數(shù)據(jù)仔細(xì)考察后可以發(fā)現(xiàn),這樣簡(jiǎn)單的 2 倍法并不能產(chǎn)生*的結(jié)果,因?yàn)橐蜃?2 在不同的表達(dá)水平上有相當(dāng)不同的顯著性。對(duì)于低表達(dá)水平的基因,其信噪比太低,用 2 倍法作為判斷條件太寬松,而對(duì)于高表達(dá)基因,條件又太苛刻,往往小于 2 就具有生物學(xué)意義。在具體應(yīng)用中,并沒(méi)有明確的閾值,往往根據(jù)分析的具體要求由數(shù)據(jù)分析者自行確定。
t 檢驗(yàn)
于兩個(gè)條件下的多次重復(fù)實(shí)驗(yàn),為了判斷基因的表達(dá)差異是否具有顯著性,在應(yīng)用中較多的是采用假設(shè)檢驗(yàn),包括兩個(gè)條件下的 t 檢驗(yàn)和多個(gè)條件下的方差分析( ANOVA ),這里僅僅介紹 t 檢驗(yàn),關(guān)于 ANOVA 請(qǐng)參考相應(yīng)的統(tǒng)計(jì)分析書(shū)籍。
零假設(shè)為
。 t 統(tǒng)計(jì)量的計(jì)算公式如下:
,
為某一條件下的重復(fù)實(shí)驗(yàn)次數(shù),Xgij是基因g在第i個(gè)條件下第j次重復(fù)實(shí)驗(yàn)的表達(dá)水平測(cè)量值。根據(jù)統(tǒng)計(jì)量
經(jīng)常較小,
(8-7)
(8-9)
假設(shè)
的值較小,導(dǎo)致
獨(dú)立于基因表達(dá)水平,在分母上增加 S0 , 增加 S0 后可以降低
大于閾值的基因被認(rèn)為是表達(dá)差異顯著的。
8.3.3 貝葉斯分析
由于 DNA 微陣列數(shù)據(jù)噪聲大、波動(dòng)大,而且在大量數(shù)據(jù)的背后還有很多相關(guān)變量不能被觀(guān)察到,因此,貝葉斯方法可以用來(lái)分析微陣列表達(dá)數(shù)據(jù)。貝葉斯分析可以簡(jiǎn)單描述如下:

為真的概率,稱(chēng)為后驗(yàn)概率; P(M) 稱(chēng)為先驗(yàn)概率,表示在沒(méi)有得到任何數(shù)據(jù)之前所估計(jì)的模型 M 為真的概率; P(D|M) 是指似然度,表示從模型 M 得到一個(gè)觀(guān)測(cè)數(shù)據(jù)集 D 的概率。貝葉斯推斷是通過(guò)參數(shù)估計(jì)和模型選擇來(lái)實(shí)現(xiàn)任務(wù)的,zui常用的方法是zui大后驗(yàn)概率 (MAP) 估計(jì)和zui大似然 (ML) 估計(jì)。在用貝葉斯方法分析表達(dá)數(shù)據(jù)時(shí),首先假設(shè)在給定條件下,一個(gè)基因的表達(dá)水平測(cè)量值是獨(dú)立的,并滿(mǎn)足正態(tài)分布。根據(jù)經(jīng)驗(yàn),這一假設(shè)是合理的,特別是表達(dá)水平的對(duì)數(shù)大致服從對(duì)數(shù)正態(tài)分布。對(duì)于重復(fù)實(shí)驗(yàn),也可以引入伽瑪分布、高斯 / 伽瑪混合分布等。一個(gè)基因在一種條件下的表達(dá)測(cè)量值可以用一個(gè)正態(tài)分布
,似然函數(shù)可以由下式給出:
和
的選擇有幾種,一般采用共扼先驗(yàn)分布。先驗(yàn)分布的四個(gè)超參數(shù)構(gòu)成向量
(8-12)
超參數(shù)
可以分別解釋為
分別解釋為
和
(8-13)
其中
和
和<img alt="" "="" align="middle" border="1" height="22" data-cke-saved-src="http://www.bio1000.com/uploads/allimg/120625/145912L15-42.png" src="http://www.bio1000.com/uploads/allimg/120625/145912L15-42.png" width="24" style="vertical-align: middle; border: 0px;"> 。