好看日韩在线视频免费,日本不卡一区二区三区,三级a全过程在线观看,亚洲精品国产9999久久久久

上海士鋒生物科技有限公司
中級(jí)會(huì)員 | 第14年

13127537090

標(biāo)準(zhǔn)品
培養(yǎng)基
培養(yǎng)基原料 霍亂弧菌診斷血清 大腸艾希氏菌診斷血清 志賀氏菌屬診斷血清 沙門氏菌屬診斷血清 標(biāo)準(zhǔn)血清,診斷血清 抗生素藥敏紙片 微生物配套試劑 微生物生化管 管裝培養(yǎng)基 即用型液體培養(yǎng)基 一次性培養(yǎng)基平板 顯色培養(yǎng)基 臨床培養(yǎng)基 菌種保存培養(yǎng)基 四環(huán)素檢定、厭氧亞硫酸鹽還原桿菌檢測(cè)培養(yǎng)基 維生素檢測(cè)培養(yǎng)基 一次性衛(wèi)生用品衛(wèi)生檢測(cè)培養(yǎng)基 罐頭食品商業(yè)無菌檢測(cè)培養(yǎng)基 飲用水及水源檢測(cè)培養(yǎng)基 藥品、生物制品檢測(cè)培養(yǎng)基 化妝品檢測(cè)培養(yǎng)基 動(dòng)物細(xì)胞培養(yǎng)基 啤酒檢驗(yàn)培養(yǎng)基 軍團(tuán)菌檢測(cè)培養(yǎng)基 支原體檢測(cè)培養(yǎng)基 小腸結(jié)腸炎耶爾森氏菌檢驗(yàn)培養(yǎng)基 彎曲桿菌檢驗(yàn)培養(yǎng)基 產(chǎn)氣莢膜梭菌、肉毒梭菌、厭氧菌檢驗(yàn)培養(yǎng)基 阪崎腸桿菌檢驗(yàn)培養(yǎng)基 溶血性鏈球菌檢測(cè)培養(yǎng)基 李斯特氏菌檢測(cè)培養(yǎng)基 弧菌檢測(cè)培養(yǎng)基 乳酸菌、雙歧桿菌檢測(cè)培養(yǎng)基 酵母、霉菌檢測(cè)培養(yǎng)基 檢測(cè)培養(yǎng)基 沙門氏菌、志賀氏菌檢驗(yàn)培養(yǎng)基 大腸菌群、糞大腸菌群、大腸桿菌及腸桿菌科檢測(cè)培養(yǎng)基 細(xì)菌總數(shù)檢測(cè),增菌培養(yǎng)基
抗體
生物試劑
細(xì)胞
菌株
血清
細(xì)胞分離試劑
試劑盒

士鋒生物基因表達(dá)數(shù)據(jù)的預(yù)處理策略

時(shí)間:2014/2/19閱讀:1147
分享:

一次微陣列實(shí)驗(yàn)?zāi)塬@得細(xì)胞在某一條件下的全基因組表達(dá)數(shù)據(jù),包含成千上萬(wàn)個(gè)基因在細(xì)胞中的相對(duì)或豐度,不同條件(細(xì)胞周期的不同階段、藥物作用時(shí)間、腫瘤類型、不同病人等)下的全基因組表達(dá)數(shù)據(jù)就構(gòu)成了一個(gè)G×N的數(shù)據(jù)矩陣M,通常情況下G>>N,其中每一個(gè)元素

基因表達(dá)數(shù)據(jù)的預(yù)處理策略

代表基因 i 在 N 個(gè)條件下的表達(dá)水平,稱為基因 i 的表達(dá)譜,列向量

基因表達(dá)數(shù)據(jù)的預(yù)處理策略 (8-1)

對(duì)基因表達(dá)數(shù)據(jù)進(jìn)行聚類、分類等數(shù)據(jù)分析之前,往往需要進(jìn)行預(yù)處理,包括對(duì)丟失數(shù)據(jù)進(jìn)行填補(bǔ)、清除不完整的數(shù)據(jù)或合并重復(fù)數(shù)據(jù)等數(shù)據(jù)清洗,根據(jù)分析的目的進(jìn)行數(shù)據(jù)過濾,以及針對(duì)分析方法選擇合適的數(shù)據(jù)轉(zhuǎn)換方法等。

數(shù)據(jù)清洗是數(shù)據(jù)分析前必須進(jìn)行的一項(xiàng)工作,對(duì)于基因表達(dá)數(shù)據(jù),目的是去除表達(dá)水平是負(fù)值或很小的數(shù)據(jù)、或者明顯的噪聲數(shù)據(jù) ( 單個(gè)異常大或小的峰谷信號(hào) ) ,同時(shí)處理缺失數(shù)據(jù)。 DNA 微陣列實(shí)驗(yàn)得到的數(shù)據(jù)一般是經(jīng)過歸一化處理的,每個(gè)點(diǎn)的信號(hào)強(qiáng)度是前景信號(hào)減去背景信號(hào),因此有時(shí)會(huì)出現(xiàn)負(fù)值或很小的值,顯然負(fù)值是沒有生物學(xué)意義的。對(duì)于這些數(shù)據(jù)點(diǎn),通過數(shù)據(jù)清洗過程可以置為缺失或賦予統(tǒng)一的數(shù)值,例如,對(duì)于寡核苷酸芯片數(shù)據(jù),可以將低于 100 的數(shù)據(jù)全部設(shè)置為 100 。 DNA 微陣列表達(dá)數(shù)據(jù)由于實(shí)驗(yàn)條件和芯片的因素,檢測(cè)得到的信號(hào)強(qiáng)度往往與細(xì)胞中實(shí)際的 mRNA 豐度之間沒有對(duì)應(yīng)關(guān)系,因此,通常是采用兩個(gè)條件下的信號(hào)強(qiáng)度的比值,例如,在 cDNA 微陣列雙色實(shí)驗(yàn)中,zui后得到的往往是 Ratio 值。而寡核苷酸單色實(shí)驗(yàn)的結(jié)果是信號(hào)強(qiáng)度,然而在處理一組數(shù)據(jù)時(shí),也往往選擇一個(gè)樣本作為對(duì)照樣本,將實(shí)驗(yàn)數(shù)據(jù)轉(zhuǎn)換成 Ratio 值。在計(jì)算 Ratio 值時(shí),如果參考樣本的信號(hào)強(qiáng)度很小,就可能得到很大的 Ratio 。如果一個(gè)基因譜中僅僅存在單個(gè)特別大的 Ratio 值,稱之為異常數(shù)據(jù)點(diǎn),這往往是由于噪聲造成的。對(duì)于這個(gè)異常數(shù)據(jù)點(diǎn),必須去除。數(shù)據(jù)的缺失對(duì)于某些后續(xù)數(shù)據(jù)分析方法(例如層次式聚類和 PCA )來說有著非常大的影響,甚至是致命性的,這時(shí)必須采取相應(yīng)的方法。一個(gè)簡(jiǎn)單方法是直接過濾掉這些存在缺失數(shù)據(jù)項(xiàng)的行向量或列向量。另一個(gè)方法是設(shè)定閾值,計(jì)算行向量或列向量中的缺失項(xiàng)數(shù)目,如果達(dá)到該閾值,則將該數(shù)據(jù)項(xiàng)所在行或列從數(shù)據(jù)矩陣 M 中刪除;如果沒有達(dá)到閾值但存在缺失項(xiàng),對(duì)這些缺失項(xiàng)可以進(jìn)行插值。以 0 代替缺失項(xiàng),或用基因表達(dá)譜中的平均值或中值進(jìn)行替代,這些方法都比較簡(jiǎn)單,但是否與真實(shí)值接近,很難進(jìn)行評(píng)估。較為復(fù)雜和可靠的方法是,分析基因表達(dá)譜的模式,從中得到相鄰數(shù)據(jù)點(diǎn)之間的關(guān)系,根據(jù)這種關(guān)系,利用相鄰數(shù)據(jù)點(diǎn)估算得到缺失值。這種方法類似于 k 近鄰方法,需要有足夠的完整的模式來發(fā)現(xiàn)有缺失值的相鄰模式,需要有足夠的值來確定它們的鄰居。

在細(xì)胞中,基因表達(dá)有時(shí)空特異性,在某一條件下,能夠表達(dá)的基因占基因總數(shù)的少部分,而大多數(shù)基因僅維持基礎(chǔ)轉(zhuǎn)錄或不轉(zhuǎn)錄,轉(zhuǎn)錄本豐度很小,因此, DNA 微陣列實(shí)驗(yàn)得到的數(shù)據(jù)矩陣中存在大量的基因表達(dá)譜曲線是平坦的,即基因表達(dá)水平變化很小。對(duì)于這些基因,往往不是生物學(xué)家所關(guān)心的,而它們的存在,卻會(huì)大大增加數(shù)據(jù)分析的復(fù)雜性,而且會(huì)對(duì)一些分析方法的結(jié)果有干擾。對(duì)這些數(shù)據(jù)進(jìn)行過濾是非常有必要的。要保留的基因表達(dá)譜究竟占總體數(shù)據(jù)的多少比例?這個(gè)問題是與分析目的密切相關(guān)的,例如對(duì)于分析細(xì)胞周期相關(guān)的基因表達(dá),保留的基因可能較多;而對(duì)于腫瘤特異基因表達(dá)譜分析,保留的基因往往較少。過濾基因所采用的標(biāo)準(zhǔn)有:①基因表達(dá)譜中zui大值與zui小值的差;②標(biāo)準(zhǔn)差;③均方根;④值大于閾值的數(shù)據(jù)個(gè)數(shù)等。根據(jù)分析的對(duì)象和目的,可以選擇以上一個(gè)或多個(gè)標(biāo)準(zhǔn),確定閾值,從而選擇基因表達(dá)譜。

基因表達(dá)譜數(shù)據(jù)經(jīng)過過濾,在進(jìn)行聚類分析等操作前,往往還需要進(jìn)行數(shù)據(jù)轉(zhuǎn)換。數(shù)據(jù)轉(zhuǎn)換是將數(shù)據(jù)變換為適合數(shù)據(jù)挖掘的形式,可以根據(jù)需要構(gòu)造出新的數(shù)據(jù)屬性以幫助理解分析數(shù)據(jù)的特點(diǎn),或者將數(shù)據(jù)規(guī)范化,使之落在一個(gè)特定的數(shù)據(jù)區(qū)間中。因此,數(shù)據(jù)轉(zhuǎn)換包括對(duì)數(shù)轉(zhuǎn)換和標(biāo)準(zhǔn)化兩個(gè)過程。

許多 DNA 微陣列實(shí)驗(yàn)的結(jié)果是測(cè)量樣本與對(duì)照樣本間信號(hào)強(qiáng)度的 Ratio 值,對(duì)于 Ratio 值,在大多數(shù)情況下是轉(zhuǎn)換到對(duì)數(shù) (log) 空間中進(jìn)行處理,常用的對(duì)數(shù)底為 2, e, 10 ??紤]時(shí)間序列上的基因表達(dá)數(shù)據(jù),實(shí)驗(yàn)結(jié)果是相對(duì)于 0 時(shí)刻的表達(dá)水平。如 圖 8.1 所示,假設(shè)在時(shí)間點(diǎn) 1 ,基因的表達(dá)水平?jīng)]有改變,在時(shí)間點(diǎn) 2 ,上調(diào) 2 倍,而時(shí)間點(diǎn) 3 ,下調(diào) 2 倍,原始的比率值分別為 1.0 、 2.0 、 0.5 。在大多數(shù)應(yīng)用中,需要把上調(diào) 2 倍和下調(diào) 2 倍看作是變化的相同幅度,只是方向不同。在 Ratio 空間中,時(shí)間點(diǎn) 1 和 2 之間的差異是 +1.0 ,而時(shí)間點(diǎn) 1 和 3 之間是 -0.5 ,從數(shù)學(xué)角度看,上調(diào) 2 倍的數(shù)值是下調(diào) 2 倍的 2 倍。而在 log 空間中,(為了簡(jiǎn)化,用 2 為底),這三個(gè)數(shù)據(jù)點(diǎn)分別為 0 、 1.0 、 -1.0 ,上調(diào) 2 倍與下調(diào) 2 倍是關(guān)于 0 對(duì)稱的。因此,對(duì)數(shù)轉(zhuǎn)換可以使小于 1 的值變大,大于 1 的值變小,從而使它們關(guān)于 0 對(duì)稱化,這種變換是否反映了一定的生物學(xué)意義,能更直觀的了解基因的上調(diào)或下調(diào)的幅度?尚沒有定論,但是對(duì)于大多數(shù)基因表達(dá)數(shù)據(jù)分析過程,都是在 log 空間中進(jìn)行的。

基因表達(dá)數(shù)據(jù)的預(yù)處理策略 (8-2)

 

基因表達(dá)數(shù)據(jù)的預(yù)處理策略 (8-4)

 

其中,基因表達(dá)數(shù)據(jù)的預(yù)處理策略,而要求數(shù)據(jù)滿足分布在 [a,b] 區(qū)間,則變換如下:

 

<img alt="基因表達(dá)數(shù)據(jù)的預(yù)處理策略" 基因表達(dá)數(shù)據(jù)的預(yù)處理策略"="" border="1" height="48" data-cke-saved-src="http://www.bio1000.com/uploads/allimg/120625/144223N48-10.png" src="http://www.bio1000.com/uploads/allimg/120625/144223N48-10.png" width="160" style="vertical-align: middle; border: 0px;"> (8-5)

還有一種數(shù)據(jù)標(biāo)準(zhǔn)化方法是數(shù)據(jù)的中心化。對(duì)于來自細(xì)胞系的大量腫瘤樣本與一個(gè)共同的對(duì)照樣本比較,每一個(gè)基因,相對(duì)于對(duì)照樣本中那個(gè)基因的表達(dá)水平,都有一系列的 Ratio 值。因?yàn)閷?duì)照樣本通常對(duì)實(shí)驗(yàn)沒有什么幫助,對(duì)照樣本中的基因表達(dá)量是獨(dú)立于分析的。這樣,可以通過調(diào)整每一個(gè)基因的數(shù)值來反映系列觀察值的變化,例如平均值或者中值。這就是平均值 / 中值中心化,中心化可以減少對(duì)照樣本的影響。中心化數(shù)據(jù)同樣可以用于去除某些類型的偏差。例如,許多雙色熒光雜交實(shí)驗(yàn)的結(jié)果沒有校正 Ratio 值的系統(tǒng)偏差,它們是由于 RNA 數(shù)量差異、標(biāo)記效率和圖像獲取參數(shù)偏差所造成的。這樣的偏差對(duì)于所有的基因與一個(gè)固定數(shù)值的 Ratio 有放大的效應(yīng)。在 log 空間的平均值和中值中心化有校正這種偏差的效果。數(shù)據(jù)中心化是基于這樣的一種假設(shè),在特定的實(shí)驗(yàn)中,基因的平均值期望比率是 1.0( 在 log 空間中為 0) 。通常,更多的是使用中值中心化。

目前對(duì)數(shù)據(jù)預(yù)處理這種策略的作用還不是很清楚,還沒有人進(jìn)行系統(tǒng)的研究,提供有說服力的證據(jù)來幫助研究人員針對(duì)特定的任務(wù)選擇特定的數(shù)據(jù)預(yù)處理的策略和方法。在具體應(yīng)用時(shí),往往是根據(jù)分析目的和個(gè)人經(jīng)驗(yàn)選擇不同的方法。

會(huì)員登錄

×

請(qǐng)輸入賬號(hào)

請(qǐng)輸入密碼

=

請(qǐng)輸驗(yàn)證碼

收藏該商鋪

X
該信息已收藏!
標(biāo)簽:
保存成功

(空格分隔,最多3個(gè),單個(gè)標(biāo)簽最多10個(gè)字符)

常用:

提示

X
您的留言已提交成功!我們將在第一時(shí)間回復(fù)您~
撥打電話
在線留言