利用DNA來編碼書籍和其他數(shù)字信息
DNA是由核苷酸組成的,而且在理論上,至少每個(gè)核苷酸能夠被用來編碼兩個(gè)比特的數(shù)據(jù)。這意味著這種數(shù)據(jù)密度是每立方毫米含有大量的百萬千兆比特( million gigabits)數(shù)據(jù),而且只需四克DNA在理論上就能夠儲(chǔ)存每年創(chuàng)造出來的所有數(shù)字?jǐn)?shù)據(jù)。這要比諸如閃存盤之類的數(shù)字儲(chǔ)存媒體所儲(chǔ)存的數(shù)據(jù)更加密集,而且也更加穩(wěn)定,這是因?yàn)镈NA序列在它們被編碼出來后上千年時(shí)間內(nèi)也能夠被讀出。
在這項(xiàng)實(shí)驗(yàn)中,研究人員成功地利用短DNA序列而不是長(zhǎng)DNA序列來編碼數(shù)據(jù),而這會(huì)降低寫入和讀取數(shù)據(jù)的困難和成本。Kosuri博士說,這種過程類似于儲(chǔ)存數(shù)據(jù)到硬盤上,其中在硬盤中,數(shù)據(jù)是被寫入在被稱作扇區(qū)的小硬盤塊中。
他們首先將這本書、程序和圖片轉(zhuǎn)化為HTML格式的文件,然后將這些文件編譯為由0和組成的大小為5.27兆比特的二進(jìn)制序列。利用一個(gè)DNA核苷酸(即一個(gè)堿基)對(duì)應(yīng)一個(gè)比特,這個(gè)5.27兆比特的二進(jìn)制序列按照順序被分布到多個(gè)96比特長(zhǎng)的核苷酸片段中。核苷酸A和C用0來編碼,而核苷酸G和T用來編碼。每個(gè)核苷酸片段也含有一個(gè)9位地址來編碼這個(gè)段在全部序列中所處的位置。每個(gè)核苷酸片段被合成多個(gè)拷貝以便有助于校正錯(cuò)誤。
在這本書和其他信息被編碼到DNA之中后,DNA液滴被附著到微陣列芯片上以便儲(chǔ)存。這些芯片在 4°C下保持三個(gè)月,然后它們被溶解和測(cè)序。每個(gè)核苷酸片段的每個(gè)拷貝被測(cè)序高達(dá)3000次以便達(dá)成共識(shí)。利用這種方式,他們降低這個(gè)5.27兆比特序列中的位錯(cuò)誤數(shù)降至只有2個(gè)。
這種實(shí)驗(yàn)程序刊登在《科學(xué)》期刊上。盡管它不能被用來儲(chǔ)存可重寫的數(shù)據(jù),但是能夠被用來特別地儲(chǔ)存數(shù)據(jù)。利用DNA的一種優(yōu)勢(shì)就是更加密集的信息能夠被儲(chǔ)存,但是另一個(gè)主要優(yōu)勢(shì)在于DNA是一個(gè)生物分子,而且它總是能夠在生物學(xué)上被讀取同時(shí)也不需要諸如CD或DVD的特殊設(shè)備。
這種系統(tǒng)的主要劣勢(shì)在于在當(dāng)前,用來合成和測(cè)序DNA的技術(shù)非常昂貴從而使得它不能成為一種人們能夠日常使用的實(shí)用系統(tǒng)。另一個(gè)問題就是盡管科學(xué)家們能夠?qū)χT如上千年歷史的木乃伊之類的來源的DNA進(jìn)行測(cè)序,但是DNA傾向于形成碎片,因此,還需要開展研究以便改善DNA在幾個(gè)世紀(jì)乃至更長(zhǎng)時(shí)間之后的穩(wěn)定性。利用DNA來編碼書籍和其他數(shù)字信息