半月談記者 張漫子
以信息時代的后見之明回望人類演化,我們的文明史,其實也是一部數(shù)據(jù)史。
在全球80億人平均每人每天產(chǎn)生高達1.5GB數(shù)據(jù)的今天,“數(shù)據(jù)怎么存、存在哪里好”的問題,日益凸顯。要一塊多大的“硬盤”,才能裝下我們不斷延長的文明史?答案可能在生命最基礎(chǔ)的單元之中。對,就是DNA。DNA做的“硬盤”,你想擁有嗎?
DNA,能當“硬盤”用?
DNA,攜帶生命核心“代碼”的神秘大分子。它有著經(jīng)典而美麗的雙螺旋結(jié)構(gòu),猶如無限綿延的莫比烏斯帶,編織出生命體演化的壯闊歷史。生命體規(guī)模巨大的遺傳信息就在此進程中代代傳承,精準而安穩(wěn),從信息科學的角度看,確實不可思議——單個人體細胞的平均直徑僅有5到200微米,卻輕松包羅一個人的全部遺傳信息,30億對堿基。
DNA可以保存多久?最新答案是200萬年。近年科學家曾從格陵蘭島凍土中成功提取200萬年前的DNA序列,其中信息仍歷歷可辨。
既然DNA攜帶的信息可跨越數(shù)百萬年之久,那么今天我們這個信息爆炸的時代,能否借用這條生命史的莫比烏斯帶保存人間訊息,使之成為接續(xù)人類文明的一條紐帶?
大膽假設(shè),自然要小心求證。我們先來看看,DNA為什么這么能“裝”?
關(guān)鍵在于兩方面。其一就是雙螺旋結(jié)構(gòu)?!斑@樣的結(jié)構(gòu)使DNA分子在甚小空間內(nèi)也可以緊湊排列,承載極高密度的信息。”北京大學軟件研究所副研究員張成解釋道。
北京大學 DNA 存儲研究團隊在做試驗
此外,DNA四種堿基(腺嘌呤A、胞嘧啶C、鳥嘌呤G和胸腺嘧啶T)的排列組合變化無窮,也就意味著它們可以編碼幾乎無限量的信息,使得DNA理論上具備比任何現(xiàn)有存儲設(shè)備更高的存儲容量。
DNA究竟有多能“裝”?理論上,僅1克DNA就能夠存儲約1000萬小時的高清視頻數(shù)據(jù),想想看,1千克DNA又能裝下多少?
2023年,我國產(chǎn)生的數(shù)據(jù)總量達32.85澤字節(jié)(ZB),相當于1000多萬座中國國家圖書館的數(shù)字資源總量。折合成我們更熟悉的單位GB,我國每天產(chǎn)生的數(shù)據(jù)量達到驚人的900億GB。據(jù)國際機構(gòu)估計,剛過去的2024年,全球生成數(shù)據(jù)有159.2ZB之多。如果僅憑數(shù)據(jù)中心來存儲,我們要建多少座數(shù)據(jù)中心才能儲存這些數(shù)據(jù)!
尋找體積更小、容量更大的存儲介質(zhì),已經(jīng)是迫在眉睫之事。DNA,能夠接過接力棒嗎?
把數(shù)據(jù)刻進DNA
把海量數(shù)據(jù)存入DNA,也就三步。
第一步,將數(shù)據(jù)寫入DNA,也就是將今日信息世界通行的二進制數(shù)據(jù)轉(zhuǎn)化為DNA序列,0和1不同的排列組合實現(xiàn)的多樣編碼,與DNA序列四種堿基遵循一定之規(guī)的排列,二者之間要想轉(zhuǎn)化無礙,就要制定嚴謹?shù)木幋a規(guī)則,比如,每2個二進制位對應1種核苷酸組合。
接下來,構(gòu)建存儲信息的DNA分子。也就是按照前一步獲得的編碼布置堿基,合成DNA鏈。只不過,目前常用的化學合成法效率還嫌低了些,科學家正在積極探求新方法,利用DNA聚合酶催化的酶促合成法,就為許多科學家所看好。還有科學家提出并行寫入DNA信息。近期,北京大學團隊利用“分子活字印刷”方法,實現(xiàn)了27.5萬比特的平行DNA存儲。
最后,就是存儲與讀取了。DNA存儲對環(huán)境的要求,不外低溫、干燥、避光,低溫(一般為零下20攝氏度甚至更低)的干燥環(huán)境能減緩DNA分子的降解速度,避光則是為了防止光照引發(fā)DNA分子損傷,確保存儲數(shù)據(jù)不會“變質(zhì)”。
給DNA“硬盤”一點耐心
前面提到,DNA存儲不僅存得久,而且存得牢,若能有效避免水分與紫外線的影響,DNA可以在數(shù)十萬年內(nèi)保持穩(wěn)定不變。
更妙的是,DNA存儲還是一種“低碳之選”。DNA存儲額外耗能極低,理想保存環(huán)境與日常環(huán)境相差不大,要想在能源有限條件下實現(xiàn)數(shù)據(jù)的長期保存,DNA存儲堪稱首選。
并行分子印刷 DNA 存儲示意圖
但是,在今天談DNA存儲,還是一種憧憬,我們也需要明白,有幾樣問題若不解決,DNA存儲還是不能成為我們的下一代主流存儲。
——成本高昂。目前合成2MB的DNA數(shù)據(jù)需要7000美元,讀取數(shù)據(jù)需要再加2000美元,如果以DNA形式存儲1GB大小的電影,編碼大約需要花費358萬美元。
——讀寫速度太慢。以目前的技術(shù)合成DNA,每添加一個堿基大約需要0.1秒鐘。別覺得這時間不長,以此速度,保存一首高音質(zhì)的MP3歌曲都需要差不多1個月。
——讀取準確率還不夠高。寫入過程可能出現(xiàn)不正確的情況,讀取時也可能因測序誤差導致還原數(shù)據(jù)不準確。分子數(shù)據(jù)不比完全虛擬的0與1,自身難免有瑕疵,若不找到合適的處理辦法,DNA存儲的精度會大打折扣。
革命性的技術(shù),往往起于看似幼稚的嘗試,人類文明史無數(shù)轉(zhuǎn)折點都佐證了這一點。如果整部人類文明史承傳賡續(xù)的方式,都可以來一個大進步,那么我們又有什么理由不對今天的探索多些耐心呢?在傳遞地球生命的莫比烏斯帶上,刻下萬物靈長探索與創(chuàng)造的證明,會是智慧生命演化史上激動人心的時刻。
編輯:范鐘秀