新華社紐約1月11日電 美國(guó)研究人員開(kāi)發(fā)出一個(gè)新的人工智能模型,經(jīng)過(guò)大量數(shù)據(jù)的訓(xùn)練后,該模型能精確預(yù)測(cè)各種人體細(xì)胞內(nèi)部的基因表達(dá)情況,將為生物和醫(yī)學(xué)研究帶來(lái)便利。
這個(gè)名為“通用表達(dá)轉(zhuǎn)換器”(GET)的模型由美國(guó)哥倫比亞大學(xué)和卡內(nèi)基-梅隆大學(xué)等機(jī)構(gòu)研究人員聯(lián)合開(kāi)發(fā),其準(zhǔn)確性和有效性已得到實(shí)驗(yàn)驗(yàn)證,論文發(fā)表在新一期英國(guó)《自然》雜志上。
在基因表達(dá)過(guò)程中,以DNA形式儲(chǔ)存的基因“藍(lán)圖”轉(zhuǎn)錄成為RNA形式的“抄本”,后者指導(dǎo)合成出蛋白質(zhì),執(zhí)行具體的生理功能。參與轉(zhuǎn)錄調(diào)控的生物分子種類繁多,相互作用極為復(fù)雜,此前相關(guān)預(yù)測(cè)模型局限于幾種特定的細(xì)胞,尤其是癌細(xì)胞,缺乏適用于人體多種細(xì)胞類型的通用工具。
研究人員根據(jù)轉(zhuǎn)錄調(diào)控機(jī)制的特點(diǎn)設(shè)計(jì)出機(jī)器學(xué)習(xí)模型,然后用來(lái)自1.3萬(wàn)個(gè)人體細(xì)胞的基因測(cè)序和表達(dá)數(shù)據(jù)對(duì)其進(jìn)行訓(xùn)練。這些細(xì)胞涵蓋213種人類胚胎細(xì)胞和成體細(xì)胞,都來(lái)自沒(méi)有病變的正常人體組織。
就像ChatGPT等人工智能工具能根據(jù)大量語(yǔ)料總結(jié)出通用語(yǔ)法規(guī)則,GET模型也能從訓(xùn)練數(shù)據(jù)中總結(jié)出關(guān)于轉(zhuǎn)錄調(diào)控的“語(yǔ)法”,在此基礎(chǔ)上能對(duì)其沒(méi)有接觸過(guò)的細(xì)胞類型進(jìn)行基因表達(dá)預(yù)測(cè)。
該模型可用于揭示致病基因的作用機(jī)制,指導(dǎo)癌癥和遺傳疾病研究。例如某種兒童白血病的患者攜帶一個(gè)功能不明的變異基因,GET模型預(yù)測(cè)該基因會(huì)擾亂細(xì)胞中兩種轉(zhuǎn)錄因子的相互作用,實(shí)驗(yàn)數(shù)據(jù)證實(shí)了這一結(jié)論。
研究人員說(shuō),該模型還可用于探尋基因組中“暗物質(zhì)”的作用。蛋白質(zhì)編碼基因序列只占人類基因組的一小部分,占比達(dá)98%的非編碼區(qū)域就像宇宙中的暗物質(zhì)一樣,其屬性和功能目前難以捉摸。