《AI》Google推出DeepVariant 利用AI學習精確解讀基因組數據

21世紀之初,因為高通量測序(High-throughput sequencing ,HTS)開始商業化,得以大規模、更低成本、更快速取得生物體的基因序列,但是基因測序的結果是碎片化的片段訊息,如何讓龐大的基因組數據變得有意義,一直是科學界的挑戰。近日,Google發布了一項AI深度學習工具,名為DeepVariant,幫助建立更精確的人類基因圖譜。

使用圖像分類

先來理解基因測序的樣貌。人體基因組含有30億個DNA鹼基對,基因測序的結果是10億個以內的短序列片段(稱為讀取單位reads),每個讀取單位含有100個鹼基對,若將讀取單位重疊比對拼出結果後,再與基因序列基準相比對,會發現很多鹼基變異位點,不管是出於何種原因,要將那些小的變異與測序過程中產生的偶發錯誤區別開來,是一道難題。

目前市場上已有軟體在解決這類的問題,使用更簡單的統計和機器學習,嘗試排除讀取錯誤並識別突變,每個工具各有優缺點,但是現在Google發布了DeepVariant,這個由Google Brain團隊與集團所屬生命科學公司Verily合作兩年多開發出來的AI深度學習工具,把基因測序的短序列片段reads拼接問題,轉變成Google擅長的典型圖像分類,在準確率和精確度上,都比傳統的比對拼接方式高出一大截。

以下四個圖像分別代表基因序列基準與實際測序讀數數reads 的比對結果(圖片來自Verily新聞稿)。


說明:A:一對染色體上的SNP(單核甘酸多態性)。B:一條染色體上少了一個鹼基。C:兩條染色體上都少了鹼基。D:因錯誤引起的錯誤變異。

喜歡這篇文章嗎?立即分享

你可能感興趣的文章