DNAnexus 和 Amazon Web Services (AWS) 支援 UK Biobank 研究分析平台背後的技術

執行摘要

來自世界各地的研究人員需要能夠安全地存取 UK Biobank,該 UK Biobank 是 PB 規模的生物醫學資料庫和研究資源。AWS 合作夥伴 DNAnexus 利用 Amazon S3 和 Amazon EC2 建置和操作可擴展的平台,該平台讓核准的使用者能夠安全地檢視和分析虛擬環境中檔案的「電子檔案」。這確保了健康資料的安全性,並為缺乏自己的儲存和分析基礎架構的研究人員提供民主化存取。

了解不同的因素

為了了解和治療複雜的疾病,例如第二型糖尿病、癌症和阿茲海默症,科學家需要了解遺傳、環境和生活方式因素之間隨時間的關係。這種性質的縱向資料非常難以匯集,這就是為什麼全球科學界將從一個名為 UK Biobank 的協作、大規模生物醫學資料集和研究資源中受益匪淺的原因。

根據 2019 年一項關於失智症的研究 (涉及 196,383 名 UK Biobank 參與者的資料),無論參與者遺傳風險如何,遵循健康的生活方式都可以降低失智症的風險。結果顯示,介入措施可以抵消失智症的遺傳風險。一項於 2018 年針對年齡在 40 至 69 歲之間的 472,000 名 UK Biobank 參與者進行的研究得出結論,相比男性,抽菸、糖尿病和高血壓使女性心臟病發作的風險更高。在女性中,高血壓相關的風險比男性整體高 80%。在第一型糖尿病患者中,女性心臟病發作的風險幾乎是男性的三倍,而在第二型糖尿病患者中,女性心臟病發作的風險則高出 47%。

2006 年至 2010 年間,UK Biobank 招募了 50 萬名來自英國各地的志願者。每位志願者都提供了有關他們的生活方式和身體檢測的詳細資訊,包括血液、尿液和唾液樣本,以備將來分析。UK Biobank 建立了持續的資料收集,再加上電子健康記錄的整合,為每位參與者產生了成千上萬的資料點。2017 年增加了完整的基因分型資料,所有 50 萬名參與者的全基因體定序資料將在 2023 年初公開 (定序元件最近完成)。UK Biobank 預計到了 2025 年,其資料庫的資料將超過 40 PB。

這種大規模資料收集的共同目標是幫助來自世界各地的核准研究人員更好地了解、預防和治療各種疾病。但是,此類大小和複雜性的資料集創造了前所未有的資料管理挑戰。這就是 DNAnexus 提供支援的地方。DNAnexus 是長期的 AWS 生命科學能力合作夥伴,成立於 2009 年,其使命是協助科學研究人員安全地存取、分析和操作複雜的生物醫學資料。其可擴展的平台促進了協作,並使使用者能夠一起分析多種資料類型,包括基因體和臨床資料。對於努力譯解複雜疾病的研究人員而言,這是一個至關重要的功能。

DNAnexus 的生物資料庫總經理 Asha Collins 表示:「關鍵的挑戰是將資料集中在一個地方,以便研究人員可以在廣泛的資料類型 (包括遺傳學、生活方式和成像) 中分析數百萬個指標,所有這些都無需資料複寫。
同樣重要的是,我們必須解決如何提供必要的運算和資料儲存的問題,以使研究人員能夠輕鬆地真正使用這個龐大的資料集。」

在 2020 年時,DNAnexus 和 AWS 開始與 UK Biobank 進行為期三年的協作,將資料存取民主化。他們一起使用創新且以雲端為基礎的研究分析平台 (RAP) 取代了昂貴且耗時的資料下載,該平台使
研究人員可以從世界任何地方安全地存取和分析整個 UK Biobank。隨著最初的開發,UK Biobank 了解到,成功取決於平台在集中式環境中管理越來越多的資料並提供分析工具的能力。

「關鍵的挑戰是將資料集中在一個地方,以便研究人員可以在廣泛的不同資料類型 (包括遺傳學、生活方式和成像) 中分析數百萬個指標,所有這些都無需資料複寫。同樣重要的是,我們必須解決如何提供必要的運算和資料儲存的問題,以便研究人員能夠輕鬆地使用這個龐大的資料集。」 

– DNAnexus 的生物樣本庫總經理 Asha Collins

分享「電子檔案」

研究人員最初透過自訂資料交付系統存取 UK Biobank 檔案,該系統封裝了早期的表格資料,供研究人員在自己的環境中下載和分析。但是隨著有越來越多的資料可用,並且有更廣泛的研究人員請求存取,個別的方法變得不再成功。到 2021 年底,來自 90 多個國家的 28,000 多名學術和產業科學家已獲核准來存取 UK Biobank 資料庫和研究資源。

UK Biobank 副執行長 (CEO) Mark Effingham 表示:「我們現在的資料規模巨大,對於所有這些群組來說,維護全球多個資料副本並不高效或具成本效益。我們需要採取不同的方法,在此方法中,我們可以將經核准的研究人員帶到一個可以使用資料的環境。」

DNAnexus 建立了一種安全的替代方案,可減少 UK Biobank 使用者的基礎設施和成本負擔。使用 Amazon Simple Storage Service (Amazon S3) 儲存單一版本的資料,該服務是一種可擴展的雲端基礎設施,可支援並跟上 UK Biobank 持續成長的速度。

該平台智慧地將資料提供給研究人員,最大限度地減少重複資料。研究人員無法直接存取這些檔案。相反地,他們會透過虛擬環境操作,該環境會提供其已核准存取之資料子集的「電子版本」。

協作也利用 Amazon Elastic Compute Cloud (Amazon EC2),一種可在雲端提供安全、可調整大小的運算容量的服務。DNAnexus 使用 Amazon EC2 提供了一個靈活、可擴展的平台,只有在研究人員執行分析時才會收費。該平台還可以利用 Amazon EC2 Spot 執行個體,與隨需定價相比,這些執行個體可享有高達 90% 的折扣,因此即使是最大的任務也可以經濟實惠地執行。

Effingham 表示:「在這個平台上與 DNAnexus 和 AWS 合作,創造了一個領域,讓研究人員不僅可以參與和執行自己的資料分析,而且還能以經濟實惠的方式,無論他們從哪裡工作皆能使用可擴展的雲端基礎設施、運算和儲存來實際支援這些分析。我們很榮幸能夠提供一個可最大化資料價值的研究平台,並為全球所有研究人員提供民主化存取。」

透過假名化安全存取

從資料隱私的角度來看,與擁有連結健康記錄的 50 萬名參與者分享洞見非常具有挑戰性。為了保護這些資料,同時保留許多互連的生物醫學資料點的價值,DNAnexus 開發了一個假名化系統。

Collins 解釋說:「它使我們能夠在幕後保留一份資料副本,從而實現顯著的成本節省。這些資料經過適當的假名化處理,並複製電子版到虛擬區域中,在這個虛擬區域中,他們可以看到已獲核准的檔案和表格欄位,並在檔案名稱中進行適當變更。」

UK Biobank 依靠增強的安全措施,要求每位研究人員取得略有不同的資料副本。每位研究人員的參與者 ID 都會被假名化。這些 ID 同時內嵌在檔案名稱和內容本身中,讓 DNAnexus 能夠建立其假名化支援。利用上述「電子檔案」以及一些安全的下載機制,該平台可以滿足數千名研究人員這些具有挑戰性的要求,而無需複製任何資料。

DNAnexus 開發了此功能來解決平台日益增長的需求,這些平台可以協調對多組學人口資料集的安全存取,這些資料集持續成長。

UK Biobank 資料庫已被證明是全球研究界的強大資源,為可以改善公共衛生的新科學發現提供動力。研究分析平台有可能提高科學發現的速度和規模,並使存取民主化,使獲得核准的研究人員能夠將自己的分析從世界各地的資料帶入到世界上任何地方,以提升對人類疾病的了解。此外,RAP 還解決了與整合和協調基因學和臨床資料相關的複雜性。它還使使用者能夠分析多種資料類型並在雲端平台中處理相同的研究專案,從而促進了研究人員之間的更大協作。這項成功可能會推動進一步成長,加強 UK Biobank 與 DNAnexus 和 AWS 等合作夥伴協作的選擇,這些合作夥伴以其可擴展、靈活的解決方案而聞名。

生物樣本庫

關於客戶

UK Biobank 是一個大型的生物醫學資料庫和研究資源,其中包含來自 50 萬名英國參與者的深入遺傳和健康資訊。該資料庫會定期增加其他資料,並且對最常見和危及生命的疾病進行重要研究的經核准的研究人員,可以在全球範圍內存取。它是現代醫學和治療進步的主要貢獻者,並促進了許多改善人類健康的科學發現。

關於 DNAnexus

DNAnexus 建立了安全、可信的雲端平台,用於存取、分析和翻譯世界生物醫學資料,為科學界提供支援,在醫療保健和生命科學領域產生改變生活的突破。

2022 年 5 月發佈