主要内容
谷歌宣布了 DeepSomatic,这是一款能更准确识别肿瘤基因序列中与癌症相关突变的人工智能工具。癌症始于细胞分裂控制机制失灵。找到驱动肿瘤生长的特定基因突变对于制定有效治疗方案至关重要。如今,医生常对活检获取的肿瘤细胞基因组进行测序,以指导针对特定癌症生长和扩散方式的治疗。发表于《自然生物技术》的这项工作提出了一种利用卷积神经网络比现有方法更准确地识别肿瘤细胞遗传变异的工具。谷歌已公开提供 DeepSomatic 及其创建的高质量训练数据集。
癌症遗传学很复杂。虽然基因组测序能发现癌症遗传变异,但区分真实变异和测序错误很困难,而人工智能工具在此能提供帮助。大多数癌症由出生后获得的“体细胞”变异驱动,而非父母遗传的“种系”变异。体细胞突变发生在紫外线等环境因素损伤 DNA 或 DNA 复制时随机出错时。这些变异改变正常细胞行为,可导致不受控制的复制,推动癌症发展和进展。识别体细胞变异比找到遗传变异更难,因为它们在肿瘤细胞中可能以低频率存在,有时低于测序错误率本身。
DeepSomatic 如何工作:在临床环境中,科学家对活检获取的肿瘤细胞和患者的正常细胞进行测序。DeepSomatic 找出差异,识别肿瘤细胞中未遗传的变异。这些变异揭示了推动肿瘤生长的因素。该模型将肿瘤和正常样本的原始基因测序数据转换为代表各种数据点的图像,包括测序数据及其在染色体上的对齐。卷积神经网络分析这些图像,以区分标准参考基因组、个体正常遗传变异和致癌体细胞变异,同时过滤掉测序错误。输出是一份与癌症相关的突变列表。当正常细胞样本不可用时,DeepSomatic 也可在“仅肿瘤”模式下工作,这在白血病等血液癌症中很常见,使该工具适用于许多研究和临床场景。
训练更精确的人工智能癌症研究工具:训练准确的人工智能模型需要高质量数据。谷歌及其在加州大学圣克鲁兹基因组研究所和国家癌症研究所的合作伙伴创建了一个名为 CASTLE 的基准数据集,用于其人工智能工具。他们对四个乳腺癌样本和两个肺癌样本的肿瘤和正常细胞进行了测序。使用三种领先的测序平台对这些样本进行分析,通过合并输出并去除平台特定错误,创建了一个单一、准确的参考数据集。数据显示,即使是相同的癌症类型也可能有截然不同的突变特征,这一信息可帮助预测患者对特定治疗的反应。DeepSomatic 模型在所有三个主要测序平台上的表现都优于其他已建立的方法。该工具在识别称为插入和缺失或“Indels”的复杂突变方面表现出色。对于这些变异,DeepSomatic 在 Illumina 测序数据上达到了 90%的 F1 分数,而次佳方法为 80%。在 Pacific Biosciences 数据上,改进更为显著,DeepSomatic 得分超过 80%,而次佳工具得分低于 50%。在分析具有挑战性的样本时,该人工智能表现良好。测试包括用福尔马林固定石蜡包埋(FFPE)保存的乳腺癌样本,这是一种常见方法,可引入 DNA 损伤并使分析复杂化。