宝博体育,是以蛋白质、DNA、RNA等生物大分子作为“数据”的计算模式,其方法包括机器学习、模式识别、数据库、并行计算等计算机技术和算法。因其可以进行大量的精准计算,常被用于攻克医疗难题、辅助医疗、助力药物研发。在生物计算领域一直不断探索,2020年发布了基于飞桨的生物计算平台螺旋桨(PaddleHelix)宝博体育。2022年百度联合清华大学药学院,建设”产学研融合创新基地,推出AI+生物计算前沿课程和人才培养计划,助力 AI for Science 领域的人才培养。
今年5月,百度飞桨联合清华大学药学院、百度智能云和临港实验室,共同发起了首届全球AI药物研发算法大赛,并得到中国药学会等单位大力支持,同时邀请到多位生物制药领域专家担任专家委员会委员。大赛旨在借助百度飞桨在生物计算方向上的算法优势,通过AI Studio平台,探索AI+药学领域前沿技术,挖掘和培育优秀人才,诚邀全球范围内生物计算、人工智能等相关专业的高校师生、企业、科研机构及开发者参赛。
新冠病毒(SARS-CoV-2)自从其首次爆发以来,迅速成为全球关注的焦点。为了抵御新冠病毒的攻击,了解病毒的复制和感染机制至关重要。主蛋白酶(main protease, 简称M pro)是新冠病毒的关键酶,负责在感染过程中剪切病毒产生的蛋白质前体,促进病毒的复制。 主蛋白酶因其在病毒生命周期中的关键作用,成为潜在的治疗靶点。抑制该酶的活性可以有效干扰病毒的复制过程,从而提供一种潜在的治疗方法。
其中,基于人工智能的筛选方法,利用机器学习和深度学习技术,分析大量的结构和活性数据,从而预测小分子与主蛋白酶之间的相互作用。
要求参赛选手利用大赛提供小分子对新冠病毒主蛋白酶的抑制活性数据,使用深度学习、分子对接等方法进行建模,预测小分子抑制主蛋白酶活性的概率。即给定分子(SMILES),预测抑制主蛋白酶活性的概率宝博体育。
初赛结束时,初赛成绩排名前60%的队伍进入复赛。(大赛举办方有权根据报名等情况确定最终晋级队伍数量)。
复赛阶段,大赛会更换数据集,提供小分子在 Caco 细胞上抑制新冠病毒复制的活性数据,参赛选手需要基于 PaddlePaddle 进行模型的设计和训练,预测小分子在 Caco 细胞上抑制新冠病毒复制的概率。即给定分子(SMILES)宝博体育,预测 Caco 细胞上抑制新冠病毒复制的概率。
复赛结束时,组委会将对代码进行检查和复现,复赛成绩排名前15名的队伍将晋级决赛。(大赛举办方有权根据复赛情况等确定最终数量)
进入总决赛的队伍需参与最终现场答辩环节(需准备 PPT,答辩时间15min)。 评委将对初赛阶段成绩、复赛阶段成绩、答辩成绩和代码质量进行综合评估,作为最终的决赛成绩。
本次比赛选用 AUC(ROC 曲线下面积)和 AP( PR 曲线下面积)的平均值作为评估指标。
本次比赛邀请到清华大学教授,中国科学院上海有机化学研究所丁克教授,罗氏制药林翼博士,临港实验室李洪林教授和上海交通大学张健教授等多位重量级专家作为大赛专家,将在于清华大学线下开展的总决赛评审上与选手们见面交流。
本次比赛 baseline 基于百度飞桨 PaddlePaddle 进行开发,并且在复赛阶段要求选手使用 PaddlePaddle 进行模型的设计和训练。百度一直在生物计算领域不断探索,并且推出了基于飞桨的生物计算平台螺旋桨(PaddleHelix)宝博体育。
螺旋桨( PaddleHelix ) 是基于飞桨深度学习框架打造的“AI+生物”计算平台宝博体育,提供文心大模型-生物计算大模型能力,已开放多个算法模型,覆盖小分子药物筛选、多肽/蛋白药物设计、mRNA 疫苗/药物设计等技术,面向新药研发、疫苗设计、精准医疗等场景,为生物医药领域的创新药企、医药技术提供商、科研机构、生物科技公司等提供全面的算法工具和技术方案。
为了帮助更多新同学了解和入门比赛,特邀清华大学药学院研究员、博士生导师田博学、清华大学药学院博士生陈靖轲担任讲师,带领同学们深入了解本次赛题任务的产业背景、赛题任务和破题技巧,逐行理解baseline的全流程代码!