相较于以往侧重于考察模型是否记忆信息或遵循预设步骤的评估方式,GeneBench-Pro 更注重人工智能在实际科研场景中的应用价值。该基准测试要求模型在面对数据时,能够应对不确定、不完整乃至包含干扰信息的情况,并在此基础上进行判断和分析以得出结论。

GeneBench-Pro 涵盖了基因组学、定量生物学及转化医学等多个领域,共设有 129 道测试题目。这些题目被归入 10 个主要领域和 21 个子领域,具体内容涉及统计遗传学、群体遗传学、功能基因组学和蛋白质组学等。在每道题目中,模型都会接收到一份接近真实科研环境的数据集,以及一份简要的实验背景介绍和一个与后续决策相关的目标问题。模型需要独立完成数据的探索、分析方法的选择,并在此过程中不断调整策略,最终给出答案。

为了规避传统长流程基准测试中常见的评分不准确问题,OpenAI 在设计 GeneBench-Pro 时,选择了合成数据作为主要的数据来源。这是因为使用真实的历史数据出题时,常常存在多条可行的分析路径,这可能导致模型即使采用了错误的方法,也可能因为偶然因素而获得正确答案。

通过使用合成数据,OpenAI 能够完全掌控数据的底层因果关系和生成过程,从而更精确地评估模型是否真正理解了问题,而非仅仅通过“捷径”得出结果。

目前,OpenAI 已在 Hugging Face 上公开了 10 道具有代表性的 GeneBench-Pro 示例题目,并提供了一个可交互的界面供外部研究人员进行体验。未来,OpenAI 计划开放其中的 50 道题目,用于 Artificial Analysis 进行独立的第三方评估,以检验不同模型在这一基准测试中的实际表现。