OpenAI推出AI Agent评测基准PaperBench OpenAI 团队推出了一个名为 PaperBench 的基准测试,旨在评估AI代理在复制先进 AI 研究方面的能力。该测试要求 AI 代理从头开始复制20篇2024年国际机器学习会议(ICML)中的重点和口头论文,整个过程涉及理解论文贡献、开发代码库以及成功执行实验。为确保评估的客观性,研究人员设计了详细的评分标准。这些标准将每项复制任务分解为多个层级的子任务,并设定明确的评分标准。PaperB AI热点 3月前 0 点赞 0 评论 141 浏览
字节跳动推出 QuaDMix:大型语言模型预训练数据质量与多样性的统一框架 近日,字节跳动宣布推出其全新的数据选择框架 QuaDMix,旨在提升大型语言模型(LLM)预训练的效率和泛化能力。众所周知,模型的训练效果受基础数据集的质量和多样性影响很大。然而,传统的数据筛选方法往往将质量和多样性视为两个独立的目标,先进行质量过滤,再进行领域平衡。这种逐步优化的方式忽略了质量与多样性之间的复杂相互关系。优质数据集往往存在领域偏差,而多样化的数据集可能会降低质量。因此,在固定的训 AI热点 2月前 0 点赞 0 评论 88 浏览