价格: 免费时长: 0s

请在右边选择模板

更新时间: -

使用 0 次点击 0 次

输出语言：

语速： 1.0

大型语言模型(LLM)

首页

大型语言模型(LLM)

列表

默认

浏览次数

发布日期

OpenAI推出AI Agent评测基准PaperBench

OpenAI推出AI Agent评测基准PaperBench

OpenAI 团队推出了一个名为 PaperBench 的基准测试，旨在评估AI代理在复制先进 AI 研究方面的能力。该测试要求 AI 代理从头开始复制20篇2024年国际机器学习会议（ICML）中的重点和口头论文，整个过程涉及理解论文贡献、开发代码库以及成功执行实验。为确保评估的客观性，研究人员设计了详细的评分标准。这些标准将每项复制任务分解为多个层级的子任务，并设定明确的评分标准。PaperB

AI热点 3月前 0 点赞 0 评论 141 浏览

字节跳动推出 QuaDMix：大型语言模型预训练数据质量与多样性的统一框架

字节跳动推出 QuaDMix：大型语言模型预训练数据质量与多样性的统一框架

近日，字节跳动宣布推出其全新的数据选择框架 QuaDMix，旨在提升大型语言模型（LLM）预训练的效率和泛化能力。众所周知，模型的训练效果受基础数据集的质量和多样性影响很大。然而，传统的数据筛选方法往往将质量和多样性视为两个独立的目标，先进行质量过滤，再进行领域平衡。这种逐步优化的方式忽略了质量与多样性之间的复杂相互关系。优质数据集往往存在领域偏差，而多样化的数据集可能会降低质量。因此，在固定的训

AI热点 2月前 0 点赞 0 评论 88 浏览