
AGI-Eval是什么
AGI-Eval是上海交通大学、同济大学、华东师范大学、DataWhale等高校和机构合作发布的大模型评测社区,旨在打造公正、可信、科学、全面的评测生态,以“评测助力,让AI成为人类更好的伙伴”为使命。专门设计用于评估基础模型在人类认知和问题解决相关任务中的一般能力。AGI-Eval通过这些考试来评估模型的性能,与人类决策和认知能力直接相关。衡量模型在人类认知能力方面的表现,有助于了解在现实生活中的适用性和有效性。
AGI-Eval的主要功能
- 大模型榜单:基于通用评测方案,提供业内大语言模型的能力得分排名榜单。榜单涵盖综合评测和各能力项评测。数据透明、权威,帮助您深入了解每个模型的优缺点,定期更新榜单,确保您掌握最新信息,找到最适合的模型解决方案。
- AGI-Eval人机评测比赛:深入模型评测的世界,与大模型协作助力技术发展构建人机协同评测方案
- 评测集:
- 公开学术:行业公开学术评测集,支持用户下载使用。
- 官方评测集:官方自建评测集,涉及多领域的模型评测。
- 用户自建评测集:平台支持用户上传个人评测集,共建开源社区。完美实现自动与人工评测相结合;并且还有高校大牛私有数据集托管
- Data Studio:
- 用户活跃度高:3W+众包用户平台,实现更多高质量真实数据回收。
- 数据类型多样:具备多维度,多领域的专业数据。
- 数据收集多元化:如单条数据,扩写数据,Arena数据等方式,满足不同评测需求。
- 完备的审核机制:机审+人审,多重审核机制,保证数据质量。
AGI-Eval的官网地址
- 官网地址:agi-eval.cn
AGI-Eval的应用场景
- 模型性能评估:AGI-Eval提供了完整数据集、基线系统评估和详细评估方法,是衡量AI模型综合能力的权威工具。
- 语言评估:AGI-Eval整合了中英文双语任务,为AI模型的语言能力提供了全面的评估平台。
- NLP算法开发:开发者可以用AGI-Eval来测试和优化文本生成模型的效果,提高生成文本的质量。
- 科研实验:学者可以用AGI-Eval作为评估新方法性能的工具,推动自然语言处理(NLP)领域的研究进步。
数据统计
数据评估
关于AGI特别声明
本站智能信息网提供的AGI都来源于网络,不保证外部链接的准确性和完整性,同时,对于该外部链接的指向,不由智能信息网实际控制,在2025年4月23日 下午2:53收录时,该网页上的内容,都属于合规合法,后期网页的内容如出现违规,可以直接联系网站管理员进行删除,智能信息网不承担任何责任。
相关导航

H2O EvalGPT 是 H2O.ai 用于评估和比较 LLM 大模型的开放工具,它提供了一个平台来了解模型在大量任务和基准测试中的性能。无论你是想使用大模型自动化工作流程或任务,H2O EvalGPT 都可以提供流行、开源、高性能大模型的详细排行榜,帮助你为项目选择最有效的模型完成具体任务。H2O EvalGPT 的主要特点相关性: H2O EvalGPT 根据行业特定数据评估流行的大语言模型,从而了解其在实际场景中的表现。透明度: H2O EvalGPT 通过开放的排行榜显示顶级模型评级和详细的评估指标,确保完全可重复性。速度和更新:全自动和响应式平台每周更新排行榜,显着减少评估模型提交所需的时间。范围:评估各种任务的模型,并随着时间的推移添加新的指标和基准,以全面了解模型的功能。交互性和人工一致性: H2O EvalGPT 提供手动运行 A/B 测试的能力,提供对模型评估的进一步见解,并确保自动评估和人工评估之间的一致性。

Open LLM Leaderboard
Open LLM Leaderboard 是最大的大模型和数据集社区 HuggingFace 推出的开源大模型排行榜单,基于 Eleuther AI Language Model Evaluation Harness(Eleuther AI语言模型评估框架)封装。由于社区在发布了大量的大型语言模型(LLM)和聊天机器人之后,往往伴随着对其性能的夸大宣传,很难过滤出开源社区取得的真正进展以及目前的最先进模型。因此,Hugging Face 使用 Eleuther AI语言模型评估框架对模型进行四个关键基准测试评估。这是一个统一的框架,用于在大量不同的评估任务上测试生成式语言模型。Open LLM Leaderboard 的评估基准AI2 推理挑战(25-shot):一组小学科学问题HellaSwag(10-shot):一个测试常识推理的任务,对人类来说很容易(大约95%),但对SOTA模型来说具有挑战性。MMLU(5-shot)- 用于测量文本模型的多任务准确性。测试涵盖57个任务,包括基本数学、美国历史、计算机科学、法律等等。TruthfulQA(0-shot)- 用于测量模型复制在在线常见虚假信息中的倾向性。

HELM
HELM全称Holistic Evaluation of Language Models(语言模型整体评估)是由斯坦福大学推出的大模型评测体系,该评测方法主要包括场景、适配、指标三个模块,每次评测的运行都需要指定一个场景,一个适配模型的提示,以及一个或多个指标。它评测主要覆盖的是英语,有7个指标,包括准确率、不确定性/校准、鲁棒性、公平性、偏差、毒性、推断效率;任务包括问答、信息检索、摘要、文本分类等。

OpenCompass
OpenCompass是由上海人工智能实验室(上海AI实验室)于2023年8月正式推出的大模型开放评测体系,通过完整开源可复现的评测框架,支持大语言模型、多模态模型各类模型的一站式评测,并定期公布评测结果榜单。

LLMEval3
LLMEval是由复旦大学NLP实验室推出的大模型评测基准,最新的LLMEval-3聚焦于专业知识能力评测,涵盖哲学、经济学、法学、教育学、文学、历史学、理学、工学、农学、医学、军事学、管理学、艺术学等教育部划定的13个学科门类、50余个二级学科,共计约20W道标准生成式问答题目。

C
C-Eval是一个适用于大语言模型的多层次多学科中文评估套件,由上海交通大学、清华大学和爱丁堡大学研究人员在2023年5月份联合推出,包含了13948个多项选择题,涵盖了52个不同的学科和四个难度级别,用以评测大模型中文理解能力。

PubMedQA
PubMedQA是一个生物医学研究问答数据集,包含了1K专家标注,61.2K 个未标注和 211.3K 个人工生成的QA实例,该排行榜目前已收录18个模型的医学测试得分。

FlagEval
FlagEval(天秤)由智源研究院将联合多个高校团队打造,是一种采用“能力—任务—指标”三维评测框架的大模型评测平台,旨在提供全面、细致的评测结果。该平台已提供了 30 多种能力、5 种任务和 4 大类指标,共 600 多个维度的全面评测,任务维度包括 22 个主客观评测数据集和 84433 道题目。
暂无评论...