Open LLM Leaderboard

23小时前更新 235 0 0

Open LLM Leaderboard 是最大的大模型和数据集社区 HuggingFace 推出的开源大模型排行榜单,基于 Eleuther AI Language Model Evaluation Harness(Eleuther AI语言模型评估框架)封装。由于社区在发布了大量的大型语言模型(LLM)和聊天机器人之后,往往伴随着对其...

收录时间:
2025-04-23
Open LLM LeaderboardOpen LLM Leaderboard

Open LLM Leaderboard 是最大的大模型和数据集社区 HuggingFace 推出的开源大模型排行榜单,基于 Eleuther AI Language Model Evaluation Harness(Eleuther AI语言模型评估框架)封装。

由于社区在发布了大量的大型语言模型(LLM)和聊天机器人之后,往往伴随着对其性能的夸大宣传,很难过滤出开源社区取得的真正进展以及目前的最先进模型。因此,Hugging Face 使用 Eleuther AI语言模型评估框架对模型进行四个关键基准测试评估。这是一个统一的框架,用于在大量不同的评估任务上测试生成式语言模型。

Open LLM Leaderboard 的评估基准

  • AI2 推理挑战(25-shot):一组小学科学问题
  • HellaSwag(10-shot):一个测试常识推理的任务,对人类来说很容易(大约95%),但对SOTA模型来说具有挑战性。
  • MMLU(5-shot)- 用于测量文本模型的多任务准确性。测试涵盖57个任务,包括基本数学、美国历史、计算机科学、法律等等。
  • TruthfulQA(0-shot)- 用于测量模型复制在在线常见虚假信息中的倾向性。

数据统计

数据评估

Open LLM Leaderboard浏览人数已经达到235,如你需要查询该站的相关权重信息,可以点击"5118数据""爱站数据""Chinaz数据"进入;以目前的网站数据参考,建议大家请以爱站数据为准,更多网站价值评估因素如:Open LLM Leaderboard的访问速度、搜索引擎收录以及索引量、用户体验等;当然要评估一个站的价值,最主要还是需要根据您自身的需求以及需要,一些确切的数据则需要找Open LLM Leaderboard的站长进行洽谈提供。如该站的IP、PV、跳出率等!

关于Open LLM Leaderboard特别声明

本站智能信息网提供的Open LLM Leaderboard都来源于网络,不保证外部链接的准确性和完整性,同时,对于该外部链接的指向,不由智能信息网实际控制,在2025年4月23日 下午2:53收录时,该网页上的内容,都属于合规合法,后期网页的内容如出现违规,可以直接联系网站管理员进行删除,智能信息网不承担任何责任。

相关导航

MMBench

MMBench

MMBench是一个多模态基准测试,由上海人工智能实验室、南洋理工大学、香港中文大学、新加坡国立大学和浙江大学的研究人员推出。该体系开发了一个综合评估流程,从感知到认知能力逐级细分评估,覆盖20项细粒度能力,从互联网与权威基准数据集采集约3000道单项选择题。打破常规一问一答基于规则匹配提取选项进行评测,循环打乱选项验证输出结果的一致性,基于ChatGPT精准匹配模型回复至选项。MMBench的特点和优势基于感知与推理,将评估维度逐级细分。约 3000 道单项选择题,覆盖目标检测、文字识别、动作识别、图像理解、关系推理等 20 个细粒度评估维度更具鲁棒性的评估方式。相同单选问题循环选项提问,模型输出全部指向同一答案认定为通过,相比传统1次性通过评估 top-1 准确率平均下降 10% ~ 20%。最大程度减少各种噪声因素对评测结果的影响,保证了结果的可复现性。更可靠的模型输出提取方法。基于 ChatGPT 匹配模型输出与选项,即使模型未按照指令输出也可准确匹配至最合理选项
HELM

HELM

HELM全称Holistic Evaluation of Language Models(语言模型整体评估)是由斯坦福大学推出的大模型评测体系,该评测方法主要包括场景、适配、指标三个模块,每次评测的运行都需要指定一个场景,一个适配模型的提示,以及一个或多个指标。它评测主要覆盖的是英语,有7个指标,包括准确率、不确定性/校准、鲁棒性、公平性、偏差、毒性、推断效率;任务包括问答、信息检索、摘要、文本分类等。
SuperCLUE

SuperCLUE

SuperCLUE 是一个中文通用大模型综合性评测基准,从三个不同的维度评价模型的能力:基础能力、专业能力和中文特性能力。其中基础能力能力包括: 语义理解、对话、逻辑推理、角色模拟、代码、生成与创作等10项能力。专业能力包括: 包括了中学、大学与专业考试,涵盖了从数学、物理、地理到社会科学等50多项能力。中文特性能力: 针对有中文特点的任务,包括了中文成语、诗歌、文学、字形等10项多种能力。
模力方舟

模力方舟

模力方舟是什么模力方舟(Gitee AI)是面向开发者、终端用户与产业场景的 AI 应用共创平台。依托 Gitee 全球第二大开发者平台的 DevOps 能力和开源的开发者服务体系,提供高可用的模型服务能力、Serverless 应用构建能力与 API 组合能力。平台汇聚超 70 款主流大模型,覆盖多种任务类型及行业场景,支持 Serverless 部署与私有化交付。AI 模型广场具备极简接入、高性能推理、灵活扩展等亮点,可助力开发者快速构建 AI 应用。平台提供 AI 开发者教育、AI 应用共创、模型定制等服务,是连接创作者与用户、AI 能力与实际场景的共创平台,推动 AI 应用生态建设。模力方舟的主要功能AI 模型广场:提供标准化模型接口,支持私有化部署与 Serverless 调用。可视化应用构建:图形化配置界面,零代码生成应用并上线。算力广泛兼容:适配昇腾、天数、沐曦等主流国产 AI 芯片,同时支持英伟达等国际主流硬件环境。推理成本显著降低:Serverless 架构显著降低开发与部署负担,推理成本最高可降 90%。AI 应用共创:提供覆盖 AI 应用“开发 → 上架 → 展示 → 变现”全流程服务,助力开发者高效实现从创意到产品、从产品到用户的完整闭环。共创 AI 应用生态,链接创意、用户与算力价值链。模型定制:提供包括微调、强化学习、参数插拔等在内的模型定制服务,助力企业客户快速打造专属 AI 能力,适配业务场景,高效落地应用。AI 开发者教育:通过系列 AI 技术活动,包括前沿技术分享、场景化实战训练营等,为开发者打造学习与交流空间。同时为企业提供展示技术能力、产品方案的合作窗口,共建开放共创的 AI 生态。稳定高可用的服务通道:API Token 独立绑定,支持高并发调用。智能推理缓存机制:内置多级缓存与模型复用机制,提升响应效率。多类型模型支持:兼容 Diffusion、多语言、多模态、RAG 等主流模型。LoRA 动态加载:支持运行时热插拔轻量化模型参数,快速实现个性化微调。能力组合和多模型链路:支持多 API 编排与工作流式调用,构建个性化 AI 应用。私有化部署:私有化部署能力覆盖推理服务、Serverless 平台及完整 MaaS 模型管理平台,支持以软硬一体机形式落地企业级场景,提升安全性与部署效率。如何使用模力方舟访问官网:访问模力方舟(Gitee AI)的官方网站。注册账号:使用邮箱或手机号注册账号,也可以通过Gitee账号直接登录。完善信息:根据提示完善个人或企业信息,使用平台的各项服务。浏览模型:在AI模型广场中,查看平台提供的70多款主流大模型,涵盖文本生成、图像生成、语义理解、多模态等任务类型。选择模型:根据你的需求,选择合适的模型进行应用开发。例如,如果你需要开发文本生成类应用,可以选择擅长文本生成的模型。使用API服务获取API Key:在平台中创建应用并获取API Key,这是调用模型接口的必要凭证。阅读文档:查看所选模型的API文档,了解接口的参数、返回值等详细信息。调用API:使用API Key,通过HTTP请求调用模型接口,将你的输入数据发送给模型,并获取模型的输出结果。可视化应用构建进入应用构建界面:在平台中找到可视化应用构建工具。配置应用:通过图形化界面进行应用配置,无需编写代码。你可以设置应用的名称、描述、输入输出等基本信息。连接模型:将所选的AI模型与应用进行连接,配置模型的调用参数。生成应用:完成配置后,点击生成应用按钮,平台将自动生成应用并上线。模力方舟的应用场景智能客服和助理:基于企业知识库、产品文档、使用手册等已有数据训练企业定制化的私有模型,可接入语音模型。政务服务:提供适用于政务工作的综合解决方案,如智能业务办理解决方案、云端法庭解决方案等。电商直播行业:提供智能化内容生成,识别用户兴趣和情感,提供有针对性的营销内容。内容创作:生成高质量的文本、图像、视频等内容,用于广告、媒体、创意等行业。数据分析:通过自然语言处理和数据分析技术,为企业提供智能决策支持。智能办公:自动化办公流程,如文档生成、会议记录整理、任务管理等,提高工作效率。
Chatbot Arena

Chatbot Arena

Chatbot Arena是一个大型语言模型 (LLM) 的基准平台,以众包方式进行匿名随机对战,该项目方LMSYS Org是由加州大学伯克利分校、加州大学圣地亚哥分校和卡内基梅隆大学合作创立的研究组织。通过demo体验地址进入对战平台,输入自己感兴趣的问题,提交问题后,匿名模型会两两对战,分别生成相关答案,需要用户对答案做出评判,从4个评判选项中选择一个:模型A更好、模型B更好、平手、都很差。支持多轮对话。最终使用Elo评分系统对大模型的能力进行综合评估。(可以自己指定模型看效果,但不计入最终排名情况)。
AGI

AGI

AGI-Eval是什么AGI-Eval是上海交通大学、同济大学、华东师范大学、DataWhale等高校和机构合作发布的大模型评测社区,旨在打造公正、可信、科学、全面的评测生态,以“评测助力,让AI成为人类更好的伙伴”为使命。专门设计用于评估基础模型在人类认知和问题解决相关任务中的一般能力。AGI-Eval通过这些考试来评估模型的性能,与人类决策和认知能力直接相关。衡量模型在人类认知能力方面的表现,有助于了解在现实生活中的适用性和有效性。AGI-Eval的主要功能大模型榜单:基于通用评测方案,提供业内大语言模型的能力得分排名榜单。榜单涵盖综合评测和各能力项评测。数据透明、权威,帮助您深入了解每个模型的优缺点,定期更新榜单,确保您掌握最新信息,找到最适合的模型解决方案。AGI-Eval人机评测比赛:深入模型评测的世界,与大模型协作助力技术发展构建人机协同评测方案评测集:公开学术:行业公开学术评测集,支持用户下载使用。官方评测集:官方自建评测集,涉及多领域的模型评测。用户自建评测集:平台支持用户上传个人评测集,共建开源社区。完美实现自动与人工评测相结合;并且还有高校大牛私有数据集托管Data Studio:用户活跃度高:3W+众包用户平台,实现更多高质量真实数据回收。数据类型多样:具备多维度,多领域的专业数据。数据收集多元化:如单条数据,扩写数据,Arena数据等方式,满足不同评测需求。完备的审核机制:机审+人审,多重审核机制,保证数据质量。AGI-Eval的官网地址官网地址:agi-eval.cnAGI-Eval的应用场景模型性能评估:AGI-Eval提供了完整数据集、基线系统评估和详细评估方法,是衡量AI模型综合能力的权威工具。语言评估:AGI-Eval整合了中英文双语任务,为AI模型的语言能力提供了全面的评估平台。NLP算法开发:开发者可以用AGI-Eval来测试和优化文本生成模型的效果,提高生成文本的质量。科研实验:学者可以用AGI-Eval作为评估新方法性能的工具,推动自然语言处理(NLP)领域的研究进步。

暂无评论

none
暂无评论...