Open LLM Leaderboard

3个月前更新 1,915 0 0

Open LLM Leaderboard 是最大的大模型和数据集社区 HuggingFace 推出的开源大模型排行榜单，基于 Eleuther AI Language Model Evaluation Harness（Eleuther AI语言模型评估框架）封装。由于社区在发布了大量的大型语言模型（LLM）和聊天机器人之后，往往伴随着对其...

收录时间：

2025-04-23

打开网站手机查看

Open LLM Leaderboard

打开网站

Open LLM Leaderboard 是最大的大模型和数据集社区 HuggingFace 推出的开源大模型排行榜单，基于 Eleuther AI Language Model Evaluation Harness（Eleuther AI语言模型评估框架）封装。

由于社区在发布了大量的大型语言模型（LLM）和聊天机器人之后，往往伴随着对其性能的夸大宣传，很难过滤出开源社区取得的真正进展以及目前的最先进模型。因此，Hugging Face 使用 Eleuther AI语言模型评估框架对模型进行四个关键基准测试评估。这是一个统一的框架，用于在大量不同的评估任务上测试生成式语言模型。

Open LLM Leaderboard 的评估基准

AI2 推理挑战（25-shot）：一组小学科学问题
HellaSwag（10-shot）：一个测试常识推理的任务，对人类来说很容易（大约95%），但对SOTA模型来说具有挑战性。
MMLU（5-shot）- 用于测量文本模型的多任务准确性。测试涵盖57个任务，包括基本数学、美国历史、计算机科学、法律等等。
TruthfulQA（0-shot）- 用于测量模型复制在在线常见虚假信息中的倾向性。

数据统计

数据评估

Open LLM Leaderboard浏览人数已经达到1,915，如你需要查询该站的相关权重信息，可以点击"5118数据""爱站数据""Chinaz数据"进入；以目前的网站数据参考，建议大家请以爱站数据为准，更多网站价值评估因素如：Open LLM Leaderboard的访问速度、搜索引擎收录以及索引量、用户体验等；当然要评估一个站的价值，最主要还是需要根据您自身的需求以及需要，一些确切的数据则需要找Open LLM Leaderboard的站长进行洽谈提供。如该站的IP、PV、跳出率等！

特别声明

本站智能信息网提供的Open LLM Leaderboard都来源于网络，不保证外部链接的准确性和完整性，同时，对于该外部链接的指向，不由智能信息网实际控制，在2025年4月23日下午2:53收录时，该网页上的内容，都属于合规合法，后期网页的内容如出现违规，可以直接联系网站管理员进行删除，智能信息网不承担任何责任。

智能信息网致力于优质、实用的网络站点资源收集与分享！本文地址https://agixxw.com/sites/2426.html转载请注明

暂无评论

暂无评论...

Open LLM Leaderboard

Open LLM Leaderboard 的评估基准

数据统计

数据评估

相关导航

模力方舟

OpenCompass

AGI

LLMEval3

CMMLU

H2O EvalGPT

Chatbot Arena

SuperCLUE

暂无评论

热门资讯

Open LLM Leaderboard

Open LLM Leaderboard 的评估基准

数据统计

数据评估

相关导航

模力方舟

OpenCompass

AGI

LLMEval3

CMMLU

H2O EvalGPT

Chatbot Arena

SuperCLUE

暂无评论

标签云

热门资讯