CMMLU

8个月前发布 3,370 0 0

CMMLU是一个综合性的中文评估基准，专门用于评估语言模型在中文语境下的知识和推理能力，涵盖了从基础学科到高级专业水平的67个主题。它包括：需要计算和推理的自然科学，需要知识的人文科学和社会科学，以及需要生活常识的中国驾驶规则等。此外，CMMLU中的许多任务具有中国特定的答案，可能在其他地区或语言中并不普遍适用。因此是一个完全中国化的中文...

收录时间：

2025-04-23

打开网站手机查看

AI模型评测 # AI模型评测

CMMLU

CMMLU

CMMLU是一个综合性的中文评估基准，专门用于评估语言模型在中文语境下的知识和推理能力，涵盖了从基础学科到高级专业水平的67个主题。它包括：需要计算和推理的自然科学，需要知识的人文科学和社会科学，以及需要生活常识的中国驾驶规则等。此外，CMMLU中的许多任务具有中国特定的答案，可能在其他地区或语言中并不普遍适用。因此是一个完全中国化的中文测试基准。

数据统计

数据评估

CMMLU浏览人数已经达到3,370，如你需要查询该站的相关权重信息，可以点击"5118数据""爱站数据""Chinaz数据"进入；以目前的网站数据参考，建议大家请以爱站数据为准，更多网站价值评估因素如：CMMLU的访问速度、搜索引擎收录以及索引量、用户体验等；当然要评估一个站的价值，最主要还是需要根据您自身的需求以及需要，一些确切的数据则需要找CMMLU的站长进行洽谈提供。如该站的IP、PV、跳出率等！

特别声明

本站智能信息网提供的CMMLU都来源于网络，不保证外部链接的准确性和完整性，同时，对于该外部链接的指向，不由智能信息网实际控制，在2025年4月23日下午2:53收录时，该网页上的内容，都属于合规合法，后期网页的内容如出现违规，可以直接联系网站管理员进行删除，智能信息网不承担任何责任。

智能信息网致力于优质、实用的网络站点资源收集与分享！本文地址https://agixxw.com/sites/2432.html转载请注明

相关导航

C

C-Eval是一个适用于大语言模型的多层次多学科中文评估套件，由上海交通大学、清华大学和爱丁堡大学研究人员在2023年5月份联合推出，包含了13948个多项选择题，涵盖了52个不同的学科和四个难度级别，用以评测大模型中文理解能力。

HELM

HELM全称Holistic Evaluation of Language Models（语言模型整体评估）是由斯坦福大学推出的大模型评测体系，该评测方法主要包括场景、适配、指标三个模块，每次评测的运行都需要指定一个场景，一个适配模型的提示，以及一个或多个指标。它评测主要覆盖的是英语，有7个指标，包括准确率、不确定性/校准、鲁棒性、公平性、偏差、毒性、推断效率；任务包括问答、信息检索、摘要、文本分类等。

OpenCompass

OpenCompass是由上海人工智能实验室（上海AI实验室）于2023年8月正式推出的大模型开放评测体系，通过完整开源可复现的评测框架，支持大语言模型、多模态模型各类模型的一站式评测，并定期公布评测结果榜单。

FlagEval

FlagEval（天秤）由智源研究院将联合多个高校团队打造，是一种采用“能力—任务—指标”三维评测框架的大模型评测平台，旨在提供全面、细致的评测结果。该平台已提供了 30 多种能力、5 种任务和 4 大类指标，共 600 多个维度的全面评测，任务维度包括 22 个主客观评测数据集和 84433 道题目。

SuperCLUE

SuperCLUE 是一个中文通用大模型综合性评测基准，从三个不同的维度评价模型的能力：基础能力、专业能力和中文特性能力。其中基础能力能力包括: 语义理解、对话、逻辑推理、角色模拟、代码、生成与创作等10项能力。专业能力包括: 包括了中学、大学与专业考试，涵盖了从数学、物理、地理到社会科学等50多项能力。中文特性能力: 针对有中文特点的任务，包括了中文成语、诗歌、文学、字形等10项多种能力。

Open LLM Leaderboard

Open LLM Leaderboard 是最大的大模型和数据集社区 HuggingFace 推出的开源大模型排行榜单，基于 Eleuther AI Language Model Evaluation Harness（Eleuther AI语言模型评估框架）封装。由于社区在发布了大量的大型语言模型（LLM）和聊天机器人之后，往往伴随着对其性能的夸大宣传，很难过滤出开源社区取得的真正进展以及目前的最先进模型。因此，Hugging Face 使用 Eleuther AI语言模型评估框架对模型进行四个关键基准测试评估。这是一个统一的框架，用于在大量不同的评估任务上测试生成式语言模型。Open LLM Leaderboard 的评估基准AI2 推理挑战（25-shot）：一组小学科学问题HellaSwag（10-shot）：一个测试常识推理的任务，对人类来说很容易（大约95%），但对SOTA模型来说具有挑战性。MMLU（5-shot）- 用于测量文本模型的多任务准确性。测试涵盖57个任务，包括基本数学、美国历史、计算机科学、法律等等。TruthfulQA（0-shot）- 用于测量模型复制在在线常见虚假信息中的倾向性。

H2O EvalGPT

H2O EvalGPT 是 H2O.ai 用于评估和比较 LLM 大模型的开放工具，它提供了一个平台来了解模型在大量任务和基准测试中的性能。无论你是想使用大模型自动化工作流程或任务，H2O EvalGPT 都可以提供流行、开源、高性能大模型的详细排行榜，帮助你为项目选择最有效的模型完成具体任务。H2O EvalGPT 的主要特点相关性： H2O EvalGPT 根据行业特定数据评估流行的大语言模型，从而了解其在实际场景中的表现。透明度： H2O EvalGPT 通过开放的排行榜显示顶级模型评级和详细的评估指标，确保完全可重复性。速度和更新：全自动和响应式平台每周更新排行榜，显着减少评估模型提交所需的时间。范围：评估各种任务的模型，并随着时间的推移添加新的指标和基准，以全面了解模型的功能。交互性和人工一致性： H2O EvalGPT 提供手动运行 A/B 测试的能力，提供对模型评估的进一步见解，并确保自动评估和人工评估之间的一致性。

LLMEval3

LLMEval是由复旦大学NLP实验室推出的大模型评测基准，最新的LLMEval-3聚焦于专业知识能力评测，涵盖哲学、经济学、法学、教育学、文学、历史学、理学、工学、农学、医学、军事学、管理学、艺术学等教育部划定的13个学科门类、50余个二级学科，共计约20W道标准生成式问答题目。

暂无评论

暂无评论...