Open LLM Leaderboard Open LLM Leaderboard 是最大的大模型和数据集社区 HuggingFace 推出的开源大模型排行榜单,基于 Eleuther AI Language Model Evaluation Harness(Eleuther AI语言模型评估框架)封装。由于社区在发布了大量的大型语言模型(LLM)和聊天机器人之后,往往伴随着对其性能的夸大宣传,很难过滤出开源社区取得的真正进展以及目前的最先进模型。因此,Hugging Face 使用 Eleuther AI语言模型评估框架对模型进行四个关键基准测试评估。这是一个统一的框架,用于在大量不同的评估任务上测试生成式语言模型。Open LLM Leaderboard 的评估基准AI2 推理挑战(25-shot):一组小学科学问题HellaSwag(10-shot):一个测试常识推理的任务,对人类来说很容易(大约95%),但对SOTA模型来说具有挑战性。MMLU(5-shot)- 用于测量文本模型的多任务准确性。测试涵盖57个任务,包括基本数学、美国历史、计算机科学、法律等等。TruthfulQA(0-shot)- 用于测量模型复制在在线常见虚假信息中的倾向性。
Watsonx.ai Watsonx.ai是IBM于5月9日发布的新一代企业级生成式人工智能和机器学习平台,Watsonx.ai将由基础模型驱动的新的生成性人工智能和传统的机器学习结合起来,成为一个跨越人工智能生命周期的强大平台。使用Watsonx.ai,开发人员可以轻松地训练、验证、调整和部署模型,只需用一小部分数据在短期时间内快速建立人工智能应用。预计Watsonx.ai将在7月全面上市。
Auto Auto-GPT是一个实验性开源应用程序,展示了GPT-4语言模型的真正潜力,GitHub上超10万人星标。该程序由 GPT-4 驱动,将LLM大语言模型思维链接在一起,以自主实现你设定的任何目标。作为GPT-4完全自主运行的首批例子之一,Auto-GPT突破了人工智能的极限,距离AGI通用人工智能又近了一步。大家注意甄别autogpt.net不是其官方网站,agpt.co才是。
Segment Anything(SAM): Meta最新推出的AI图像分割模型 Segment Anything Model(SAM)是Meta AI研究院最新推出的图像分割模型,该模型通过点或框等输入提示生成高质量的物体遮罩,并且可以用于为图像中的所有物体和对象生成遮罩。SAM模型在超过1100万张图像和11亿张掩模的数据集上进行了训练,并且在各种图像分割任务上具有强大的零样本性能。