BLOOM

2个月前更新 1,215 0 0

HuggingFace推出的大型语言模型(LLM)

收录时间:
2025-04-23

HuggingFace推出的大型语言模型(LLM)

数据统计

数据评估

BLOOM浏览人数已经达到1,215,如你需要查询该站的相关权重信息,可以点击"5118数据""爱站数据""Chinaz数据"进入;以目前的网站数据参考,建议大家请以爱站数据为准,更多网站价值评估因素如:BLOOM的访问速度、搜索引擎收录以及索引量、用户体验等;当然要评估一个站的价值,最主要还是需要根据您自身的需求以及需要,一些确切的数据则需要找BLOOM的站长进行洽谈提供。如该站的IP、PV、跳出率等!

关于BLOOM特别声明

本站智能信息网提供的BLOOM都来源于网络,不保证外部链接的准确性和完整性,同时,对于该外部链接的指向,不由智能信息网实际控制,在2025年4月23日 下午2:52收录时,该网页上的内容,都属于合规合法,后期网页的内容如出现违规,可以直接联系网站管理员进行删除,智能信息网不承担任何责任。

相关导航

悟道

悟道

2021年6月,北京智源研究院(BAAI)推出了悟道1.0的后续版本悟道2.0,作为中国第一个超大规模智能模型系统。悟道是一个语言模型,旨在在人类层面的思维上超越 OpenAI 的 GPT-3 和谷歌的 LaMDA。经过4.9TB的图像和文本训练,并在9个基准上超过了最先进(SOTA)水平,悟道比任何同行都更接近于实现通用人工智能(AGI)和人类水平的思维。悟道接受了4.9 TB高质量英文和中文图像和文本的训练:1.2TB中文文本数据2.5TB中文图形数据1.2TB英文文本数据悟道是基于开源的 MoE 系统 FastMoE 进行训练的。MoE是一种机器学习技术,其工作原理如下:将预测建模任务划分为子任务,针对每个子任务训练专家(学习者)模型,开发门控模型,该门控模型基于要预测的输入来学习咨询哪个专家,并组合预测。FastMoE使悟道能够并行咨询不同的专家模型,并切换到预测结果最好的模型。例如,如果输入是英文文本,悟道将使用预测模型,该模型可以在英文文本中生成回应。
PaLM 2

PaLM 2

PaLM(Pathways Language Model) 是一种大型语言模型,即 LLM,类似于OpenAI 创建的 GPT 系列或Meta 的 LLaMA 系列模型。谷歌于 2022 年 4 月首次宣布推出 PaLM,超过了5400亿个训练参数。与其他 LLM 一样,PaLM 是一个灵活的系统,可以执行各种文本生成和编辑任务。例如,你可以将 PaLM 训练成像 ChatGPT 这样的对话式聊天机器人,或者你可以将它用于诸如总结文本甚至编写代码等任务。(这类似于谷歌今天也为其 Workspace 应用程序(如 Google Docs 和 Gmail)宣布的功能。)在 2023 谷歌 I/O 大会上,谷歌 CEO 皮查伊宣布推出对标 GPT-4 的大模型 PaLM 2,并正式发布预览版本,改进了数学、代码、推理、多语言翻译和自然语言生成能力。谷歌将为 PaLM 2 提供四种不同大小的版本,从最小到最大:Gecko、Otter、Bison 和 Unicorn。Gecko 非常轻巧,可以在移动设备上工作,并且速度足够快,即使在离线时也能在设备上运行出色的交互式应用程序。这种多功能性意味着可以对 PaLM 2 进行微调,以更多方式支持整个类别的产品,从而帮助更多人。PaLM 2的特性PaLM 2 是谷歌的下一代大语言模型,具有改进的多语言、推理和编码能力。多语言性: PaLM 2 在多语言文本方面接受了更多的训练,涵盖 100 多种语言。这显著提高了它在多种语言中理解、生成和翻译细微差别文本(包括成语、诗歌和谜语)的能力,这是一个很难解决的问题。PaLM 2 还通过了“精通”级别的高级语言能力考试。推理: PaLM 2 的广泛数据集包括科学论文和包含数学表达式的网页。因此,它展示了逻辑、常识推理和数学方面的改进能力。编程: PaLM 2 在大量公开可用的源代码数据集上进行了预训练。这意味着它擅长 Python 和 JavaScript 等流行的编程语言,但也可以生成 Prolog、Fortran 和 Verilog 等语言的专用代码。
Llama 3

Llama 3

Llama 3是什么Llama 3是Meta公司最新开源推出的新一代大型语言模型(LLM),包含8B和70B两种参数规模的模型,标志着开源人工智能领域的又一重大进步。作为Llama系列的第三代产品,Llama 3不仅继承了前代模型的强大功能,还通过一系列创新和改进,提供了更高效、更可靠的AI解决方案,旨在通过先进的自然语言处理技术,支持广泛的应用场景,包括但不限于编程、问题解决、翻译和对话生成。Llama 3的系列型号Llama 3目前提供了两种型号,分别为8B(80亿参数)和70B(700亿参数)的版本,这两种型号旨在满足不同层次的应用需求,为用户提供了灵活性和选择的自由度。Llama-3-8B:8B参数模型,这是一个相对较小但高效的模型,拥有80亿个参数。专为需要快速推理和较少计算资源的应用场景设计,同时保持了较高的性能标准。Llama-3-70B:70B参数模型,这是一个更大规模的模型,拥有700亿个参数。它能够处理更复杂的任务,提供更深入的语言理解和生成能力,适合对性能要求更高的应用。后续,Llama 3 还会推出 400B 参数规模的模型,目前还在训练中。Meta 还表示等完成 Llama 3 的训练,还将发布一份详细的研究论文。Llama 3的官网入口官方项目主页:https://llama.meta.com/llama3/GitHub模型权重和代码:https://github.com/meta-llama/llama3/Hugging Face模型:https://huggingface.co/collections/meta-llama/meta-llama-3-66214712577ca38149ebb2b6Llama 3的改进地方参数规模:Llama 3提供了8B和70B两种参数规模的模型,相比Llama 2,参数数量的增加使得模型能够捕捉和学习更复杂的语言模式。训练数据集:Llama 3的训练数据集比Llama 2大了7倍,包含了超过15万亿个token,其中包括4倍的代码数据,这使得Llama 3在理解和生成代码方面更加出色。模型架构:Llama 3采用了更高效的分词器和分组查询注意力(Grouped Query Attention, GQA)技术,提高了模型的推理效率和处理长文本的能力。性能提升:通过改进的预训练和后训练过程,Llama 3在减少错误拒绝率、提升响应对齐和增加模型响应多样性方面取得了进步。安全性:引入了Llama Guard 2等新的信任和安全工具,以及Code Shield和CyberSec Eval 2,增强了模型的安全性和可靠性。多语言支持:Llama 3在预训练数据中加入了超过30种语言的高质量非英语数据,为未来的多语言能力打下了基础。推理和代码生成:Llama 3在推理、代码生成和指令跟随等方面展现了大幅提升的能力,使其在复杂任务处理上更加精准和高效。Llama 3的性能评估根据Meta的官方博客,经指令微调后的 Llama 3 8B 模型在MMLU、GPQA、HumanEval、GSM-8K、MATH等数据集基准测试中都优于同等级参数规模的模型(Gemma 7B、Mistral 7B),而微调后的 Llama 3 70B 在 MLLU、HumanEval、GSM-8K 等基准测试中也都优于同等规模的 Gemini Pro 1.5 和 Claude 3 Sonnet 模型。此外,Meta还开发了一套新的高质量人类评估集,包含 1800 个提示,涵盖 12 个关键用例:寻求建议、头脑风暴、分类、封闭式问答、编码、创意写作、提取、塑造角色/角色、开放式问答、推理、重写和总结。通过与Claude Sonnet、Mistral Medium和GPT-3.5等竞争模型的比较,人类评估者基于该评估集进行了偏好排名,结果显示Llama 3在真实世界场景中的性能非常出色,最低都有52.9%的胜出率。Llama 3的技术架构解码器架构:Llama 3采用了解码器(decoder-only)架构,这是一种标准的Transformer模型架构,主要用于处理自然语言生成任务。分词器和词汇量:Llama 3使用了具有128K个token的分词器,这使得模型能够更高效地编码语言,从而显著提升性能。分组查询注意力(Grouped Query Attention, GQA):为了提高推理效率,Llama 3在8B和70B模型中都采用了GQA技术。这种技术通过将注意力机制中的查询分组,减少了计算量,同时保持了模型的性能。长序列处理:Llama 3支持长达8,192个token的序列,使用掩码(masking)技术确保自注意力(self-attention)不会跨越文档边界,这对于处理长文本尤其重要。预训练数据集:Llama 3在超过15TB的token上进行了预训练,这个数据集不仅规模巨大,而且质量高,为模型提供了丰富的语言信息。多语言数据:为了支持多语言能力,Llama 3的预训练数据集包含了超过5%的非英语高质量数据,涵盖了超过30种语言。数据过滤和质量控制:Llama 3的开发团队开发了一系列数据过滤管道,包括启发式过滤器、NSFW(不适合工作场所)过滤器、语义去重方法和文本分类器,以确保训练数据的高质量。扩展性和并行化:Llama 3的训练过程中采用了数据并行化、模型并行化和流水线并行化,这些技术的应用使得模型能够高效地在大量GPU上进行训练。指令微调(Instruction Fine-Tuning):Llama 3在预训练模型的基础上,通过指令微调进一步提升了模型在特定任务上的表现,如对话和编程任务。如何使用Llama 3开发人员Meta已在GitHub、Hugging Face、Replicate上开源其Llama 3模型,开发人员可使用torchtune等工具对Llama 3进行定制和微调,以适应特定的用例和需求,感兴趣的开发者可以查看官方的入门指南并前往下载部署。官方模型下载:https://llama.meta.com/llama-downloadsGitHub地址:https://github.com/meta-llama/llama3/Hugging Face地址:https://huggingface.co/meta-llamaReplicate地址:https://replicate.com/meta普通用户不懂技术的普通用户想要体验Llama 3可以通过以下方式使用:访问Meta最新推出的Meta AI聊天助手进行体验(注:Meta.AI会锁区,只有部分国家可使用)访问Replicate提供的Chat with Llama进行体验https://llama3.replicate.dev/使用Hugging Chat(https://huggingface.co/chat/),可手动将模型切换至Llama 3
模力方舟

模力方舟

模力方舟是什么模力方舟(Gitee AI)是面向开发者、终端用户与产业场景的 AI 应用共创平台。依托 Gitee 全球第二大开发者平台的 DevOps 能力和开源的开发者服务体系,提供高可用的模型服务能力、Serverless 应用构建能力与 API 组合能力。平台汇聚超 70 款主流大模型,覆盖多种任务类型及行业场景,支持 Serverless 部署与私有化交付。AI 模型广场具备极简接入、高性能推理、灵活扩展等亮点,可助力开发者快速构建 AI 应用。平台提供 AI 开发者教育、AI 应用共创、模型定制等服务,是连接创作者与用户、AI 能力与实际场景的共创平台,推动 AI 应用生态建设。模力方舟的主要功能AI 模型广场:提供标准化模型接口,支持私有化部署与 Serverless 调用。可视化应用构建:图形化配置界面,零代码生成应用并上线。算力广泛兼容:适配昇腾、天数、沐曦等主流国产 AI 芯片,同时支持英伟达等国际主流硬件环境。推理成本显著降低:Serverless 架构显著降低开发与部署负担,推理成本最高可降 90%。AI 应用共创:提供覆盖 AI 应用“开发 → 上架 → 展示 → 变现”全流程服务,助力开发者高效实现从创意到产品、从产品到用户的完整闭环。共创 AI 应用生态,链接创意、用户与算力价值链。模型定制:提供包括微调、强化学习、参数插拔等在内的模型定制服务,助力企业客户快速打造专属 AI 能力,适配业务场景,高效落地应用。AI 开发者教育:通过系列 AI 技术活动,包括前沿技术分享、场景化实战训练营等,为开发者打造学习与交流空间。同时为企业提供展示技术能力、产品方案的合作窗口,共建开放共创的 AI 生态。稳定高可用的服务通道:API Token 独立绑定,支持高并发调用。智能推理缓存机制:内置多级缓存与模型复用机制,提升响应效率。多类型模型支持:兼容 Diffusion、多语言、多模态、RAG 等主流模型。LoRA 动态加载:支持运行时热插拔轻量化模型参数,快速实现个性化微调。能力组合和多模型链路:支持多 API 编排与工作流式调用,构建个性化 AI 应用。私有化部署:私有化部署能力覆盖推理服务、Serverless 平台及完整 MaaS 模型管理平台,支持以软硬一体机形式落地企业级场景,提升安全性与部署效率。如何使用模力方舟访问官网:访问模力方舟(Gitee AI)的官方网站。注册账号:使用邮箱或手机号注册账号,也可以通过Gitee账号直接登录。完善信息:根据提示完善个人或企业信息,使用平台的各项服务。浏览模型:在AI模型广场中,查看平台提供的70多款主流大模型,涵盖文本生成、图像生成、语义理解、多模态等任务类型。选择模型:根据你的需求,选择合适的模型进行应用开发。例如,如果你需要开发文本生成类应用,可以选择擅长文本生成的模型。使用API服务获取API Key:在平台中创建应用并获取API Key,这是调用模型接口的必要凭证。阅读文档:查看所选模型的API文档,了解接口的参数、返回值等详细信息。调用API:使用API Key,通过HTTP请求调用模型接口,将你的输入数据发送给模型,并获取模型的输出结果。可视化应用构建进入应用构建界面:在平台中找到可视化应用构建工具。配置应用:通过图形化界面进行应用配置,无需编写代码。你可以设置应用的名称、描述、输入输出等基本信息。连接模型:将所选的AI模型与应用进行连接,配置模型的调用参数。生成应用:完成配置后,点击生成应用按钮,平台将自动生成应用并上线。模力方舟的应用场景智能客服和助理:基于企业知识库、产品文档、使用手册等已有数据训练企业定制化的私有模型,可接入语音模型。政务服务:提供适用于政务工作的综合解决方案,如智能业务办理解决方案、云端法庭解决方案等。电商直播行业:提供智能化内容生成,识别用户兴趣和情感,提供有针对性的营销内容。内容创作:生成高质量的文本、图像、视频等内容,用于广告、媒体、创意等行业。数据分析:通过自然语言处理和数据分析技术,为企业提供智能决策支持。智能办公:自动化办公流程,如文档生成、会议记录整理、任务管理等,提高工作效率。
MiracleVision 奇想智能

MiracleVision 奇想智能

MiracleVision奇想智能是什么MiracleVision奇想智能是由美图秀秀公司推出的自研AI视觉大模型,不仅具备高度的美学导向和图像处理能力,还能够广泛地应用于多个行业,提高工作流效率。同时,它还提供了简单易用的AI视觉创作工具,使用户能够快速进行图像的创作和编辑。最新的MiracleVision 4.0支持AI图片生成、AI设计排版和AI视频生成等能力。MiracleVision奇想智能的主要能力AI图片生成,支持文生图和图生图,输入文字或上传图像即可创作图片,提供多种风格、参数调整、图片尺寸、精准画面控制等AI智能设计,包括矢量图形、文字特效、智能分层和智能排版,可以满足AI设计的基础需求AI视频生成,提供文生视频、图生视频、视频运镜、视频生视频四大功能,让奇思妙想动起来视觉模型商店,平台提供丰富的视觉模型,从经典复古到现代潮流、从超现实幻想到极简抽象,用户可以任意选择创造惊艳的视觉效果MiracleVision奇想智能的适用行业电商行业:从涂鸦生成线稿、线稿上色、商品图、模特试穿图,再到电商物料输出,全程可通过MiracleVision实现。游戏制作:包揽场景设计、角色设计、道具设计、UI图标、宣发物料等流程,拓宽设计师想象空间的同时助力游戏行业降本。影视行业:充分满足概念场景设计、分镜设计、人物造型、道具设计、宣发物料的效果要求,极大提升影视行业设计环节的效率。广告设计:覆盖创意脑暴、创意深化、平面排版、多尺寸延展、线下投放预览的全工作流,助力客户在广告物料制作环节提效。动漫卡通:打通了概念设计、故事板生成、线稿上色、动漫补帧、视频转动漫等流程,支持创意到物料成品的快速落地。

暂无评论

none
暂无评论...