AI训练模型

共 36 篇网址

排序

发布更新浏览点赞

LLaMA

Meta（Facebook）推出的AI大语言模型

03,3900

AI训练模型 # AI训练模型

DALL·E 3

DALL·E 3是OpenAI的文本到图像合成模型的最新版本，旨在使用文本描述生成图像，相比此前的版本，DALL·E 3进一步降低了提示词门槛，提高语义理解和细节优化。原生构建在ChatGPT上，可供所有ChatGPT Plus和企业用户使用，并在2023年秋季通过API和Labs提供。

03,3500

AI训练模型 # AI训练模型

GPT

GPT-4介绍GPT-4（Generative Pre-trained Transformer）是 OpenAI 开发的自然语言处理模型 GPT 家族中的第四个版本，该模型依靠强大的神经网络来理解和生成类似人类的语言。如何免费使用GPT-4？不开会员的6种方法目前官方版的GPT-4仅能通过ChatGPT Plus付费会员才能使用，免费版的ChatGPT无法使用最新的GPT-4，而Plus版本需要每个月花费20美元来订阅，并且国内付款非常困... AI教程 2年前 (2023) GPT-4 通过使用被称为「转换器（Transformer）」的特殊架构来帮助软件理解单词的含义以及它们在句子中的组合方式。通俗来讲，Transformer帮助计算机找出如何将所有的词以正确的顺序放在一起，使之有意义。之所以采用这样的方法，是因为该模型已经在一个巨大的数据集上进行了训练，其中包括来自不同来源的文本，如书籍、文章和网站。这种训练使 GPT-4 模型能够进行类似人类的对话，并产生看似有意义的回应。不过虽然 GPT-4 创造的文本和回应读起来像人，但它远远不是有意识的智能，离通用人工智能还有距离。GPT-4的工作原理GPT-4通过与其前身（GPT-3.5）相同的基本流程工作，但规模更大，以下是其主要的工作原理：Transformer架构： GPT-4是使用一种叫做「Transformer」的设计来构建的，这些转换器就像超级智能机器，能够理解一句话中哪些词是重要的，以及它们之间的关系。大规模的预训练： GPT-4从大量的文本中学习，如书籍、网站和文章，这样一来，它就能更好地理解语言模式、语法和事实。微调（Fine-tuning）：在从大量文本中学习后，GPT-4会在特定的任务中接受训练，如回答问题或理解文本中的情感，这有助于它在处理这些任务时变得更加出色。分词（Tokenization）： GPT-4将文本分解成更小的部分，称为「tokens」，这些token可以是单词或单词的一部分，这有助于它处理不同的语言并理解词语的含义。上下文窗口（Context window）： GPT-4有一个限制，即它可以一次查看多少个token。这个限制有助于它理解语境和单词之间的关系，但这也意味着它不一定能理解很长的句子或段落。概率分布和抽样：当GPT-4生成文本时，它根据模型认为每个词的可能性的大小来猜测下一个词。然后，它从这些猜测中挑选出一个词，使其够创造出多样化和有趣的句子。细粒度控制（Fine-grained control）： GPT-4可以通过使用特殊提示或调整其设置等技巧，引导它给出特定类型的答案或文本，以帮助从该模型中获得我们想要的结果。ChatGPT和GPT-4的区别ChatGPT 和 GPT-4 并不是同一回事，ChatGPT 是基于 GPT-3.5 和 GPT-4 模型的，专门为对话式人工智能应用而设计的，比如根据用户输入生成类似人类的文本回复。而GPT-4指的是GPT系列大语言模型的当前版本——驱动ChatGPT的引擎。ChatGPT提供的输出读起来更自然，GPT-4更强大，在输入/输出方面可以处理更多文本。GPT-4可以免费访问吗？这个问题的答案：是也不是。用户可以通过ChatGPT、New Bing等软件访问GPT-4，这些平台使用GPT-4来生成内容并与用户互动。然而，GPT-4只有在ChatGPT Plus付费计划下才能使用，或者作为开发者建立应用程序和服务的API。New Bing（新必应）可以每天免费有限次数使用GPT-4驱动的AI聊天，而独立用户在这些人工智能聊天机器人平台之外没有机会使用GPT-4。

03,2400

AI训练模型 # AI训练模型

Gemma

Gemma是什么Gemma是由谷歌DeepMind和谷歌的其他团队开发的一系列轻量级、先进的开放AI模型，基于与Gemini模型相同的技术，旨在帮助开发者和研究人员构建负责任的AI应用。Gemma模型系列包括两种权重规模的模型：Gemma 2B 和 Gemma 7B，提供预训练和指令微调版本，支持多种框架，如JAX、PyTorch和TensorFlow，以在不同设备上高效运行。6月28日，第二代模型Gemma 2已发布。Gemma的官方入口Gemma的官网主页：https://ai.google.dev/gemma?hl=zh-cnGemma的Hugging Face模型：https://huggingface.co/models?search=google/gemmaGemma的Kaggle模型地址：https://www.kaggle.com/models/google/gemma/code/Gemma的技术报告：https://storage.googleapis.com/deepmind-media/gemma/gemma-report.pdf官方PyTorch实现GitHub代码库：https://github.com/google/gemma_pytorchGemma的Google Colab运行地址：https://colab.research.google.com/github/google/generative-ai-docs/blob/main/site/en/gemma/docs/lora_tuning.ipynbGemma的主要特性轻量级架构：Gemma模型设计为轻量级，便于在多种计算环境中运行，包括个人电脑和工作站。开放模型：Gemma模型的权重是开放的，允许用户在遵守许可协议的情况下进行商业使用和分发。预训练与指令微调：提供预训练模型和经过指令微调的版本，后者通过人类反馈强化学习（RLHF）来确保模型行为的负责任性。多框架支持：Gemma支持JAX、PyTorch和TensorFlow等主要AI框架，通过Keras 3.0提供工具链，简化了推理和监督微调（SFT）过程。安全性与可靠性：在设计时，Gemma遵循Google的AI原则，使用自动化技术过滤训练数据中的敏感信息，并进行了一系列安全评估，包括红队测试和对抗性测试。性能优化：Gemma模型针对NVIDIA GPU和Google Cloud TPUs等硬件平台进行了优化，确保在不同设备上都能实现高性能。社区支持：Google提供了Kaggle、Colab等平台的免费资源，以及Google Cloud的积分，鼓励开发者和研究人员利用Gemma进行创新和研究。跨平台兼容性：Gemma模型可以在多种设备上运行，包括笔记本电脑、台式机、物联网设备和云端，支持广泛的AI功能。负责任的AI工具包：Google还发布了Responsible Generative AI Toolkit，帮助开发者构建安全和负责任的AI应用，包括安全分类器、调试工具和应用指南。Gemma的技术要点模型架构：Gemma基于Transformer解码器构建，这是当前自然语言处理（NLP）领域最先进的模型架构之一。采用了多头注意力机制，允许模型在处理文本时同时关注多个部分。此外，Gemma还使用了旋转位置嵌入（RoPE）来代替绝对位置嵌入，以减少模型大小并提高效率。GeGLU激活函数取代了标准的ReLU非线性激活，以及在每个Transformer子层的输入和输出都进行了归一化处理。训练基础设施：Gemma模型在Google的TPUv5e上进行训练，这是一种专为机器学习设计的高性能计算平台。通过在多个Pod（芯片集群）上进行模型分片和数据复制，Gemma能够高效地利用分布式计算资源。预训练数据：Gemma模型在大量英语数据上进行预训练（2B模型大约2万亿个token的数据上预训练，而7B模型则基于6万亿个token），这些数据主要来自网络文档、数学和代码。预训练数据经过过滤，以减少不想要或不安全的内容，同时确保数据的多样性和质量。微调策略：Gemma模型通过监督式微调（SFT）和基于人类反馈的强化学习（RLHF）进行微调。这包括使用合成的文本对和人类生成的提示响应对，以及基于人类偏好数据训练的奖励模型。安全性和责任：Gemma在设计时考虑了模型的安全性和责任，包括在预训练阶段对数据进行过滤，以减少敏感信息和有害内容的风险。此外，Gemma还通过了一系列的安全性评估，包括自动化基准测试和人类评估，以确保模型在实际应用中的安全性。性能评估：Gemma在多个领域进行了广泛的性能评估，包括问答、常识推理、数学和科学问题解答以及编码任务。Gemma模型与同样规模或更大规模的开放模型进行了性能对比，在MMLU、MBPP等18个基准测试中，有11个测试结果超越了Llama-13B或Mistral-7B等模型。开放性和可访问性：Gemma模型以开源的形式发布，提供了预训练和微调后的检查点，以及推理和部署的开源代码库。这使得研究人员和开发者能够访问和利用这些先进的语言模型，推动AI领域的创新。常见问题Gemma一词的含义是什么？Gemma在拉丁语中的意思是“宝石”。Gemma是开源的吗？Gemma是开源开放的大模型，用户可在Hugging Face查看和下载其模型。Gemma模型的参数量是多少？Gemma目前提供20亿和70亿参数量的模型，后续还会推出新的变体。

03,0700

AI训练模型 # AI训练模型

Llama 3

Llama 3是什么Llama 3是Meta公司最新开源推出的新一代大型语言模型（LLM），包含8B和70B两种参数规模的模型，标志着开源人工智能领域的又一重大进步。作为Llama系列的第三代产品，Llama 3不仅继承了前代模型的强大功能，还通过一系列创新和改进，提供了更高效、更可靠的AI解决方案，旨在通过先进的自然语言处理技术，支持广泛的应用场景，包括但不限于编程、问题解决、翻译和对话生成。Llama 3的系列型号Llama 3目前提供了两种型号，分别为8B（80亿参数）和70B（700亿参数）的版本，这两种型号旨在满足不同层次的应用需求，为用户提供了灵活性和选择的自由度。Llama-3-8B：8B参数模型，这是一个相对较小但高效的模型，拥有80亿个参数。专为需要快速推理和较少计算资源的应用场景设计，同时保持了较高的性能标准。Llama-3-70B：70B参数模型，这是一个更大规模的模型，拥有700亿个参数。它能够处理更复杂的任务，提供更深入的语言理解和生成能力，适合对性能要求更高的应用。后续，Llama 3 还会推出 400B 参数规模的模型，目前还在训练中。Meta 还表示等完成 Llama 3 的训练，还将发布一份详细的研究论文。Llama 3的官网入口官方项目主页：https://llama.meta.com/llama3/GitHub模型权重和代码：https://github.com/meta-llama/llama3/Hugging Face模型：https://huggingface.co/collections/meta-llama/meta-llama-3-66214712577ca38149ebb2b6Llama 3的改进地方参数规模：Llama 3提供了8B和70B两种参数规模的模型，相比Llama 2，参数数量的增加使得模型能够捕捉和学习更复杂的语言模式。训练数据集：Llama 3的训练数据集比Llama 2大了7倍，包含了超过15万亿个token，其中包括4倍的代码数据，这使得Llama 3在理解和生成代码方面更加出色。模型架构：Llama 3采用了更高效的分词器和分组查询注意力（Grouped Query Attention, GQA）技术，提高了模型的推理效率和处理长文本的能力。性能提升：通过改进的预训练和后训练过程，Llama 3在减少错误拒绝率、提升响应对齐和增加模型响应多样性方面取得了进步。安全性：引入了Llama Guard 2等新的信任和安全工具，以及Code Shield和CyberSec Eval 2，增强了模型的安全性和可靠性。多语言支持：Llama 3在预训练数据中加入了超过30种语言的高质量非英语数据，为未来的多语言能力打下了基础。推理和代码生成：Llama 3在推理、代码生成和指令跟随等方面展现了大幅提升的能力，使其在复杂任务处理上更加精准和高效。Llama 3的性能评估根据Meta的官方博客，经指令微调后的 Llama 3 8B 模型在MMLU、GPQA、HumanEval、GSM-8K、MATH等数据集基准测试中都优于同等级参数规模的模型（Gemma 7B、Mistral 7B），而微调后的 Llama 3 70B 在 MLLU、HumanEval、GSM-8K 等基准测试中也都优于同等规模的 Gemini Pro 1.5 和 Claude 3 Sonnet 模型。此外，Meta还开发了一套新的高质量人类评估集，包含 1800 个提示，涵盖 12 个关键用例：寻求建议、头脑风暴、分类、封闭式问答、编码、创意写作、提取、塑造角色/角色、开放式问答、推理、重写和总结。通过与Claude Sonnet、Mistral Medium和GPT-3.5等竞争模型的比较，人类评估者基于该评估集进行了偏好排名，结果显示Llama 3在真实世界场景中的性能非常出色，最低都有52.9%的胜出率。Llama 3的技术架构解码器架构：Llama 3采用了解码器（decoder-only）架构，这是一种标准的Transformer模型架构，主要用于处理自然语言生成任务。分词器和词汇量：Llama 3使用了具有128K个token的分词器，这使得模型能够更高效地编码语言，从而显著提升性能。分组查询注意力（Grouped Query Attention, GQA）：为了提高推理效率，Llama 3在8B和70B模型中都采用了GQA技术。这种技术通过将注意力机制中的查询分组，减少了计算量，同时保持了模型的性能。长序列处理：Llama 3支持长达8,192个token的序列，使用掩码（masking）技术确保自注意力（self-attention）不会跨越文档边界，这对于处理长文本尤其重要。预训练数据集：Llama 3在超过15TB的token上进行了预训练，这个数据集不仅规模巨大，而且质量高，为模型提供了丰富的语言信息。多语言数据：为了支持多语言能力，Llama 3的预训练数据集包含了超过5%的非英语高质量数据，涵盖了超过30种语言。数据过滤和质量控制：Llama 3的开发团队开发了一系列数据过滤管道，包括启发式过滤器、NSFW（不适合工作场所）过滤器、语义去重方法和文本分类器，以确保训练数据的高质量。扩展性和并行化：Llama 3的训练过程中采用了数据并行化、模型并行化和流水线并行化，这些技术的应用使得模型能够高效地在大量GPU上进行训练。指令微调（Instruction Fine-Tuning）：Llama 3在预训练模型的基础上，通过指令微调进一步提升了模型在特定任务上的表现，如对话和编程任务。如何使用Llama 3开发人员Meta已在GitHub、Hugging Face、Replicate上开源其Llama 3模型，开发人员可使用torchtune等工具对Llama 3进行定制和微调，以适应特定的用例和需求，感兴趣的开发者可以查看官方的入门指南并前往下载部署。官方模型下载：https://llama.meta.com/llama-downloadsGitHub地址：https://github.com/meta-llama/llama3/Hugging Face地址：https://huggingface.co/meta-llamaReplicate地址：https://replicate.com/meta普通用户不懂技术的普通用户想要体验Llama 3可以通过以下方式使用：访问Meta最新推出的Meta AI聊天助手进行体验（注：Meta.AI会锁区，只有部分国家可使用）访问Replicate提供的Chat with Llama进行体验https://llama3.replicate.dev/使用Hugging Chat（https://huggingface.co/chat/），可手动将模型切换至Llama 3

03,1700

AI训练模型 # AI训练模型

Ollama

Ollama是一个用于在本地计算机上运行大型语言模型的命令行工具，允许用户下载并本地运行像Llama 2、Code Llama和其他模型，并支持自定义和创建自己的模型。该免费开源的项目，目前支持macOS和Linux操作系统，未来还将支持Windows系统。此外，Ollama还提供了官方的Docker镜像，由此使用Docker容器部署大型语言模型变得更加简单，确保所有与这些模型的交互都在本地进行，无需将私有数据发送到第三方服务。Ollama在macOS和Linux上支持GPU加速，并提供了简单的命令行界面（CLI）以及用于与应用程序交互的REST API。该工具对于需要在本地机器上运行和实验大语言模型的开发人员或研究人员来说特别有用，无需依赖外部云服务。Ollama安装包获取获取Ollama安装包，扫码关注回复：OllamaOllama支持的模型Ollma提供一个模型库，用户可以自行选择安装想要运行的模型，目前支持40+的模型，还在持续增加中，以下是可以下载的开源模型示例：模型参数大小文件大小下载运行命令DeepSeek-R11.5B、7B、14B、32B等12-320GBollama run deepseek-r1Neural Chat7B4.1GBollama run neural-chatStarling7B4.1GBollama run starling-lmMistral7B4.1GBollama run mistralLlama 27B3.8GBollama run llama2Code Llama7B3.8GBollama run codellamaLlama 2 Uncensored7B3.8GBollama run llama2-uncensoredLlama 2 13B13B7.3GBollama run llama2:13bLlama 2 70B70B39GBollama run llama2:70bOrca Mini3B1.9GBollama run orca-miniVicuna7B3.8GBollama run vicuna

03,1700

AI训练模型 # AI训练模型