• 首页 首页 icon
  • 工具库 工具库 icon
    • IP查询 IP查询 icon
  • 内容库 内容库 icon
    • 快讯库 快讯库 icon
    • 精品库 精品库 icon
    • 问答库 问答库 icon
  • 更多 更多 icon
    • 服务条款 服务条款 icon

ChatGPT 的平替们开源的大语言模型推荐

武飞扬头像
开源服务指南
帮助1

学新通

这些开源项目都是在语言模型领域中具有竞争力的选择。它们具备相似的关键特性和核心优势,如高质量、多功能、支持多种场景等。这些项目还通过引入新特性和改进来提升性能,例如更长的上下文长度和更高效的推理速度。无论是处理对话、分类问题还是进行代码生成,这些开源项目都展现出了非常强大且灵活可扩展的能力。无论您是开发者还是研究人员,这些项目都值得一试。

THUDM/ChatGLM-6B

Stars: 32.2k License: Apache-2.0

ChatGLM-6B 是一个开源的、支持中英双语的对话语言模型,基于 General Language Model (GLM) 架构,具有 62 亿参数。

该项目主要功能包括:

  • 支持中英双语:能够处理中文和英文问答和对话。
  • 模型量化技术:用户可以在消费级显卡上进行本地部署,并且最低只需 6GB 显存 (INT4 量化级别)。

该项目的关键特性和核心优势包括:

  • 强大性能:ChatGLM2-6B 在多个数据集上取得了较高水平,在 MMLU 上提升了 23%,CEval 提升 33%,GSM8K 提升 571% ,BBH 提升 60%。相比初代模型,在同尺寸开源模型中具有竞争力。
  • 更长的上下文长度:基于 FlashAttention 技术,将基座模型的上下文长度从 2K 扩展到 32K,并在对话阶段使用 8K 的上下文长度训练,允许更多轮次的对话。
  • 高效推理速度与低显存消耗:使用 Multi-query Attention 技术实现更快速、内存消耗更小

THUDM/ChatGLM2-6B

Stars: 3.9k License: NOASSERTION

ChatGLM2-6B 是一款开源的中英双语对话模型,是 ChatGLM-6B 的第二代版本。该项目在保留了初代模型优秀特性的基础上,引入了许多新特性和改进。

以下是 ChatGLM2-6B 的几个主要优势和功能:

  • 更强大的性能:通过升级底层模型并进行预训练与人类偏好对齐训练,在各种数据集上取得显著提升。
  • 更长的上下文:利用 FlashAttention 技术将上下文长度从原来的2K扩展到32K,并使用8K长度进行对话阶段训练。
  • 更高效的推理:采用 Multi-Query Attention 技术,提高生成速度和降低显存占用。

此外,ChatGLM2-6B 还具有完全开放权重、商业使用授权等诸多优点。它不仅在评测结果方面表现出色(如 MMLU 和 C-Eval 上),还可以处理数学问题、知识推理以及长篇文章解析等任务。

这个项目结合最先进技术实现了非常强大且灵活可扩展的对话模型。它在性能、上下文长度和推理效率方面都有显著提升,使其成为同尺寸开源模型中具备竞争力的选择。

Stability-AI/StableLM

Stars: 15.0k License: Apache-2.0

StableLM 是一个稳定的 AI 语言模型项目。

该项目具有以下核心优势和关键特性:

  • 高质量:StableLM 使用了大规模数据集进行训练,以提供高度准确且流畅的自然语言处理能力。
  • 多种参数设置:该项目提供多个不同大小 (3B、7B 等) 的预训练模型,可以根据需求选择适合的版本。
  • 开源可用:所有 StableLM 模型都在 Hugging Face 上托管,并通过 Checkpoint 进行下载。用户可以方便地获取并使用这些开源资源。

databrickslabs/dolly

Stars: 10.5k License: Apache-2.0

Dolly 是 Databricks 开发的一个大型语言模型,它是在 Databricks 机器学习平台上训练得到的。该项目基于 pythia-12b 并使用了约 15,000 条指令/回应微调记录进行训练 (由来自 Databricks 的员工生成),涵盖了从 InstructGPT 论文中提出的能力领域,包括头脑风暴、分类、封闭问答、生成、信息抽取和开放式问答等方面。虽然 dolly-v2-12b 不属于最先进模型,但其展现出了非常高质量且具有特色的指令跟随行为。

以下是该项目关键特性和核心优势:

  • 引导:可以根据给定的指示执行任务。
  • 多功能:适用于多种场景如思考问题、分类问题以及各类 QA 等。
  • 指令遵循度高:在按照指示完成任务的领域表现出了意外的良好。

bigcode-project/starcoder

Stars: 5.8k License: Apache-2.0

StarCoder 是一个基于源代码和自然语言文本训练的语言模型 (LM)。它的训练数据包括 80 多种不同编程语言以及从 GitHub 问题、提交记录和笔记中提取出来的文本。这个项目展示了该 LM 的能力概览。

以下是 StarCoder 项目的关键特性和核心优势:

  • 可用于完成函数实现或推断一行代码中后续字符
  • 基于 🤗's transformers 库,可以进行代码生成
  • 支持快速启动,并列举了安装步骤、使用方法等详细说明
  • 提供精调功能,可在具体下游任务上应用
  • 通过 PEFT 和 bitsandbytes 简化并高效地进行精调操作
  • 支持 Stack Exchange 数据集 fine-tuning,在指令方面表现良好
  • 评估工具 BigCode-Evaluation-Harness 对其衍生产品也有很好支持

请注意:在使用之前需要接受协议,并确保已登录 Hugging Face hub。此外,请参考 Readme 中给出的硬件要求信息。

baichuan-inc/Baichuan-7B

Stars: 4.7k License: Apache-2.0

Baichuan-7B 是一个由百川智能开发的大规模预训练语言模型。该项目基于 Transformer 结构,使用了 70 亿参数,在约 1.2 万亿个 tokens 上进行了训练。这个开源项目支持中英双语,并且具有 4096 长度的上下文窗口。

以下是 Baichuan-7B 的关键特性和核心优势:

  • 在标准的中文和英文 benchmark (C-Eval/MMLU) 上取得同尺寸更好效果
  • 支持多领域学科评测数据集 C-Eval 和 Gaokao
  • 具备认知与问题解决相关任务能力评估 AGIEval 数据集

baichuan-inc/Baichuan-13B

Stars: 1.7k License: NOASSERTION

Baichuan-13B 是由百川智能开发的一个大规模语言模型,拥有 130 亿参数。该项目包含预训练和对齐两个版本,并具备以下特点:

  • 更大尺寸、更多数据:Baichuan-13B 在 Baichuan-7B 的基础上进一步扩展了参数量到 130 亿,并在高质量的语料上进行了 1.4 万亿 tokens 的训练,是当前同尺寸下训练数据最丰富的开源 13B 模型之一。
  • 同时开源预训练和对齐模型:除了适用于开发者使用的预训练模型外,还提供带有强大对话功能的对齐模型 (Baichuan-13B-Chat),可直接部署并简单调用。
  • 更高效推理:为满足广泛用户需求,在本次发布中同时提供 int8 和 int4 版本以降低资源门槛,可在消费级显卡等设备上运行而几乎不损失性能。

这篇好文章是转载于:学新通技术网

  • 版权申明: 本站部分内容来自互联网,仅供学习及演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,请提供相关证据及您的身份证明,我们将在收到邮件后48小时内删除。
  • 本站站名: 学新通技术网
  • 本文地址: /boutique/detail/tanhfkgkef
系列文章
更多 icon
同类精品
更多 icon
继续加载