MCPcopy
hub / github.com/QwenLM/Qwen

github.com/QwenLM/Qwen @main sqlite

repository ↗ · DeepWiki ↗
230 symbols 874 edges 38 files 5 documented · 2%
README
<a href="https://github.com/QwenLM/Qwen/raw/main/README_CN.md">中文</a>&nbsp | &nbsp<a href="https://github.com/QwenLM/Qwen/raw/main/README.md">English</a>&nbsp | &nbsp<a href="https://github.com/QwenLM/Qwen/raw/main/README_JA.md">日本語</a>&nbsp | &nbspFrançais | &nbsp<a href="https://github.com/QwenLM/Qwen/raw/main/README_ES.md">Español</a>












<img src="https://qianwen-res.oss-cn-beijing.aliyuncs.com/logo_qwen.jpg" width="400"/>










    🤗 <a href="https://huggingface.co/Qwen">Hugging Face</a>&nbsp&nbsp | &nbsp&nbsp🤖 <a href="https://modelscope.cn/organization/qwen">ModelScope</a>&nbsp&nbsp | &nbsp&nbsp 📑 <a href="https://arxiv.org/abs/2309.16609">Paper</a> &nbsp&nbsp | &nbsp&nbsp🖥️ <a href="https://modelscope.cn/studios/qwen/Qwen-72B-Chat-Demo/summary">Demo</a>

WeChat (微信)&nbsp&nbsp | &nbsp&nbspDiscord&nbsp&nbsp | &nbsp&nbspAPI

[!Important] Qwen2 est là ! Vous êtes invité à suivre QwenLM/Qwen2 et à partager vos expériences là-bas.

Ce repo (QwenLM/Qwen) n'est plus activement maintenu, en raison de différences substantielles dans le code source.

Qwen-Chat Qwen-Chat (Int4) Qwen-Chat (Int8) Qwen
1.8B 🤖 🤗 🤖 🤗 🤖 🤗 🤖 🤗
7B 🤖 🤗 🤖 🤗 🤖 🤗 🤖 🤗
14B 🤖 🤗 🤖 🤗 🤖 🤗 🤖 🤗
72B 🤖 🤗 🤖 🤗 🤖 🤗 🤖 🤗

Nous ouvrons notre série Qwen, qui comprend désormais Qwen, les modèles de langue de base, à savoir Qwen-7B et Qwen-14B, ainsi que Qwen-Chat, les modèles de chat, à savoir Qwen-7B-Chat et Qwen-14B-Chat. Les liens se trouvent dans le tableau ci-dessus. Cliquez dessus et consultez les fiches des modèles. Nous publions également le rapport technique. Cliquez sur le lien du document et consultez-le !

En bref, nous disposons de modèles linguistiques solides, qui ont été pré-entraîné de manière stable pour 3 000 milliards de tokens de données multilingues avec une large couverture de domaines, de langues (en particulier le chinois et l'anglais), etc. Ils sont capables d'atteindre des performances compétitives sur des ensembles de données de référence. En outre, nous disposons de modèles de chat alignés sur les préférences humaines basées sur SFT et RLHF (pas encore publiés), qui sont capables de chatter, de créer du contenu, d'extraire des informations, de résumer, de traduire, de coder, de résoudre des problèmes mathématiques, etc. et d'utiliser des outils, de jouer le rôle d'agents ou même code interpreter, etc.

Modèle Date de sortie Longueur maximale Amélioration de l'invite du système # de tokens pré-formés Utilisation minimale de la mémoire du GPU pour Finetuning (Q-Lora) Utilisation minimale du GPU pour générer 2048 jetons (Int4) Utilisation des outils
Qwen-1.8B 23.11.30 32K 2.2T 5.8GB 2.9GB
Qwen-7B 23.08.03 32K 2.4T 11.5GB 8.2GB
Qwen-14B 23.09.25 8K 3.0T 18.7GB 13.0GB
Qwen-72B 23.11.30 32K 3.0T 61.4GB 48.9GB

Dans la repo, vous pouvez trouver:

  • Comment utiliser Qwen, et profiter de l'inférence simple.
  • Détails sur les modèles de quantization, y compris GPTQ et la quantization de KV cache.
  • Statistiques sur les performances de l'inférence, y compris la vitesse et la mémoire.
  • Tutoriels sur le finetuning, y compris le finetuning de paramètres complets, LoRA, et Q-LoRA.
  • Instructions de déploiement, avec l'exemple de vLLM et FastChat.
  • Instructions sur la création de démos, y compris WebUI, démo CLI, etc.
  • Introduction au service API de DashScope, ainsi que les instructions pour construire une API de type OpenAI pour votre modèle.
  • Informations sur Qwen pour l'utilisation d'outils, d'agents et code interpreter.
  • Statistiques de l'évaluation de la compréhension du contexte long.
  • Contrat de licence.
  • ...

En outre, si vous rencontrez des problèmes, consultez d'abord la FAQ pour obtenir de l'aide. Vous vous sentez toujours en difficulté ? N'hésitez pas à nous envoyer des questions (de préférence en anglais pour que plus de gens puissent vous comprendre) ! Si vous souhaitez nous aider, envoyez-nous des demandes d'extension sans hésitation ! Nous sommes toujours enthousiastes à propos des relations publiques !

Vous voulez discuter avec nous ou prendre un café avec nous ? Bienvenue sur notre Discord ou WeChat !

Nouvelles et mises à jour

  • 2023.11.30 🔥 Nous publions Qwen-72B et Qwen-72B-Chat, qui sont entraînés sur des tokens 3T et prennent en charge 32k contextes, ainsi que Qwen-1.8B et Qwen-1.8B-Chat, sur ModelScope et Hugging Face. Nous avons également renforcé les capacités de l'invite système du Qwen-72B-Chat et du Qwen-1.8B-Chat, voir la documentation d'exemple. De plus, nous supportons l'inférence sur Ascend 910 et Hygon DCU. Consultez ascend-support et dcu-support pour plus de détails.
  • 2023.10.17 Nous publions le modèle quantifié Int8 Qwen-7B-Chat-Int8 et Qwen-14B-Chat-Int8.
  • 2023.9.25 🔥 Nous publions Qwen-14B et Qwen-14B-Chat sur ModelScope et Hugging Face, ainsi que qwen.cpp et Qwen-Agent. Les codes et les poids de Qwen-7B et Qwen-7B-Chat ont également été mis à jour. S'IL VOUS PLAÎT, TIREZ LA DERNIÈRE VERSION!
    • Par rapport à Qwen-7B (original), Qwen-7B utilise davantage de jetons d'entraînement, passant de 2,2 à 2,4T de jetons, tandis que la longueur du contexte passe de 2048 à 8192. La connaissance du chinois et la capacité de codage de Qwen-7B ont été encore améliorées.
  • 2023.9.12 Nous prenons désormais en charge le finetuning sur les modèles Qwen-7B, y compris le finetuning de tous les paramètres, LoRA et Q-LoRA.
  • 2023.8.21 Nous publions le modèle quantifié Int4 pour Qwen-7B-Chat, Qwen-7B-Chat-Int4, qui nécessite de faibles coûts de mémoire mais permet d'améliorer la vitesse d'inférence. En outre, il n'y a pas de dégradation significative des performances lors de l'évaluation de référence.
  • 2023.8.3 Nous publions Qwen-7B et Qwen-7B-Chat sur ModelScope et Hugging Face. Nous fournissons également un mémo technique pour plus de détails sur le modèle, y compris les détails de l'entraînement et les performances du modèle.

Performance

Les modèles Qwen surpassent les modèles de base de taille similaire sur une série de données de référence, par exemple MMLU, C-Eval, GSM8K, MATH, HumanEval, MBPP, BBH, etc., qui évaluent les capacités des modèles sur la compréhension du langage naturel, la résolution de problèmes mathématiques, le codage, etc. Qwen-72B obtient de meilleures performances que LLaMA2-70B dans toutes les tâches et surpasse GPT-3.5 dans 7 tâches sur 10.

<img src="https://github.com/QwenLM/Qwen/raw/main/assets/radar_72b.jpg" width=600px/>
Model MMLU C-Eval GSM8K MATH HumanEval MBPP BBH CMMLU
5-shot 5-shot 8-shot 4-shot 0-shot 3-shot 3-shot 5-shot
LLaMA2-7B 46.8 32.5 16.7 3.3 12.8 20.8 38.2 31.8
LLaMA2-13B 55.0 41.4 29.6 5.0 18.9 30.3 45.6 38.4
LLaMA2-34B 62.6 - 42.2 6.2 22.6 33.0 44.1 -
ChatGLM2-6B 47.9 51.7 32.4 6.5 - - 33.7 -
InternLM-7B 51.0 53.4 31.2 6.3 10.4 14.0 37.0 51.8
InternLM-20B 62.1 58.8 52.6 7.9 25.6 35.6 52.5 59.0
Baichuan2-7B 54.7 56.3 24.6 5.6 18.3 24.2 41.6 57.1
Baichuan2-13B 59.5 59.0 52.8 10.1 17.1 30.2 49.0 62.0
Yi-34B 76.3 81.8 67.9 15.9 26.2 38.2 66.4 82.6
XVERSE-65B 70.8 68.6 60.3 - 26.3 - - -
Qwen-1.8B 45.3 56.1 32.3 2.3 15.2 14.2 22.3 52.1
Qwen-7B 58.2 63.5 51.7 11.6 29.9 31.6 45.0 62.2
Qwen-14B 66.3 72.1 61.3 24.8 32.3 40.8 53.4 71.0
Qwen-72B 77.4 83.3 78.9 35.2 35.4 52.2 67.7 83.6

Pour tous les modèles comparés, nous indiquons les meilleurs scores entre leurs résultats officiels et [OpenCompass] (https://opencompass.org.cn/leaderboard-llm).

Pour plus de résultats expérimentaux (performances détaillées des modèles sur d'autres ensembles de données de référence) et de détails, veuillez vous référer à notre rapport technique en cliquant ici.

Besoins

  • python 3.8 et plus
  • pytorch 1.12 et plus, 2.0 et plus sont recommandés
  • transformers 4.32 et plus
  • CUDA 11.4 et plus sont recommandés (pour les utilisateurs de GPU, les utilisateurs de flash, etc.)

Démarrage Rapide

Ci-dessous, nous fournissons des exemples simples pour montrer comment utiliser Qwen-Chat avec 🤖 ModelScope et 🤗 Transformers.

Vous pouvez utiliser nos images docker pré-construites pour sauter la plupart des étapes de configuration de l'environnement, voir la section "Utiliser des images docker pré-construites" pour plus de détails.

Si vous n'u

Core symbols most depended-on inside this repo

eval
called by 19
dcu-support/package/fastllm_pytools/llm.py
call_qwen
called by 12
examples/function_call_examples.py
chat
called by 8
examples/auto_comments.py
run_in_subprocess
called by 7
recipes/tests/utils.py
_parse_text
called by 6
web_demo.py
get_prompt
called by 6
dcu-support/package/fastllm_pytools/llm.py
_dump_json
called by 4
openai_api.py
_tokenize_str
called by 4
recipes/inference/vllm/vllm_wrapper.py

Shape

Function 169
Method 37
Class 21
Route 3

Languages

Python100%

Modules by API surface

dcu-support/package/fastllm_pytools/llm.py30 symbols
openai_api.py25 symbols
finetune.py19 symbols
eval/evaluate_plugin.py14 symbols
examples/auto_comments.py13 symbols
examples/add_merges.py13 symbols
web_demo.py11 symbols
eval/evaluate_chat_ceval.py9 symbols
eval/evaluate_mmlu.py8 symbols
eval/evaluate_chat_mmlu.py8 symbols
eval/evaluate_cmmlu.py7 symbols
eval/evaluate_ceval.py7 symbols

Dependencies from manifests, versioned

streamlit1.24.0 · 1×
transformers4.32.0 · 1×
transformers_stream_generator0.0.4 · 1×
urllib31.26.16 · 1×

For agents

$ claude mcp add Qwen \
  -- python -m otcore.mcp_server <graph>

⬇ download graph artifact