hub / github.com/QwenLM/Qwen

github.com/QwenLM/Qwen @main sqlite

230 symbols 874 edges 38 files 5 documented · 2%

README

<a href="https://github.com/QwenLM/Qwen/raw/main/README_CN.md">中文</a>&nbsp ｜ &nbsp<a href="https://github.com/QwenLM/Qwen/raw/main/README.md">English</a>&nbsp ｜ &nbsp<a href="https://github.com/QwenLM/Qwen/raw/main/README_JA.md">日本語</a>&nbsp ｜ &nbspFrançais ｜ &nbsp<a href="https://github.com/QwenLM/Qwen/raw/main/README_ES.md">Español</a>












<img src="https://qianwen-res.oss-cn-beijing.aliyuncs.com/logo_qwen.jpg" width="400"/>










    🤗 <a href="https://huggingface.co/Qwen">Hugging Face</a>&nbsp&nbsp | &nbsp&nbsp🤖 <a href="https://modelscope.cn/organization/qwen">ModelScope</a>&nbsp&nbsp | &nbsp&nbsp 📑 <a href="https://arxiv.org/abs/2309.16609">Paper</a> &nbsp&nbsp ｜ &nbsp&nbsp🖥️ <a href="https://modelscope.cn/studios/qwen/Qwen-72B-Chat-Demo/summary">Demo</a>

WeChat (微信)&nbsp&nbsp | &nbsp&nbspDiscord&nbsp&nbsp ｜ &nbsp&nbspAPI

[!Important] Qwen2 est là ! Vous êtes invité à suivre QwenLM/Qwen2 et à partager vos expériences là-bas.

Ce repo (QwenLM/Qwen) n'est plus activement maintenu, en raison de différences substantielles dans le code source.

	Qwen-Chat	Qwen-Chat (Int4)	Qwen-Chat (Int8)	Qwen
1.8B	🤖 🤗	🤖 🤗	🤖 🤗	🤖 🤗
7B	🤖 🤗	🤖 🤗	🤖 🤗	🤖 🤗
14B	🤖 🤗	🤖 🤗	🤖 🤗	🤖 🤗
72B	🤖 🤗	🤖 🤗	🤖 🤗	🤖 🤗

Nous ouvrons notre série Qwen, qui comprend désormais Qwen, les modèles de langue de base, à savoir Qwen-7B et Qwen-14B, ainsi que Qwen-Chat, les modèles de chat, à savoir Qwen-7B-Chat et Qwen-14B-Chat. Les liens se trouvent dans le tableau ci-dessus. Cliquez dessus et consultez les fiches des modèles. Nous publions également le rapport technique. Cliquez sur le lien du document et consultez-le !

En bref, nous disposons de modèles linguistiques solides, qui ont été pré-entraîné de manière stable pour 3 000 milliards de tokens de données multilingues avec une large couverture de domaines, de langues (en particulier le chinois et l'anglais), etc. Ils sont capables d'atteindre des performances compétitives sur des ensembles de données de référence. En outre, nous disposons de modèles de chat alignés sur les préférences humaines basées sur SFT et RLHF (pas encore publiés), qui sont capables de chatter, de créer du contenu, d'extraire des informations, de résumer, de traduire, de coder, de résoudre des problèmes mathématiques, etc. et d'utiliser des outils, de jouer le rôle d'agents ou même code interpreter, etc.

Modèle	Date de sortie	Longueur maximale	Amélioration de l'invite du système	# de tokens pré-formés	Utilisation minimale de la mémoire du GPU pour Finetuning (Q-Lora)	Utilisation minimale du GPU pour générer 2048 jetons (Int4)	Utilisation des outils
Qwen-1.8B	23.11.30	32K	✅	2.2T	5.8GB	2.9GB	✅
Qwen-7B	23.08.03	32K	❎	2.4T	11.5GB	8.2GB	✅
Qwen-14B	23.09.25	8K	❎	3.0T	18.7GB	13.0GB	✅
Qwen-72B	23.11.30	32K	✅	3.0T	61.4GB	48.9GB	✅

Dans la repo, vous pouvez trouver:

Comment utiliser Qwen, et profiter de l'inférence simple.
Détails sur les modèles de quantization, y compris GPTQ et la quantization de KV cache.
Statistiques sur les performances de l'inférence, y compris la vitesse et la mémoire.
Tutoriels sur le finetuning, y compris le finetuning de paramètres complets, LoRA, et Q-LoRA.
Instructions de déploiement, avec l'exemple de vLLM et FastChat.
Instructions sur la création de démos, y compris WebUI, démo CLI, etc.
Introduction au service API de DashScope, ainsi que les instructions pour construire une API de type OpenAI pour votre modèle.
Informations sur Qwen pour l'utilisation d'outils, d'agents et code interpreter.
Statistiques de l'évaluation de la compréhension du contexte long.
Contrat de licence.
...

En outre, si vous rencontrez des problèmes, consultez d'abord la FAQ pour obtenir de l'aide. Vous vous sentez toujours en difficulté ? N'hésitez pas à nous envoyer des questions (de préférence en anglais pour que plus de gens puissent vous comprendre) ! Si vous souhaitez nous aider, envoyez-nous des demandes d'extension sans hésitation ! Nous sommes toujours enthousiastes à propos des relations publiques !

Vous voulez discuter avec nous ou prendre un café avec nous ? Bienvenue sur notre Discord ou WeChat !

Nouvelles et mises à jour

2023.11.30 🔥 Nous publions Qwen-72B et Qwen-72B-Chat, qui sont entraînés sur des tokens 3T et prennent en charge 32k contextes, ainsi que Qwen-1.8B et Qwen-1.8B-Chat, sur ModelScope et Hugging Face. Nous avons également renforcé les capacités de l'invite système du Qwen-72B-Chat et du Qwen-1.8B-Chat, voir la documentation d'exemple. De plus, nous supportons l'inférence sur Ascend 910 et Hygon DCU. Consultez ascend-support et dcu-support pour plus de détails.
2023.10.17 Nous publions le modèle quantifié Int8 Qwen-7B-Chat-Int8 et Qwen-14B-Chat-Int8.
2023.9.25 🔥 Nous publions Qwen-14B et Qwen-14B-Chat sur ModelScope et Hugging Face, ainsi que qwen.cpp et Qwen-Agent. Les codes et les poids de Qwen-7B et Qwen-7B-Chat ont également été mis à jour. S'IL VOUS PLAÎT, TIREZ LA DERNIÈRE VERSION!
- Par rapport à Qwen-7B (original), Qwen-7B utilise davantage de jetons d'entraînement, passant de 2,2 à 2,4T de jetons, tandis que la longueur du contexte passe de 2048 à 8192. La connaissance du chinois et la capacité de codage de Qwen-7B ont été encore améliorées.
2023.9.12 Nous prenons désormais en charge le finetuning sur les modèles Qwen-7B, y compris le finetuning de tous les paramètres, LoRA et Q-LoRA.
2023.8.21 Nous publions le modèle quantifié Int4 pour Qwen-7B-Chat, Qwen-7B-Chat-Int4, qui nécessite de faibles coûts de mémoire mais permet d'améliorer la vitesse d'inférence. En outre, il n'y a pas de dégradation significative des performances lors de l'évaluation de référence.
2023.8.3 Nous publions Qwen-7B et Qwen-7B-Chat sur ModelScope et Hugging Face. Nous fournissons également un mémo technique pour plus de détails sur le modèle, y compris les détails de l'entraînement et les performances du modèle.

Performance

Les modèles Qwen surpassent les modèles de base de taille similaire sur une série de données de référence, par exemple MMLU, C-Eval, GSM8K, MATH, HumanEval, MBPP, BBH, etc., qui évaluent les capacités des modèles sur la compréhension du langage naturel, la résolution de problèmes mathématiques, le codage, etc. Qwen-72B obtient de meilleures performances que LLaMA2-70B dans toutes les tâches et surpasse GPT-3.5 dans 7 tâches sur 10.

<img src="https://github.com/QwenLM/Qwen/raw/main/assets/radar_72b.jpg" width=600px/>

Model	MMLU	C-Eval	GSM8K	MATH	HumanEval	MBPP	BBH	CMMLU
	5-shot	5-shot	8-shot	4-shot	0-shot	3-shot	3-shot	5-shot
LLaMA2-7B	46.8	32.5	16.7	3.3	12.8	20.8	38.2	31.8
LLaMA2-13B	55.0	41.4	29.6	5.0	18.9	30.3	45.6	38.4
LLaMA2-34B	62.6	-	42.2	6.2	22.6	33.0	44.1	-
ChatGLM2-6B	47.9	51.7	32.4	6.5	-	-	33.7	-
InternLM-7B	51.0	53.4	31.2	6.3	10.4	14.0	37.0	51.8
InternLM-20B	62.1	58.8	52.6	7.9	25.6	35.6	52.5	59.0
Baichuan2-7B	54.7	56.3	24.6	5.6	18.3	24.2	41.6	57.1
Baichuan2-13B	59.5	59.0	52.8	10.1	17.1	30.2	49.0	62.0
Yi-34B	76.3	81.8	67.9	15.9	26.2	38.2	66.4	82.6
XVERSE-65B	70.8	68.6	60.3	-	26.3	-	-	-
Qwen-1.8B	45.3	56.1	32.3	2.3	15.2	14.2	22.3	52.1
Qwen-7B	58.2	63.5	51.7	11.6	29.9	31.6	45.0	62.2
Qwen-14B	66.3	72.1	61.3	24.8	32.3	40.8	53.4	71.0
Qwen-72B	77.4	83.3	78.9	35.2	35.4	52.2	67.7	83.6

Pour tous les modèles comparés, nous indiquons les meilleurs scores entre leurs résultats officiels et [OpenCompass] (https://opencompass.org.cn/leaderboard-llm).

Pour plus de résultats expérimentaux (performances détaillées des modèles sur d'autres ensembles de données de référence) et de détails, veuillez vous référer à notre rapport technique en cliquant ici.

Besoins

python 3.8 et plus
pytorch 1.12 et plus, 2.0 et plus sont recommandés
transformers 4.32 et plus
CUDA 11.4 et plus sont recommandés (pour les utilisateurs de GPU, les utilisateurs de flash, etc.)

Démarrage Rapide

Ci-dessous, nous fournissons des exemples simples pour montrer comment utiliser Qwen-Chat avec 🤖 ModelScope et 🤗 Transformers.

Vous pouvez utiliser nos images docker pré-construites pour sauter la plupart des étapes de configuration de l'environnement, voir la section "Utiliser des images docker pré-construites" pour plus de détails.

Si vous n'u

Core symbols most depended-on inside this repo

eval

called by 19

dcu-support/package/fastllm_pytools/llm.py

call_qwen

called by 12

examples/function_call_examples.py

chat

called by 8

examples/auto_comments.py

run_in_subprocess

called by 7

recipes/tests/utils.py

dcu-support/package/fastllm_pytools/llm.py

recipes/inference/vllm/vllm_wrapper.py

Shape

Function 169

Method 37

Class 21

Route 3

Languages

Python100%

Modules by API surface

dcu-support/package/fastllm_pytools/llm.py30 symbols

openai_api.py25 symbols

finetune.py19 symbols

eval/evaluate_plugin.py14 symbols

examples/auto_comments.py13 symbols

examples/add_merges.py13 symbols

web_demo.py11 symbols

eval/evaluate_chat_ceval.py9 symbols

eval/evaluate_mmlu.py8 symbols

eval/evaluate_chat_mmlu.py8 symbols

eval/evaluate_cmmlu.py7 symbols

eval/evaluate_ceval.py7 symbols

Dependencies from manifests, versioned

streamlit1.24.0 · 1×

transformers4.32.0 · 1×

transformers_stream_generator0.0.4 · 1×

urllib31.26.16 · 1×

For agents

$ claude mcp add Qwen \
  -- python -m otcore.mcp_server <graph>

⬇ download graph artifact