MCPcopy Index your code
hub / github.com/QwenLM/Qwen-VL

github.com/QwenLM/Qwen-VL @main sqlite

repository ↗ · DeepWiki ↗
147 symbols 435 edges 20 files 14 documented · 10%
README
    <a href="https://github.com/QwenLM/Qwen-VL/raw/main/README_CN.md">中文</a>&nbsp | &nbspEnglish&nbsp&nbsp | &nbsp<a href="https://github.com/QwenLM/Qwen-VL/raw/main/README_JA.md">日本語</a>&nbsp | &nbsp<a href="https://github.com/QwenLM/Qwen-VL/raw/main/README_KO.md">한국어</a>&nbsp












<img src="https://github.com/QwenLM/Qwen-VL/raw/main/assets/logo.jpg" width="400"/>










    Qwen-VL <a href="https://modelscope.cn/models/qwen/Qwen-VL/summary">🤖 <a> | <a href="https://huggingface.co/Qwen/Qwen-VL">🤗</a>&nbsp | Qwen-VL-Chat <a href="https://modelscope.cn/models/qwen/Qwen-VL-Chat/summary">🤖 <a>| <a href="https://huggingface.co/Qwen/Qwen-VL-Chat">🤗</a>&nbsp | Qwen-VL-Chat-Int4 <a href="https://huggingface.co/Qwen/Qwen-VL-Chat-Int4">🤗</a>

WeChat&nbsp&nbsp | &nbsp&nbspDiscord&nbsp&nbsp | &nbsp&nbspDemo&nbsp | &nbspPaper&nbsp&nbsp | &nbsp&nbspColab&nbsp&nbsp | &nbsp Tutorial


Qwen-VL(Qwen Large Vision Language Model)은 알리바바 클라우드가 제안한 큰 모델 시리즈인 Qwen(약칭, Tongyi Qianwen)의 멀티모달 버전입니다. Qwen-VL은 이미지, 텍스트, 그리고 바운딩 박스를 입력으로 받아 텍스트와 바운딩 박스를 출력합니다. Qwen-VL의 특징은 다음과 같습니다.

  • 강력한 성능: 동일한 모델 규모의 기존 공개된 대규모 시각 언어 모델(Large Vision Language Models, ㄴLVLM)보다 영어 평가 벤치마크(Zero-shot Captioning, VQA, DocVQA, Grounding 포함)에서 현저히 우수합니다.
  • 텍스트 인식을 지원하는 다국어 LVLM: Qwen-VL은 자연스러운 영어, 중국어 및 다국어 대화를 지원하며, 이미지 내 중국어-영어 간 이중 언어 텍스트의 종단 간 인식을 개선했습니다.
  • 다중 이미지 교차 대화: 이 기능은 여러 이미지의 입력과 비교뿐만 아니라 이미지와 관련된 질문을 지정하고 다중 이미지 스토리텔링에 참여할 수 있는 기능을 제공합니다.
  • 중국어에서 지상화를 지원하는 첫 번째 일반 모델: 중국어와 영어의 개방형 언어 표현을 통해 바운딩 박스를 인식합니다.
  • 세밀한 인식 및 이해: 다른 공개된 LVLM이 현재 사용하는 224*224 해상도와 비교하여 448*448 해상도는 세밀한 텍스트 인식, 문서 QA 및 바운딩 어노테이션을 개선했습니다.

Qwen-VL 시리즈의 두 모델을 출시합니다.

  • Qwen-VL: 사전 훈련된 LVLM 모델로, Qwen-7B를 LLM의 초기화에 사용하며, 시각 인코더의 초기화로는 Openclip ViT-bigG를 사용하여, 무작위로 초기화된 교차 어텐션 레이어(randomly initialized cross-attention layer)에 연결합니다.
  • Qwen-VL-Chat: 정렬 기술로 훈련된 멀티모달 LLM 기반 AI 어시스턴트입니다. Qwen-VL-Chat은 여러 이미지 입력, 다중 라운드 질문 응답, 창의적 능력과 같은 더 유연한 상호작용을 지원합니다.

뉴스 및 업데이트

  • 2023.9.25 🚀🚀🚀 Qwen-VL-Chat을 더욱 강력한 중국어 지시 수행 능력, 웹페이지 및 표 이미지에 대한 개선된 이해력, 더 나은 대화 성능(TouchStone: CN: 401.2->481.7, EN: 645.2->711.6)으로 업데이트 되었습니다.
  • 2023.9.12 😃😃😃 이제 Qwen-VL 모델에 대한 파인튜닝을 지원합니다. 이에는 전체 파라미터 파인튜닝, LoRA 및 Q-LoRA가 포함됩니다.
  • 2023.9.8 👍👍👍 camenduru가 멋진 Colab을 기여해 주셔서 감사합니다. 모두가 12G GPU에서 로컬 또는 온라인 Qwen-VL-Chat-Int4 데모 튜토리얼로 사용할 수 있습니다.
  • 2023.9.5 👏👏👏 Qwen-VL-Chat은 MME Benchmark, 멀티모달 대형 언어 모델을 위한 종합적인 평가 벤치마크에서 SOTAs를 달성했습니다. 이는 총 14개의 하위 과제에서 인식과 인지 능력을 모두 측정합니다.
  • 2023.9.4 ⭐⭐⭐ Qwen-VL 시리즈는 Seed-Bench, 이미지 및 비디오 이해를 평가하는 19K 다중 선택 질문의 멀티모달 벤치마크에서 SOTAs를 달성했습니다. 이는 정확한 인간 주석을 갖추고 있습니다.
  • 2023.9.1 🔥🔥🔥 기본적인 인식과 이해력뿐만 아니라 문학 창작까지 아우르는 복합 언어 모델에 대한 종합적인 평가인 TouchStone 평가를 출시합니다. 강력한 LLM을 심사위원으로 활용하고, 멀티모달 정보를 텍스트로 변환하여 평가합니다.
  • 2023.8.31 🌟🌟🌟 Qwen-VL-Chat용 Int4 양자화 모델인 Qwen-VL-Chat-Int4를 출시하여 메모리 비용은 낮추고 추론 속도는 향상시켰습니다. 또한 벤치마크 평가에서도 성능 저하가 크지 않습니다.
  • 2023.8.22 🎉🎉🎉 모델스코프와 허깅페이스에 Qwen-VLQwen-VL-Chat을 모두 출시합니다. 학습 내용 및 모델 성능 등 모델에 대한 자세한 내용은 논문을 통해 확인할 수 있습니다.

Evaluation

세 가지 관점에서 모델의 기능을 평가했습니다:

  1. 표준 벤치마크: 멀티모달 작업의 네 가지 주요 범주에 대한 모델의 기본 작업 기능을 평가합니다:

  2. 제로 샷 캡션: 보이지 않는 데이터 세트에 대한 모델의 제로샷 이미지 캡션 능력을 평가합니다.

  3. 일반 VQA: 판단, 색상, 숫자, 카테고리 등과 같은 사진의 일반적인 질문에 대한 답변 능력을 평가합니다.
  4. 텍스트 기반 VQA: 문서 QA, 차트 QA 등과 같이 사진 속 텍스트를 인식하는 모델의 능력을 평가합니다.
  5. 참조 표현 이해: 참조 표현식으로 설명된 이미지에서 대상 객체를 찾아내는 능력을 평가합니다.

  6. 터치스톤: 전반적인 텍스트-이미지 대화 능력과 사람과의 일치도를 평가하기 위해 TouchStone이라는 벤치마크를 구축했으며, 이 벤치마크는 GPT4로 채점하여 LVLM 모델을 평가합니다.

  7. 터치스톤 벤치마크는 총 300개 이상의 이미지, 800개 이상의 질문, 27개 카테고리를 다룹니다. 속성 기반 Q&A, 유명인 인식, 시 쓰기, 여러 이미지 요약, 제품 비교, 수학 문제 풀이 등이 포함됩니다.

  8. 직접 이미지 입력이라는 현재 GPT4의 한계를 극복하기 위해 TouchStone은 사람이 직접 라벨을 지정하여 세분화된 이미지 주석을 제공합니다. 이러한 세부 주석은 문제 및 모델의 출력과 함께 채점을 위해 GPT4에 제공됩니다.
  9. 벤치마크에는 영어와 중국어 버전이 모두 포함되어 있습니다.

  10. 기타 멀티모달 벤치마크: 다른 멀티모달 벤치마크에서도 모델의 성능을 평가했습니다:

  11. 멀티모달 대규모 언어 모델에 대한 종합적인 평가 벤치마크인 MME 벤치마크. Qwen-VL-Chat은 지각과 인지 트랙 모두에서 SOTA를 달성했습니다.

  12. Seed-Bench는 멀티모달 LLM을 평가하기 위한 정확한 인간 주석이 포함된 19K 객관식 질문으로 구성된 멀티모달 벤치마크입니다. 큐원 시리즈는 이 벤치마크에서 SOTA를 달성했습니다.

평가 결과는 다음과 같습니다.

Qwen-VL은 여러 VL 작업에서 현재 SOTA 제너럴리스트 모델보다 성능이 뛰어나며, 기능 범위 측면에서 더 포괄적인 기능을 지원합니다.

<img src="https://github.com/QwenLM/Qwen-VL/raw/main/assets/radar.png" width="600"/>

Zero-shot Captioning & General VQA

Model type Model Zero-shot Captioning General VQA
NoCaps Flickr30K VQAv2dev OK-VQA GQA SciQA-Img (0-shot) VizWiz (0-shot)
Generalist Models Flamingo-9B - 61.5 51.8 44.7 - - 28.8
Flamingo-80B - 67.2 56.3 50.6 - - 31.6
Unified-IO-XL 100.0 - 77.9 54.0 - - -
Kosmos-1 - 67.1 51.0 - - - 29.2
Kosmos-2 - 80.5 51.1 - - - -
BLIP-2 (Vicuna-13B) 103.9 71.6 65.0 45.9 32.3 61.0 19.6
InstructBLIP (Vicuna-13B) 121.9 82.8 - - 49.5 63.1 33.4
Shikra (Vicuna-13B) - 73.9 77.36 47.16 - - -
Qwen-VL (Qwen-7B) 121.4 85.8 78.8 58.6 59.3 67.1 35.2
Qwen-VL-Chat 120.2 81.0 78.2 56.6 57.5 68.2 38.9
Previous SOTA (Per Task Fine-tuning) - 127.0 (PALI-17B) 84.5 (InstructBLIP -FlanT5-XL) 86.1 (PALI-X -55B) 66.1 (PALI-X -55B) 72.1 (CFR) 92.53 (LLaVa+ GPT-4) 70.9 (PALI-X -55B)
  • 제로 샷 이미지 캡션의 경우, Qwen-VL은 Flickr30K에서 SOTA를 달성했고 InstructBlip을 사용하여 노캡스에서 경쟁력 있는 결과를 얻었습니다.
  • 일반 VQA의 경우, Qwen-VL은 동일한 일반 LVLM 스케일 설정에서 SOTA를 달성했습니다.

Text-oriented VQA (Focused on text understanding capabilities in images)

Model type Model TextVQA DocVQA ChartQA AI2D OCR-VQA
Generalist Models BLIP-2 (Vicuna-13B) 42.4 - - - -
InstructBLIP (Vicuna-13B) 50.7 - - - -
mPLUG-DocOwl (LLaMA-7B) 52.6 62.2 57.4 - -
Pix2Struct-Large (1.3B) - 76.6 58.6 42.1 71.3
Qwen-VL (Qwen-7B) 63.8 65.1 65.7 62.3 75.7
Specialist SOTAs (Specialist/Finetuned) PALI-X-55B (Single-task FT) (Without OCR Pipeline) 71.44 80.0 70.0 81.2 75.0
  • 텍스트 관련 인식/QA 평가에서 Qwen-VL은 일반적인 LVLM 스케일 설정에서 SOTA를 달성합니다.
  • 해상도는 위의 여러 평가에서 중요합니다. 224 해상도의 대부분의 오픈 소스 LVLM 모델은 이러한 평가를 수행할 수 없거나 이미지를 잘라내야만 해결할 수 있지만, Qwen-VL은 해상도를 448로 확장하여 엔드투엔드 평가가 가능합니다. Qwen-VL은 일부 작업에서 1024 해상도의 Pix2Struct-Large 모델보다 더 뛰어난 성능을 발휘합니다.

Referring Expression Comprehension

Model type Model RefCOCO RefCOCO+ RefCOCOg GRIT
val test-A test-B val test-A test-B val-u test-u refexp
Generalist Models GPV-2 - - - - - - - - 51.50
OFA-L* 79.96 83.67 76.39 68.29 76.00 61.75 67.57 67.58 61.70
Unified-IO - - - - - - - - 78.61
VisionLLM-H 86.70 - - - - - - -
Shikra-7B 87.01 90.61 80.24 81.60 87.36 72.12 82.27 82.19 69.34
Shikra-13B 87.83 91.11 81.81 82.89 87.79 74.41 82.64 83.16 69.03
Qwen-VL-7B 89.36 92.26 85.34 83.12 88.25 77.21 85.58 85.48 78.22
Qwen-VL-7B-Chat 88.55 92.27 84.51 82.82 88.59 76.79 85.96 86.32 -
Specialist SOTAs (Specialist/Finetuned) G-DINO-L 90.56 93.19 88.24 82.75 88.95 75.92 86.13 87.02 -
UNINEXT-H 92.64 94.33 91.46 85.24 89.63 79.79 88.73 89.37 -
ONE-PEACE 92.58 94.18 89.26 88.77 92.21 83.23 89.22 89.27 -
  • Qwen-VL은 위의 모든 참조 표현 이해도 벤치마크에서 SOTA를 달성했습니다.
  • Qwen-VL은 중국어 자막 데이터에 대해 학습되지 않았지만, 중국어 자막 데이터와 영어 자막 데이터를 학습하여 제로 샷 방식으로 중국어 자막 작업에 일반화할 수 있습니다.

실험 결과를 재현하기 위해 위의 모든 평가 스크립트를 제공합니다. 자세한 내용은 eval_mm/EVALUATION.md를 참조하세요.

Chat evaluation

TouchStone은 텍스트-이미지 대화 및 사람과의 일치 수준에 대한 LVLM 모델의 능력을 평가하기 위해 GPT4로 점수를 매기는 벤치마크입니다. 총 300개 이상의 이미지, 800개 이상의 질문, 속성 기반 Q&A, 유명인 인식, 시 쓰기, 여러 이미지 요약, 제품 비교, 수학 문제 풀이 등 27개 카테고리로 구성되어 있습니다. 자세한 내용은 터치스톤/README.md를 참조하세요.

English evaluation

Model Score
PandaGPT 488.5
MiniGPT4 531.7
InstructBLIP 552.4
LLaMA-AdapterV2 590.1
LLaVA 602.7
mPLUG-Owl 605.4
Qwen-VL-Chat 645.2
Qwen-VL-Chat-1.1 711.6

Chinese evaluation

Model Score
VisualGLM 247.1
Qwen-VL-Chat 401.2
Qwen-VL-Chat-1.1 481.7

Qwen-VL-Chat은 중국어와 영어 정렬 평가에서 모두 최고의 결과를 얻었습니다.

Other Benchmarks

MME Benchmark

MME는 멀티모달 대규모 언어 모델에 대한 종합적인 평가 벤치마크입니다. 존재, 수, 위치, 색상, 포스터, 유명인, 장면, 랜드마크, 예술품, OCR, 상식 추론, 숫자 계산, 텍스트 번역, 코드 추론 등 총 14개의 하위 과제에 대한 지각과 인지 능력을 모두 측정합니다.

Qwen-VL-Chat은 지각과 인지 평가 모두에서 SOTA를 달성했습니다. 자세한 내용은 여기에서 확인하세요.

<img src="https://github.com/QwenLM/Qwen-VL/raw/main/eval_mm/mme/perception.jpg" width="600"/>






<img src="https://github.com/QwenLM/Qwen-VL/raw/main/eval_mm/mme/cognition.jpg" width="600"/>

SEED-Bench

SEED-Bench는 **이

Core symbols most depended-on inside this repo

_parse_text
called by 7
web_demo_mm.py
rank0_print
called by 3
finetune.py
get_index
called by 3
eval_mm/seed_bench/trans.py
preprocess
called by 2
finetune.py
trim_stop_words
called by 2
openai_api.py
_to_float
called by 2
eval_mm/evaluate_vqa.py
createIndex
called by 2
eval_mm/vqa.py
getQuesIds
called by 2
eval_mm/vqa.py

Shape

Method 65
Function 52
Class 28
Route 2

Languages

Python100%

Modules by API surface

openai_api.py20 symbols
finetune.py19 symbols
eval_mm/evaluate_vqa.py14 symbols
web_demo_mm.py12 symbols
eval_mm/evaluate_grounding.py11 symbols
eval_mm/vqa_eval.py10 symbols
eval_mm/seed_bench/eval.py10 symbols
eval_mm/mmbench/evaluate_multiple_choice_mmbench.py10 symbols
eval_mm/evaluate_multiple_choice.py10 symbols
eval_mm/evaluate_caption.py10 symbols
eval_mm/vqa.py9 symbols
eval_mm/infographicsvqa_eval.py5 symbols

Dependencies from manifests, versioned

transformers4.32.0 · 1×
transformers_stream_generator0.0.4 · 1×

For agents

$ claude mcp add Qwen-VL \
  -- python -m otcore.mcp_server <graph>

⬇ download graph artifact