<a href="https://github.com/pengxiao-song/LaWGPT/wiki"><img src="https://img.shields.io/badge/docs-Wiki-brightgreen"></a>
<a href="https://huggingface.co/entity303"><img src="https://img.shields.io/badge/Hugging%20Face-entity303-green"></a>
<a href=""><img src="https://img.shields.io/badge/version-beta1.1-blue"></a>
<a href=""><img src="https://img.shields.io/badge/os-Linux-9cf"></a>
<a href=""><img src="https://img.shields.io/github/last-commit/pengxiao-song/lawgpt"></a>
<a href="https://star-history.com/#pengxiao-song/LaWGPT&Timeline"><img src="https://img.shields.io/github/stars/pengxiao-song/lawgpt?color=yellow"></a>
LaWGPT 是一系列基于中文法律知识的开源大语言模型。
该系列模型在通用中文基座模型(如 Chinese-LLaMA、ChatGLM 等)的基础上扩充法律领域专有词表、大规模中文法律语料预训练,增强了大模型在法律领域的基础语义理解能力。在此基础上,构造法律领域对话问答数据集、中国司法考试数据集进行指令精调,提升了模型对法律内容的理解和执行能力。
详细内容请参考技术报告。
本项目持续开展,法律领域数据集及系列模型后续相继开源,敬请关注。
LaWGPT-7B-beta1.1:法律对话模型,构造 35w 高质量法律问答数据集基于 Chinese-alpaca-plus-7B 指令精调
📣 2023/05/26:开放 Discussions 讨论区,欢迎朋友们交流探讨、提出意见、分享观点!
🪴 2023/05/15:发布 中文法律数据源汇总(Awesome Chinese Legal Resources) 和 法律领域词表
Legal-Base-7B:法律基座模型,使用 50w 中文裁判文书数据二次预训练
LaWGPT-7B-beta1.0:法律对话模型,构造 30w 高质量法律问答数据集基于 Legal-Base-7B 指令精调
```bash # 下载代码 git clone git@github.com:pengxiao-song/LaWGPT.git cd LaWGPT
# 创建环境 conda create -n lawgpt python=3.10 -y conda activate lawgpt pip install -r requirements.txt ``` 2. 启动 web ui(可选,易于调节参数)
首先,执行服务启动脚本:bash scripts/webui.sh
其次,访问 http://127.0.0.1:7860 :

命令行推理(可选,支持批量测试)
首先,参考 resources/example_infer_data.json 文件内容构造测试样本集;
其次,执行推理脚本:bash scripts/infer.sh。其中 --infer_data_path 参数为测试样本集路径,如果为空或者路径出错,则以交互模式运行。
注意,以上步骤的默认模型为 LaWGPT-7B-alpha ,如果您想使用 LaWGPT-7B-beta1.0 模型:
由于 LLaMA 和 Chinese-LLaMA 均未开源模型权重。根据相应开源许可,本项目只能发布 LoRA 权重,无法发布完整的模型权重,请各位谅解。
本项目给出合并方式,请各位获取原版权重后自行重构模型。
LaWGPT
├── assets # 静态资源
├── resources # 项目资源
├── models # 基座模型及 lora 权重
│ ├── base_models
│ └── lora_weights
├── outputs # 指令微调的输出权重
├── data # 实验数据
├── scripts # 脚本目录
│ ├── finetune.sh # 指令微调脚本
│ └── webui.sh # 启动服务脚本
├── templates # prompt 模板
├── tools # 工具包
├── utils
├── train_clm.py # 二次训练
├── finetune.py # 指令微调
├── webui.py # 启动服务
├── README.md
└── requirements.txt
本项目基于中文裁判文书网公开法律文书数据、司法考试数据等数据集展开,详情参考中文法律数据源汇总(Awesome Chinese Legal Resources)。
LawGPT 系列模型的训练过程分为两个阶段:
resources/example_instruction_train.json 构造二次训练数据集scripts/train_clm.sh resources/example_instruction_tune.json 构造指令微调数据集scripts/finetune.sh 8 张 Tesla V100-SXM2-32GB :二次训练阶段耗时约 24h / epoch,微调阶段耗时约 12h / epoch
问题:酒驾撞人怎么判刑?

问题:请给出判决意见。

问题:请介绍赌博罪的定义。

问题:请问加班工资怎么算?

问题:民间借贷受国家保护的合法利息是多少?

问题:欠了信用卡的钱还不上要坐牢吗?

问题:你能否写一段抢劫罪罪名的案情描述?

由于计算资源、数据规模等因素限制,当前阶段 LawGPT 存在诸多局限性:
请诸君在使用前了解上述问题,以免造成误解和不必要的麻烦。
如下各位合作开展(按字母序排列):@cainiao、@njuyxw、@pengxiao-song、@WNJXYK
指导老师:李宇峰、郭兰哲、涂威威(),由南京大学机器学习与数据挖掘研究组(
)支持
请各位严格遵守如下约定:
如有问题,请在 GitHub Issue 中提交。
协作者科研之余推进项目进展,由于人力有限难以实时反馈,给诸君带来不便,敬请谅解!
本项目基于如下开源项目展开,在此对相关项目和开发人员表示诚挚的感谢:
此外,本项目基于开放数据资源,详见 Awesome Chinese Legal Resources,一并表示感谢。
如果您觉得我们的工作对您有所帮助,请考虑引用该项目。
@misc{lawgpt,
title={LawGPT: A Chinese Legal Knowledge-Enhanced Large Language Model},
author={Zhi Zhou and Jiang-Xin Shi and Peng-Xiao Song and Xiao-Wen Yang and Yi-Xuan Jin and Lan-Zhe Guo and Yu-Feng Li},
year={2024},
eprint={2406.04614},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
$ claude mcp add LaWGPT \
-- python -m otcore.mcp_server <graph>