hub / github.com/425776024/nlpcda

github.com/425776024/nlpcda @2.5.1 sqlite

repository ↗ · DeepWiki ↗ · release 2.5.1 ↗

73 symbols 224 edges 17 files 18 documented · 25%

README

NLP Chinese Data Augmentation 一键中文数据增强工具

使用：pip install nlpcda

开源不易，欢迎 star🌟

pypi:https://pypi.org/project/nlpcda/

介绍

一键中文数据增强工具，支持： - 1.随机实体替换 - 2.近义词 - 3.近义近音字替换 - 4.随机字删除（内部细节：数字时间日期片段，内容不会删） - 5.NER类 BIO 数据增强 - 6.随机置换邻近的字：研表究明，汉字序顺并不定一影响文字的阅读理解<<是乱序的 - 7.百度中英翻译互转实现的增强 - 8.中文等价字替换（1 一壹 ①，2 二贰 ②） - 9.使用UniLM做生成式相似句生成

经过细节特殊处理，比如不改变年月日数字，尽量保证不改变原文语义。即使改变也能被猜出来、能被猜出来、能被踩出来、能被菜粗来、被菜粗、能菜粗来

计划中的未来内容

增加多线程操作，一键操作
使用 WordNet数据库来做同义词替换
随机噪声注入？随机插入一些字符，太简单实现了。
利用pingyin？https://github.com/mozillazg/python-pinyin
基于Word2Vec、BERT等词向量的词语近距离的替换、MASK猜测置换？？但是无法控制它生成，以及缺点MASK位置。
引入TF-IDF、TextRank、关键词字典等，可以选择：替换/不替换关键词？？

意义

在不改变原文语义的情况下，生成指定数量的训练语料文本
对NLP模型的泛化性能、对抗攻击、干扰波动，有很好的提升作用
参考比赛(本人用此策略+base bert拿到：50+-/1000)：https://www.biendata.com/competition/2019diac/

API

1.随机(等价)实体替换

参数： - base_file ：缺省时使用内置（公司）实体。对公司实体进行替换 > 是文本文件路径，内容形如：\ > 实体1\ > 实体2\ > ...\ > 实体n - create_num=3 ：返回最多3个增强文本 - change_rate=0.3 ：文本改变率 - seed ：随机种子

from nlpcda import Randomword

test_str = '''这是个实体：58同城；今天是2020年3月8日11:40，天气晴朗，天气很不错，空气很好，不差；这个nlpcad包，用于方便一键数据增强，可有效增强NLP模型的泛化性能、减少波动、抵抗对抗攻击'''

smw = Randomword(create_num=3, change_rate=0.3)
rs1 = smw.replace(test_str)

print('随机实体替换>>>>>>')
for s in rs1:
    print(s)
'''
随机实体替换>>>>>>
这是个实体：58同城；今天是2020年3月8日11:40，天气晴朗，天气很不错，空气很好，不差；这个nlpcad包，用于方便一键数据增强，可有效增强NLP模型的泛化性能、减少波动、抵抗对抗攻击
这是个实体：长兴国际；今天是2020年3月8日11:40，天气晴朗，天气很不错，空气很好，不差；这个nlpcad包，用于方便一键数据增强，可有效增强NLP模型的泛化性能、减少波动、抵抗对抗攻击
这是个实体：浙江世宝；今天是2020年3月8日11:40，天气晴朗，天气很不错，空气很好，不差；这个nlpcad包，用于方便一键数据增强，可有效增强NLP模型的泛化性能、减少波动、抵抗对抗攻击
'''

2.随机同义词替换

参数： - base_file ：缺省时使用内置同义词表，你可以设定/自己指定更加丰富的同义词表： > 是文本文件路径，内容形如（空格隔开）：\ > Aa01A0 人类生人全人类\ > id2 同义词b1 同义词b2 ... 同义词bk\ > ...\ > idn 同义词n1 同义词n2\ - create_num=3 ：返回最多3个增强文本 - change_rate=0.3 ：文本改变率 - seed ：随机种子

from nlpcda import Similarword

test_str = '''这是个实体：58同城；今天是2020年3月8日11:40，天气晴朗，天气很不错，空气很好，不差；这个nlpcad包，用于方便一键数据增强，可有效增强NLP模型的泛化性能、减少波动、抵抗对抗攻击'''

smw = Similarword(create_num=3, change_rate=0.3)
rs1 = smw.replace(test_str)

print('随机同义词替换>>>>>>')
for s in rs1:
    print(s)

'''
随机同义词替换>>>>>>
这是个实体：58同城；今天是2020年3月8日11:40，天气晴朗，天气很不错，空气很好，不差；这个nlpcad包，用于方便一键数据增强，可有效增强NLP模型的泛化性能、减少波动、抵抗对抗攻击
这是个实体：58同城；今天是2020年3月8日11:40，天气晴朗，天气很不错，空气很好，不差；这个nlpcad包，用于方便一键数量增强，可有效增强NLP模型的泛化性能、减少波动、抵抗对抗攻击
这是个实体：58同城；今天是2020年3月8日11:40，天气晴朗，天气很不错，空气很好，不差；斯nlpcad包，用于方便一键数据增强，可有效增强NLP模型的泛化性能、减少波动、抵抗对抗攻击
'''

3.随机近义字替换

参数： - base_file ：缺省时使用内置【同义同音字表】，你可以设定/自己指定更加丰富的同义同音字表： > 是文本文件路径，内容形如（\t隔开）：\ > de 的地得德嘚徳锝脦悳淂鍀惪恴棏\ > 拼音2 字b1 字b2 ... 字bk\ > ...\ > 拼音n 字n1 字n2\ - create_num=3 ：返回最多3个增强文本 - change_rate=0.3 ：文本改变率 - seed ：随机种子

from nlpcda import Homophone

test_str = '''这是个实体：58同城；今天是2020年3月8日11:40，天气晴朗，天气很不错，空气很好，不差；这个nlpcad包，用于方便一键数据增强，可有效增强NLP模型的泛化性能、减少波动、抵抗对抗攻击'''

smw = Homophone(create_num=3, change_rate=0.3)
rs1 = smw.replace(test_str)

print('随机近义字替换>>>>>>')
for s in rs1:
    print(s)

'''
随机近义字替换>>>>>>
这是个实体：58同城；今天是2020年3月8日11:40，天气晴朗，天气很不错，空气很好，不差；这个nlpcad包，用于方便一键数据增强，可有效增强NLP模型的泛化性能、减少波动、抵抗对抗攻击
这是个实体：58同城；今填是2020年3月8日11:40，天气晴朗，天气很不错，空气痕好，不差；这个nlpcad包，用于方便一键数据增强，可有效增强NLP模型的泛化性能、减少波动、抵抗对抗攻击
鷓是个实体：58同乘；今天是2020年3月8日11:40，天迄晴朗，天气很不错，空气很儫，不差；这个nlpcad包，用于方便一键数据增强，犐有效增牆NLP模型的橎化性能、减少波动、抵抗对抗攻击
'''

4.随机字删除

参数： - create_num=3 ：返回最多3个增强文本 - change_rate=0.3 ：文本改变率 - seed ：随机种子

from nlpcda import RandomDeleteChar

test_str = '''这是个实体：58同城；今天是2020年3月8日11:40，天气晴朗，天气很不错，空气很好，不差；这个nlpcad包，用于方便一键数据增强，可有效增强NLP模型的泛化性能、减少波动、抵抗对抗攻击'''

smw = RandomDeleteChar(create_num=3, change_rate=0.3)
rs1 = smw.replace(test_str)

print('随机字删除>>>>>>')
for s in rs1:
    print(s)

'''
随机字删除>>>>>>
这是个实体：58同城；今天是2020年3月8日11:40，天气晴朗，天气很不错，空气很好，不差；这个nlpcad包，用于方便一键数据增强，可有效增强NLP模型的泛化性能、减少波动、抵抗对抗攻击
这是个实体：58同城；今天是2020年3月8日11:40，天气晴朗，天气很不错，空气，不差；这个nlpcad包用于方便一键数据增强，可有效增强NLP模型的泛化性能、减少波动、抵抗对抗
个实体：58同城；今天是2020年3月8日11:40，天气晴朗，天气很不错空气很好，不差；这个nlpcad包，用于方便一键数据增强，可有效增强NLP模型泛化性能、减少波动、抵抗对抗
'''

5.NER命名实体数据增强

输入标注好的NER数据目录，和需要增强的标注文件路径，和增强的数量，即可一键增强

Ner类参数： - ner_dir_name='ner_data' : 在ner数据放在ner_data目录下（里面很多.txt） - ner_dir_name提供的目录下是各种标注数据文件，文件内容以标准的NER 的BIO格式分开：

字1 \t TAG

北 \t B-LOC

京 \t I-LOC

今 \t O

天 \t O

很 \t O

热 \t O

。 \t O - ignore_tag_list=['O'] : 数据里面O标签的不需要管 - data_augument_tag_list=['P', 'LOC'] : 只对P、LOC标签的实体做增强 - augument_size=3 : 每条标注数据，最多新增强数量 - seed=0 : 随机种子/ 可缺省

调用函数augment()参数 - file_name: 1条标注训练文件的路径，如0.txt - ner.augment(file_name='0.txt')

例子：

from nlpcda import Ner

ner = Ner(ner_dir_name='ner_data',
        ignore_tag_list=['O'],
        data_augument_tag_list=['P', 'LOC','ORG'],
        augument_size=3, seed=0)
data_sentence_arrs, data_label_arrs = ner.augment(file_name='0.txt')
# 3条增强后的句子、标签 数据，len(data_sentence_arrs)==3
# 你可以写文件输出函数，用于写出，作为后续训练等
print(data_sentence_arrs, data_label_arrs)

6.随机置换邻近的字

char_gram=3：某个字至于邻近的3个字交换
内部细节：遇到数字，符号等非中文，不会交换

from nlpcda import CharPositionExchange

ts = '''这是个实体：58同城；今天是2020年3月8日11:40，天气晴朗，天气很不错，空气很好，不差；这个nlpcad包，用于方便一键数据增强，可有效增强NLP模型的泛化性能、减少波动、抵抗对抗攻击'''
smw = CharPositionExchange(create_num=3, change_rate=0.3,char_gram=3,seed=1)
rs=smw.replace(ts)
for s in rs:
    print(s)

'''
这是个实体：58同城；今天是2020年3月8日11:40，天气晴朗，天气很不错，空气很好，不差；这个nlpcad包，用于方便一键数据增强，可有效增强NLP模型的泛化性能、减少波动、抵抗对抗攻击
这实个是体：58城同；今天是2020年3月8日11:40，天气晴朗，天气很不错，空气很好，差不；这个nlpcad包，便用一数方增键强据于，增有效可强NLP模型性泛化的能、动少减波、抵对攻抗抗击
这是个体实：58城同；今是天2020年3月8日11:40，朗气晴天，天气很错不，空好很气，不差；个这nlpcad包，方便键一据增用数于强，可有效强增NLP模型的性化泛能、动减波少、抗抗击抵对攻
'''

7.百度中英翻译互转实现的增强

note:

申请你的 appid、secretKey: http://api.fanyi.baidu.com/api/trans

from nlpcda import baidu_translate

zh = '天气晴朗，天气很不错，空气很好'
# 申请你的 appid、secretKey
# 两遍洗数据法（回来的中文一般和原来不一样，要是一样，就不要了，靠运气？）
en_s = baidu_translate(content=zh, appid='xxx', secretKey='xxx',t_from='zh', t_to='en')
zh_s = baidu_translate(content=en_s, appid='xxx', secretKey='xxx',t_from='en', t_to='zh')
print(zh_s)

8.等价字替换

参数： - base_file ：缺省时使用内置【等价数字字表】，你可以设定/自己指定更加丰富的等价字表(或者使用函数：add_equivalent_list)： > 是文本文件路径，内容形如（(\t)隔开）：\ > 0 零〇\ > 1 一壹 ①\ > ...\ > 9 九玖 ⑨ - create_num=3 ：返回最多3个增强文本 - change_rate=0.3 ：文本改变率 - seed ：随机种子

from nlpcda import EquivalentChar

test_str = '''今天是2020年3月8日11:40，天气晴朗，天气很不错。'''

s = EquivalentChar(create_num=3, change_rate=0.3)
# 添加等价字
s.add_equivalent_list(['看', '瞅'])
res=s.replace(test_str)
print('等价字替换>>>>>>')
for s in res:
    print(s)

'''
等价字替换>>>>>>
今天是2020年3月8日11:40，天气晴朗，天气很不错。
今天是二〇2〇年3月八日1①:4〇，天气晴朗，天气很不错。
今天是二0贰零年3月捌日11:40，天气晴朗，天气很不错
'''

9.simbert

来源：https://github.com/ZhuiyiTechnology/pretrained-models

下载其中任意模型，解压到任意位置赋值给model_path变量：

名称	训练数据大小	词表大小	模型大小	下载地址
SimBERT Tiny	2200万相似句组	13685	26MB	百度网盘(1tp7)
SimBERT Small	2200万相似句组	13685	49MB	百度网盘(nu67)
SimBERT Base	2200万相似句组	13685	344MB	百度网盘(6xhq)

参数： - config：model_path（上述下载的模型位置），设备（GPU/CPU）、最大长度、随机种子 - sent：需要增强的句子数量 - k：增强数据 - threhold：阈值

from nlpcda import Simbert
config = {
        'model_path': '/xxxx/chinese_simbert_L-12_H-768_A-12',
        'device': 'cpu',
        'max_len': 32,
        'seed': 1
}
simbert = Simbert(config=config)
sent = '把我的一个亿存银行安全吗'
synonyms = simbert.replace(sent=sent, k=5, threhold=0.85)
print(synonyms)
'''
[('我的一个亿，存银行，安全吗', 0.9871675372123718), 
('把一个亿存到银行里安全吗', 0.9352194666862488), 
('一个亿存银行安全吗', 0.9330801367759705), 
('一个亿的存款存银行安全吗', 0.92387855052948),
 ('我的一千万存到银行安不安全', 0.9014463424682617)]
'''

添加自定义词典

用于使用之前，增加分词效果

from nlpcda import Randomword
from nlpcda import Similarword
from nlpcda import Homophone
from nlpcda import RandomDeleteChar
from nlpcda import Ner
from nlpcda import CharPositionExchange

Randomword.add_word('小明')
Randomword.add_words(['小明','小白','天地良心'])
# Similarword，Homophone，RandomDeleteChar 同上

Core symbols most depended-on inside this repo

replace

called by 3

nlpcda/tools/Simbert.py

is_int

called by 3

nlpcda/tools/Random_delete_char.py

replace

called by 3

nlpcda/tools/Random_word.py

replace

called by 2

nlpcda/tools/Homophone.py

baidu_translate

called by 2

nlpcda/tools/Translate.py

replace

called by 2

nlpcda/tools/Random_delete_char.py

called by 2

nlpcda/tools/Random_delete_char.py

add_word

called by 2

nlpcda/tools/Basetool.py

Shape

Method 44

Function 19

Class 10

Languages

Python100%

Modules by API surface

nlpcda/tools/Ner.py10 symbols

nlpcda/example.py9 symbols

nlpcda/tools/Char_position_exchange.py7 symbols

nlpcda/tools/Basetool.py7 symbols

nlpcda/tools/simbert/generator.py6 symbols

nlpcda/tools/Similar_word.py6 symbols

nlpcda/tools/Random_word.py6 symbols

nlpcda/tools/Random_delete_char.py6 symbols

nlpcda/tools/Equivalent_char.py6 symbols

nlpcda/tools/Homophone.py5 symbols

nlpcda/tools/Simbert.py3 symbols

nlpcda/tools/Translate.py2 symbols

Dependencies from manifests, versioned

bert4keras0.7.7 · 1×

jieba0.42.1 · 1×

numpy1.18.5 · 1×

requests2.24.0 · 1×

For agents

$ claude mcp add nlpcda \
  -- python -m otcore.mcp_server <graph>

⬇ download graph artifact

github.com/425776024/nlpcda @2.5.1 sqlite

NLP Chinese Data Augmentation 一键中文数据增强工具

介绍

计划中的未来内容

意义

API

1.随机(等价)实体替换

2.随机同义词替换

3.随机近义字替换

4.随机字删除

5.NER命名实体 数据增强

6.随机置换邻近的字

7.百度中英翻译互转实现的增强

8.等价字替换

9.simbert

添加自定义词典

Core symbols most depended-on inside this repo

Shape

Languages

Modules by API surface

Dependencies from manifests, versioned

For agents

5.NER命名实体数据增强