加载文件 :param fileName:要加载的文件路径 :return: 数据集和标签集
(fileName)
| 17 | import numpy as np |
| 18 | |
| 19 | def loadData(fileName): |
| 20 | ''' |
| 21 | 加载文件 |
| 22 | :param fileName:要加载的文件路径 |
| 23 | :return: 数据集和标签集 |
| 24 | ''' |
| 25 | #存放数据及标记 |
| 26 | dataArr = []; labelArr = [] |
| 27 | #读取文件 |
| 28 | fr = open(fileName) |
| 29 | #遍历文件中的每一行 |
| 30 | for line in fr.readlines(): |
| 31 | #获取当前行,并按“,”切割成字段放入列表中 |
| 32 | #strip:去掉每行字符串首尾指定的字符(默认空格或换行符) |
| 33 | #split:按照指定的字符将字符串切割成每个字段,返回列表形式 |
| 34 | curLine = line.strip().split(',') |
| 35 | #将每行中除标记外的数据放入数据集中(curLine[0]为标记信息) |
| 36 | #在放入的同时将原先字符串形式的数据转换为整型 |
| 37 | #此外将数据进行了二值化处理,大于128的转换成1,小于的转换成0,方便后续计算 |
| 38 | dataArr.append([int(int(num) > 128) for num in curLine[1:]]) |
| 39 | #将标记信息放入标记集中 |
| 40 | #放入的同时将标记转换为整型 |
| 41 | labelArr.append(int(curLine[0])) |
| 42 | #返回数据集和标记 |
| 43 | return dataArr, labelArr |
| 44 | |
| 45 | def majorClass(labelArr): |
| 46 | ''' |