binSplitDataSet(将数据集,按照feature列的value进行 二元切分) Description:在给定特征和特征值的情况下,该函数通过数组过滤方式将上述数据集合切分得到两个子集并返回。 Args: dataMat 数据集 feature 待切分的特征列 value 特征列要比较的值 Returns: mat0 小于等于 value 的数据集在左边 mat1 大于 value 的数据集在右边 Raises:
(dataSet, feature, value)
| 37 | |
| 38 | |
| 39 | def binSplitDataSet(dataSet, feature, value): |
| 40 | """binSplitDataSet(将数据集,按照feature列的value进行 二元切分) |
| 41 | Description:在给定特征和特征值的情况下,该函数通过数组过滤方式将上述数据集合切分得到两个子集并返回。 |
| 42 | Args: |
| 43 | dataMat 数据集 |
| 44 | feature 待切分的特征列 |
| 45 | value 特征列要比较的值 |
| 46 | Returns: |
| 47 | mat0 小于等于 value 的数据集在左边 |
| 48 | mat1 大于 value 的数据集在右边 |
| 49 | Raises: |
| 50 | """ |
| 51 | # # 测试案例 |
| 52 | # print 'dataSet[:, feature]=', dataSet[:, feature] |
| 53 | # print 'nonzero(dataSet[:, feature] > value)[0]=', nonzero(dataSet[:, feature] > value)[0] |
| 54 | # print 'nonzero(dataSet[:, feature] <= value)[0]=', nonzero(dataSet[:, feature] <= value)[0] |
| 55 | |
| 56 | # dataSet[:, feature] 取去每一行中,第1列的值(从0开始算) |
| 57 | # nonzero(dataSet[:, feature] > value) 返回结果为true行的index下标 |
| 58 | mat0 = dataSet[nonzero(dataSet[:, feature] <= value)[0], :] |
| 59 | mat1 = dataSet[nonzero(dataSet[:, feature] > value)[0], :] |
| 60 | return mat0, mat1 |
| 61 | |
| 62 | |
| 63 | # 返回每一个叶子结点的均值 |
no outgoing calls
no test coverage detected