# email-analysis

**Repository Path**: perfectionSoft/email-analysis

## Basic Information

- **Project Name**: email-analysis
- **Description**: 邮件分析，目前基于无监督方式：
用lac+lda+sbert+kmeans，用垃圾邮件开源数据集弄了一个结果出来
- **Primary Language**: Unknown
- **License**: GPL-2.0
- **Default Branch**: master
- **Homepage**: None
- **GVP Project**: No

## Statistics

- **Stars**: 0
- **Forks**: 0
- **Created**: 2023-06-23
- **Last Updated**: 2023-06-25

## Categories & Tags

**Categories**: Uncategorized

**Tags**: None

## README

## 用lac+lda+sbert+kmeans，用垃圾邮件开源数据集弄了一个结果出来

#### 介绍
1. lac用作分词，为lda向量化主题提供依据
2. lda向量化主题
3. sbert向量化句子
4. 将lda和sbert提供的向量，采用keras进行向量连接操作
5. 使用k-means对连接的向量进行聚类
6. lda_show.html为lda分析的结果可视化html，使用浏览器打开
8. 最终结果在`./result/result.csv`目录下

#### 安装依赖

```
创建虚拟环境 python == 3.10
```
```
安装依赖 pip install -r requirement.txt
```

#### 使用方法
1. 下载trec06垃圾邮件公开数据集，中文编码为gb2312, 如果使用了其他数据集，请自行修改preparing.py，将数据组织成label+subject+content为一行一封邮件，存储`./dataset/handled.txt`
2. 修改`preparing.py`里面数据集的路径：
   ```
    # 数据集索引文件路径
    index_path = "./dataset/trec06-ch/trec06c/full/index"
    # 数据集所有文件路径
    dataset_path = "./dataset/trec06-ch/trec06c/full/"
    # 数据集原本的数据编码，此处为utf8，原始数据集应该时gb2312
    email_encoding = "utf8"
   ```
3. 运行`python main.py`

​