# email-analysis **Repository Path**: perfectionSoft/email-analysis ## Basic Information - **Project Name**: email-analysis - **Description**: 邮件分析,目前基于无监督方式: 用lac+lda+sbert+kmeans,用垃圾邮件开源数据集弄了一个结果出来 - **Primary Language**: Unknown - **License**: GPL-2.0 - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 0 - **Created**: 2023-06-23 - **Last Updated**: 2023-06-25 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README ## 用lac+lda+sbert+kmeans,用垃圾邮件开源数据集弄了一个结果出来 #### 介绍 1. lac用作分词,为lda向量化主题提供依据 2. lda向量化主题 3. sbert向量化句子 4. 将lda和sbert提供的向量,采用keras进行向量连接操作 5. 使用k-means对连接的向量进行聚类 6. lda_show.html为lda分析的结果可视化html,使用浏览器打开 8. 最终结果在`./result/result.csv`目录下 #### 安装依赖 ``` 创建虚拟环境 python == 3.10 ``` ``` 安装依赖 pip install -r requirement.txt ``` #### 使用方法 1. 下载trec06垃圾邮件公开数据集,中文编码为gb2312, 如果使用了其他数据集,请自行修改preparing.py,将数据组织成label+subject+content为一行一封邮件,存储`./dataset/handled.txt` 2. 修改`preparing.py`里面数据集的路径: ``` # 数据集索引文件路径 index_path = "./dataset/trec06-ch/trec06c/full/index" # 数据集所有文件路径 dataset_path = "./dataset/trec06-ch/trec06c/full/" # 数据集原本的数据编码,此处为utf8,原始数据集应该时gb2312 email_encoding = "utf8" ``` 3. 运行`python main.py` ​