# DataFlow **Repository Path**: nadooschina/DataFlow ## Basic Information - **Project Name**: DataFlow - **Description**: https://github.com/OpenDCAI/DataFlow - **Primary Language**: Python - **License**: Apache-2.0 - **Default Branch**: main - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 1 - **Forks**: 1 - **Created**: 2025-07-15 - **Last Updated**: 2025-08-26 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # DataFlow
[](https://OpenDCAI.github.io/DataFlow-Doc/)
[](https://github.com/OpenDCAI/DataFlow/blob/main/LICENSE)
[](https://github.com/OpenDCAI/DataFlow)
[](https://github.com/OpenDCAI/DataFlow/issues)
[](https://github.com/OpenDCAI/DataFlow/graphs/contributors)
[](https://github.com/OpenDCAI/DataFlow)
🎉 如果你认可我们的项目,欢迎在 GitHub 上点个 ⭐ Star,关注项目最新进展。
简体中文 | [English](./README.md)
**[🚀 功能介绍](#功能介绍) • [⚡ 快速开始](#快速开始) • [📖 文档](https://OpenDCAI.github.io/DataFlow-Doc/) • [🧪 实验结果](#实验结果)**
DataFlow 是一个数据准备系统,旨在从噪声数据源(PDF、纯文本、低质量问答)中**解析,生成,加工并评估高质量数据**,以提升大语言模型(LLMs)在特定领域的表现,支持预训练、监督微调(SFT)、强化学习训练以及基于知识库的 RAG 系统。**我们在医疗、金融和法律等多个垂类领域实证验证了 DataFlow 的有效性。**
我们构建了多种基于规则、深度学习、大语言模型及其 API 的 `数据算子(Operators)`,并将其系统性地整合为多条 `数据流水线(Pipelines)`,共同组成完整的 `DataFlow 系统`。此外,我们还构建了智能的 `DataFlow-Agent`,支持按需动态编排已有算子,合成新的数据流水线。
## 🛠️ 3. 数据流程功能介绍
### 🔧 3.1 推荐使用的完整流水线
目前 DataFlow 包含以下主要数据处理流程:
- 📝 **文本处理流程(Text Pipeline)**:从大规模纯文本(多为网络爬取)中挖掘问答对,用于监督微调和强化学习训练。
- 
- [[HuggingFace🤗 示例数据]](https://huggingface.co/datasets/Open-Dataflow/dataflow-demo-Text)
- 🧠 **推理流程(Reasoning Pipeline)**:增强已有问答对,添加 (1) 长链式推理(Chain-of-Thought),(2) 类别标注,(3) 难度估计。
- 
- [[HuggingFace🤗 示例数据]](https://huggingface.co/datasets/Open-Dataflow/dataflow-demo-Reasonning)
- 🗃️ **Text2SQL 流程**:将自然语言问题转化为 SQL 查询,辅以解释、思维链推理和数据库结构上下文信息。
- 
- [[HuggingFace🤗 示例数据]](https://huggingface.co/datasets/Open-Dataflow/dataflow-demo-Text2SQL)
- 📚 **知识库清洗流程**:从表格、PDF 和 Word 文档等非结构化数据源中提取并整理知识,将其转化为可用于下游 RAG 或 QA 配对生成的可用条目。
- 
- 🤖 **Agent式RAG流程**:从已有问答或知识库中挖掘需要外部知识才能作答的问答对,用于训练 Agentic RAG 模型。
- 
### ⚙️ 3.2 算子自由组合的灵活流水线
在本框架中,算子可灵活组合构建数据处理流水线,按功能分为基础算子(Fundamental Operators)、通用算子(Generic Operators)、领域特定算子(Domain-Specific Operators)和评估算子(Evaluation Operators)等,覆盖从清洗到评估的多种任务。详见[项目文档](https://OpenDCAI.github.io/DataFlow-Doc/)了解具体用法。
### 🤖 3.3 Agent驱动的流水线自动编排
- **DataFlow-Agent**:智能助手,可执行数据分析、编写自定义算子,并根据任务目标自动编排算子构建数据处理流水线。
- 
- [[HuggingFace🤗 示例数据]](https://huggingface.co/datasets/Open-Dataflow/dataflow-demo-Agent)
## ⚡ 4. 快速开始
请使用如下命令进行环境配置和安装👇
```shell
conda create -n dataflow python=3.10
conda activate dataflow
pip install open-dataflow
```
如果你想要用你自己的GPU完成本地推理,则需要:
```shell
pip install open-dataflow[vllm]
```
> Dataflow 支持 Python>=3.10 的环境
你可以用如下指令查看dataflow是否正确安装:
```shell
dataflow -v
```
如果安装正确,应该会看到:
```log
open-dataflow codebase version: 1.0.0
Checking for updates...
Local version: 1.0.0
PyPI newest version: 1.0.0
You are using the latest version: 1.0.0.
```
更多使用说明和入门指南,请参考我们的 [项目文档](https://OpenDCAI.github.io/DataFlow-Doc/)。
[](https://OpenDCAI.github.io/DataFlow-Doc/)
## 🧪 5. 实验结果
如需详细的实验设置,请参考文档或论文说明。
### 📝 5.1 文本流程(Text Pipeline)
#### 5.1.1 预训练数据过滤流程
我们将 `预训练数据处理流程` 应用于从 RedPajama 数据集中随机采样的数据,最终保留率为 **13.65%**。使用 `QuratingScorer` 进行质量评估,结果如下图所示:在**写作风格、专业性要求、事实准确性和教育价值**四个维度上,过滤后的数据显著优于原始数据,验证了 DataFlow 预训练数据处理流程的有效性。