Doc-Diff (Python 库)
Doc-Diff (Python 库)
原文:https://medium.com/hackernoon/doc-diff-python-library-9db21ebc9022
Python 通常是需要在工作中应用数据分析的开发人员或者主要是数据科学家/数据工程师的选择,他们的任务更多的是从数据中获得洞察力。
Python 最大的资产之一是其丰富的库。最近,我正在研究非常流行的数据挖掘算法(即:FP-Growth 和 Custom A-Priori)。有一种情况,我想得到这些算法产生的结果的综合分析报告。
作为数据科学工作的支持库引入“doc-dff—生成两个文件之间的差异数据”

doc-diff 支持以下特性:
生成以下比较报告
- common in doc 1-and-doc 2-% Y-% m-% d . CSV
- common key with diff values-% Y-% m-% d . CSV
- exclusive_in_doc1-%Y-%m-%d.csv
- exclusive_in_doc2-%Y-%m-%d.csv
比较两个文件并返回以下内容 'dicts(prodCode,recommendation)'
- common in doc 1 and doc 2 _ list = dicts()
- common key with diff values _ list = dicts()
- exclusive_in_doc1_list = dicts()
- exclusive_in_doc2_list = dicts()
安装
$ pip 安装文档-差异
实施
**from** doc_diff **import** Diff
**from** doc_diff **import** gen_comp_report**if** __name__ == **'__main__'**:
*# Data file location* a_priori_csv_location = **"./data/a-priori.csv"** pfp_csv_location = **"./data/pfp.csv"** *# Process a-priori.csv data file* a_priori_diff = Diff(a_priori_csv_location)
a_priori_diff.process_file() *# Process pfp.csv data file* pfp_diff = Diff(pfp_csv_location)
pfp_diff.process_file()
gen_comp_report(a_priori_diff, pfp_diff)
我期待为数据科学/数据工程工作开源我所有的支持库。请在下面的评论中告诉我你对‘doc-diff’的看法,并分享你的想法。如果你想分享任何新的特性/问题,可以在 GitHub 库中随意打开一个问题。



