数据科学家易犯的十大编码错误，你中招了吗？

发布时间：2019-05-06 11:10:32 所属栏目：优化来源：机器之心编译

导读：数据科学家比软件工程师擅长统计，又比统计学家擅长软件工程。听起来牛逼轰轰，事实却是，许多数据科学家有统计学背景，却没有什么软件工程方面的经验，因此在编码时容易犯一些简单的错误。作为一名高级数据科学家，本文作者总结了他在工作中常见数据科学

副标题[/!--empirenews.page--]

数据科学家比软件工程师擅长统计，又比统计学家擅长软件工程。听起来牛逼轰轰，事实却是，许多数据科学家有统计学背景，却没有什么软件工程方面的经验，因此在编码时容易犯一些简单的错误。作为一名高级数据科学家，本文作者总结了他在工作中常见数据科学家犯的十大错误。

数据科学

我是一名高级数据科学家，在 Stackoverflow 的 python 编码中排前 1%，而且还与众多(初级)数据科学家一起工作。下文列出了我常见到的 10 个错误。

1. 没有共享代码中引用的数据

数据科学需要代码和数据。所以为了让其他人能够复现自己做出来的结果，你需要提供代码中涉及的数据。这看起来很简单，但许多人会忘记共享代码中需要的数据。

import pandas as pd 
df1 = pd.read_csv('file-i-dont-have.csv') # fails 
do_stuff(df)

解决方案：用 d6tpipe 共享代码中的数据文件，或者将数据文件上传到 S3/网页/Google 云等，还可以将数据文件保存到数据库中，以便收件人检索文件(但不要将数据添加到 git 中，这一点后面的内容会讲到)。

2. 硬编码其他人无法访问的路径

和错误 1 类似，如果硬编码其他人无法访问的路径，他们就没法运行你的代码，而且在很多地方都必须要手动修改路径。Booo!

import pandas as pd 
df = pd.read_csv('/path/i-dont/have/data.csv') # fails 
do_stuff(df) 
# or  
impor os 
os.chdir('c:Usersyournamedesktoppython') # fails

解决方案：使用相对路径、全局路径配置变量或 d6tpipe，这样其他人就可以轻易访问你的数据了。

3. 将数据和代码混在一起

既然数据科学代码需要数据，为什么不将代码和数据存储在同一个目录中呢?但你运行代码时，这个目录中还会存储图像、报告以及其他垃圾文件。乱成一团!

├── data.csv 
├── ingest.py 
├── other-data.csv 
├── output.png 
├── report.html 
└── run.py

解决方案：对目录进行分类，比如数据、报告、代码等。参阅 Cookiecutter Data Science 或 d6tflow 项目模板，并用问题 1 中提到的工具存储以及共享数据。

Cookiecutter Data Science：https://drivendata.github.io/cookiecutter-data-science/#directory-structure
d6tflow 项目模板：https://github.com/d6t/d6tflow-template

4. 用 Git 提交数据

大多数人现在都会版本控制他们的代码(如果你没有这么做那就是另一个问题了!)。在共享数据时，可能很容易将数据文件添加到版本控制中。对一些小文件来说这没什么问题。但 git 无法优化数据，尤其是对大型文件而言。

git add data.csv

解决方案：使用问题 1 中提到的工具来存储和共享数据。如果你真的需要对数据进行版本控制，请参阅 d6tpipe、DVC 和 Git Large File Storage。

DVC：https://dvc.org/
Git Large File Storage：https://git-lfs.github.com/

5. 写函数而不是 DAG

数据已经讨论得够多了，接下来我们谈谈实际的代码。你在学编程时，首先学的就是函数，数据科学代码主要由一系列线性运行的函数组成。这会引发一些问题，详情请参阅「4 Reasons Why Your Machine Learning Code is Probably Bad。」

地址：

https://towardsdatascience.com/4-reasons-why-your-machine-learning-code-is-probably-bad-c291752e4953

def process_data(data, parameter): 
    data = do_stuff(data) 
    data.to_pickle('data.pkl') 
data = pd.read_csv('data.csv') 
process_data(data) 
df_train = pd.read_pickle(df_train) 
model = sklearn.svm.SVC() 
model.fit(df_train.iloc[:,:-1], df_train['y'])

解决方案：与其用线性链接函数，不如写一组有依赖关系的任务。可以用 d6tflow 或者 airflow。

6. 写 for 循环

和函数一样，for 循环也是你在学代码时最先学的。这种语句易于理解，但运行很慢且过于冗长，这种情况通常表示你不知道用什么替代向量化。

x = range(10) 
avg = sum(x)/len(x); std = math.sqrt(sum((i-avg)**2 for i in x)/len(x)); 
zscore = [(i-avg)/std for x] 
# should be: scipy.stats.zscore(x) 
# or 
groupavg = [] 
for i in df['g'].unique(): 
    dfdfg = df[df[g']==i] 
    groupavg.append(dfg['g'].mean()) 
# should be: df.groupby('g').mean()

解决方案：NumPy、SciPy 和 pandas 都有向量化函数，它们可以处理大部分你觉得需要用 for 循环解决的问题。

7. 没有写单元测试

（编辑：东莞站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

1/3

尾页

SEO人员经常难以回答	怎样用页面组合批量排
盘查几个无须手动的S	企业站排名必定有关