加入收藏 | 设为首页 | 会员中心 | 我要投稿 东莞站长网 (https://www.0769zz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 大数据 > 正文

什么是误差图?今天带你认识可视化误差图,让数据一目了然

发布时间:2021-08-22 13:08:05 所属栏目:大数据 来源:互联网
导读:这是Python数据可视化的系列短篇,针对初级和中级用户,将理论和示例代码相结合,使用matplotlib, seaborn, plotly等工具创建不同主题的图表。 本文主题是如何在图表中显示误差。 import os import warnings import requests import numpy as np import pand
这是Python数据可视化的系列短篇,针对初级和中级用户,将理论和示例代码相结合,使用matplotlib, seaborn, plotly等工具创建不同主题的图表。
本文主题是如何在图表中显示误差。
import os 
 
import warnings 
import requests 
import numpy as np 
import pandas as pd 
import matplotlib.pyplot as plt 
from statsmodels.tsa.arima_model import ARIMA 
 
%matplotlib inline 
plt.style.use("fivethirtyeight") 
 
warnings.filterwarnings("ignore") 
1. 显示测量误差
科学测量往往存在误差,准确的报告误差跟报告测量结果同样重要。
测量误差(也称为观察误差)是测量值和真实值之间的差异,包括随机误差(任何实验中都会自然发生的误差)和系统误差(由影响所有测量的错误校准的仪器引起)。
举一个例子,假设您正在测量100个学生的体重,有的学生穿较多的衣服,导致重500克,有的学生可能脱水导致轻200克,这些都是测量误差。事实上所有收集的样本都会存在误差,大多数情况下它们不可避免。所以在数据可视化中,有效显示这些错误可以传达更完整的信息。
在matplotlib中通过调用ax.errorbar()创建误差图(errorbar)。误差图由一个点和穿过这个点的线段组成,点对应测量结果,线段代表测量误差。
# 设置随机数种子 
np.random.seed(123) 
 
# 观测值的数量 
n_observations = 30 
x = np.arange(n_observations) 
 
# 虚拟测量值 
y = np.sin(x) + np.random.randn(n_observations) 
 
# 测量误差,假设误差服从均匀分布 
errors = np.random.randint(1, 3, n_observations) 
 
# 调用ax.errorbar接口,提供3个数组,x, y, yerr 
# fmt控制点和线段的样式,跟ax.plot的fmt相同 
# color: 控制点的颜色 
# ecolor: 代表误差的线段的颜色 
# elinewidth: 代表误差的线段的大小 
fig, ax = plt.subplots(figsize=(10, 7)) 
ax.errorbar(x, y, yerr=errors, fmt="o", color="black", 
            ecolor="lightgray", elinewidth=3) 
 
 
2. 显示预测误差
在机器学习领域,回归模型和时间序列模型用于预测,模型会同时生成预测误差(所谓置信区间),在可视化预测结果时,通常要求显示预测值和预测区间,这可以通过ax.plot()和ax.fill_between()实现。
接下来使用一个真实的案例说明,先从蜂鸟数据获取黄金价格,然后用ARIMA(自回归整合移动平均)预测未来30天的价格,可视化预测结果。
# 从蜂鸟数据下载黄金价格 
params = { 
    "symbol": "XAUUSD",  # 现货黄金ID 
    "start_date": "2010-01-01", 
    "end_date": "2020-08-05", 
    "apikey": os.getenv("TROCHIL_API")  # 在蜂鸟数据官网注册获取API密钥 
resp = requests.get("https://api.trochil.cn/v1/forex/history", params) 
data = pd.DataFrame.from_records(resp.json()["data"]) 
data["datetime"] = pd.to_datetime(data["datetime"]) 
data.set_index("datetime", inplace=True) 
 
# 创建ARMIA模型,预测未来30天价格走势 
model = ARIMA(data.close, order=(1, 1, 1)) 
results = model.fit() 
fc, errors, conf = results.forecast(steps=30, alpha=0.05) 
fc_df = pd.DataFrame({ 
    "forecast": fc, 
    "lower": conf[:, 0], 
    "upper": conf[:, 1] 
}, index=pd.date_range("2020-08-06", periods=30)) 
 
# 可视化预测结果,包括点预测值和预测区间 
# 预测区间包括置信下限和上限,代表真实值可能落入的范围 
# 调用ax.plot显示点预测值,ax.fill_between显示预测区间 
data_since_2020 = data["2020":] 
fig, ax = plt.subplots(figsize=(12, 7)) 
data_since_2020.close.plot(ax=ax, label="Historical Prices") 
ax.plot(fc_df.index, fc_df.forecast, label="Forecast Prices") 
ax.fill_between(fc_df.index, fc_df.lower, fc_df.upper, color="gray", alpha=0.3, label="Forecast Interval") 
ax.set_title("Plot Forecast Errors") 
ax.legend(loc="upper left") 
<matplotlib.legend.Legend at 0x7fbfa348d9a0> 

(编辑:东莞站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!