import pandas as pd
import matplotlib.pyplot as plt
from pandas.plotting import register_matplotlib_converters
import ds_charts as ds

register_matplotlib_converters()
filename = 'data/algae.csv'
data = pd.read_csv(filename, index_col='date', parse_dates=True, infer_datetime_format=True)

variable_types = ds.get_variable_types(data)
numeric_vars = variable_types['numeric']

rows, cols = len(numeric_vars)-1, len(numeric_vars)-1
plt.figure()
fig, axs = plt.subplots(rows, cols, figsize=(cols*4, rows*4), squeeze=False)
for i in range(len(numeric_vars)):
    var1 = numeric_vars[i]
    for j in range(i+1, len(numeric_vars)):
        var2 = numeric_vars[j]
        axs[i, j-1].set_title("%s x %s"%(var1,var2))
        axs[i, j-1].set_xlabel(var1)
        axs[i, j-1].set_ylabel(var2)
        axs[i, j-1].scatter(data[var1], data[var2])
plt.savefig(f'images/sparsity_study_numeric.png')
plt.show()

<Figure size 600x450 with 0 Axes>


symbolic_vars = variable_types['symbolic']

rows, cols = len(symbolic_vars)-1, len(symbolic_vars)-1
plt.figure()
fig, axs = plt.subplots(rows, cols, figsize=(cols*4, rows*4), squeeze=False)
for i in range(len(symbolic_vars)):
    var1 = symbolic_vars[i]
    for j in range(i+1, len(symbolic_vars)):
        var2 = symbolic_vars[j]
        axs[i, j-1].set_title("%s x %s"%(var1,var2))
        axs[i, j-1].set_xlabel(var1)
        axs[i, j-1].set_ylabel(var2)
        axs[i, j-1].scatter(data[var1], data[var2])
plt.savefig(f'images/sparsity_study_symbolic.png')
plt.show()

<Figure size 600x450 with 0 Axes>


import seaborn as sns

fig = plt.figure(figsize=[12, 12])
corr_mtx = data.corr()
sns.heatmap(corr_mtx, xticklabels=corr_mtx.columns, yticklabels=corr_mtx.columns, annot=True, cmap='Blues')
plt.title('Correlation analysis')
plt.savefig(f'images/correlation_analysis.png')
plt.show()

Lab 1: Data Profiling (cont.)

Sparsity

Sparsity

Correlation analysis