import pandas as pd
import matplotlib.pyplot as plt
import ds_charts as ds

filename = 'data/electrical_grid_stability.csv'
data = pd.read_csv(filename)

values = {'nr records': data.shape[0], 'nr variables': data.shape[1]}


import ds_charts as ds

variable_types = ds.get_variable_types(data)
variables = variable_types['numeric']
rows, cols = ds.choose_grid(len(variables))
fig, axs = plt.subplots(rows, cols, figsize=(cols*ds.HEIGHT, rows*ds.HEIGHT))
i, j = 0, 0
for n in range(len(variables)):
    axs[i, j].set_title('Histogram for %s'%variables[n])
    axs[i, j].set_xlabel(variables[n])
    axs[i, j].set_ylabel('nr records')
    axs[i, j].hist(data[variables[n]].values, bins=100)
    i, j = (i + 1, 0) if (n+1) % cols == 0 else (i, j + 1)
plt.savefig('images/granularity_single.png')
plt.show()


variable = 'tau1'
bins = (10, 100, 1000, 10000)
fig, axs = plt.subplots(1, len(bins), figsize=(len(bins)*ds.HEIGHT, ds.HEIGHT))
for j in range(len(bins)):
    axs[j].set_title('Histogram for %s %d bins'%(variable, bins[j]))
    axs[j].set_xlabel(variable)
    axs[j].set_ylabel('Nr records')
    axs[j].hist(data[variable].values, bins=bins[j])
plt.savefig(f'images/granularity_study_{variable}.png')
plt.show()


variable_types = ds.get_variable_types(data)
columns = variable_types['numeric']

rows = len(columns)
bins = (10, 100, 1000)
cols = len(bins)
fig, axs = plt.subplots(rows, cols, figsize=(cols*ds.HEIGHT, rows*ds.HEIGHT))
for i in range(rows):
    for j in range(cols):
        axs[i, j].set_title('Histogram for %s %d bins'%(columns[i], bins[j]))
        axs[i, j].set_xlabel(columns[i])
        axs[i, j].set_ylabel('Nr records')
        axs[i, j].hist(data[columns[i]].values, bins=bins[j])
plt.savefig('images/granularity_study.png')
plt.show()

Lab 1: Data Profiling (cont.)

Granularity