{
 "cells": [
  {
   "cell_type": "markdown",
   "metadata": {
    "collapsed": false
   },
   "source": [
    "# SIT307 Assignment 2\n",
    "\n",
    "Students:\n",
    "\n",
    "Mitchell Razga - 218232709\n",
    "\n",
    "Madushi Menahari Jayasundara - 217206634\n",
    "\n",
    "Mario Silva - 217425643\n"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {
    "collapsed": false
   },
   "source": [
    "## Load Modules and Packages"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 1,
   "metadata": {
    "collapsed": false
   },
   "outputs": [
   ],
   "source": [
    "# Import Modules and Packages\n",
    "\n",
    "# Data handling Modules\n",
    "import numpy as np\n",
    "import pandas as pd\n",
    "import itertools as iter\n",
    "\n",
    "# Graphing and Visulisation Modules\n",
    "import matplotlib.pyplot as plt\n",
    "from IPython.display import Image, display, HTML\n",
    "import pydotplus\n",
    "import seaborn as sns\n",
    "\n",
    "# Graphing default settings\n",
    "%matplotlib inline\n",
    "sns.set(font_scale=1.25)\n",
    "\n",
    "# Sklearn Modules\n",
    "import sklearn\n",
    "from sklearn import tree\n",
    "from sklearn import preprocessing\n",
    "from sklearn.metrics import accuracy_score, classification_report\n",
    "from sklearn.model_selection import train_test_split\n",
    "# Classifiers\n",
    "from sklearn.tree import DecisionTreeClassifier\n",
    "from sklearn.neighbors import KNeighborsClassifier\n",
    "from sklearn.ensemble import RandomForestClassifier\n",
    "from sklearn.svm import SVC"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {
    "collapsed": false
   },
   "source": [
    "## Import Data"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 2,
   "metadata": {
    "collapsed": false,
    "scrolled": true
   },
   "outputs": [
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "Reading data from CSV....\n"
     ]
    }
   ],
   "source": [
    "# Read Dataset from CSV and create a pandas DataFrame\n",
    "print(\"Reading data from CSV....\")\n",
    "data = pd.read_csv('data/PPD.csv', delimiter=',')"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {
    "collapsed": false
   },
   "source": [
    "## Encode Data"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 11,
   "metadata": {
    "collapsed": false,
    "scrolled": true
   },
   "outputs": [
    {
     "data": {
      "text/html": [
       "<div>\n",
       "<style scoped>\n",
       "    .dataframe tbody tr th:only-of-type {\n",
       "        vertical-align: middle;\n",
       "    }\n",
       "\n",
       "    .dataframe tbody tr th {\n",
       "        vertical-align: top;\n",
       "    }\n",
       "\n",
       "    .dataframe thead th {\n",
       "        text-align: right;\n",
       "    }\n",
       "</style>\n",
       "<table border=\"1\" class=\"dataframe\">\n",
       "  <thead>\n",
       "    <tr style=\"text-align: right;\">\n",
       "      <th></th>\n",
       "      <th>Year</th>\n",
       "      <th>Semester</th>\n",
       "      <th>Hands Raised</th>\n",
       "      <th>Resources Visited</th>\n",
       "      <th>Announcements Viewed</th>\n",
       "      <th>Discussions Participated In</th>\n",
       "      <th>Grade</th>\n",
       "      <th>Gender_F</th>\n",
       "      <th>Gender_M</th>\n",
       "      <th>Nationality_Egypt</th>\n",
       "      <th>...</th>\n",
       "      <th>Subject_Science</th>\n",
       "      <th>Subject_Spanish</th>\n",
       "      <th>Parent Responsible_Father</th>\n",
       "      <th>Parent Responsible_Mother</th>\n",
       "      <th>Parent Survey Completed_No</th>\n",
       "      <th>Parent Survey Completed_Yes</th>\n",
       "      <th>Parent School Satisfaction_Bad</th>\n",
       "      <th>Parent School Satisfaction_Good</th>\n",
       "      <th>Absence Days_Above-7</th>\n",
       "      <th>Absence Days_Under-7</th>\n",
       "    </tr>\n",
       "  </thead>\n",
       "  <tbody>\n",
       "    <tr>\n",
       "      <th>0</th>\n",
       "      <td>8</td>\n",
       "      <td>1</td>\n",
       "      <td>30</td>\n",
       "      <td>90</td>\n",
       "      <td>33</td>\n",
       "      <td>35</td>\n",
       "      <td>Middle-Level</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>...</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>1</th>\n",
       "      <td>8</td>\n",
       "      <td>1</td>\n",
       "      <td>35</td>\n",
       "      <td>80</td>\n",
       "      <td>50</td>\n",
       "      <td>70</td>\n",
       "      <td>High-Level</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>...</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>2</th>\n",
       "      <td>2</td>\n",
       "      <td>1</td>\n",
       "      <td>98</td>\n",
       "      <td>88</td>\n",
       "      <td>60</td>\n",
       "      <td>31</td>\n",
       "      <td>High-Level</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>...</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>3</th>\n",
       "      <td>2</td>\n",
       "      <td>1</td>\n",
       "      <td>10</td>\n",
       "      <td>20</td>\n",
       "      <td>22</td>\n",
       "      <td>97</td>\n",
       "      <td>Low-Level</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>...</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>4</th>\n",
       "      <td>2</td>\n",
       "      <td>1</td>\n",
       "      <td>11</td>\n",
       "      <td>20</td>\n",
       "      <td>20</td>\n",
       "      <td>98</td>\n",
       "      <td>Low-Level</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>...</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>5</th>\n",
       "      <td>2</td>\n",
       "      <td>1</td>\n",
       "      <td>89</td>\n",
       "      <td>92</td>\n",
       "      <td>40</td>\n",
       "      <td>28</td>\n",
       "      <td>High-Level</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>...</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>6</th>\n",
       "      <td>8</td>\n",
       "      <td>2</td>\n",
       "      <td>25</td>\n",
       "      <td>15</td>\n",
       "      <td>32</td>\n",
       "      <td>53</td>\n",
       "      <td>Middle-Level</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>...</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>7</th>\n",
       "      <td>8</td>\n",
       "      <td>2</td>\n",
       "      <td>80</td>\n",
       "      <td>71</td>\n",
       "      <td>52</td>\n",
       "      <td>51</td>\n",
       "      <td>Middle-Level</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>...</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>8</th>\n",
       "      <td>8</td>\n",
       "      <td>2</td>\n",
       "      <td>85</td>\n",
       "      <td>66</td>\n",
       "      <td>12</td>\n",
       "      <td>23</td>\n",
       "      <td>Middle-Level</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>...</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>9</th>\n",
       "      <td>8</td>\n",
       "      <td>2</td>\n",
       "      <td>45</td>\n",
       "      <td>58</td>\n",
       "      <td>52</td>\n",
       "      <td>43</td>\n",
       "      <td>High-Level</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>...</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>10</th>\n",
       "      <td>8</td>\n",
       "      <td>2</td>\n",
       "      <td>22</td>\n",
       "      <td>51</td>\n",
       "      <td>42</td>\n",
       "      <td>40</td>\n",
       "      <td>Middle-Level</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>...</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>11</th>\n",
       "      <td>8</td>\n",
       "      <td>2</td>\n",
       "      <td>72</td>\n",
       "      <td>51</td>\n",
       "      <td>42</td>\n",
       "      <td>24</td>\n",
       "      <td>High-Level</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>...</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>12</th>\n",
       "      <td>2</td>\n",
       "      <td>2</td>\n",
       "      <td>75</td>\n",
       "      <td>81</td>\n",
       "      <td>51</td>\n",
       "      <td>34</td>\n",
       "      <td>High-Level</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>...</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>13</th>\n",
       "      <td>2</td>\n",
       "      <td>2</td>\n",
       "      <td>5</td>\n",
       "      <td>9</td>\n",
       "      <td>19</td>\n",
       "      <td>98</td>\n",
       "      <td>Low-Level</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>...</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>14</th>\n",
       "      <td>2</td>\n",
       "      <td>2</td>\n",
       "      <td>10</td>\n",
       "      <td>12</td>\n",
       "      <td>29</td>\n",
       "      <td>93</td>\n",
       "      <td>Low-Level</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>...</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>15</th>\n",
       "      <td>2</td>\n",
       "      <td>2</td>\n",
       "      <td>79</td>\n",
       "      <td>93</td>\n",
       "      <td>49</td>\n",
       "      <td>23</td>\n",
       "      <td>High-Level</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>...</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>16</th>\n",
       "      <td>8</td>\n",
       "      <td>1</td>\n",
       "      <td>25</td>\n",
       "      <td>15</td>\n",
       "      <td>12</td>\n",
       "      <td>33</td>\n",
       "      <td>Low-Level</td>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "      <td>...</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>17</th>\n",
       "      <td>2</td>\n",
       "      <td>1</td>\n",
       "      <td>20</td>\n",
       "      <td>88</td>\n",
       "      <td>31</td>\n",
       "      <td>28</td>\n",
       "      <td>Middle-Level</td>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "      <td>...</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>18</th>\n",
       "      <td>2</td>\n",
       "      <td>1</td>\n",
       "      <td>90</td>\n",
       "      <td>98</td>\n",
       "      <td>41</td>\n",
       "      <td>38</td>\n",
       "      <td>High-Level</td>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "      <td>...</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>19</th>\n",
       "      <td>2</td>\n",
       "      <td>1</td>\n",
       "      <td>80</td>\n",
       "      <td>95</td>\n",
       "      <td>21</td>\n",
       "      <td>28</td>\n",
       "      <td>High-Level</td>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "      <td>...</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>20</th>\n",
       "      <td>2</td>\n",
       "      <td>1</td>\n",
       "      <td>10</td>\n",
       "      <td>18</td>\n",
       "      <td>71</td>\n",
       "      <td>38</td>\n",
       "      <td>Middle-Level</td>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "      <td>...</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>21</th>\n",
       "      <td>2</td>\n",
       "      <td>1</td>\n",
       "      <td>10</td>\n",
       "      <td>17</td>\n",
       "      <td>50</td>\n",
       "      <td>21</td>\n",
       "      <td>Middle-Level</td>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "      <td>...</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>22</th>\n",
       "      <td>2</td>\n",
       "      <td>1</td>\n",
       "      <td>10</td>\n",
       "      <td>10</td>\n",
       "      <td>40</td>\n",
       "      <td>51</td>\n",
       "      <td>Low-Level</td>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "      <td>...</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>23</th>\n",
       "      <td>2</td>\n",
       "      <td>1</td>\n",
       "      <td>20</td>\n",
       "      <td>90</td>\n",
       "      <td>50</td>\n",
       "      <td>61</td>\n",
       "      <td>Middle-Level</td>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "      <td>...</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>24</th>\n",
       "      <td>2</td>\n",
       "      <td>1</td>\n",
       "      <td>10</td>\n",
       "      <td>30</td>\n",
       "      <td>50</td>\n",
       "      <td>91</td>\n",
       "      <td>Low-Level</td>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "      <td>...</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>25</th>\n",
       "      <td>2</td>\n",
       "      <td>1</td>\n",
       "      <td>69</td>\n",
       "      <td>82</td>\n",
       "      <td>20</td>\n",
       "      <td>28</td>\n",
       "      <td>High-Level</td>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "      <td>...</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>26</th>\n",
       "      <td>2</td>\n",
       "      <td>1</td>\n",
       "      <td>15</td>\n",
       "      <td>90</td>\n",
       "      <td>21</td>\n",
       "      <td>97</td>\n",
       "      <td>Middle-Level</td>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "      <td>...</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>27</th>\n",
       "      <td>2</td>\n",
       "      <td>1</td>\n",
       "      <td>4</td>\n",
       "      <td>10</td>\n",
       "      <td>11</td>\n",
       "      <td>7</td>\n",
       "      <td>Low-Level</td>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "      <td>...</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>28</th>\n",
       "      <td>8</td>\n",
       "      <td>2</td>\n",
       "      <td>85</td>\n",
       "      <td>75</td>\n",
       "      <td>62</td>\n",
       "      <td>53</td>\n",
       "      <td>High-Level</td>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "      <td>...</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>29</th>\n",
       "      <td>8</td>\n",
       "      <td>2</td>\n",
       "      <td>10</td>\n",
       "      <td>35</td>\n",
       "      <td>30</td>\n",
       "      <td>13</td>\n",
       "      <td>Low-Level</td>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "      <td>...</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>...</th>\n",
       "      <td>...</td>\n",
       "      <td>...</td>\n",
       "      <td>...</td>\n",
       "      <td>...</td>\n",
       "      <td>...</td>\n",
       "      <td>...</td>\n",
       "      <td>...</td>\n",
       "      <td>...</td>\n",
       "      <td>...</td>\n",
       "      <td>...</td>\n",
       "      <td>...</td>\n",
       "      <td>...</td>\n",
       "      <td>...</td>\n",
       "      <td>...</td>\n",
       "      <td>...</td>\n",
       "      <td>...</td>\n",
       "      <td>...</td>\n",
       "      <td>...</td>\n",
       "      <td>...</td>\n",
       "      <td>...</td>\n",
       "      <td>...</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>450</th>\n",
       "      <td>4</td>\n",
       "      <td>2</td>\n",
       "      <td>32</td>\n",
       "      <td>14</td>\n",
       "      <td>32</td>\n",
       "      <td>29</td>\n",
       "      <td>Middle-Level</td>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "      <td>...</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>451</th>\n",
       "      <td>4</td>\n",
       "      <td>2</td>\n",
       "      <td>22</td>\n",
       "      <td>34</td>\n",
       "      <td>15</td>\n",
       "      <td>9</td>\n",
       "      <td>Low-Level</td>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "      <td>...</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>452</th>\n",
       "      <td>4</td>\n",
       "      <td>2</td>\n",
       "      <td>72</td>\n",
       "      <td>64</td>\n",
       "      <td>59</td>\n",
       "      <td>89</td>\n",
       "      <td>High-Level</td>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "      <td>...</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>453</th>\n",
       "      <td>4</td>\n",
       "      <td>2</td>\n",
       "      <td>82</td>\n",
       "      <td>84</td>\n",
       "      <td>79</td>\n",
       "      <td>79</td>\n",
       "      <td>Middle-Level</td>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "      <td>...</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>454</th>\n",
       "      <td>4</td>\n",
       "      <td>2</td>\n",
       "      <td>42</td>\n",
       "      <td>34</td>\n",
       "      <td>29</td>\n",
       "      <td>39</td>\n",
       "      <td>Middle-Level</td>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "      <td>...</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>455</th>\n",
       "      <td>8</td>\n",
       "      <td>2</td>\n",
       "      <td>87</td>\n",
       "      <td>88</td>\n",
       "      <td>40</td>\n",
       "      <td>10</td>\n",
       "      <td>Middle-Level</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>...</td>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>456</th>\n",
       "      <td>11</td>\n",
       "      <td>2</td>\n",
       "      <td>10</td>\n",
       "      <td>51</td>\n",
       "      <td>40</td>\n",
       "      <td>40</td>\n",
       "      <td>Low-Level</td>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "      <td>...</td>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>457</th>\n",
       "      <td>8</td>\n",
       "      <td>2</td>\n",
       "      <td>17</td>\n",
       "      <td>21</td>\n",
       "      <td>42</td>\n",
       "      <td>14</td>\n",
       "      <td>Middle-Level</td>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "      <td>...</td>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>458</th>\n",
       "      <td>8</td>\n",
       "      <td>2</td>\n",
       "      <td>27</td>\n",
       "      <td>41</td>\n",
       "      <td>49</td>\n",
       "      <td>14</td>\n",
       "      <td>Middle-Level</td>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "      <td>...</td>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>459</th>\n",
       "      <td>8</td>\n",
       "      <td>2</td>\n",
       "      <td>70</td>\n",
       "      <td>81</td>\n",
       "      <td>39</td>\n",
       "      <td>84</td>\n",
       "      <td>Middle-Level</td>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "      <td>...</td>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>460</th>\n",
       "      <td>8</td>\n",
       "      <td>2</td>\n",
       "      <td>27</td>\n",
       "      <td>90</td>\n",
       "      <td>82</td>\n",
       "      <td>14</td>\n",
       "      <td>High-Level</td>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "      <td>...</td>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>461</th>\n",
       "      <td>8</td>\n",
       "      <td>2</td>\n",
       "      <td>17</td>\n",
       "      <td>61</td>\n",
       "      <td>42</td>\n",
       "      <td>14</td>\n",
       "      <td>Middle-Level</td>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "      <td>...</td>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>462</th>\n",
       "      <td>8</td>\n",
       "      <td>2</td>\n",
       "      <td>87</td>\n",
       "      <td>81</td>\n",
       "      <td>42</td>\n",
       "      <td>19</td>\n",
       "      <td>High-Level</td>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "      <td>...</td>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>463</th>\n",
       "      <td>8</td>\n",
       "      <td>2</td>\n",
       "      <td>7</td>\n",
       "      <td>61</td>\n",
       "      <td>22</td>\n",
       "      <td>14</td>\n",
       "      <td>Low-Level</td>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "      <td>...</td>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>464</th>\n",
       "      <td>8</td>\n",
       "      <td>2</td>\n",
       "      <td>17</td>\n",
       "      <td>50</td>\n",
       "      <td>2</td>\n",
       "      <td>4</td>\n",
       "      <td>Low-Level</td>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "      <td>...</td>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>465</th>\n",
       "      <td>8</td>\n",
       "      <td>2</td>\n",
       "      <td>5</td>\n",
       "      <td>21</td>\n",
       "      <td>42</td>\n",
       "      <td>14</td>\n",
       "      <td>Low-Level</td>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "      <td>...</td>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>466</th>\n",
       "      <td>8</td>\n",
       "      <td>2</td>\n",
       "      <td>27</td>\n",
       "      <td>41</td>\n",
       "      <td>32</td>\n",
       "      <td>61</td>\n",
       "      <td>Middle-Level</td>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "      <td>...</td>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>467</th>\n",
       "      <td>8</td>\n",
       "      <td>2</td>\n",
       "      <td>96</td>\n",
       "      <td>61</td>\n",
       "      <td>42</td>\n",
       "      <td>94</td>\n",
       "      <td>High-Level</td>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "      <td>...</td>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>468</th>\n",
       "      <td>8</td>\n",
       "      <td>2</td>\n",
       "      <td>57</td>\n",
       "      <td>51</td>\n",
       "      <td>46</td>\n",
       "      <td>34</td>\n",
       "      <td>Middle-Level</td>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "      <td>...</td>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>469</th>\n",
       "      <td>8</td>\n",
       "      <td>2</td>\n",
       "      <td>77</td>\n",
       "      <td>69</td>\n",
       "      <td>41</td>\n",
       "      <td>13</td>\n",
       "      <td>Middle-Level</td>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "      <td>...</td>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>470</th>\n",
       "      <td>8</td>\n",
       "      <td>2</td>\n",
       "      <td>80</td>\n",
       "      <td>51</td>\n",
       "      <td>40</td>\n",
       "      <td>24</td>\n",
       "      <td>Middle-Level</td>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "      <td>...</td>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>471</th>\n",
       "      <td>8</td>\n",
       "      <td>2</td>\n",
       "      <td>62</td>\n",
       "      <td>61</td>\n",
       "      <td>82</td>\n",
       "      <td>40</td>\n",
       "      <td>Middle-Level</td>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "      <td>...</td>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>472</th>\n",
       "      <td>8</td>\n",
       "      <td>2</td>\n",
       "      <td>72</td>\n",
       "      <td>83</td>\n",
       "      <td>12</td>\n",
       "      <td>90</td>\n",
       "      <td>High-Level</td>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "      <td>...</td>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>473</th>\n",
       "      <td>8</td>\n",
       "      <td>2</td>\n",
       "      <td>87</td>\n",
       "      <td>81</td>\n",
       "      <td>22</td>\n",
       "      <td>70</td>\n",
       "      <td>High-Level</td>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "      <td>...</td>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>474</th>\n",
       "      <td>8</td>\n",
       "      <td>2</td>\n",
       "      <td>72</td>\n",
       "      <td>90</td>\n",
       "      <td>12</td>\n",
       "      <td>30</td>\n",
       "      <td>Middle-Level</td>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "      <td>...</td>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>475</th>\n",
       "      <td>8</td>\n",
       "      <td>2</td>\n",
       "      <td>2</td>\n",
       "      <td>11</td>\n",
       "      <td>62</td>\n",
       "      <td>30</td>\n",
       "      <td>Low-Level</td>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "      <td>...</td>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>476</th>\n",
       "      <td>8</td>\n",
       "      <td>2</td>\n",
       "      <td>5</td>\n",
       "      <td>3</td>\n",
       "      <td>2</td>\n",
       "      <td>10</td>\n",
       "      <td>Low-Level</td>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "      <td>...</td>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>477</th>\n",
       "      <td>8</td>\n",
       "      <td>2</td>\n",
       "      <td>5</td>\n",
       "      <td>17</td>\n",
       "      <td>21</td>\n",
       "      <td>10</td>\n",
       "      <td>Low-Level</td>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "      <td>...</td>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>478</th>\n",
       "      <td>8</td>\n",
       "      <td>2</td>\n",
       "      <td>51</td>\n",
       "      <td>42</td>\n",
       "      <td>12</td>\n",
       "      <td>29</td>\n",
       "      <td>Middle-Level</td>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "      <td>...</td>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>479</th>\n",
       "      <td>8</td>\n",
       "      <td>2</td>\n",
       "      <td>9</td>\n",
       "      <td>7</td>\n",
       "      <td>21</td>\n",
       "      <td>20</td>\n",
       "      <td>Low-Level</td>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "      <td>...</td>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "    </tr>\n",
       "  </tbody>\n",
       "</table>\n",
       "<p>480 rows × 63 columns</p>\n",
       "</div>"
      ]
     },
     "execution_count": 11,
     "metadata": {
     },
     "output_type": "execute_result"
    }
   ],
   "source": [
    "# Create new pandas DataFrame\n",
    "data_encoded = pd.DataFrame\n",
    "\n",
    "# Encode existing DataFrame and add to new dataframe\n",
    "encode_columns = ['Gender', 'Nationality', 'Birthplace', 'Education Level', 'Classroom', 'Subject', 'Parent Responsible', 'Parent Survey Completed', 'Parent School Satisfaction', 'Absence Days']\n",
    "data_encoded = pd.get_dummies(data, columns = encode_columns)\n",
    "data_encoded"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {
    "collapsed": false
   },
   "source": [
    "## Configure data for classifier"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 12,
   "metadata": {
    "collapsed": false,
    "scrolled": true
   },
   "outputs": [
   ],
   "source": [
    "# Remove 'target' column to allow for sklearn DecisionTreeClassifier handling\n",
    "test_data = data_encoded.drop(columns='Grade')\n",
    "target_data = data_encoded['Grade'].values"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {
    "collapsed": false
   },
   "source": [
    "## Generate Test Data - 50/50 Split"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 13,
   "metadata": {
    "collapsed": false
   },
   "outputs": [
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "Training Data size: 240 240 \n",
      "Test Data size:  240 240\n"
     ]
    }
   ],
   "source": [
    "# Split data\n",
    "# CHANGE to predicted/estimated\n",
    "X_train, X_test, y_train, y_test = train_test_split(test_data, target_data, test_size = .5)\n",
    "print(\"Training Data size:\", len(X_train),len(y_train), \"\\nTest Data size: \",len(X_test),len(y_test))"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {
    "collapsed": false
   },
   "source": [
    "## Generate Decision Tree - 50/50 Split"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 14,
   "metadata": {
    "collapsed": false
   },
   "outputs": [
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "Accurracy:  0.6875\n",
      "<bound method BaseEstimator.get_params of DecisionTreeClassifier(class_weight=None, criterion='gini', max_depth=None,\n",
      "            max_features=None, max_leaf_nodes=None,\n",
      "            min_impurity_decrease=0.0, min_impurity_split=None,\n",
      "            min_samples_leaf=1, min_samples_split=2,\n",
      "            min_weight_fraction_leaf=0.0, presort=False, random_state=2000,\n",
      "            splitter='best')>\n"
     ]
    }
   ],
   "source": [
    "# Generate CART Decision Tree\n",
    "dtree = DecisionTreeClassifier(random_state=2000)\n",
    "dtree.fit(X_train, y_train)\n",
    "predictions = dtree.predict(X_test)\n",
    "\n",
    "# Check accurracy\n",
    "print(\"Accurracy: \", accuracy_score(y_test, predictions))\n",
    "print(dtree.get_params)\n",
    "#print(dtree.feature_importances_)"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {
    "collapsed": false
   },
   "source": [
    "## Visualise"
   ]
  },
  {
   "cell_type": "raw",
   "metadata": {
    "collapsed": false
   },
   "source": [
    "# Visualise Decision Tree\n",
    "# Create DOT data\n",
    "dot_data = tree.export_graphviz(dtree, out_file=None,\n",
    "                                feature_names=test_data.columns,\n",
    "                                class_names=['High-Level', 'Middle-Level', 'Low-Level'])\n",
    "\n",
    "# Draw graph\n",
    "graph = pydotplus.graph_from_dot_data(dot_data)\n",
    "\n",
    "# Show graph\n",
    "Image(graph.create_png())"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 15,
   "metadata": {
    "collapsed": false
   },
   "outputs": [
   ],
   "source": [
    "# Procedure for testing accurracy\n",
    "def DecisionTreeParameterTest(parameter_variables, parameter_values):\n",
    "    score = []\n",
    "    parameters = {}\n",
    "    for pvalue in parameter_values:\n",
    "        print(parameters)\n",
    "        parameters[parameter_variables]=pvalue\n",
    "        dtree = DecisionTreeClassifier(random_state=2000, **parameters)\n",
    "        dtree_predictions = dtree.fit(X_train, y_train).predict(X_test)\n",
    "        dtree_accuracy = accuracy_score(y_test, dtree_predictions)\n",
    "        score.append(dtree_accuracy)\n",
    "    plt.subplots(figsize=(10,10))\n",
    "    plot = sns.pointplot(x=parameter_values, y=score)\n",
    "    plot.set(xlabel='Parameter Values', ylabel='Accuracy', title=\"Decision Tree Parameter Test: \" + parameter_variables)\n",
    "    plt.savefig(\"Decision Tree Parameter Test: \" + parameter_variables + \".png\")"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 16,
   "metadata": {
    "collapsed": false
   },
   "outputs": [
    {
     "ename": "IndentationError",
     "evalue": "expected an indented block (<ipython-input-16-297303b31446>, line 38)",
     "output_type": "error",
     "traceback": [
      "\u001b[0;36m  File \u001b[0;32m\"<ipython-input-16-297303b31446>\"\u001b[0;36m, line \u001b[0;32m38\u001b[0m\n\u001b[0;31m    def PlotDecisionTreeAccuracy(x, y):\u001b[0m\n\u001b[0m      ^\u001b[0m\n\u001b[0;31mIndentationError\u001b[0m\u001b[0;31m:\u001b[0m expected an indented block\n"
     ]
    }
   ],
   "source": [
    "# Functions for testing accurracy\n",
    "### Tidy up\n",
    "def DecisionTreeAccuracyTest(parameters):\n",
    "    # Initialise dictionary to hold the results\n",
    "    results = {}\n",
    "    # Generate a decision with each parameter combination\n",
    "    TestAllParameterCombinations(parameters, results)\n",
    "    # Display Results\n",
    "    PlotDecisionTreeAccuracy(list(results.keys()), list(results.values()))\n",
    "    DisplayResults(results)\n",
    "\n",
    "def TestAllParameterCombinations(parameters, results):\n",
    "    # Combine parameters and values into a list\n",
    "    parameters, values = zip(*parameters.items())\n",
    "    # Get every possible combination\n",
    "    for value in iter.product(*values):\n",
    "        # Determine parameters\n",
    "        current_parameters = dict(zip(parameters, value))\n",
    "        # Generate Decision Tree with these parameters\n",
    "        GenerateDecisionTree(current_parameters, results)\n",
    "    return results\n",
    "\n",
    "def GenerateDecisionTree(current_parameters, results):\n",
    "    # Generate Decision Tree using specified parameters\n",
    "    dtree = DecisionTreeClassifier(random_state=2000, **current_parameters)\n",
    "    # Determine Accuracy of the Decision Tree\n",
    "    dtree_predictions = dtree.fit(X_train, y_train).predict(X_test)\n",
    "    dtree_accuracy = accuracy_score(y_test, dtree_predictions)\n",
    "    # Convert parameter text into readable format\n",
    "    formatted = \" \\n \".join((\"{} = {}\".format(*i) for i in current_parameters.items()))\n",
    "    # Add test results to dictionary\n",
    "    results.update({formatted: dtree_accuracy})\n",
    "    return results\n",
    "\n",
    "def FindBestParameterVariables():\n",
    "    # Get P\n",
    "\n",
    "def PlotDecisionTreeAccuracy(x, y):\n",
    "    # Create Plot\n",
    "    plt.subplots(figsize=(15,15))\n",
    "    plot = sns.pointplot(x=x, y=y)\n",
    "    # Set Plot visuals\n",
    "    plot.set(xlabel='Parameter Values', ylabel='Accuracy', title=\"Decision Tree Parameter Test\")\n",
    "    plot.set_xticklabels(plot.get_xticklabels(), rotation=90)\n",
    "    # Save and Show Plot\n",
    "    plt.savefig(\"Decision Tree Parameter Test.png\")\n",
    "    plt.show()\n",
    "\n",
    "def DisplayResults(results):\n",
    "    # Sort Results highest to lowest and display top 5\n",
    "    sorted_results = {}\n",
    "    for key in sorted(results, key=results.get, reverse=True)[:5]:\n",
    "        sorted_results.update({key: results[key]})\n",
    "    # Generate Pandas DataFrame from dictionary\n",
    "    df = pd.DataFrame(list(sorted_results.items()), columns=['Parameters', 'Accuracy'])\n",
    "    # Pretty print DataFrame\n",
    "    display(HTML(df.to_html().replace(\"\\\\n\",\"<br>\")))"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 0,
   "metadata": {
    "collapsed": false,
    "scrolled": true
   },
   "outputs": [
   ],
   "source": [
    "# Best default decision tree\n",
    "DecisionTreeAccuracyTest(parameters={'max_depth': [1, 5, 10, 25], 'min_samples_split': [2, 4, 8, 16]})"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 0,
   "metadata": {
    "collapsed": false
   },
   "outputs": [
   ],
   "source": [
    "# Best default min samples split\n",
    "DecisionTreeAccuracyTest(parameters={'min_samples_split': [2, 4, 8, 16, 32, 64, 128, 256, 512]})"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 0,
   "metadata": {
    "collapsed": false
   },
   "outputs": [
   ],
   "source": [
    "# Best default min samples leaf\n",
    "DecisionTreeAccuracyTest(parameters={'min_samples_leaf': [1, 5, 10, 25, 50, 100, 200, 300, 400, 500, 600, 700]})"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 0,
   "metadata": {
    "collapsed": false
   },
   "outputs": [
   ],
   "source": [
    "# Best default min weight fraction leaf\n",
    "DecisionTreeAccuracyTest(parameters={'min_weight_fraction_leaf': [0.1, 0.2, 0.3, 0.4, 0.5]})"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 0,
   "metadata": {
    "collapsed": false
   },
   "outputs": [
   ],
   "source": [
    "## Best default max features\n",
    "DecisionTreeAccuracyTest(parameters={'max_features': [1, 5, 10, 50, 60, 62]})"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 0,
   "metadata": {
    "collapsed": false
   },
   "outputs": [
   ],
   "source": [
    "## Best default max features\n",
    "DecisionTreeAccuracyTest(parameters={'max_leaf_nodes': [2, 4, 8, 16, 32, 64, 128, 256]})"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 0,
   "metadata": {
    "collapsed": false
   },
   "outputs": [
   ],
   "source": [
    "## Best default max features\n",
    "DecisionTreeAccuracyTest(parameters={'min_impurity_decrease': [0, 0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9, 1]})"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 0,
   "metadata": {
    "collapsed": false
   },
   "outputs": [
   ],
   "source": [
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {
    "collapsed": false
   },
   "source": [
    "## Random Forests\n"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 0,
   "metadata": {
    "collapsed": false,
    "scrolled": true
   },
   "outputs": [
   ],
   "source": [
    "# Generate Random Forest\n",
    "rf = RandomForestClassifier(random_state=2000)\n",
    "\n",
    "# Train the model on training data\n",
    "rf.fit(X_train, y_train);\n",
    "predictions = rf.predict(X_test)\n",
    "\n",
    "# Check accurracy\n",
    "print(\"Train Accuracy: \", accuracy_score(y_train, rf.predict(X_train)))\n",
    "print(\"Test Accuracy: \", accuracy_score(y_test, predictions))\n",
    "print(\"Classification Report: \\n\", classification_report(y_test, predictions))"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 0,
   "metadata": {
    "collapsed": false,
    "scrolled": true
   },
   "outputs": [
   ],
   "source": [
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {
    "collapsed": false
   },
   "source": [
    "# Improving Accuracy"
   ]
  },
  {
   "cell_type": "raw",
   "metadata": {
    "collapsed": false
   },
   "source": [
    "Below are methods we used to improve accuracy"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {
    "collapsed": false
   },
   "source": [
    "## Remove Outliers"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 0,
   "metadata": {
    "collapsed": false
   },
   "outputs": [
   ],
   "source": [
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {
    "collapsed": false
   },
   "source": [
    "## Remove less important columns"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 0,
   "metadata": {
    "collapsed": false
   },
   "outputs": [
   ],
   "source": [
    "data2 = data.drop(columns='Grade')"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {
    "collapsed": false
   },
   "source": [
    "## Show Correlation"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 0,
   "metadata": {
    "collapsed": false,
    "scrolled": true
   },
   "outputs": [
   ],
   "source": [
    "corr = data_encoded.corr()\n",
    "corr"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 0,
   "metadata": {
    "collapsed": false
   },
   "outputs": [
   ],
   "source": [
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {
    "collapsed": false
   },
   "source": [
    "## Remove Columns"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 0,
   "metadata": {
    "collapsed": false,
    "scrolled": true
   },
   "outputs": [
   ],
   "source": [
    "data.drop('Grade',axis=1)\n",
    "data.drop('Birthplace',axis=1)\n",
    "data.drop('Nationality',axis=1)\n",
    "data.drop('Parent Responsible',axis=1)\n",
    "data.drop('Parent School Satisfaction',axis=1)\n",
    "data_removed = data_encoded.drop(columns='Grade','Birthplace','Nationality','Parent Responsible','Parent School Satisfaction')\n",
    "data_removed"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {
    "collapsed": false
   },
   "source": [
    "## Increase Split"
   ]
  },
  {
   "cell_type": "raw",
   "metadata": {
    "collapsed": false
   },
   "source": [
    "# Split data 50/50\n",
    "X_train, X_test, y_train, y_test = train_test_split(test_data, target_data, test_size = .5)\n",
    "print(\"Training Data size:\", len(X_train),len(y_train), \"\\nTest Data size: \",len(X_test),len(y_test))"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 0,
   "metadata": {
    "collapsed": false
   },
   "outputs": [
   ],
   "source": [
    "# Split data 80/20\n",
    "X_train, X_test, y_train, y_test = train_test_split(test_data, target_data, test_size = .2)\n",
    "print(\"Training Data size:\", len(X_train),len(y_train), \"\\nTest Data size: \",len(X_test),len(y_test))"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 0,
   "metadata": {
    "collapsed": false
   },
   "outputs": [
   ],
   "source": [
    "# Generate Random Forest\n",
    "rf = RandomForestClassifier(random_state=2000)\n",
    "\n",
    "# Train the model on training data\n",
    "rf.fit(X_train, y_train);\n",
    "predictions = rf.predict(X_test)\n",
    "\n",
    "# Check accurracy\n",
    "print(\"Train Accuracy: \", accuracy_score(y_train, rf.predict(X_train)))\n",
    "print(\"Test Accuracy: \", accuracy_score(y_test, predictions))\n",
    "print(\"Classification Report: \\n\", classification_report(y_test, predictions))"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {
    "collapsed": false
   },
   "source": [
    "## Change parameters"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 0,
   "metadata": {
    "collapsed": false
   },
   "outputs": [
   ],
   "source": [
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 0,
   "metadata": {
    "collapsed": false
   },
   "outputs": [
   ],
   "source": [
    "# Exploring the number of estimators in the random forest\n",
    "score = []\n",
    "est = []\n",
    "estimators = [1, 5, 10, 25, 50, 100, 200, 300, 400, 500, 600, 700, 800, 900, 1000]\n",
    "for e in estimators:\n",
    "    rf = RandomForestClassifier(n_estimators=e, random_state=2000)\n",
    "    rf_predictions = rf.fit(X_train, y_train).predict(X_test)\n",
    "    rf_accuracy = accuracy_score(y_test, rf_predictions)\n",
    "    score.append(rf_accuracy)\n",
    "    est.append(e)\n",
    "plt.subplots(figsize=(10,10))\n",
    "plot = sns.pointplot(x=est, y=score)\n",
    "plot.set(xlabel='Number of estimators', ylabel='Accuracy',\n",
    "         title='Accuracy score of Random Forests by number of estimators',)\n",
    "plt.savefig(\"Estimator Accurracy.png\")"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 0,
   "metadata": {
    "collapsed": false
   },
   "outputs": [
   ],
   "source": [
    "# Exploring minimum leaf samples\n",
    "score = []\n",
    "leaf = []\n",
    "leaf_options = [1, 5, 10, 50, 100, 200]\n",
    "for l in leaf_options:\n",
    "    rf = RandomForestClassifier(n_estimators=30, random_state=2000, min_samples_leaf=l)\n",
    "    rf_predictions = rf.fit(X_train, y_train).predict(X_test)\n",
    "    rf_accuracy = accuracy_score(y_test, rf_predictions)\n",
    "    score.append(rf_accuracy)\n",
    "    leaf.append(l)\n",
    "plt.subplots(figsize=(10,10))\n",
    "plot = sns.pointplot(x=leaf, y=score)\n",
    "plot.set(xlabel='Number of minimum leaf samples', ylabel='Accuracy', \n",
    "         title='Accuracy score of Random Forests by number of minimum leaf samples')\n",
    "plt.savefig(\"Leaf Accurracy.png\")\n",
    "plt.show()"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 0,
   "metadata": {
    "collapsed": false
   },
   "outputs": [
   ],
   "source": [
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 0,
   "metadata": {
    "collapsed": false
   },
   "outputs": [
   ],
   "source": [
    "# Generate Random Forest\n",
    "rf = RandomForestClassifier(min_samples_leaf=5,random_state=2000)\n",
    "\n",
    "# Train the model on training data\n",
    "rf.fit(X_train, y_train);\n",
    "predictions = rf.predict(X_test)\n",
    "\n",
    "# Check accurracy\n",
    "print(\"Train Accuracy: \", accuracy_score(y_train, rf.predict(X_train)))\n",
    "print(\"Test Accuracy: \", accuracy_score(y_test, predictions))\n",
    "print(\"Classification Report: \\n\", classification_report(y_test, predictions))"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 0,
   "metadata": {
    "collapsed": false
   },
   "outputs": [
   ],
   "source": [
    "# Visualise Decision Tree\n",
    "# Create DOT data\n",
    "dot_data = tree.export_graphviz(rf.estimators_[0], out_file=None, \n",
    "                                feature_names=test_data.columns,  \n",
    "                                class_names=['High-Level', 'Middle-Level', 'Low-Level'])\n",
    "\n",
    "# Draw graph\n",
    "graph = pydotplus.graph_from_dot_data(dot_data)  \n",
    "\n",
    "# Show graph\n",
    "Image(graph.create_png())"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 0,
   "metadata": {
    "collapsed": false,
    "scrolled": true
   },
   "outputs": [
   ],
   "source": [
    "# Confusion matrix\n",
    "# classification report\n",
    "# Min, Max, Avg accuracy"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 0,
   "metadata": {
    "collapsed": false
   },
   "outputs": [
   ],
   "source": [
    "rf.feature_importances_"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 0,
   "metadata": {
    "collapsed": false
   },
   "outputs": [
   ],
   "source": [
    "Features = data.drop('Grade',axis=1)\n",
    "Target = data['Grade']\n",
    "label = preprocessing.LabelEncoder()\n",
    "Cat_Colums = Features.dtypes.pipe(lambda Features: Features[Features=='object']).index\n",
    "for col in Cat_Colums:\n",
    "    Features[col] = label.fit_transform(Features[col])"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 0,
   "metadata": {
    "collapsed": false
   },
   "outputs": [
   ],
   "source": [
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 0,
   "metadata": {
    "collapsed": false
   },
   "outputs": [
   ],
   "source": [
    "for index, f in enumerate(rf.feature_importances_):\n",
    "    if f > 0.05:\n",
    "        print(encoded_data.columns[index], f)"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 0,
   "metadata": {
    "collapsed": false
   },
   "outputs": [
   ],
   "source": [
    "indices = np.argsort(importances)[::-1]\n",
    "for f in range(X_train.shape[1]):\n",
    "    print(\"%2d) %-*s %f\" % (f + 1, 30,feat_labels[indices[f]],importances[indices[f]]))\n",
    "h = sns.barplot(importances[indices],feat_labels[indices])"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 0,
   "metadata": {
    "collapsed": false
   },
   "outputs": [
   ],
   "source": [
    "- When n_estimaters reaches its plateau"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {
    "collapsed": false
   },
   "source": [
    "## Compared to other methods"
   ]
  },
  {
   "cell_type": "raw",
   "metadata": {
    "collapsed": false
   },
   "source": [
    "svm = SVC()\n",
    "svm.fit(X_train,y_train)\n",
    "print(\"Score of SVM\",svm.score(X_test,y_test))"
   ]
  },
  {
   "cell_type": "raw",
   "metadata": {
    "collapsed": false
   },
   "source": [
    "from sklearn.neural_network import MLPClassifier\n",
    "mlp = MLPClassifier(solver='lbfgs', alpha=1e-5,\n",
    "                     hidden_layer_sizes=(5, 2), random_state=2000 )\n",
    "mlp.fit(X_tr_std,y_tr)\n",
    "y_pred_mlp= mlp.predict(X_test_std)\n",
    "print('Misclassified samples: %d' % (y_test != y_pred_mlp).sum())\n",
    "print('Accuracy: %.2f' % accuracy_score(y_test, y_pred_mlp))"
   ]
  },
  {
   "cell_type": "raw",
   "metadata": {
    "collapsed": false
   },
   "source": [
    "from sklearn.ensemble import RandomForestClassifier\n",
    "rf=RandomForestClassifier()\n",
    "\n",
    "rf.fit(X_tr_std, y_tr)\n",
    "y_pred_rf = rf.predict(X_test_std)\n",
    "print('Misclassified samples: %d' % (y_test != y_pred_rf).sum())\n",
    "print('Accuracy: %.2f' % accuracy_score(y_test, y_pred_rf))"
   ]
  },
  {
   "cell_type": "raw",
   "metadata": {
    "collapsed": false
   },
   "source": [
    "from sklearn.svm import SVC\n",
    "from sklearn.model_selection import cross_val_score\n",
    "from sklearn.metrics import accuracy_score\n",
    "svm = SVC(kernel='linear', C=2.0, random_state=2000)\n",
    "svm.fit(X_tr_std, y_tr)\n",
    "y_pred = svm.predict(X_test_std)\n",
    "print('Misclassified samples: %d' % (y_test != y_pred).sum())\n",
    "print('Accuracy: %.2f' % accuracy_score(y_test, y_pred))"
   ]
  }
 ],
 "metadata": {
  "kernelspec": {
   "display_name": "Python 3 (Anaconda 5)",
   "language": "python",
   "name": "anaconda5"
  },
  "language_info": {
   "codemirror_mode": {
    "name": "ipython",
    "version": 3
   },
   "file_extension": ".py",
   "mimetype": "text/x-python",
   "name": "python",
   "nbconvert_exporter": "python",
   "pygments_lexer": "ipython3",
   "version": "3.6.5"
  }
 },
 "nbformat": 4,
 "nbformat_minor": 0
}