---
title: "Estudio sobre la efectividad de la certificación ISO 27001"
output:
  html_document: default
  pdf_document: default
---

```{r setup, include=TRUE, echo=FALSE, warning=FALSE, results='hide', message=FALSE ,cache=FALSE}

library(knitr)

knitr::opts_chunk$set(echo = FALSE)
knitr::opts_chunk$set(warning = FALSE)
knitr::opts_chunk$set(message = FALSE)
knitr::opts_chunk$set(cache = FALSE)

devtools::load_all(".")
```

```{r include=TRUE, results='hide', cache=TRUE}
source("./Main.R")
```

## Introducción

La creciente preocupación de muchas empresas con infraestructura IT crítica frente a ciberataques ha llevado a algunas de ellas a tomar medidas de seguridad como la creación de departamentos de Seguridad de la Información, llevar a cabo auditorías de seguridad y obtener certificaciones de seguridad entre otras.

El objetivo de este estudio es tratar de determinar, en la medida de lo posible, si conformar los sistemas de la empresa según la certificación ISO 27001 conlleva una disminución en el número de ciberataques producidos.

## Datos analizados

La primera barrera a superar en este estudio es la obtención de datos directos sobre ciberataques. No existe un repositorio oficial con todos los ciberataques producidos ya que en muchos de ellos no se dan a conocer los nombres de todas las empresas afectadas u otros datos relevantes sobre los mismos, por ello nos basaremos en los ataques reportados en una única web. Además, debido al cambio de formato de los datos de origen con los años, hemos optado por generalizar los datos lo que nos permitirá hacer un análisis por país, sector o tipo de ataque. Desafortunadamente, esto compromete el análisis, ya que al generalizar los datos son muchos más los efectos que podrian alteran los resultados, ya que existen mayor cantidad de factores externos que este estudio no cubre.

Respecto a los datos de certificaciones ISO 27001, proceden de la fuente oficial asi que se podría decir que son totalmente fiables.

Los datos que se han recogido para este estudio son:

* Lista de países y sectores profesionales que han obtenido certificación ISO 27001 (2007-2015) <http://www.iso.org/iso/iso_27001_iso_survey2015.xls>
* Lista de ciberataques producidos (con éxito) por país, sector profesional y tipo de ataque (2012-2016) <http://www.hackmageddon.com>

El análisis se realizará desde 2011 hasta 2016, teniendo en cuenta que los datos de las certificaciones realizadas en un año afectarán a los ataques del año siguiente, por lo tanto no se necesitarán datos de ciberataques en 2011 ni de certificaciones en 2016. Esto es una de las generalizaciones que antes comentabamos, ya que en realidad una certificación podría afectar a los datos de su mismo año, pero no disponemos de fechas exactas para poder cubrir esta relación.

### Procesado de los datos sobre certificaciones ISO 27001

De esta fuente se generan 3 data.frames diferentes, uno con las certificaciones por pais, otro con los web sites por pais y otro con las certificaciones por sector industrial. Aunque en este estudio solo emplearemos el primero y el último.

Para las certificaciones por país el resultado final es el siguiente:

```{r}
kable(head(Cert_PerCountry, 5))
```

El proceso para llegar hasta esta apariencia en ambos casos es muy parecido. En primer lugar se sustituyen NAs por ceros para evitar problemas durante la representación gráfica, luego se eliminan aquellas líneas que tengan vacio el campo _Country_ ya que no nos serian de utilidad. A continuación se estandarizan algunos nombres de paises para poder cruzar correctamente los datos con los códigos de dos caracteres especificacos en la ISO, y obtener de paso su continente mediante el package de R _countrycode_.

Para las certificaciones por sector industrial el resultado final es el siguiente:

```{r}
kable(head(Cert_PerSector, 5))
```

El procesado es parecido, aunque no se realiza toda la parte relativa al estandarizado de los nombres de los paises, en este caso se estandarizan los diferentes sectores industriales para poder cruzarlos con los datos de los ataques y se eliminan aquellas lineas con _INDUSTRIAL.SECTOR_ vacio.

### Procesado de los datos sobre ataques

Como comentabamos antes, aquí es donde encontramos el mayor problema, no existe un organismo que se dedique a mantener un repositorio con datos oficiales sobre ataques producidos. La fuente que escogimos proviene de la web y es administrada por _@paulsparrows_, consiste en reportes de la comunidad sobre ataques que se hayan hecho publicos, ademas con el paso de los años el formato en que se almacenaban los datos sobre dichos ataques ha evolucionado lo que nos provoca mayor complejidad a la hora de correlacionar los historicos de diferentes epocas.

El data.frame resultado tiene la siguiente apariencia:

```{r}
kable(head(Attacks, 5))
```

Para llegar hasta el fueron necesarios procesos algo más complejos, pero se resumen en los siguientes: 

* Respecto al campo _Country_ se eliminaron NAs y se estandarizaron los valores para coincidir com el estandard ISO de dos caracteres. Además se ignoraron aquellos casos en los que no se pudo deducir el significado o no nos podia aportar nada: H, W, 14, EU, UN, TI y >1. TAmbién existian casos en los que una misma linea referenciaba a varios paises separados por saltos de linea o espacios en blanco, se desdoblaron dichas lineas en tantas como paises hubiera. Despues se procedió a cruzar con los nombres completos de pais y con sus continentes mediante el package _countrycode_.
* Respecto al campo _Date_ se eliminaron NAs, además las fechas venian almacenadas en formato númerico con diferentes origenes, por lo que nos tocó calcular el origen de cada uno de los diferentes ficheros mediante una calculadora de fechas.
* Respecto a los otros campos, se realizo una estandarización de los valores para poder cruzarlos correctamente con los datos de las certificaciones. Dicho proceso consistió en sacar todos los valores únicos en ambas fuentes y realizar equivalencias entre ellos. Los principales cambios se realizan en los campos _Attack.standar_ y _Target.standar_.


## Análisis

### Evolución general

En primer lugar, para poder intuir si este estudio tiene sentido, se observará la evolución temporal en general tanto de los ciberataques reportados como de las certificaciones realizadas en busca de patrones que puedan indicar una relación entre ambas evoluciones.

```{r fig.width=4.5, fig.height=4,out.extra='style="float:left"'}
General.Certs.Evol <- ISO27001effectiveness::GetCertsEvolution(Cert_PerCountry,
                                                               c(0.2, -0.7, 0, 0, 0.5),
                                                               c(-0.6, 1, 1.2, -0.5, 1.2),
                                                               25500, 1.45,
                                                               "2013", 20000, 0)
General.Certs.Evol[[1]]
```
```{r fig.width=4.5, fig.height=4}
General.Attacks.Evol <- ISO27001effectiveness::GetAttacksEvolution(Attacks,
                                           c(0.5, 0, 0, -0.5, -0.5),
                                           c(-0.5, -0.5, 1.5, 0, 0),
                                           2000, -0.1,
                                           "2014", 1700, -0.5)
General.Attacks.Evol[[1]]
```

Como se puede observar en las gráficas, el número de empresas que obtienen la certificación crece anualmente, mientras que el numero de ataques tiende a descender, aunque es un poco más inestable. Del año 2013 al 2014 el número de ataques se reduce drásticamente, esto puede deberse a un problema en la fuente de datos, ya que al depender directamente de un ser humano pueden existir intervalos en los que se hayan registrado menos datos (por problemas del administrador, como falta de tiempo o interes). Otra explicación plausible, si tenemos en cuenta que las certificaciones de un año afectan a los ataques del año siguiente, es que justo en el año 2013 se produjo una revisión de la certificación, produciendose la ISO 27001:2013 que sustituyó a su predecesora 27001:2005, los cambios realizados pueden consultarse en la [web oficial](http://www.iso.org/iso/home/store/catalogue_tc/catalogue_detail.htm?csnumber=54534). Por último, también podría influir la diferencia en numero de certificados expedidos, teniendo en cuenta el mismo desplazamiento que en el caso anterior, ya que los años en que mayor es la diferencia en certificaciones obtenidas (2013 y 2015) causan una bajada en el número de ataques al año siguiente, y viceversa. 

No obstante, para simplificar este estudio, se tratará de analizar más las estimaciones de las gráficas y no tanto las irregularidades de las mismas. Para observar que dichas irregularidades no son tan importantes en realidad, a continuación se representa la evolución de los ataques mes a mes, aunque en el resto del análisis  se empleará el año como unidad de tiempo ya que no disponemos de datos más precisos para las certificaciones.

```{r fig.width=9, fig.height=4}
ISO27001effectiveness::GetAttacksMonthEvolution(Attacks)
```

Podemos observar al aumentar la precisión en el eje X que los picos no eran en realidad tan graves en la fuente de datos como parecian. 

También podemos observar que la tendencia de los ataques realmente tiene una pendiente más o menos negativa, aunque parece que asciende un poco en los ultimos meses. 

Por último, aunque se puede observar que existen aproximaciones (como la del último gráfico) que se acercan mucho más a la función real que la lineal, para este estudio se utilizará por simplicidad.

### Evolución por tipo de ataque 

Podría darse el caso de que la certificación tenga una efectividad mayor contra ciertas técnicas de ataque, y que dicha efectividad se camufle entre el resto de técnicas, por ello se contemplará el estudio individual de los diferentes tipos de ataques definidos en la fuente de datos. Existen multitud de ellos, por lo que el estudio se tendrá que centrar en una pequeña parte, los más frecuentes. Para llevar a cabo esta elección se representan a continuación aquellos que representan al menos un 1% del total de ataques producidos.

```{r fig.width=9, fig.height=5}
AttackTypePie <- ISO27001effectiveness::GetAttackTypePie(Attacks,
                                        c(-2, 0, 3, 7, -3, -4, -4),
                                        c(2, 3, 2.5, 0, -0.5, -0.3, 0.5))

AttackTypePie[[1]]
```

Como se puede observar en el gráfico anterior, la mayor parte de los ataques registrados en la fuente de datos emplean las siguientes técnicas, que serán las estudiadas a continuación:

* _Injection_: Cualquier tipo de inyección ya sea de código, SQL, etc.

* _Defacement_: Consiste en modificar la apariencia visual de una página web.

* _DDoS_: Trata de saturar un servicio mediante miles de conexiones para evitar que los usuarios legítimos puedan acceder con normalidad.

* _Account Hijacking_: Cuyo objetivo es obtener datos o credenciales de cuentas ajenas.

* _Malware_: Programas que se ejecutan en el sistema de la víctima para llevar a cabo actividades maliciosas.

* _DNS_: Ataques basados en los servidores DNS de la víctima, como el poisoning, que consigue retornar las IPs que no debería a ciertas peticiones.

* _Zero Day_: Son vulnerabilidades recien descubiertas para un servicio o protocolo. Pasa un tiempo hasta que se desarrollan parches o versiones que las corrijan.

```{r fig.width=9, fig.height=4}
AttackTypeEvolution <- ISO27001effectiveness::GetAttackTypeEvolution(Attacks, AttackTypePie[[2]])

AttackTypeEvolution[[1]]
```

Como se puede observar en la evolución temporal reflejada en el gráfico, existen ciertas técnicas que más o menos son constantes en el tiempo, y existen otras que tienen o podrían tener una tendencia con pendiente negativa clara. A continuación se representarán los ataques por separado junto con sus estimaciones lineales para observar qué tendencias tienen una pendiente negativa más clara.

```{r fig.width=3, fig.height=3,out.extra='style="float:left"'}
Injection <- GetAttackTypeSigleEvolution(AttackTypeEvolution[[2]], "Injection", "2014", 500, 0)

Injection[[1]]
slope_inj <- Injection[[2]]

```
```{r fig.width=3, fig.height=3,out.extra='style="float:left"'}
DDoS <- GetAttackTypeSigleEvolution(AttackTypeEvolution[[2]], "DDoS", "2014", 200, 0)

DDoS[[1]]
slope_dos <- DDoS[[2]]
```
```{r fig.width=3, fig.height=3}
Defacement <- GetAttackTypeSigleEvolution(AttackTypeEvolution[[2]], "Defacement", "2014", 150, 0.5)

Defacement[[1]]
slope_def <- Defacement[[2]]
```
```{r fig.width=3, fig.height=3,out.extra='style="float:left"'}
DNS <- GetAttackTypeSigleEvolution(AttackTypeEvolution[[2]], "DNS", "2014", 15, 0)

DNS[[1]]
slope_dns <- DNS[[2]]
```
```{r fig.width=3, fig.height=3,out.extra='style="float:left"'}
AH <- GetAttackTypeSigleEvolution(AttackTypeEvolution[[2]], "Account Hijacking", "2014", 110, 0.3)

AH[[1]]
slope_AH <- AH[[2]]
```
```{r fig.width=3, fig.height=3}
Malware <- GetAttackTypeSigleEvolution(AttackTypeEvolution[[2]], "Malware", "2014", 40, 0)

Malware[[1]]
slope_mal <- Malware[[2]]
```

Los tipos de ataque están ordenados por la pendiente de su tendencia, de menor a mayor, para reflejar cuáles están descendiendo más rápido y por lo tanto cuáles podrían reflejar mejor el aumento de certificaciones ISO27001 expedidas. 

Tanto _Malware_ como _Account Hijacking_ tienen una tendencia con pendiente positiva, `r slope_mal` y `r slope_AH` respectivamente.

La tendencia con una mayor pendiente negativa es _Injection_ (`r slope_inj`), aunque también _DDoS_ (`r slope_dos`) y _Defacement_ (`r slope_def`), presentan unas tendencias con pendientes negativas.

Por otro lado tenemos _DNS_, cuya tendencia también tiene una pendiente negativa (`r slope_dns`), pero es muy moderada asi que podría considerarse estable y por lo tanto no conluyente para este estudio.


### Evolución geográfica

Este apartado estudiará la relación entre la certificación ISO 27001 y los ataques producidos, pero teniendo en cuenta la variable geográfica, ya que es posible que la certificación, aunque sea internacional, se implemente de una mejor o peor forma según la región. En primer lugar se generalizará por continente.

```{r fig.width=4.5, fig.height=3,out.extra='style="float:left"'}
ContinentPies <- ISO27001effectiveness::GetContinentPie(Attacks,
c(-2.5, 0, 2, 0, -2.5),
c(1.4, 1, 0.5, 0.5, 0),
Cert_PerCountry,
c(0, -1.5, -2.5, -2.5, -2.5),
c(0.5, 0.2, 0.5, 1.8, -0.5))

ContinentPies[[1]]
```
```{r fig.width=4.5, fig.height=3}
ContinentPies[[3]]
```

Se puede observar a simple vista que los continentes que reciben más ataques, por una cuestión lógica de superficie e intereses, son por orden América, Asia y Europa. En cambio los continentes que mas certificaciones ISO 27001 obtienen son por orden Asia, Europa y América. Tanto África como Oceania podemos descartarlos en este estudio ya que sus porcentajes no son relevantes. Observemos ahora cómo influye esto en el tiempo.

```{r fig.width=4.5, fig.height=4,out.extra='style="float:left"'}
ISO27001effectiveness::GetContinentCertsEvolution(Cert_PerCountry)
```
```{r fig.width=4.5, fig.height=4}
ISO27001effectiveness::GetContinentAttacksEvolution(Attacks)
```

Se puede observar que la tendencia de las certificaciones es creciente mientras que la de los ataques es decreciente, pero procederemos a comparar cada una individualmente para poder demostrarlo numéricamente y no solo aparentemente.

```{r fig.width=4.5, fig.height=3,out.extra='style="float:left"'}
topAttacks <- ISO27001effectiveness::GetContinentAttacksTopEvolution(Attacks)
topCerts <- ISO27001effectiveness::GetContinentCertsTopEvolution(Cert_PerCountry)
topCerts[[1]]
slope_Ame_Cert <- (fit[5] - fit[1]) / 4
```
```{r fig.width=4.5, fig.height=3}
topAttacks[[1]]
slope_Ame_Att <- (fit[5] - fit[1]) / 4
```

La pendiente de los ataques para _América_ es `r slope_Ame_Att` mientras que la pendiente de las certificaciones es `r slope_Ame_Cert`.

```{r fig.width=4.5, fig.height=3,out.extra='style="float:left"'}
topCerts[[2]]
slope_Asi_Cert <- (fit[5] - fit[1]) / 4
```
```{r fig.width=4.5, fig.height=3}
topAttacks[[2]]
slope_Asi_Att <- (fit[5] - fit[1]) / 4
```

La pendiente de los ataques para _Asia_ es `r slope_Asi_Att` mientras que la pendiente de las certificaciones es `r slope_Asi_Cert`.

```{r fig.width=4.5, fig.height=3,out.extra='style="float:left"'}
topCerts[[3]]
slope_Eu_Cert <- (fit[5] - fit[1]) / 4
```
```{r fig.width=4.5, fig.height=3}
topAttacks[[3]]
slope_Eu_Att <- (fit[5] - fit[1]) / 4
```

La pendiente de los ataques para _Europa_ es `r slope_Eu_Att` mientras que la pendiente de las certificaciones es `r slope_Eu_Cert`.

Todas las pendientes podrían representar la relación que buscamos, en la que un aumento en las certificaciones produce un descenso en los ataques.

El análisis puede aumentar en profundidad estableciendo superficies geográficas más pequeñas y asi obtener más precisión, observemos lo que ocurre a nivel de paises. Se mostrarán a continuación los paises que superan aproximadamente un 2% de los ataques/certificaciones totales ya que la lista total de paises es demasiado extensa.

```{r fig.width=4.5, fig.height=3,out.extra='style="float:left"'}
top <- GetCountriesCol(Attacks, Cert_PerCountry)
top[[1]]
```
```{r fig.width=4.5, fig.height=3}
top[[2]]
```

Como se puede observar en la parte de certificaciones destaca de largo Japón sobre los demás, que se encuentra bastante bajo en la lista de ataques. Y al reves pasa algo parecido, en los ataques destaca Estados Unidos por mucho mientras que ese mismo pais está muy bajo en certificaciones. A continuación observaremos la evolución temporal del top 3 paises en ataques recibidos y en certificaciones obtenidas, varios de ellos coinciden, tenemos por la parte de las certificaciones a _Japón_, por la parte de los ataques a _Estados Unidos_, y común a ambas _Reino Unido_ e _India_.

```{r fig.width=4.5, fig.height=3,out.extra='style="float:left"'}
topAttacks <- ISO27001effectiveness::GetCountriesAttacksTopEvolution(Attacks)
topCerts <- ISO27001effectiveness::GetCountriesCertsTopEvolution(Cert_PerCountry)
topCerts[[1]]
slope_US_Cert <- (fit[5] - fit[1]) / 4
```
```{r fig.width=4.5, fig.height=3}
topAttacks[[1]]
slope_US_Att <- (fit[5] - fit[1]) / 4
```

La pendiente de los ataques para _Estados Unidos_ es `r slope_US_Att` mientras que la pendiente de las certificaciones es `r slope_US_Cert`.

```{r fig.width=4.5, fig.height=3,out.extra='style="float:left"'}
topCerts[[2]]
slope_GB_Cert <- (fit[5] - fit[1]) / 4
```
```{r fig.width=4.5, fig.height=3}
topAttacks[[2]]
slope_GB_Att <- (fit[5] - fit[1]) / 4
```

La pendiente de los ataques para _Reino Unido_ es `r slope_GB_Att` mientras que la pendiente de las certificaciones es `r slope_GB_Cert`.

```{r fig.width=4.5, fig.height=3,out.extra='style="float:left"'}
topCerts[[3]]
slope_IN_Cert <- (fit[5] - fit[1]) / 4
```
```{r fig.width=4.5, fig.height=3}
topAttacks[[3]]
slope_IN_Att <- (fit[5] - fit[1]) / 4
```

La pendiente de los ataques para _India_ es `r slope_IN_Att` mientras que la pendiente de las certificaciones es `r slope_IN_Cert`.

```{r fig.width=4.5, fig.height=3,out.extra='style="float:left"'}
topCerts[[4]]
slope_JP_Cert <- (fit[5] - fit[1]) / 4
```
```{r fig.width=4.5, fig.height=3}
topAttacks[[4]]
slope_JP_Att <- (fit[5] - fit[1]) / 4
```

La pendiente de los ataques para _Japón_ es `r slope_JP_Att` mientras que la pendiente de las certificaciones es `r slope_JP_Cert`.

### Evolución geográfica y tipo de ataque

Hasta ahora se han analizado por separado estas dos variables, pero la respuesta podria encontrarse en una combinacion de las mismas. Para ello se analizarán los tipos de ataque reportados en el pais en el que parece que la certificación es más efectiva, _Japón_, y en el que menos, _Estados Unidos_.

```{r fig.width=4.5, fig.height=3,out.extra='style="float:left"'}
graphs <- ISO27001effectiveness::GetContinentAttackPie(Attacks)
graphs[[1]]
```
```{r fig.width=4.5, fig.height=3}
graphs[[2]]
```

Como vimos en el apartado previo, la ISO 27001 parece especialmente efectiva contra las técnicas de _Defacement_, _DDoS_ e _Injection_, en los gráficos previos podemos observar como para _Estados Unidos_ tiene un menor porcentaje de este tipo de ataques con respecto a _Japón_. Para valorarlo mejor se representará a continuación cómo evolucionan con el tiempo.

```{r fig.width=4.5, fig.height=3,out.extra='style="float:left"'}
graphs <- ISO27001effectiveness::GetContinentAttackEvolution(Attacks)
graphs[[1]]
```
```{r fig.width=4.5, fig.height=3}
graphs[[2]]
```

Como se puede observar, en _Estados Unidos_ se presenta una tendencia mayor a recibir los tipos de ataques que parecen menos afectados por la ISO 27001, mientras que en _Japón_ parecen matenerse. Se representarán las tendecias en ambos paises.

```{r fig.width=4.5, fig.height=3,out.extra='style="float:left"'}
graphs[[3]]
slope_US_Oth <- (fit[5] - fit[1]) / 4
```
```{r fig.width=4.5, fig.height=3}
graphs[[4]]
slope_JP_Oth <- (fit[5] - fit[1]) / 4
```

Efectivamente, la tendencia en _Estados Unidos_ tiene una pendiente mayor (`r slope_US_Oth`) que en Japón que es cercana al 0 (`r slope_JP_Oth`) lo que, aunque la gráfica sea irregular debido a la baja cantidad de casos, implica una constancia.

# Viejo

De los datos mostrados se pueden hacer diferentes observaciones:

* De 2014 a 2015, USA pasa de tener 654 a 1247 empresas con certificación ISO 27001, sin embargo la cifra de ciberataques se mantiene constante de 383 a 386 ataques recibidos. De 2013 a 2014 por ejemplo, pasa de recibir 505 a 383 ataques pese a sólo haber pasado de 566 a 654 empresas con dicha certificación.
* Japón tiene un número inusualmente alto de empresas con la ISO 27001, no obstante sufre una cantidad de ciberataques comparativa a la de Israel, que tiene muchas menos empresas con la certificación.

Ambas observaciones son de especial interés ya que ponen de relieve situaciones en las que de ser efectivo reformar los sistemas para cumplir la ISO 27001, debería poder apreciarse un efecto en la cantidad de ciberataques recibidos. En el caso de los USA, sólo podría explicarse mediante alguna de las siguientes hipótesis:

* Entre 2013 y 2014 se produjo un número especialmente alto de ciberataques a USA
* Se crean más empresas de las que logran certificarse, y además, sufren ataques antes de obtenerla

La primera hipótesis puede ser comprobada con los datos que disponemos. A continuación se muestra una línea temporal de ciberataques globales entre los años 2012 y 2015.


Observamos que se produjo lo contrario, bajó el número de ciberataques.

## Conclusiones
Por lo observado anteriormente, se puede concluir que:

* La cantidad de ciberataques que recibe un país no se mitiga por el número de empresas que han obtenido la certificación ISO 270001

Esto no lleva a concluir que obtener la certificación ISO 27001 no es efectiva para reducir el número de ciberataques, sino que probablemente dependa de factores externos ajenos a este estudio

## Trabajo futuro
Como trabajo futuro querríamos poder seguir en la línea de investigación acerca de los siguientes puntos:

* ¿Qué factores producen un aumento o recesión en la cantidad de ciberataques recibidos?
* ¿Qué sectores industriales reciben más ciberataques?
* ¿Cuáles de esos sectores son los que más certificaciones obtienen?

Creemos que la investigación de estas cuestiones puede dar más robustez a las conclusiones expuestas en este estudio.