Changeset 6fc3dc2 in libros


Ignore:
Timestamp:
Oct 16, 2014, 8:55:14 AM (10 years ago)
Author:
aaraujo <aaraujo@…>
Branches:
revisionfinal
Children:
749d59b
Parents:
8a1cf24
git-author:
Dhionel Díaz <ddiaz@…> (12/10/14 22:50:05)
git-committer:
aaraujo <aaraujo@…> (16/10/14 08:55:14)
Message:

Correcciones capítulo 8.

  • Correcciones varias.
  • Se agrega un comentario sobre una de las premisas del artículo que no se ve suficientemente fundamentada.

Signed-off-by: Dhionel Díaz <ddiaz@…>
Signed-off-by: aaraujo <aaraujo@moe>

File:
1 edited

Legend:

Unmodified
Added
Removed
  • maquetacion/capitulo8/capitulo8.tex

    r65b942d r6fc3dc2  
    1212\textbf{Resumen}
    1313
    14 Este trabajo propone el uso de un sistema de medición para anonimato basado en las características de sus propiedades principales: el índice de uniformidad de la distribución de probabilidad y el tamaño del conjunto anónimo. En las propuestas previas, la medida más ampliamente utilizada es la entropía, un índice utilizado y propuesto en la Teoría de la Información, el cual tiene algunos inconvenientes con respecto a la medición del Anonimato según la propiedades mencionadas, en primer lugar dichas propiedades no se representan directa y explícitamente con este índice, y al ser un índice logarítmico, no representa de forma adecuada comportamientos lineales en el Anonimato. Para medir el índice de uniformidad se propone utilizar el criterio del error cuadrático mínimo y como segunda propuesta se plantea utilizar el criterio de divergencia de Jensen-Shannon. Para medir el tamaño del conjunto anónimo se propone utilizar una función de N (número de entes del conjunto anónimo).
     14Este trabajo propone el uso de un sistema de medición para anonimato
     15basado en las características de sus propiedades principales: el índice
     16de uniformidad de la distribución de probabilidad y el tamaño del conjunto
     17anónimo. En las propuestas previas, la medida más ampliamente utilizada
     18es la entropía, un índice utilizado y propuesto en la Teoría de la
     19Información, el cual tiene algunos inconvenientes con respecto a la
     20medición del Anonimato según la propiedades mencionadas, en primer
     21lugar dichas propiedades no se representan directa y explícitamente
     22con este índice, y al ser un índice logarítmico, no representa de
     23forma adecuada comportamientos lineales en el Anonimato. Para medir
     24el índice de uniformidad se propone utilizar el criterio del
     25error cuadrático mínimo y como segunda propuesta se plantea
     26utilizar el criterio de divergencia de Jensen-Shannon. Para
     27medir el tamaño del conjunto anónimo se propone utilizar una
     28función de N (número de entes del conjunto anónimo).
    1529
    1630%\subsection{Introducción}
    1731\section{Introducción}
    18 Los sistemas de medición utilizados para cuantificar los niveles de Anonimato de los sistemas, mecanismos y herramientas aun se consideran un problema abierto. Se han propuesto algunas alternativas para este propósito, y la que más ampliamente se ha utilizado es la que se basa en una medida utilizada en la Teoría de la Información: la entropía. Sin embargo ésta no representa explícitamente las características fundamentales del Anonimato: el tamaño del conjunto anónimo y el índice de uniformidad de la distribución de probabilidad vinculada al conjunto anónimo. En este trabajo, se propone utilizar como alternativa dos índices para la medición del Anonimato, y que explícitamente representen sus principales características. Por un lado el tamaño del conjunto anónimo puede ser representado a través de una función de N (el número de entes que componen al conjunto) y el índice de uniformidad puede ser representado utilizando uno de los siguientes indicadores: el Error Cuadrático Medio (RMSE por sus siglas en inglés) o el criterio de divergencia de Jensen-Shannon (CDJs por sus siglas en inglés).
    19 
    20 
    21 En Pfiztmann et al. \cite{rlsm:terminology} establecieron una terminología ampliamente utilizada para estandarizar los términos utilizados en el contexto del Anonimato, en la cual ésta establece que un sujeto es anónimo cuando no puede ser diferenciado de los otros sujetos pertenecientes al mismo conjunto, denominado el conjunto anónimo. Describiendo el Anonimato en estos términos, se establece que sus niveles se incrementan si el tamaño del conjunto anónimo crece y cuando la distribución de probabilidad que establece un atacante sobre los miembros de ese conjunto anónimo tiende a ser uniforme. La proximidad de una distribución de probabilidad cualquiera a una distribución uniforme es a lo que se le denomina el índice de uniformidad de la distribución de probabilidad.
    22 
    23 En la mayoría de la documentación hasta ahora difundida se utiliza como medida de referencia una obtenida de la Teoría de la Información: la entropía, y puede verse su representación tal como la definió Shannon en \cite{rlsm:shannon}. Esta propuesta fue discutida en los trabajos de Díaz et al. \cite{rlsm:diaz01} y Serjantov et al. \cite{rlsm:serj01}, y desde entonces ha sido utilizada como base de medición en varios otros trabajos como el de Deng et al. \cite{rlsm:yuxin}, Edman et al. \cite{rlsm:combinatorial} y Gierlichs et al. \cite{rlsm:revisiting}. Sin embargo, esta medida no representa explícitamente las caracaterísitcas que describen al Anonimato y que fueron explicadas previamente, particularmente el índice de uniformidad.
     32Los sistemas de medición utilizados para cuantificar los niveles
     33de Anonimato de los sistemas, mecanismos y herramientas aun se
     34consideran un problema abierto. Se han propuesto algunas alternativas
     35para este propósito, y la que más ampliamente se ha utilizado es la
     36que se basa en una medida utilizada en la Teoría de la Información:
     37la entropía. Sin embargo ésta no representa explícitamente las características
     38fundamentales del Anonimato: el tamaño del conjunto anónimo y el
     39índice de uniformidad de la distribución de probabilidad vinculada
     40al conjunto anónimo. En este trabajo, se propone utilizar como alternativa
     41dos índices para la medición del Anonimato, que explícitamente representen
     42sus principales características. Por un lado el tamaño del conjunto anónimo
     43puede ser representado a través de una función de N (el número de entes
     44que componen al conjunto) y el índice de uniformidad puede ser representado
     45utilizando uno de los siguientes indicadores: el Error Cuadrático
     46Medio (RMSE por sus siglas en inglés) o el criterio de divergencia de
     47Jensen-Shannon (CDJs por sus siglas en inglés).
     48
     49
     50En Pfiztmann et al. \cite{rlsm:terminology} establecieron una
     51terminología ampliamente utilizada para estandarizar los términos
     52utilizados en el contexto del Anonimato, en la cual ésta establece
     53que un sujeto es anónimo cuando no puede ser diferenciado de los otros
     54sujetos pertenecientes al mismo conjunto, denominado el conjunto anónimo.
     55Describiendo el Anonimato en estos términos, se establece que sus niveles
     56se incrementan si el tamaño del conjunto anónimo crece y cuando la
     57distribución de probabilidad que establece un atacante sobre los
     58miembros de ese conjunto anónimo tiende a ser uniforme. La
     59proximidad de una distribución de probabilidad cualquiera a una
     60distribución uniforme es a lo que se le denomina el índice de
     61uniformidad de la distribución de probabilidad.
     62
     63En la mayoría de la documentación hasta ahora difundida se utiliza
     64como medida de referencia una obtenida de la Teoría de la Información:
     65la entropía, y puede verse su representación tal como la definió Shannon
     66en \cite{rlsm:shannon}. Esta propuesta fue discutida en los trabajos
     67de Díaz et al. \cite{rlsm:diaz01} y Serjantov et al. \cite{rlsm:serj01},
     68y desde entonces ha sido utilizada como base de medición en varios otros
     69trabajos como el de Deng et al. \cite{rlsm:yuxin}, Edman et al.
     70\cite{rlsm:combinatorial} y Gierlichs et al. \cite{rlsm:revisiting}.
     71Sin embargo, esta medida no representa explícitamente las características
     72que describen al Anonimato y que fueron explicadas previamente,
     73particularmente el índice de uniformidad.
    2474
    2575%\subsection{Trabajos Relacionados}
    2676\section{Trabajos Relacionado}
    27 Se han hecho varias propuestas para cuantificar el grado o nivel de anonimato provisto por los sistemas anónimos. En \cite{rlsm:reiter} definen el grado de Anonimato como $1 - p$, donde $p$ es la probabilidad asignada por el atacante a un sujeto particular. En \cite{rlsm:berthold} definen el grado de anonimato como $A=\log_2(N)$, donde $N$ es el número de sujetos (usuarios) del sistema. Este grado solo depende del número de usuarios del sistema, y no toma en cuenta la información que el atacante puede obtener a través de la observación del sistema o por otros medios. En \cite{rlsm:diaz01} y \cite{rlsm:serj01} proponen medir la información que obtiene el atacante, considerando el conjunto completo de usuarios la probabilidad que le asigna, y para ello como medida proponen la entropía utilizada en la Teoría de Información (usan la entropía definida por Shannon en \cite{rlsm:shannon}). Ninguna de las propuestas anteriores representa explícitamente el tamaño del conjunto anónimo y el índice de uniformidad. Además en \cite{rlsm:diaz01} proponen utilizar un grado de anonimato normalizado, pero esta medida puede alcanzar su máximo nivel de anonimato con un $N=2$ (tamaño del conjunto anónimo), contradiciendo una de las características fundamentales del Anonimato definida en \cite{rlsm:terminology}: Los niveles de Anonimato se incrementan si se incrementa el tamaño del conjunto anónimo y el índice de uniformidad de la distibución de probabilidad. En \cite{rlsm:yuxin}, \cite{rlsm:combinatorial}, \cite{rlsm:revisiting} utilizan la entropía de  Shannon con un enfoque diferente pero adoleciendo de los mismos problemas. Cuando utilizan la entropía, están utilizando una función logarítmica, lo que significa que no se tienen grados de medición lineales para comparar los sistemas. Por ejemplo, si se tienen 4 sistemas, y los atacantes no tienen ninguna información de sus usuarios, esto quiere decir, que le asignan una distribución de probabilidad uniforme a cada conjunto anónimo, esto es si el primer sistema tiene $N=100$ sujetos, el segundo tiene $N=200$ sujetos, el tercero tiene $N=400$ sujetos y el cuarto tiene $N=800$ sujetos, los grados de Anonimato utilizando la entropía son: $6.6438$, $7.6438$, $8.6438$, $9.6438$, respectivamente. Estos escenarios, con la misma distribución de probabilidad y con diferente $N$ (el doble del conjunto anterior) debería tener el doble del grado de Anonimato comparando cada uno con el siguiente, pero esto no sucede debido a que la entropía utiliza una función logarítmica y no lineal.
    28 
     77Se han hecho varias propuestas para cuantificar el grado o nivel de
     78anonimato provisto por los sistemas anónimos. En \cite{rlsm:reiter}
     79definen el grado de Anonimato como $1 - p$, donde $p$ es la probabilidad
     80asignada por el atacante a un sujeto particular. En \cite{rlsm:berthold}
     81definen el grado de anonimato como $A=\log_2(N)$, donde $N$ es el
     82número de sujetos (usuarios) del sistema. Este grado solo depende del
     83número de usuarios del sistema, y no toma en cuenta la información
     84que el atacante puede obtener a través de la observación del sistema
     85o por otros medios. En \cite{rlsm:diaz01} y \cite{rlsm:serj01} proponen
     86medir la información que obtiene el atacante, considerando el conjunto
     87completo de usuarios la probabilidad que le asigna, y para ello
     88como medida proponen la entropía utilizada en la Teoría de Información
     89(usan la entropía definida por Shannon en \cite{rlsm:shannon}).
     90Ninguna de las propuestas anteriores representa explícitamente el
     91tamaño del conjunto anónimo y el índice de uniformidad. Además en
     92\cite{rlsm:diaz01} proponen utilizar un grado de anonimato normalizado,
     93pero esta medida puede alcanzar su máximo nivel de anonimato
     94con un $N=2$ (tamaño del conjunto anónimo), contradiciendo una de
     95las características fundamentales del Anonimato definida en
     96\cite{rlsm:terminology}: Los niveles de Anonimato se incrementan
     97si se incrementa el tamaño del conjunto anónimo y el índice de
     98uniformidad de la distibución de probabilidad. En \cite{rlsm:yuxin},
     99\cite{rlsm:combinatorial}, \cite{rlsm:revisiting} utilizan la entropía
     100de  Shannon con un enfoque diferente pero adoleciendo de los mismos
     101problemas. Cuando utilizan la entropía, están utilizando una
     102función logarítmica, lo que significa que no se tienen grados de
     103medición lineales para comparar los sistemas. Por ejemplo, si se tienen
     1044 sistemas, y los atacantes no tienen ninguna información de sus usuarios,
     105esto quiere decir, que le asignan una distribución de probabilidad
     106uniforme a cada conjunto anónimo, esto es si el primer sistema
     107tiene $N=100$ sujetos, el segundo tiene $N=200$ sujetos, el tercero
     108tiene $N=400$ sujetos y el cuarto tiene $N=800$ sujetos, los grados
     109de Anonimato utilizando la entropía son: $6.6438$, $7.6438$, $8.6438$,
     110$9.6438$, respectivamente. Estos escenarios, con la misma distribución
     111de probabilidad y con diferente $N$ (el doble del conjunto anterior)
     112debería tener el doble del grado de Anonimato comparando cada uno con
     113el siguiente, pero esto no sucede debido a que la entropía utiliza
     114una función logarítmica y no lineal.
     115\begin{comment}
     116En este punto cabe preguntar porqué el concepto de grado de anonimato
     117se considera que debe estar asociado con una función lineal del tamaño
     118del conjunto. Esa es una restricción fuerte que no se ve justificada.
     119Lo que se muestra en torno al asunto sólo llega a requerir que sea una
     120función creciente.
     121\end{comment}
    29122
    30123%\subsection{Propuesta}
    31124\section{Propuesta}
    32125
    33 Se propone utilizar dos índices para medir el Anonimato, cada uno para establecer los niveles de cada característica fundamental del Anonimato: Uno para medir el tamaño del conjunto anónimo: $N$ o $1/N$, donde $N$ es el número de sujetos o elementos, y uno para medir el índice de uniformidad de la función de distribución de probabilidad asignada por el atacante. Para medir el índice de uniformidad se proponen utilizar una de las siguientes dos métricas: La raíz del error cuadrático medio (RSME) o el criterio de divergencia de Jennsen-Shannon (DJS).
     126Se propone utilizar dos índices para medir el Anonimato, cada uno
     127para establecer los niveles de cada característica fundamental del
     128Anonimato: Uno para medir el tamaño del conjunto anónimo: $N$ o $1/N$,
     129donde $N$ es el número de sujetos o elementos, y uno para medir el
     130índice de uniformidad de la función de distribución de probabilidad
     131asignada por el atacante. Para medir el índice de uniformidad se
     132proponen utilizar una de las siguientes dos métricas: La raíz del
     133error cuadrático medio (RSME) o el criterio de divergencia de
     134Jennsen-Shannon (DJS).
    34135
    35136%\subsubsection{Raíz del Error Cuadrático Medio - RSME}
    36137\subsection{Raíz del Error Cuadrático Medio - RSME}
    37138
    38 Este término se utiliza para estimar el error de la varianza, este es el error residual de la suma de los cuadrados divididos por el grado de libertad. En análisis de regresión, es una cantidad observada dada un muestra en particular, y depende de dicha muestra. Además, este término es referido al error fuera de la muestra: el valor medio de las desviaciones cuadráticas de las predicciones de los valores de verdad, sobre un espacio fuera de la muestra, generado por un modelo estimado sobre un espacio muestral particular. Esta también es una cantidad observada, y varía según la muestra y según el espacio fuera de la muestra probado.
     139Este término se utiliza para estimar el error de la varianza, este
     140es el error residual de la suma de los cuadrados divididos por el
     141grado de libertad. En análisis de regresión, es una cantidad observada
     142dada un muestra en particular, y depende de dicha muestra. Además,
     143este término es referido al error fuera de la muestra: el valor medio
     144de las desviaciones cuadráticas de las predicciones de los valores de
     145verdad, sobre un espacio fuera de la muestra, generado por un modelo
     146estimado sobre un espacio muestral particular. Ésta también es una
     147cantidad observada, y varía según la muestra y según el espacio fuera
     148de la muestra probado.
    39149
    40150\begin{equation}
     
    42152\end{equation}
    43153
    44 En este caso, se propone utilizar $p_{i}=\frac{1}{N}$ (probabilidades en una distribución uniforme) para representar $\bar{X}$, y $p_{i}$, la probabilidad asignada por el atacante, se representa con $X$. Esta medida permite establecer la "distancia" de la distribución de probabilidad del atacante a la distribución uniforme.
     154En este caso, se propone utilizar $p_{i}=\frac{1}{N}$ (probabilidades en
     155una distribución uniforme) para representar $\bar{X}$, y $p_{i}$,
     156la probabilidad asignada por el atacante, se representa con $X$. Esta
     157medida permite establecer la "distancia" de la distribución de
     158probabilidad del atacante a la distribución uniforme.
    45159
    46160\begin{equation}
     
    48162\end{equation}
    49163
    50 Si un sistema tiene un $RSME_a\approxeq1$, esto quiere decir que provee un muy bajo nivel de anonimato.
    51 Si otro sistema tiene un $RSME_a\approxeq0$, quiere decir que provee un buen nivel de anonimato. Pero también se debe observar el tamaño del conjunto anónimo para tomar un visión real del sistema.
     164Si un sistema tiene un $RSME_a\approxeq1$, esto quiere decir que
     165provee un muy bajo nivel de anonimato.
     166Si otro sistema tiene un $RSME_a\approxeq0$, quiere decir que provee
     167un buen nivel de anonimato. Pero también se debe observar el tamaño
     168del conjunto anónimo para tomar un visión real del sistema.
    52169
    53170%\subsubsection{Divergencia de Jennesen-Shannon}
    54171\subsection{Divergencia de Jennesen-Shannon}
    55172
    56 La divergencia de Jensen-Shannon es un método popular para medir la similitud entre dos o más distribuciones de probabilidad. Se basa el la divergencia de Kullback-Leibler, con la notable y útil diferencia que siempre da como resultado un valor finito. La raíz cuadrada de la divergencia de Jensen-Shannon es el índice que se propone para representar el índice de uniformidad en Anonimato.
     173La divergencia de Jensen-Shannon es un método popular para medir
     174la similitud entre dos o más distribuciones de probabilidad. Se basa
     175en la divergencia de Kullback-Leibler, con la notable y útil diferencia
     176que siempre da como resultado un valor finito. La raíz cuadrada
     177de la divergencia de Jensen-Shannon es el índice que se propone para
     178representar el índice de uniformidad en Anonimato.
    57179
    58180\begin{equation}
     
    64186\end{equation}
    65187
    66 donde $\pi_i$ son lo pesos para la distribuciones de probabilidad $P_1,P_2$, en este caso $\pi_i=1, \nabla i=\{1,2\}$, y $H(P)$ es la entropía de Shannon para la distribución $P$. Es este caso, $P_1$ es una distribución uniforme y $P_2$ es la distribución de probabilidad del atacante.
    67 
    68 Con este resultado se obtienen dos índices para representar el grado o nivel de Anonimato:
     188donde $\pi_i$ son lo pesos para la distribuciones de
     189probabilidad $P_1,P_2$, en este caso $\pi_i=1, \nabla i=\{1,2\}$,
     190y $H(P)$ es la entropía de Shannon para la distribución $P$. Es este
     191caso, $P_1$ es una distribución uniforme y $P_2$ es la distribución
     192de probabilidad del atacante.
     193
     194Con este resultado se obtienen dos índices para representar el grado o
     195nivel de Anonimato:
    69196
    70197
     
    72199\subsection{Resultados}
    73200\begin{description}
    74   \item[Opción 1:] Grado de Anonimato ($AD$) utilizando RMSE para medir el índice de uniformidad de la distribución de probabilidad y $1/N$ para medir el tamaño del conjunto anónimo.\\
     201  \item[Opción 1:] Grado de Anonimato ($AD$) utilizando RMSE para medir
     202el índice de uniformidad de la distribución de probabilidad
     203y $1/N$ para medir el tamaño del conjunto anónimo.\\
    75204  \begin{center}$AD =  1 / N \pm MSE_a$\end{center}
    76   \item[Opción 2:] Grado de Anonimato ($AD$) utilizando JSD para medir el índice de uniformidad de la distribución de probabilidad y $1/N$ para medir el tamaño del conjunto anónimo.\\
     205  \item[Opción 2:] Grado de Anonimato ($AD$) utilizando JSD para
     206medir el índice de uniformidad de la distribución de probabilidad
     207y $1/N$ para medir el tamaño del conjunto anónimo.\\
    77208  \begin{center}$AD =  1 / N \pm JSD_a$\end{center}
    78209\end{description}
    79210
    80 En ambos casos, el índice de uniformidad y el tamaño son expresados por separado pero no tiene el problema de linealidad de las otras métricas.
     211En ambos casos, el índice de uniformidad y el tamaño son
     212expresados por separado pero no tiene el problema de linealidad
     213de las otras métricas.
    81214
    82215%\begin{thebibliography}{}
Note: See TracChangeset for help on using the changeset viewer.