Changeset 05ec937 in libros for maquetacion/capitulo7


Ignore:
Timestamp:
Apr 30, 2014, 3:46:10 PM (10 years ago)
Author:
cualquiera <cualquiera@…>
Branches:
master, revisionfinal
Children:
ed97591, c0dca75
Parents:
cd5b68a
Message:

Se terminó de traducir el capítulo 7.

File:
1 edited

Legend:

Unmodified
Added
Removed
  • maquetacion/capitulo7/capitulo7.tex

    rcd5b68a r05ec937  
    1717\label{rlsm:ia-anonimato}
    1818
    19 Considerando las ideas propuestas en los sistemas anónimos probabilísticos \cite{rlsm:chaum-mix}\cite{rlsm:mixminion}\cite{rlsm:diaz-mixes}\cite{rlsm:tor-design}, las características de los Colonias Artificiales de Hormigas utilizadas en las redes de telecomunicaciones \cite{rlsm:antnet}\cite{rlsm:ants-white}\cite{rlsm:ants-loadbalancing}, se propone seleccionar las rutas de los mensajes de forma probabilística, utilizando las probabilidades que configuran los agentes móviles adaptativos (las hormigas). Estas rutas, teniendo componentes probabilísticos pueden incluir, dependiendo de los parámetros de configuración, proporcionar ciertos niveles de Anonimato, en este sentido, se podría tener un "control inteligente" sobre los tiempos de respuesta generados y se podría tener un "control inteligente" sobre otros índices que pudiesen ser incorporados, tal como el consumo de recursos (balanceo de cargas).
     19Considerando las ideas propuestas en los sistemas anónimos probabilísticos \cite{rlsm:chaum-mix, rlsm:mixminion, rlsm:diaz-mixes, rlsm:tor-design}, las características de los Colonias Artificiales de Hormigas utilizadas en las redes de telecomunicaciones \cite{rlsm:antnet, rlsm:ants-white, rlsm:ants-loadbalancing}, se propone seleccionar las rutas de los mensajes de forma pro\-ba\-bi\-lís\-ti\-ca, utilizando las probabilidades que configuran los agentes móviles adaptativos (las hormigas). Estas rutas, teniendo componentes probabilísticos pueden incluir, dependiendo de los parámetros de configuración, proporcionar ciertos niveles de Anonimato, en este sentido, se podría tener un "control inteligente" sobre los tiempos de respuesta generados y se podría tener un "control inteligente" sobre otros índices que pudiesen ser incorporados, tal como el consumo de recursos (balanceo de cargas).
    2020
    2121Se propone mimetizar los mensaje reales con los agente, esto es, cada mensaje tiene la misma estructura que las hormigas, y la única diferencia entre ellos radica en el contenido del mensaje, estos mensajes mimetizados se encriptan con las claves públicas de los nodos destino. Para hacer similar sus tamaños, se propone utilizar un tamaño  único para el envío de mensajes y para cada agente, incluyendo la estructura de datos que almacena la información necesaria para actualizar las tablas de enrutamiento de cada nodo, más un relleno inválido y la clave pública del destino. Si un mensaje se fragmenta para cumplir con el requisito del tamaño único, el mismo es reensamblado en el nodo destino, utilizando un número de secuencia establecido por el nodo emisor. Los fragmentos de los mensajes también tienen la tarea de actualizar las tablas de enrutamiento de los nodos que visitan, de esta manera los atacantes no pueden ditinguir entre las hormigas y los mensajes reales. De este modo, se puede comparar los mensajes enviados con hormigas de carga que llevan el alimento a los nidos, y es por esto que se identifican dos tipos de hormigas, las de carga y las exploradoras, sin tener diferencias aparentes.
     
    9797
    9898\textbf{Resumen}
    99 This paper proposes the use of a system of measures for Anonymity based on the characteristics that define their main properties: the index of uniformity of the probability distribution and size of all anonymous. In previous proposals, the most widely used is based on the entropy, an index used in information theory, which has several drawbacks with respect to representation of the properties mentioned in the first place does not represent them explicitly and being a logarithmic index does not represent Anonymity levels or degrees that require linear behavior. To measure the uniformity index is proposed to use the Root Mean Square Error criterion or the Jensen-Shannon divergence. For anonymous set size proposes the use of a function of N.
    100 Claves(metrics, Anonymity, Root Squared Mean Error, Jensen-Shannon Divergence).
    101 
    102 
    103 
    104 \subsection{Introduction}
    105 
    106 The measures used to quantify levels of Anonymity achieved by the systems, mechanisms and tools in general is still considered an open problem. Several alternatives have been proposed for this purpose, and used more widely accepted so far is based on a type of measurement based on the Information Theory: Entropy, however, does not explicitly consider the fundamental characteristics of Anonymity: anonymous set size and uniformity index of the probability distribution. In this paper, we propose two indices explicitly representing both indicators. On one hand the anonymous set size would be represented by a function of N and uniformity index would be represented using one of these indicators: the Root Mean Square Error (RMSE) or the criteria of Jensen-Shannon divergence (CDJs .)
    107 
    108 Pfiztmann et al. \cite{terminology} established terminology to standardize the terms used in the context of Anonymity, in which it was determined that a subject is anonymous when it can not be differentiated from other subjects belonging to the same set. This set is called the Anonymous Set. In describing the Anonymity in these terms, states that its levels increase as you grow the size of that set and when the probability distribution assigned by the attacker to the members of that group tends to be uniform. The proximity of a probability distribution to any uniform probability distribution is what we call uniformity index of the probability distribution.
    109 
    110 The latest proposals and the most widely used so far are those based on a measurement used in the context of Information Theory: Entropy, as defined Shannon \cite{shannon}. This proposal was discussed in the work Díaz et al. \cite{diaz01} and Serjantov et al. \cite{serj01}, then there have been several streams that use the same basis, such as those proposed by Deng et al. \cite{yuxin}, Edman et al. \cite{combinatorial} and Gierlichs et al. \cite{revisiting}. However, not explicitly shown in the two aforementioned Anonymity characteristics, in particular the uniformity index.
    111 
    112 Section 2 provides a theoretical review of the entropy and specific problems are shown in relation to its use as a measure of Anonymity, in sections 3 and 4 show the basic concepts necessary for the use of the measures proposed in section 5, establishing the uniformity index measurements of the probability distribution.
    113 
    114 
    115 \subsection{Related work}
    116 There have been several proposals to quantify the degree or level of Anonymity provided by any anonymous system. In \cite{reiter} define the degree of Anonymity as $1 - p$, where $p$ is the probability assigned to a particular user by the attacker. In \cite{berthold} define the degree of Anonymity as $A=\log_2(N)$, where $N$ is the number of users of the system. This degree only depends on the number of users of the system, and does not take into account the information the attacker may obtain by observing the system. In \cite{diaz01} and \cite{serj01} propose to measure the information the attacker gets, taking into account the whole set of users and the probability information the attacker obtains about them, to do that they propose to use Information Theory Entropy to measure the degree of Anonymity (using Shannon's entropy definition \cite{shannon}). None of them takes explicitly in consideration the anonymous set size and its uniformity index of probability distribution function like separated indexes
    117 to be measures, and these are the most important Anonymity's descriptors. Besides, in \cite{diaz01} proposed to use a normalized degree, but this measures could reach its maximal level with $N=2$ (anonymous set size), contradicting the Anonymity's fundamental characteristics described in \cite{terminology}: Anonymity level increases by increasing the size of the anonymous set and by increasing the uniformity index of probability distribution function. In \cite{yuxin}, \cite{combinatorial}, \cite{revisiting} use Shannon's entropy with different focus but with the same problems. When they use Entropy, are using the logarithmic function, that mean to have no linear degrees to compare systems. For example, if we have four (4) systems, and the attackers don't have any information about them, that mean the attackers assigned the uniformity distribution function for all of them, and, if the first set has $N=100$, the second one has $N=200$, the third one has $N=400$ and the fourth one has $N=800$, the Anonymity
    118 degrees using Entropy are: $6.6438$, $7.6438$, $8.6438$, $9.6438$, respectively. These scenarios with the same probability distribution and different $N$ (twice between each one) must to have twice the Anonymity degree comparing each one with the next one, but it is not happening because entropy's logarithmic function is not linear.
    119 
    120 
    121 \subsection{Proposal}
    122 
    123 We propose to use two indexes to measure Anonymity, each one to establish the levels of Anonymity's characteristics: One to measure the anonymous set size(we can use $N$ or $1/N$, where $N$ is the number of the elements), and one to measure uniformity index of probability distribution function assigned by the attacker. To measure the uniformity index we propose to use two metrics: the MSE - Mean Square Error and/or the JSD - Jennsen-Shannon Divergence.
    124 
    125 \subsubsection{Root Squared Mean Error - RSME}
    126 
    127 This term is used to estimate variance's error, this error is the residual sum of squares divided by the number of degrees of freedom. In regression analysis, it's an observed quantity given a particular sample, it's sample-dependent. Besides, this term is often referred to as "out-of-sample mean squared error": the mean value of the squared deviations of the predictions from the true values, over an out-of-sample test space, generated by a model estimated over a particular sample space. This also is an observed quantity, and it varies by sample and by out-of-sample test space.
     99
     100Este trabajo propone el uso de un sistema de medición para Anonimato basado en las características de sus propiedades principales: el índice de uniformidad de la distribución de probabilidad y el tamaño del conjunto anónimo. En las propuestas previas, la medida más ampliamente utilizada es la entropía, un índice utilizado y propuesto en la Teoría de la Información, el cual tiene algunos inconvenientes con respecto a la medición del Anonimato según la propiedades mencionadas, en primer lugar dichas propiedades no se representan directa y explícitamente con este índice, y al ser un índice logarítmico, no representa de forma adecuada comportamientos lineales en el Anonimato. Para medir el índice de uniformidad se propone utilizar el criterio del error cuadrático mínimo y como segunda propuesta se plantea utilizar el criterio de divergencia de Jensen-Shannon. Para medir el tamaño del conjunto anónimo se propone utilizar una función de N (número de entes del conjunto anónimo).
     101
     102\subsection{Introducción}
     103Los sistemas de medición utilizados para cuantificar los niveles de Anonimato de los sistemas, mecanismos y herramientas aun se consideran un problema abierto. Se han propuesto algunas alternativas para este propósito, y la que más ampliamente se ha utilizado es la que se basa en una medida utilizada en la Teoría de la Información: la entropía, sin embargo ésta no representa explícitamente las características fundamentales del Anonimato: el tamaño del conjunto anónimo y el índice de uniformidad de la distribución de probabilidad vinculada al conjunto anónimo. En este trabajo, se propone utilizar como alternativa dos índices para la medición del Anonimato, y que explícitamente representen sus principales características. Por un lado el tamaño del conjunto anónimo puede ser representado a través de una función de N (el número de entes que componen al conjunto) y el índice de uniformidad puede ser representado utilizando un de los siguientes indicadores: el Error Cuadrático Medio (RMSE por sus siglas en inglés) o el criterio de divergencia de Jensen-Shannon (CDJs por sus siglas en inglés).
     104
     105
     106En Pfiztmann et al. \cite{terminology} establecieron una terminología ampliamente utilizada para estandarizar los términos utilizados en el contexto del Anonimato, en la cual ésta establece que un sujeto es anónimo cuando no puede ser diferenciado de los otros sujetos pertenecientes al mismo conjunto, denominado el conjunto anónimo. Describiendo el Anonimato en esto términos, se establece que sus niveles se incrementan si el tamaño del conjunto anónimo crece y cuando la distribución de probabilidad que establece un atacante sobre los miembros de ese conjunto anónimo tiende a ser uniforme. La proximidad de una distribución de probabilidad cualquiera a una distribución uniforme es a lo que se le denomina el índice de uniformidad de la distribución de probabilidad.
     107
     108En la mayoría de la documentación hasta ahora difundida se utiliza como medida de referencia una obtenida de la Teoría de la Información: la entropía, y puede verse su representación tal como la definió Shannon en \cite{shannon}. Esta propuesta fue discutida en los trabajos de Díaz et al. \cite{diaz01} y Serjantov et al. \cite{serj01}, y desde entonces ha sido utilizada como base de medición en varios otros trabajos como el de Deng et al. \cite{yuxin}, Edman et al. \cite{combinatorial} y Gierlichs et al. \cite{revisiting}. Sin embargo, esta medida no representa explícitamente las caracaterísitcas que describen al Anonimato y que fueron explicadas previamente, particularmente el índice de uniformidad.
     109
     110\subsection{Trabajos Relacionado}
     111Se han hecho varias propuestas para cuantificas el grado o nivel de Anonimato provisto por los sistemas anónimos. En \cite{reiter} definen el grado de Anonimato como $1 - p$, donde $p$ es la probabilidad asignada por el atacante a un sujeto particular. En \cite{berthold} definen el grado de Anonimato como $A=\log_2(N)$, donde $N$ es el número de sujetos (usuarios) del sistemas. Este grado solo depende del número de usuarios del sistema, y no toma en cuenta la información que el atacante puede obtener a través de la observación del sistema o por otros medios. En \cite{diaz01} y \cite{serj01} proponen medir la información que obtiene el atacante, considerando el conjunto completo de usuarios la probabilidad que le asigna, y para ello como medida proponen la entropía utilizada en la Teoría de Información (usan la entropía definida por Shannon en \cite{shannon}). Ninguna de las propuestas anteriores representa explícitamente el tamaño del conjunto anónimo y el índice de uniformidad. Además en \cite{diaz01} proponen utilizar un grado de anonimato normalizado, pero esta medida puede alcanzar su máximo nivel de anonimato con un $N=2$ (tamaño del conjunto anónimo), contradiciendo una de las características fundamentales del Anonimato definida en \cite{terminology}: Los niveles de Anonimato se incrementan si se incrementa el tamaño del conjunto anónimo y el índice de uniformidad de la distibución de probabilidad. En \cite{yuxin}, \cite{combinatorial}, \cite{revisiting} utilizan la entropía de  Shannon con un enfoque diferente pero adoleciendo de los mismo problemas. Cuando utilizan la entropía, están utilizando una función logarítmica, lo que significa que no se tienen grados de medición lineales para comparar los sistemas. Por ejemplo, si se tienen 4 sistemas, y los atacantes no tienen ninguna información de sus usuarios, esto quiere decir, que le asignan una distribución de probabilidad uniforme a cada conjunto anónimo, esto es si el primer sistema tiene $N=100$ sujetos, el segundo tiene $N=200$ sujetos, el tercero tiene $N=400$ sujetos y el cuarto tiene $N=800$ sujetos, los grados de Anonimato utilizando la entropía son: $6.6438$, $7.6438$, $8.6438$, $9.6438$, respectivamente. Estos escenarios, con la misma distribución de probabilidad y con diferente $N$ (el doble del conjunto anterior) debería tener el doble del grado de Anonimato comparando cada uno con el siguiente, pero esto no sucede debido a que la entropía utiliza un función logarítmica y no lineal.
     112
     113
     114\subsection{Propuesta}
     115
     116Se propone utilizar dos índices para medir el Anonimato, cada uno para establecer los niveles de cada característica fundamental del Anonimato: Uno para medir el tamaño del conjunto anónimo: $N$ o $1/N$, donde $N$ es el número de sujetos o elementos, y uno para medir el índice de uniformidad de la función de distribución de probabilidad asignada por el atacante. Para medir el índice de uniformidad se proponen utilizar una de las siguientes dos métricas: La raíz del error cuadrático medio (RSME) o el criterio de divergencia de Jennsen-Shannon (DJS).
     117
     118\subsubsection{Raíz del Error Cuadrático Medio - RSME}
     119
     120Este término se utiliza para estimar el error de la varianza, este es el error residual de las suma de los cuadrados divididos por el grado de libertad. En análisis de regresión, es una cantidad observada dada un muestra en particular, y depende de dicha muestra. Además, este término es referido al error fuera de la muestra: el valor medio de las desviaciones cuadráticas de las predicciones de los valores de verdad, sobre un espacio fuera de la muestra, generado por un modelo estimado sobre un espacio muestral particular. Esta también es una cantidad observada, y varía según la muestra y según el espacio fuera de la muestra probado.
    128121
    129122\begin{equation}
     
    131124\end{equation}
    132125
    133 
    134 In our case, we can use $p_{i}=\frac{1}{N}$ (probabilities in a uniform distribution) to represent $\bar{X}$, and $p_{i}$ is the probability assigned to the attacker to represent $X$. This measure permit to establish how far is the attacker's probability distribution from the uniform distribution.
     126En este caso, se propone utilizar $p_{i}=\frac{1}{N}$ (probabilidades en una distribución uniforme) para representar $\bar{X}$, y $p_{i}$, la probabilidad asignada por el atacante, se representa con $X$. Esta medida permite establecer la "distancia" de la distribución de probabilidad del atacante a la distribución uniforme.
    135127
    136128\begin{equation}
     
    138130\end{equation}
    139131
    140 If one system has a $RSME_a\approxeq1$ that mean it provides bad Anonymity protection.
    141 If another system has a $RSME_a\approxeq0$ that mean it provides good Anonymity
    142 protection. But we have to look the set size to definitively take a real
    143 perspective of the Anonymity degree.
    144 
    145 \subsubsection{Jennesen-Shannon divergence}
    146 
    147 The Jensen-Shannon divergence is a popular method of measuring the similarity between two or more probability distributions. It is based on the Kullback-Leibler divergence, with the notable (and useful) difference that it is always a finite value. The square root of the Jensen-Shannon divergence is a metric to measure one Anonymity index: uniformity index of probability distribution function.
     132Si un sistema tiene un $RSME_a\approxeq1$, esto quiere decir que provee un muy bajo nivel de anonimato.
     133Si otro sistema tiene un $RSME_a\approxeq0$, quiere decir que provee un buen nivel de anonimato. Pero también se debe observar el tamaño del conjunto anónimo para tomar un visión real del sistema.
     134
     135\subsubsection{Divergencia de Jennesen-Shannon}
     136
     137La divergencias de Jensen-Shannon es método popular para medir la similitud entre dos o más distribuciones de probabilidad. Se basa el la divergencia de Kullback-Leibler, con la notable y útil diferencia que siempre da como resultado un valor finito. La raíz cuadrada de la divergencia de Jensen-Shannon es el índice que se propone para representar el índice de uniformidad en Anonimato.
    148138
    149139\begin{equation}
     
    155145\end{equation}
    156146
    157 where $\pi_i$ are the weights for the probability distributions  $P_1,P_2$, in this case $\pi_i=1, \nabla i=\{1,2\}$, and $H(P)$ is the Shannon entropy for distribution $P$. In this case, $P_1$ is a uniform distribution and $P_2$ is attacker's probability distribution.
    158 
    159 With this result we can use both indexes to represent anonymity level o degree.
    160 
    161 
    162 \subsubsection{Results}
     147donde $\pi_i$ son lo pesos para la distribuciones de probabilidad $P_1,P_2$, en este caso $\pi_i=1, \nabla i=\{1,2\}$, y $H(P)$ es la entropía de Shannon para la distribución $P$. Es este caso, $P_1$ es una distribución uniforme y $P_2$ es la distribución de probabilidad del atacante.
     148
     149Con este resultado se obtienen dos índices para representar el grado o nivel de Anonimato:
     150
     151
     152\subsubsection{Resultados}
    163153\begin{description}
    164   \item[Option 1:] Anonymity degree ($AD$)using MSE to measure
    165   uniformity index of probability distribution function and
    166   $1/N$ to measure anonymity set size.\\
    167 
     154  \item[Opción 1:] Grado de Anonimato ($AD$) utilizando RMSE para medir el índice de uniformidad de la distribución de probabilidad y $1/N$ para medir el tamaño del conjunto anónimo.\\
    168155  \begin{center}$AD =  1 / N \pm MSE_a$\end{center}
    169   \item[Option 2:] Anonymity degree using JSD to measure uniformity
    170   index of probability distribution and $1/N$ to measure anonymity set size.\\
    171 
     156  \item[Opción 2:] Grado de Anonimato ($AD$) utilizando JSD para medir el índice de uniformidad de la distribución de probabilidad y $1/N$ para medir el tamaño del conjunto anónimo.\\
    172157  \begin{center}$AD =  1 / N \pm JSD_a$\end{center}
    173158\end{description}
    174159
    175 In both cases, the uniformity index and the set size are expressed separately and don't have the linearity problem.
    176 
    177 \subsubsection*{Acknowledgments.}
    178 This work was supported by the Ministerio de Industria, Turismo y Comercio (MITyC, Spain) through the Project Avanza Competitividad I+D+I TSI-020100-2010-482 and the Ministerio de Ciencia e Innovaci?n (MICINN, Spain) through the Project TEC2010-18894/TCM. Rodolfo Leonardo Sumoza Matos is also supported by the Programme Al$\beta$an, the European Union Programme of High Level Scholarships for Latin America, scholarship No. E07D401826VE.
    179 
     160En ambos casos, el índice de uniformidad y el tamaño son expresados por separado pero no tiene el problema de linealidad de las otras métricas.
    180161
    181162\begin{thebibliography}{}
Note: See TracChangeset for help on using the changeset viewer.