source: libros/maquetacion/capitulo8/capitulo8.tex @ 6fc3dc2

revisionfinal
Last change on this file since 6fc3dc2 was 6fc3dc2, checked in by aaraujo <aaraujo@…>, 10 years ago

Correcciones capítulo 8.

  • Correcciones varias.
  • Se agrega un comentario sobre una de las premisas del artículo que no se ve suficientemente fundamentada.

Signed-off-by: Dhionel Díaz <ddiaz@…>
Signed-off-by: aaraujo <aaraujo@moe>

  • Property mode set to 100644
File size: 13.4 KB
Line 
1\chapter{Sistema de medici\'on de anonimato}
2\chapterauthors{Rodolfo Sumoza
3\chapteraffil{Fundación Centro Nacional de Desarrollo e Investigación en Tecnologías Libres}
4}
5
6% Se crea un ambiente bibunit para el cual se creará la bibliografía
7\begin{bibunit}[unsrt]
8
9%\section{Sistema de medición alternativo}
10
11
12\textbf{Resumen}
13
14Este trabajo propone el uso de un sistema de medición para anonimato
15basado en las características de sus propiedades principales: el índice
16de uniformidad de la distribución de probabilidad y el tamaño del conjunto
17anónimo. En las propuestas previas, la medida más ampliamente utilizada
18es la entropía, un índice utilizado y propuesto en la Teoría de la
19Información, el cual tiene algunos inconvenientes con respecto a la
20medición del Anonimato según la propiedades mencionadas, en primer
21lugar dichas propiedades no se representan directa y explícitamente
22con este índice, y al ser un índice logarítmico, no representa de
23forma adecuada comportamientos lineales en el Anonimato. Para medir
24el índice de uniformidad se propone utilizar el criterio del
25error cuadrático mínimo y como segunda propuesta se plantea
26utilizar el criterio de divergencia de Jensen-Shannon. Para
27medir el tamaño del conjunto anónimo se propone utilizar una
28función de N (número de entes del conjunto anónimo).
29
30%\subsection{Introducción}
31\section{Introducción}
32Los sistemas de medición utilizados para cuantificar los niveles
33de Anonimato de los sistemas, mecanismos y herramientas aun se
34consideran un problema abierto. Se han propuesto algunas alternativas
35para este propósito, y la que más ampliamente se ha utilizado es la
36que se basa en una medida utilizada en la Teoría de la Información:
37la entropía. Sin embargo ésta no representa explícitamente las características
38fundamentales del Anonimato: el tamaño del conjunto anónimo y el
39índice de uniformidad de la distribución de probabilidad vinculada
40al conjunto anónimo. En este trabajo, se propone utilizar como alternativa
41dos índices para la medición del Anonimato, que explícitamente representen
42sus principales características. Por un lado el tamaño del conjunto anónimo
43puede ser representado a través de una función de N (el número de entes
44que componen al conjunto) y el índice de uniformidad puede ser representado
45utilizando uno de los siguientes indicadores: el Error Cuadrático
46Medio (RMSE por sus siglas en inglés) o el criterio de divergencia de
47Jensen-Shannon (CDJs por sus siglas en inglés).
48
49
50En Pfiztmann et al. \cite{rlsm:terminology} establecieron una
51terminología ampliamente utilizada para estandarizar los términos
52utilizados en el contexto del Anonimato, en la cual ésta establece
53que un sujeto es anónimo cuando no puede ser diferenciado de los otros
54sujetos pertenecientes al mismo conjunto, denominado el conjunto anónimo.
55Describiendo el Anonimato en estos términos, se establece que sus niveles
56se incrementan si el tamaño del conjunto anónimo crece y cuando la
57distribución de probabilidad que establece un atacante sobre los
58miembros de ese conjunto anónimo tiende a ser uniforme. La
59proximidad de una distribución de probabilidad cualquiera a una
60distribución uniforme es a lo que se le denomina el índice de
61uniformidad de la distribución de probabilidad.
62
63En la mayoría de la documentación hasta ahora difundida se utiliza
64como medida de referencia una obtenida de la Teoría de la Información:
65la entropía, y puede verse su representación tal como la definió Shannon
66en \cite{rlsm:shannon}. Esta propuesta fue discutida en los trabajos
67de Díaz et al. \cite{rlsm:diaz01} y Serjantov et al. \cite{rlsm:serj01},
68y desde entonces ha sido utilizada como base de medición en varios otros
69trabajos como el de Deng et al. \cite{rlsm:yuxin}, Edman et al.
70\cite{rlsm:combinatorial} y Gierlichs et al. \cite{rlsm:revisiting}.
71Sin embargo, esta medida no representa explícitamente las características
72que describen al Anonimato y que fueron explicadas previamente,
73particularmente el índice de uniformidad.
74
75%\subsection{Trabajos Relacionados}
76\section{Trabajos Relacionado}
77Se han hecho varias propuestas para cuantificar el grado o nivel de
78anonimato provisto por los sistemas anónimos. En \cite{rlsm:reiter} 
79definen el grado de Anonimato como $1 - p$, donde $p$ es la probabilidad
80asignada por el atacante a un sujeto particular. En \cite{rlsm:berthold} 
81definen el grado de anonimato como $A=\log_2(N)$, donde $N$ es el
82número de sujetos (usuarios) del sistema. Este grado solo depende del
83número de usuarios del sistema, y no toma en cuenta la información
84que el atacante puede obtener a través de la observación del sistema
85o por otros medios. En \cite{rlsm:diaz01} y \cite{rlsm:serj01} proponen
86medir la información que obtiene el atacante, considerando el conjunto
87completo de usuarios la probabilidad que le asigna, y para ello
88como medida proponen la entropía utilizada en la Teoría de Información
89(usan la entropía definida por Shannon en \cite{rlsm:shannon}).
90Ninguna de las propuestas anteriores representa explícitamente el
91tamaño del conjunto anónimo y el índice de uniformidad. Además en
92\cite{rlsm:diaz01} proponen utilizar un grado de anonimato normalizado,
93pero esta medida puede alcanzar su máximo nivel de anonimato
94con un $N=2$ (tamaño del conjunto anónimo), contradiciendo una de
95las características fundamentales del Anonimato definida en
96\cite{rlsm:terminology}: Los niveles de Anonimato se incrementan
97si se incrementa el tamaño del conjunto anónimo y el índice de
98uniformidad de la distibución de probabilidad. En \cite{rlsm:yuxin},
99\cite{rlsm:combinatorial}, \cite{rlsm:revisiting} utilizan la entropía
100de  Shannon con un enfoque diferente pero adoleciendo de los mismos
101problemas. Cuando utilizan la entropía, están utilizando una
102función logarítmica, lo que significa que no se tienen grados de
103medición lineales para comparar los sistemas. Por ejemplo, si se tienen
1044 sistemas, y los atacantes no tienen ninguna información de sus usuarios,
105esto quiere decir, que le asignan una distribución de probabilidad
106uniforme a cada conjunto anónimo, esto es si el primer sistema
107tiene $N=100$ sujetos, el segundo tiene $N=200$ sujetos, el tercero
108tiene $N=400$ sujetos y el cuarto tiene $N=800$ sujetos, los grados
109de Anonimato utilizando la entropía son: $6.6438$, $7.6438$, $8.6438$,
110$9.6438$, respectivamente. Estos escenarios, con la misma distribución
111de probabilidad y con diferente $N$ (el doble del conjunto anterior)
112debería tener el doble del grado de Anonimato comparando cada uno con
113el siguiente, pero esto no sucede debido a que la entropía utiliza
114una función logarítmica y no lineal.
115\begin{comment}
116En este punto cabe preguntar porqué el concepto de grado de anonimato
117se considera que debe estar asociado con una función lineal del tamaño
118del conjunto. Esa es una restricción fuerte que no se ve justificada.
119Lo que se muestra en torno al asunto sólo llega a requerir que sea una
120función creciente.
121\end{comment}
122
123%\subsection{Propuesta}
124\section{Propuesta}
125
126Se propone utilizar dos índices para medir el Anonimato, cada uno
127para establecer los niveles de cada característica fundamental del
128Anonimato: Uno para medir el tamaño del conjunto anónimo: $N$ o $1/N$,
129donde $N$ es el número de sujetos o elementos, y uno para medir el
130índice de uniformidad de la función de distribución de probabilidad
131asignada por el atacante. Para medir el índice de uniformidad se
132proponen utilizar una de las siguientes dos métricas: La raíz del
133error cuadrático medio (RSME) o el criterio de divergencia de
134Jennsen-Shannon (DJS).
135
136%\subsubsection{Raíz del Error Cuadrático Medio - RSME}
137\subsection{Raíz del Error Cuadrático Medio - RSME}
138
139Este término se utiliza para estimar el error de la varianza, este
140es el error residual de la suma de los cuadrados divididos por el
141grado de libertad. En análisis de regresión, es una cantidad observada
142dada un muestra en particular, y depende de dicha muestra. Además,
143este término es referido al error fuera de la muestra: el valor medio
144de las desviaciones cuadráticas de las predicciones de los valores de
145verdad, sobre un espacio fuera de la muestra, generado por un modelo
146estimado sobre un espacio muestral particular. Ésta también es una
147cantidad observada, y varía según la muestra y según el espacio fuera
148de la muestra probado.
149
150\begin{equation}
151RSME=\frac{\sqrt{(\bar{X}-X)^{2}}}{n(n-1)}
152\end{equation}
153
154En este caso, se propone utilizar $p_{i}=\frac{1}{N}$ (probabilidades en
155una distribución uniforme) para representar $\bar{X}$, y $p_{i}$,
156la probabilidad asignada por el atacante, se representa con $X$. Esta
157medida permite establecer la "distancia" de la distribución de
158probabilidad del atacante a la distribución uniforme.
159
160\begin{equation}
161RSME_a=\frac{\sqrt{\displaystyle\sum_{i=1}^N (\frac{1}{N}-p_{i})^{2}}}{N(N-1)}
162\end{equation}
163
164Si un sistema tiene un $RSME_a\approxeq1$, esto quiere decir que
165provee un muy bajo nivel de anonimato.
166Si otro sistema tiene un $RSME_a\approxeq0$, quiere decir que provee
167un buen nivel de anonimato. Pero también se debe observar el tamaño
168del conjunto anónimo para tomar un visión real del sistema.
169
170%\subsubsection{Divergencia de Jennesen-Shannon}
171\subsection{Divergencia de Jennesen-Shannon}
172
173La divergencia de Jensen-Shannon es un método popular para medir
174la similitud entre dos o más distribuciones de probabilidad. Se basa
175en la divergencia de Kullback-Leibler, con la notable y útil diferencia
176que siempre da como resultado un valor finito. La raíz cuadrada
177de la divergencia de Jensen-Shannon es el índice que se propone para
178representar el índice de uniformidad en Anonimato.
179
180\begin{equation}
181JSD(P_{1},P_{2})=H\left(\displaystyle\sum_{i=1}^2 \pi_i P_i\right)-\displaystyle\sum_{i=1}^2 \pi_i P_i
182\end{equation}
183
184\begin{equation}
185JSD_a(P_{1},P_{2})=\sqrt{JSD(P_{1},P_{2})}
186\end{equation}
187
188donde $\pi_i$ son lo pesos para la distribuciones de
189probabilidad $P_1,P_2$, en este caso $\pi_i=1, \nabla i=\{1,2\}$,
190y $H(P)$ es la entropía de Shannon para la distribución $P$. Es este
191caso, $P_1$ es una distribución uniforme y $P_2$ es la distribución
192de probabilidad del atacante.
193
194Con este resultado se obtienen dos índices para representar el grado o
195nivel de Anonimato:
196
197
198%\subsubsection{Resultados}
199\subsection{Resultados}
200\begin{description}
201  \item[Opción 1:] Grado de Anonimato ($AD$) utilizando RMSE para medir
202el índice de uniformidad de la distribución de probabilidad
203y $1/N$ para medir el tamaño del conjunto anónimo.\\
204  \begin{center}$AD =  1 / N \pm MSE_a$\end{center}
205  \item[Opción 2:] Grado de Anonimato ($AD$) utilizando JSD para
206medir el índice de uniformidad de la distribución de probabilidad
207y $1/N$ para medir el tamaño del conjunto anónimo.\\
208  \begin{center}$AD =  1 / N \pm JSD_a$\end{center}
209\end{description}
210
211En ambos casos, el índice de uniformidad y el tamaño son
212expresados por separado pero no tiene el problema de linealidad
213de las otras métricas.
214
215%\begin{thebibliography}{}
216
217%\bibitem{terminology}
218%Pfitzmann, A.,  Hansen, M.: Anonymity, Unobservability, and Pseudonymity: A Consolidated Proposal for Terminology. http://dud.inf.tu-dresden.de/Anon\_Terminology.shtml, (2000)
219
220%\bibitem{diaz01}
221%Diaz, C., Seys, S., Claessens J., Preneel, B.: Towards measuring anonymity. In: Proceedings of Privacy Enhancing Technologies Workshop (PET'02) - Springer LNCS 2482. pp. 54-68, (2002)
222
223%\bibitem{serj01}
224%Serjantov, A., Danezis, G.: Towards an Information Theoretic Metric for Anonymity. In: Proceedings of Privacy Enhancing Technologies Workshop (PET'02) - Springer LNCS 2482. (2002)
225
226%\bibitem{shannon}
227%Shannon, C.: The mathematical theory for communicactions. In: Bell Systems Technical Journal. pp. 30:50-64, (1948)
228
229%\bibitem{yuxin}
230%Deng, Y., Pang, J., Wu, P.: Measuring Anonymity with Relative Entropy. In: Proceedings of the 4th International Workshop on Formal Aspects in Security and Trust (FAST'06), Lecture Notes in Computer Science 4691. pp. 65-79, Springer, (2007)
231
232%\bibitem{combinatorial}
233%Edman, M., Sivrikaya, F., Yener, B.: A Combinatorial Approach to Measuring Anonymity. In: In Intelligence and Security Informatics. pp. 356-363, (2007)
234
235%\bibitem{revisiting}
236%Gierlichs, B., Troncoso, C., Diaz, C., Preneel, B., Verbauwhede, I.: Revisiting A Combinatorial Approach Toward Measuring Anonymity. In: Workshop on Privacy in the Electronic Society (WPES 2008), V. Atluri and M. Winslett (Eds.), pp. 111-116,  ACM Press, (2008)
237
238%\bibitem{berthold}
239%Berthold, O., Pfitzmann, A., Standtke, R.: The Disavantages of Free Mix Routes and How to overcome them. In: Hannes Federath (Ed.), Proceedings of Privacy Enhancing Technologies Workshop (PET'01), Lecture Notes in Computer Science. pp. 30-45, Springer-Verlag, (2001)
240
241%\bibitem{reiter}
242%Reiter, M., Rubin, A.: Crowds: Anonymity for Web Transactions. In: ACM Transactions on Information and System Security. vol. 1, no. 1, (1998)
243
244%\bibitem{vernier}
245%Vernier, D., and Gastineau, J.: What are Mean Squared Error and Root Mean Squared Error?. Article \#104. http://www.vernier.com/ (2011)
246
247%\bibitem{jianhua}
248%Jianhua, L.: Divergences Measures Based in Shannon Entropy. IEEE Transactions on Information Theory. vol. 37, no. 1 (1991)
249
250
251%\end{thebibliography}
252
253
254
255
256% el siguiente comando establece la ubicación de las referencias
257\putbib[bibliografia]
258
259% el siguiente comando cierra el ambiente bibunit para la cual se generan las
260% referencias.
261\end{bibunit}
262
263
264
Note: See TracBrowser for help on using the repository browser.