Context Navigation

capitulo8.tex @ 749d59b

revisionfinal

Last change on this file since 749d59b was 6fc3dc2, checked in by aaraujo <aaraujo@…>, 10 years ago

Correcciones capítulo 8.

Correcciones varias.
Se agrega un comentario sobre una de las premisas del artículo que no se ve suficientemente fundamentada.

Signed-off-by: Dhionel Díaz <ddiaz@…>
Signed-off-by: aaraujo <aaraujo@moe>

Property mode set to 100644

File size: 13.4 KB

Line
1	\chapter{Sistema de medici\'on de anonimato}
2	\chapterauthors{Rodolfo Sumoza
3	\chapteraffil{Fundación Centro Nacional de Desarrollo e Investigación en Tecnologías Libres}
4	}
5
6	% Se crea un ambiente bibunit para el cual se creará la bibliografía
7	\begin{bibunit}[unsrt]
8
9	%\section{Sistema de medición alternativo}
10
11
12	\textbf{Resumen}
13
14	Este trabajo propone el uso de un sistema de medición para anonimato
15	basado en las características de sus propiedades principales: el índice
16	de uniformidad de la distribución de probabilidad y el tamaño del conjunto
17	anónimo. En las propuestas previas, la medida más ampliamente utilizada
18	es la entropía, un índice utilizado y propuesto en la Teoría de la
19	Información, el cual tiene algunos inconvenientes con respecto a la
20	medición del Anonimato según la propiedades mencionadas, en primer
21	lugar dichas propiedades no se representan directa y explícitamente
22	con este índice, y al ser un índice logarítmico, no representa de
23	forma adecuada comportamientos lineales en el Anonimato. Para medir
24	el índice de uniformidad se propone utilizar el criterio del
25	error cuadrático mínimo y como segunda propuesta se plantea
26	utilizar el criterio de divergencia de Jensen-Shannon. Para
27	medir el tamaño del conjunto anónimo se propone utilizar una
28	función de N (número de entes del conjunto anónimo).
29
30	%\subsection{Introducción}
31	\section{Introducción}
32	Los sistemas de medición utilizados para cuantificar los niveles
33	de Anonimato de los sistemas, mecanismos y herramientas aun se
34	consideran un problema abierto. Se han propuesto algunas alternativas
35	para este propósito, y la que más ampliamente se ha utilizado es la
36	que se basa en una medida utilizada en la Teoría de la Información:
37	la entropía. Sin embargo ésta no representa explícitamente las características
38	fundamentales del Anonimato: el tamaño del conjunto anónimo y el
39	índice de uniformidad de la distribución de probabilidad vinculada
40	al conjunto anónimo. En este trabajo, se propone utilizar como alternativa
41	dos índices para la medición del Anonimato, que explícitamente representen
42	sus principales características. Por un lado el tamaño del conjunto anónimo
43	puede ser representado a través de una función de N (el número de entes
44	que componen al conjunto) y el índice de uniformidad puede ser representado
45	utilizando uno de los siguientes indicadores: el Error Cuadrático
46	Medio (RMSE por sus siglas en inglés) o el criterio de divergencia de
47	Jensen-Shannon (CDJs por sus siglas en inglés).
48
49
50	En Pfiztmann et al. \cite{rlsm:terminology} establecieron una
51	terminología ampliamente utilizada para estandarizar los términos
52	utilizados en el contexto del Anonimato, en la cual ésta establece
53	que un sujeto es anónimo cuando no puede ser diferenciado de los otros
54	sujetos pertenecientes al mismo conjunto, denominado el conjunto anónimo.
55	Describiendo el Anonimato en estos términos, se establece que sus niveles
56	se incrementan si el tamaño del conjunto anónimo crece y cuando la
57	distribución de probabilidad que establece un atacante sobre los
58	miembros de ese conjunto anónimo tiende a ser uniforme. La
59	proximidad de una distribución de probabilidad cualquiera a una
60	distribución uniforme es a lo que se le denomina el índice de
61	uniformidad de la distribución de probabilidad.
62
63	En la mayoría de la documentación hasta ahora difundida se utiliza
64	como medida de referencia una obtenida de la Teoría de la Información:
65	la entropía, y puede verse su representación tal como la definió Shannon
66	en \cite{rlsm:shannon}. Esta propuesta fue discutida en los trabajos
67	de Díaz et al. \cite{rlsm:diaz01} y Serjantov et al. \cite{rlsm:serj01},
68	y desde entonces ha sido utilizada como base de medición en varios otros
69	trabajos como el de Deng et al. \cite{rlsm:yuxin}, Edman et al.
70	\cite{rlsm:combinatorial} y Gierlichs et al. \cite{rlsm:revisiting}.
71	Sin embargo, esta medida no representa explícitamente las características
72	que describen al Anonimato y que fueron explicadas previamente,
73	particularmente el índice de uniformidad.
74
75	%\subsection{Trabajos Relacionados}
76	\section{Trabajos Relacionado}
77	Se han hecho varias propuestas para cuantificar el grado o nivel de
78	anonimato provisto por los sistemas anónimos. En \cite{rlsm:reiter}
79	definen el grado de Anonimato como $1 - p$, donde $p$ es la probabilidad
80	asignada por el atacante a un sujeto particular. En \cite{rlsm:berthold}
81	definen el grado de anonimato como $A=\log_2(N)$, donde $N$ es el
82	número de sujetos (usuarios) del sistema. Este grado solo depende del
83	número de usuarios del sistema, y no toma en cuenta la información
84	que el atacante puede obtener a través de la observación del sistema
85	o por otros medios. En \cite{rlsm:diaz01} y \cite{rlsm:serj01} proponen
86	medir la información que obtiene el atacante, considerando el conjunto
87	completo de usuarios la probabilidad que le asigna, y para ello
88	como medida proponen la entropía utilizada en la Teoría de Información
89	(usan la entropía definida por Shannon en \cite{rlsm:shannon}).
90	Ninguna de las propuestas anteriores representa explícitamente el
91	tamaño del conjunto anónimo y el índice de uniformidad. Además en
92	\cite{rlsm:diaz01} proponen utilizar un grado de anonimato normalizado,
93	pero esta medida puede alcanzar su máximo nivel de anonimato
94	con un $N=2$ (tamaño del conjunto anónimo), contradiciendo una de
95	las características fundamentales del Anonimato definida en
96	\cite{rlsm:terminology}: Los niveles de Anonimato se incrementan
97	si se incrementa el tamaño del conjunto anónimo y el índice de
98	uniformidad de la distibución de probabilidad. En \cite{rlsm:yuxin},
99	\cite{rlsm:combinatorial}, \cite{rlsm:revisiting} utilizan la entropía
100	de Shannon con un enfoque diferente pero adoleciendo de los mismos
101	problemas. Cuando utilizan la entropía, están utilizando una
102	función logarítmica, lo que significa que no se tienen grados de
103	medición lineales para comparar los sistemas. Por ejemplo, si se tienen
104	4 sistemas, y los atacantes no tienen ninguna información de sus usuarios,
105	esto quiere decir, que le asignan una distribución de probabilidad
106	uniforme a cada conjunto anónimo, esto es si el primer sistema
107	tiene $N=100$ sujetos, el segundo tiene $N=200$ sujetos, el tercero
108	tiene $N=400$ sujetos y el cuarto tiene $N=800$ sujetos, los grados
109	de Anonimato utilizando la entropía son: $6.6438$, $7.6438$, $8.6438$,
110	$9.6438$, respectivamente. Estos escenarios, con la misma distribución
111	de probabilidad y con diferente $N$ (el doble del conjunto anterior)
112	debería tener el doble del grado de Anonimato comparando cada uno con
113	el siguiente, pero esto no sucede debido a que la entropía utiliza
114	una función logarítmica y no lineal.
115	\begin{comment}
116	En este punto cabe preguntar porqué el concepto de grado de anonimato
117	se considera que debe estar asociado con una función lineal del tamaño
118	del conjunto. Esa es una restricción fuerte que no se ve justificada.
119	Lo que se muestra en torno al asunto sólo llega a requerir que sea una
120	función creciente.
121	\end{comment}
122
123	%\subsection{Propuesta}
124	\section{Propuesta}
125
126	Se propone utilizar dos índices para medir el Anonimato, cada uno
127	para establecer los niveles de cada característica fundamental del
128	Anonimato: Uno para medir el tamaño del conjunto anónimo: $N$ o $1/N$,
129	donde $N$ es el número de sujetos o elementos, y uno para medir el
130	índice de uniformidad de la función de distribución de probabilidad
131	asignada por el atacante. Para medir el índice de uniformidad se
132	proponen utilizar una de las siguientes dos métricas: La raíz del
133	error cuadrático medio (RSME) o el criterio de divergencia de
134	Jennsen-Shannon (DJS).
135
136	%\subsubsection{Raíz del Error Cuadrático Medio - RSME}
137	\subsection{Raíz del Error Cuadrático Medio - RSME}
138
139	Este término se utiliza para estimar el error de la varianza, este
140	es el error residual de la suma de los cuadrados divididos por el
141	grado de libertad. En análisis de regresión, es una cantidad observada
142	dada un muestra en particular, y depende de dicha muestra. Además,
143	este término es referido al error fuera de la muestra: el valor medio
144	de las desviaciones cuadráticas de las predicciones de los valores de
145	verdad, sobre un espacio fuera de la muestra, generado por un modelo
146	estimado sobre un espacio muestral particular. Ésta también es una
147	cantidad observada, y varía según la muestra y según el espacio fuera
148	de la muestra probado.
149
150	\begin{equation}
151	RSME=\frac{\sqrt{(\bar{X}-X)^{2}}}{n(n-1)}
152	\end{equation}
153
154	En este caso, se propone utilizar $p_{i}=\frac{1}{N}$ (probabilidades en
155	una distribución uniforme) para representar $\bar{X}$, y $p_{i}$,
156	la probabilidad asignada por el atacante, se representa con $X$. Esta
157	medida permite establecer la "distancia" de la distribución de
158	probabilidad del atacante a la distribución uniforme.
159
160	\begin{equation}
161	RSME_a=\frac{\sqrt{\displaystyle\sum_{i=1}^N (\frac{1}{N}-p_{i})^{2}}}{N(N-1)}
162	\end{equation}
163
164	Si un sistema tiene un $RSME_a\approxeq1$, esto quiere decir que
165	provee un muy bajo nivel de anonimato.
166	Si otro sistema tiene un $RSME_a\approxeq0$, quiere decir que provee
167	un buen nivel de anonimato. Pero también se debe observar el tamaño
168	del conjunto anónimo para tomar un visión real del sistema.
169
170	%\subsubsection{Divergencia de Jennesen-Shannon}
171	\subsection{Divergencia de Jennesen-Shannon}
172
173	La divergencia de Jensen-Shannon es un método popular para medir
174	la similitud entre dos o más distribuciones de probabilidad. Se basa
175	en la divergencia de Kullback-Leibler, con la notable y útil diferencia
176	que siempre da como resultado un valor finito. La raíz cuadrada
177	de la divergencia de Jensen-Shannon es el índice que se propone para
178	representar el índice de uniformidad en Anonimato.
179
180	\begin{equation}
181	JSD(P_{1},P_{2})=H\left(\displaystyle\sum_{i=1}^2 \pi_i P_i\right)-\displaystyle\sum_{i=1}^2 \pi_i P_i
182	\end{equation}
183
184	\begin{equation}
185	JSD_a(P_{1},P_{2})=\sqrt{JSD(P_{1},P_{2})}
186	\end{equation}
187
188	donde $\pi_i$ son lo pesos para la distribuciones de
189	probabilidad $P_1,P_2$, en este caso $\pi_i=1, \nabla i=\{1,2\}$,
190	y $H(P)$ es la entropía de Shannon para la distribución $P$. Es este
191	caso, $P_1$ es una distribución uniforme y $P_2$ es la distribución
192	de probabilidad del atacante.
193
194	Con este resultado se obtienen dos índices para representar el grado o
195	nivel de Anonimato:
196
197
198	%\subsubsection{Resultados}
199	\subsection{Resultados}
200	\begin{description}
201	\item[Opción 1:] Grado de Anonimato ($AD$) utilizando RMSE para medir
202	el índice de uniformidad de la distribución de probabilidad
203	y $1/N$ para medir el tamaño del conjunto anónimo.\\
204	\begin{center}$AD = 1 / N \pm MSE_a$\end{center}
205	\item[Opción 2:] Grado de Anonimato ($AD$) utilizando JSD para
206	medir el índice de uniformidad de la distribución de probabilidad
207	y $1/N$ para medir el tamaño del conjunto anónimo.\\
208	\begin{center}$AD = 1 / N \pm JSD_a$\end{center}
209	\end{description}
210
211	En ambos casos, el índice de uniformidad y el tamaño son
212	expresados por separado pero no tiene el problema de linealidad
213	de las otras métricas.
214
215	%\begin{thebibliography}{}
216
217	%\bibitem{terminology}
218	%Pfitzmann, A., Hansen, M.: Anonymity, Unobservability, and Pseudonymity: A Consolidated Proposal for Terminology. http://dud.inf.tu-dresden.de/Anon\_Terminology.shtml, (2000)
219
220	%\bibitem{diaz01}
221	%Diaz, C., Seys, S., Claessens J., Preneel, B.: Towards measuring anonymity. In: Proceedings of Privacy Enhancing Technologies Workshop (PET'02) - Springer LNCS 2482. pp. 54-68, (2002)
222
223	%\bibitem{serj01}
224	%Serjantov, A., Danezis, G.: Towards an Information Theoretic Metric for Anonymity. In: Proceedings of Privacy Enhancing Technologies Workshop (PET'02) - Springer LNCS 2482. (2002)
225
226	%\bibitem{shannon}
227	%Shannon, C.: The mathematical theory for communicactions. In: Bell Systems Technical Journal. pp. 30:50-64, (1948)
228
229	%\bibitem{yuxin}
230	%Deng, Y., Pang, J., Wu, P.: Measuring Anonymity with Relative Entropy. In: Proceedings of the 4th International Workshop on Formal Aspects in Security and Trust (FAST'06), Lecture Notes in Computer Science 4691. pp. 65-79, Springer, (2007)
231
232	%\bibitem{combinatorial}
233	%Edman, M., Sivrikaya, F., Yener, B.: A Combinatorial Approach to Measuring Anonymity. In: In Intelligence and Security Informatics. pp. 356-363, (2007)
234
235	%\bibitem{revisiting}
236	%Gierlichs, B., Troncoso, C., Diaz, C., Preneel, B., Verbauwhede, I.: Revisiting A Combinatorial Approach Toward Measuring Anonymity. In: Workshop on Privacy in the Electronic Society (WPES 2008), V. Atluri and M. Winslett (Eds.), pp. 111-116, ACM Press, (2008)
237
238	%\bibitem{berthold}
239	%Berthold, O., Pfitzmann, A., Standtke, R.: The Disavantages of Free Mix Routes and How to overcome them. In: Hannes Federath (Ed.), Proceedings of Privacy Enhancing Technologies Workshop (PET'01), Lecture Notes in Computer Science. pp. 30-45, Springer-Verlag, (2001)
240
241	%\bibitem{reiter}
242	%Reiter, M., Rubin, A.: Crowds: Anonymity for Web Transactions. In: ACM Transactions on Information and System Security. vol. 1, no. 1, (1998)
243
244	%\bibitem{vernier}
245	%Vernier, D., and Gastineau, J.: What are Mean Squared Error and Root Mean Squared Error?. Article \#104. http://www.vernier.com/ (2011)
246
247	%\bibitem{jianhua}
248	%Jianhua, L.: Divergences Measures Based in Shannon Entropy. IEEE Transactions on Information Theory. vol. 37, no. 1 (1991)
249
250
251	%\end{thebibliography}
252
253
254
255
256	% el siguiente comando establece la ubicación de las referencias
257	\putbib[bibliografia]
258
259	% el siguiente comando cierra el ambiente bibunit para la cual se generan las
260	% referencias.
261	\end{bibunit}
262
263
264

Note: See TracBrowser for help on using the repository browser.

Context Navigation

source: libros/maquetacion/capitulo8/capitulo8.tex @ 749d59b

Download in other formats: