Context Navigation

capitulo8.tex @ 6fc3dc2

revisionfinal

Last change on this file since 6fc3dc2 was 6fc3dc2, checked in by aaraujo <aaraujo@…>, 10 years ago

Correcciones capítulo 8.

Correcciones varias.
Se agrega un comentario sobre una de las premisas del artículo que no se ve suficientemente fundamentada.

Signed-off-by: Dhionel Díaz <ddiaz@…>
Signed-off-by: aaraujo <aaraujo@moe>

Property mode set to 100644

File size: 13.4 KB

Rev	Line
[054b1ae]	1	\chapter{Sistema de medici\'on de anonimato}
[e4101dd]	2	\chapterauthors{Rodolfo Sumoza
[9c88d1e]	3	\chapteraffil{Fundación Centro Nacional de Desarrollo e Investigación en Tecnologías Libres}
	4	}
	5
	6	% Se crea un ambiente bibunit para el cual se creará la bibliografía
	7	\begin{bibunit}[unsrt]
	8
	9	%\section{Sistema de medición alternativo}
	10
	11
	12	\textbf{Resumen}
	13
[6fc3dc2]	14	Este trabajo propone el uso de un sistema de medición para anonimato
	15	basado en las características de sus propiedades principales: el índice
	16	de uniformidad de la distribución de probabilidad y el tamaño del conjunto
	17	anónimo. En las propuestas previas, la medida más ampliamente utilizada
	18	es la entropía, un índice utilizado y propuesto en la Teoría de la
	19	Información, el cual tiene algunos inconvenientes con respecto a la
	20	medición del Anonimato según la propiedades mencionadas, en primer
	21	lugar dichas propiedades no se representan directa y explícitamente
	22	con este índice, y al ser un índice logarítmico, no representa de
	23	forma adecuada comportamientos lineales en el Anonimato. Para medir
	24	el índice de uniformidad se propone utilizar el criterio del
	25	error cuadrático mínimo y como segunda propuesta se plantea
	26	utilizar el criterio de divergencia de Jensen-Shannon. Para
	27	medir el tamaño del conjunto anónimo se propone utilizar una
	28	función de N (número de entes del conjunto anónimo).
[9c88d1e]	29
	30	%\subsection{Introducción}
	31	\section{Introducción}
[6fc3dc2]	32	Los sistemas de medición utilizados para cuantificar los niveles
	33	de Anonimato de los sistemas, mecanismos y herramientas aun se
	34	consideran un problema abierto. Se han propuesto algunas alternativas
	35	para este propósito, y la que más ampliamente se ha utilizado es la
	36	que se basa en una medida utilizada en la Teoría de la Información:
	37	la entropía. Sin embargo ésta no representa explícitamente las características
	38	fundamentales del Anonimato: el tamaño del conjunto anónimo y el
	39	índice de uniformidad de la distribución de probabilidad vinculada
	40	al conjunto anónimo. En este trabajo, se propone utilizar como alternativa
	41	dos índices para la medición del Anonimato, que explícitamente representen
	42	sus principales características. Por un lado el tamaño del conjunto anónimo
	43	puede ser representado a través de una función de N (el número de entes
	44	que componen al conjunto) y el índice de uniformidad puede ser representado
	45	utilizando uno de los siguientes indicadores: el Error Cuadrático
	46	Medio (RMSE por sus siglas en inglés) o el criterio de divergencia de
	47	Jensen-Shannon (CDJs por sus siglas en inglés).
	48
	49
	50	En Pfiztmann et al. \cite{rlsm:terminology} establecieron una
	51	terminología ampliamente utilizada para estandarizar los términos
	52	utilizados en el contexto del Anonimato, en la cual ésta establece
	53	que un sujeto es anónimo cuando no puede ser diferenciado de los otros
	54	sujetos pertenecientes al mismo conjunto, denominado el conjunto anónimo.
	55	Describiendo el Anonimato en estos términos, se establece que sus niveles
	56	se incrementan si el tamaño del conjunto anónimo crece y cuando la
	57	distribución de probabilidad que establece un atacante sobre los
	58	miembros de ese conjunto anónimo tiende a ser uniforme. La
	59	proximidad de una distribución de probabilidad cualquiera a una
	60	distribución uniforme es a lo que se le denomina el índice de
	61	uniformidad de la distribución de probabilidad.
	62
	63	En la mayoría de la documentación hasta ahora difundida se utiliza
	64	como medida de referencia una obtenida de la Teoría de la Información:
	65	la entropía, y puede verse su representación tal como la definió Shannon
	66	en \cite{rlsm:shannon}. Esta propuesta fue discutida en los trabajos
	67	de Díaz et al. \cite{rlsm:diaz01} y Serjantov et al. \cite{rlsm:serj01},
	68	y desde entonces ha sido utilizada como base de medición en varios otros
	69	trabajos como el de Deng et al. \cite{rlsm:yuxin}, Edman et al.
	70	\cite{rlsm:combinatorial} y Gierlichs et al. \cite{rlsm:revisiting}.
	71	Sin embargo, esta medida no representa explícitamente las características
	72	que describen al Anonimato y que fueron explicadas previamente,
	73	particularmente el índice de uniformidad.
[9c88d1e]	74
[65b942d]	75	%\subsection{Trabajos Relacionados}
[9c88d1e]	76	\section{Trabajos Relacionado}
[6fc3dc2]	77	Se han hecho varias propuestas para cuantificar el grado o nivel de
	78	anonimato provisto por los sistemas anónimos. En \cite{rlsm:reiter}
	79	definen el grado de Anonimato como $1 - p$, donde $p$ es la probabilidad
	80	asignada por el atacante a un sujeto particular. En \cite{rlsm:berthold}
	81	definen el grado de anonimato como $A=\log_2(N)$, donde $N$ es el
	82	número de sujetos (usuarios) del sistema. Este grado solo depende del
	83	número de usuarios del sistema, y no toma en cuenta la información
	84	que el atacante puede obtener a través de la observación del sistema
	85	o por otros medios. En \cite{rlsm:diaz01} y \cite{rlsm:serj01} proponen
	86	medir la información que obtiene el atacante, considerando el conjunto
	87	completo de usuarios la probabilidad que le asigna, y para ello
	88	como medida proponen la entropía utilizada en la Teoría de Información
	89	(usan la entropía definida por Shannon en \cite{rlsm:shannon}).
	90	Ninguna de las propuestas anteriores representa explícitamente el
	91	tamaño del conjunto anónimo y el índice de uniformidad. Además en
	92	\cite{rlsm:diaz01} proponen utilizar un grado de anonimato normalizado,
	93	pero esta medida puede alcanzar su máximo nivel de anonimato
	94	con un $N=2$ (tamaño del conjunto anónimo), contradiciendo una de
	95	las características fundamentales del Anonimato definida en
	96	\cite{rlsm:terminology}: Los niveles de Anonimato se incrementan
	97	si se incrementa el tamaño del conjunto anónimo y el índice de
	98	uniformidad de la distibución de probabilidad. En \cite{rlsm:yuxin},
	99	\cite{rlsm:combinatorial}, \cite{rlsm:revisiting} utilizan la entropía
	100	de Shannon con un enfoque diferente pero adoleciendo de los mismos
	101	problemas. Cuando utilizan la entropía, están utilizando una
	102	función logarítmica, lo que significa que no se tienen grados de
	103	medición lineales para comparar los sistemas. Por ejemplo, si se tienen
	104	4 sistemas, y los atacantes no tienen ninguna información de sus usuarios,
	105	esto quiere decir, que le asignan una distribución de probabilidad
	106	uniforme a cada conjunto anónimo, esto es si el primer sistema
	107	tiene $N=100$ sujetos, el segundo tiene $N=200$ sujetos, el tercero
	108	tiene $N=400$ sujetos y el cuarto tiene $N=800$ sujetos, los grados
	109	de Anonimato utilizando la entropía son: $6.6438$, $7.6438$, $8.6438$,
	110	$9.6438$, respectivamente. Estos escenarios, con la misma distribución
	111	de probabilidad y con diferente $N$ (el doble del conjunto anterior)
	112	debería tener el doble del grado de Anonimato comparando cada uno con
	113	el siguiente, pero esto no sucede debido a que la entropía utiliza
	114	una función logarítmica y no lineal.
	115	\begin{comment}
	116	En este punto cabe preguntar porqué el concepto de grado de anonimato
	117	se considera que debe estar asociado con una función lineal del tamaño
	118	del conjunto. Esa es una restricción fuerte que no se ve justificada.
	119	Lo que se muestra en torno al asunto sólo llega a requerir que sea una
	120	función creciente.
	121	\end{comment}
[9c88d1e]	122
	123	%\subsection{Propuesta}
	124	\section{Propuesta}
	125
[6fc3dc2]	126	Se propone utilizar dos índices para medir el Anonimato, cada uno
	127	para establecer los niveles de cada característica fundamental del
	128	Anonimato: Uno para medir el tamaño del conjunto anónimo: $N$ o $1/N$,
	129	donde $N$ es el número de sujetos o elementos, y uno para medir el
	130	índice de uniformidad de la función de distribución de probabilidad
	131	asignada por el atacante. Para medir el índice de uniformidad se
	132	proponen utilizar una de las siguientes dos métricas: La raíz del
	133	error cuadrático medio (RSME) o el criterio de divergencia de
	134	Jennsen-Shannon (DJS).
[9c88d1e]	135
	136	%\subsubsection{Raíz del Error Cuadrático Medio - RSME}
	137	\subsection{Raíz del Error Cuadrático Medio - RSME}
	138
[6fc3dc2]	139	Este término se utiliza para estimar el error de la varianza, este
	140	es el error residual de la suma de los cuadrados divididos por el
	141	grado de libertad. En análisis de regresión, es una cantidad observada
	142	dada un muestra en particular, y depende de dicha muestra. Además,
	143	este término es referido al error fuera de la muestra: el valor medio
	144	de las desviaciones cuadráticas de las predicciones de los valores de
	145	verdad, sobre un espacio fuera de la muestra, generado por un modelo
	146	estimado sobre un espacio muestral particular. Ésta también es una
	147	cantidad observada, y varía según la muestra y según el espacio fuera
	148	de la muestra probado.
[9c88d1e]	149
	150	\begin{equation}
	151	RSME=\frac{\sqrt{(\bar{X}-X)^{2}}}{n(n-1)}
	152	\end{equation}
	153
[6fc3dc2]	154	En este caso, se propone utilizar $p_{i}=\frac{1}{N}$ (probabilidades en
	155	una distribución uniforme) para representar $\bar{X}$, y $p_{i}$,
	156	la probabilidad asignada por el atacante, se representa con $X$. Esta
	157	medida permite establecer la "distancia" de la distribución de
	158	probabilidad del atacante a la distribución uniforme.
[9c88d1e]	159
	160	\begin{equation}
	161	RSME_a=\frac{\sqrt{\displaystyle\sum_{i=1}^N (\frac{1}{N}-p_{i})^{2}}}{N(N-1)}
	162	\end{equation}
	163
[6fc3dc2]	164	Si un sistema tiene un $RSME_a\approxeq1$, esto quiere decir que
	165	provee un muy bajo nivel de anonimato.
	166	Si otro sistema tiene un $RSME_a\approxeq0$, quiere decir que provee
	167	un buen nivel de anonimato. Pero también se debe observar el tamaño
	168	del conjunto anónimo para tomar un visión real del sistema.
[9c88d1e]	169
	170	%\subsubsection{Divergencia de Jennesen-Shannon}
	171	\subsection{Divergencia de Jennesen-Shannon}
	172
[6fc3dc2]	173	La divergencia de Jensen-Shannon es un método popular para medir
	174	la similitud entre dos o más distribuciones de probabilidad. Se basa
	175	en la divergencia de Kullback-Leibler, con la notable y útil diferencia
	176	que siempre da como resultado un valor finito. La raíz cuadrada
	177	de la divergencia de Jensen-Shannon es el índice que se propone para
	178	representar el índice de uniformidad en Anonimato.
[9c88d1e]	179
	180	\begin{equation}
	181	JSD(P_{1},P_{2})=H\left(\displaystyle\sum_{i=1}^2 \pi_i P_i\right)-\displaystyle\sum_{i=1}^2 \pi_i P_i
	182	\end{equation}
	183
	184	\begin{equation}
	185	JSD_a(P_{1},P_{2})=\sqrt{JSD(P_{1},P_{2})}
	186	\end{equation}
	187
[6fc3dc2]	188	donde $\pi_i$ son lo pesos para la distribuciones de
	189	probabilidad $P_1,P_2$, en este caso $\pi_i=1, \nabla i=\{1,2\}$,
	190	y $H(P)$ es la entropía de Shannon para la distribución $P$. Es este
	191	caso, $P_1$ es una distribución uniforme y $P_2$ es la distribución
	192	de probabilidad del atacante.
[9c88d1e]	193
[6fc3dc2]	194	Con este resultado se obtienen dos índices para representar el grado o
	195	nivel de Anonimato:
[9c88d1e]	196
	197
	198	%\subsubsection{Resultados}
	199	\subsection{Resultados}
	200	\begin{description}
[6fc3dc2]	201	\item[Opción 1:] Grado de Anonimato ($AD$) utilizando RMSE para medir
	202	el índice de uniformidad de la distribución de probabilidad
	203	y $1/N$ para medir el tamaño del conjunto anónimo.\\
[9c88d1e]	204	\begin{center}$AD = 1 / N \pm MSE_a$\end{center}
[6fc3dc2]	205	\item[Opción 2:] Grado de Anonimato ($AD$) utilizando JSD para
	206	medir el índice de uniformidad de la distribución de probabilidad
	207	y $1/N$ para medir el tamaño del conjunto anónimo.\\
[9c88d1e]	208	\begin{center}$AD = 1 / N \pm JSD_a$\end{center}
	209	\end{description}
	210
[6fc3dc2]	211	En ambos casos, el índice de uniformidad y el tamaño son
	212	expresados por separado pero no tiene el problema de linealidad
	213	de las otras métricas.
[9c88d1e]	214
	215	%\begin{thebibliography}{}
	216
	217	%\bibitem{terminology}
	218	%Pfitzmann, A., Hansen, M.: Anonymity, Unobservability, and Pseudonymity: A Consolidated Proposal for Terminology. http://dud.inf.tu-dresden.de/Anon\_Terminology.shtml, (2000)
	219
	220	%\bibitem{diaz01}
	221	%Diaz, C., Seys, S., Claessens J., Preneel, B.: Towards measuring anonymity. In: Proceedings of Privacy Enhancing Technologies Workshop (PET'02) - Springer LNCS 2482. pp. 54-68, (2002)
	222
	223	%\bibitem{serj01}
	224	%Serjantov, A., Danezis, G.: Towards an Information Theoretic Metric for Anonymity. In: Proceedings of Privacy Enhancing Technologies Workshop (PET'02) - Springer LNCS 2482. (2002)
	225
	226	%\bibitem{shannon}
	227	%Shannon, C.: The mathematical theory for communicactions. In: Bell Systems Technical Journal. pp. 30:50-64, (1948)
	228
	229	%\bibitem{yuxin}
	230	%Deng, Y., Pang, J., Wu, P.: Measuring Anonymity with Relative Entropy. In: Proceedings of the 4th International Workshop on Formal Aspects in Security and Trust (FAST'06), Lecture Notes in Computer Science 4691. pp. 65-79, Springer, (2007)
	231
	232	%\bibitem{combinatorial}
	233	%Edman, M., Sivrikaya, F., Yener, B.: A Combinatorial Approach to Measuring Anonymity. In: In Intelligence and Security Informatics. pp. 356-363, (2007)
	234
	235	%\bibitem{revisiting}
	236	%Gierlichs, B., Troncoso, C., Diaz, C., Preneel, B., Verbauwhede, I.: Revisiting A Combinatorial Approach Toward Measuring Anonymity. In: Workshop on Privacy in the Electronic Society (WPES 2008), V. Atluri and M. Winslett (Eds.), pp. 111-116, ACM Press, (2008)
	237
	238	%\bibitem{berthold}
	239	%Berthold, O., Pfitzmann, A., Standtke, R.: The Disavantages of Free Mix Routes and How to overcome them. In: Hannes Federath (Ed.), Proceedings of Privacy Enhancing Technologies Workshop (PET'01), Lecture Notes in Computer Science. pp. 30-45, Springer-Verlag, (2001)
	240
	241	%\bibitem{reiter}
	242	%Reiter, M., Rubin, A.: Crowds: Anonymity for Web Transactions. In: ACM Transactions on Information and System Security. vol. 1, no. 1, (1998)
	243
	244	%\bibitem{vernier}
	245	%Vernier, D., and Gastineau, J.: What are Mean Squared Error and Root Mean Squared Error?. Article \#104. http://www.vernier.com/ (2011)
	246
	247	%\bibitem{jianhua}
	248	%Jianhua, L.: Divergences Measures Based in Shannon Entropy. IEEE Transactions on Information Theory. vol. 37, no. 1 (1991)
	249
	250
	251	%\end{thebibliography}
	252
	253
[12c2106]	254
[9c88d1e]	255
	256	% el siguiente comando establece la ubicación de las referencias
	257	\putbib[bibliografia]
	258
	259	% el siguiente comando cierra el ambiente bibunit para la cual se generan las
	260	% referencias.
	261	\end{bibunit}
	262
	263
	264

Note: See TracBrowser for help on using the repository browser.

Context Navigation

source: libros/maquetacion/capitulo8/capitulo8.tex @ 6fc3dc2

Download in other formats: