]> git.armaanb.net Git - python_dp.git/blob - exponential_mechanism.ipynb
Initial commit
[python_dp.git] / exponential_mechanism.ipynb
1 {
2  "cells": [
3   {
4    "cell_type": "markdown",
5    "id": "6b9078e7",
6    "metadata": {},
7    "source": [
8     "# Exponential mechanism DP\n",
9     "\n",
10     "By [Armaan Bhojwani](https://armaanb.net) under [Praneeth Vepakomma](https://praneeth.mit.edu/)\n",
11     "\n",
12     "This notebook features the following differentially private operations on a finite set:\n",
13     "- Exponential mechanism\n",
14     "    - Choice\n",
15     "\n",
16     "### Dependencies\n",
17     "- tqdm\n",
18     "- matplotlib\n",
19     "\n",
20     "### Status\n",
21     "- Complete\n",
22     "\n",
23     "### References\n",
24     "- https://programming-dp.com/ch9.html"
25    ]
26   },
27   {
28    "cell_type": "markdown",
29    "id": "f961bc8f",
30    "metadata": {},
31    "source": [
32     "## Choosing the best country to hold a conference in\n",
33     "You are tasked with hosting a conference on nuclear disarmarment in, ideally, the country with the most nuclear weapons. The catch is you can't reveal which country has the most nukes. In this example, the input database is a 2x196 table with 196 countries in the first column and a triangularly distributed number of theoretical nukes in the second."
34    ]
35   },
36   {
37    "cell_type": "markdown",
38    "id": "84841604",
39    "metadata": {},
40    "source": [
41     "### Parameters\n",
42     "\n",
43     "Epsilon is the privacy-accuracy trade-off\n",
44     "\n",
45     "Sensitivity is 1 as we are essentially performing a max query on the privatized probabilities we create"
46    ]
47   },
48   {
49    "cell_type": "code",
50    "execution_count": 1,
51    "id": "c18e3ee5",
52    "metadata": {},
53    "outputs": [],
54    "source": [
55     "# Privacy\n",
56     "epsilon = 5\n",
57     "sensitivity = 1\n",
58     "\n",
59     "# Data\n",
60     "nukes_low = 0       # Minimum number of nukes a country can have\n",
61     "nukes_high = 10000  # Maximum number of nukes a country can have\n",
62     "\n",
63     "# Analysis\n",
64     "max_epsilon = 10     # Largest epsilon value to test\n",
65     "epsilon_step = 0.25   # Step size between epsilons\n",
66     "num_samples = 20000  # Number of times to run lim x->inf functions"
67    ]
68   },
69   {
70    "cell_type": "markdown",
71    "id": "38fc1651",
72    "metadata": {},
73    "source": [
74     "### Build the dataset"
75    ]
76   },
77   {
78    "cell_type": "code",
79    "execution_count": 2,
80    "id": "bb8b815b",
81    "metadata": {
82     "scrolled": true
83    },
84    "outputs": [
85     {
86      "name": "stdout",
87      "output_type": "stream",
88      "text": [
89       "Top 25 countries with the most nukes (non-private):\n",
90       " 1: ('Czech Republic', 9547)\n",
91       " 2: ('Dominica', 9377)\n",
92       " 3: ('Brunei', 9323)\n",
93       " 4: ('Andorra', 8885)\n",
94       " 5: ('Saint Vincent and the Grenadines', 8851)\n",
95       " 6: ('Bangladesh', 8603)\n",
96       " 7: ('Djibouti', 8437)\n",
97       " 8: ('Bhutan', 8131)\n",
98       " 9: ('Dominican Republic', 8119)\n",
99       "10: ('Japan', 8048)\n",
100       "11: ('Malta', 7912)\n",
101       "12: ('Lebanon', 7905)\n",
102       "13: ('Bulgaria', 7903)\n",
103       "14: ('Slovakia', 7850)\n",
104       "15: ('Belgium', 7694)\n",
105       "16: ('Honduras', 7677)\n",
106       "17: ('Cuba', 7598)\n",
107       "18: ('Saudi Arabia', 7534)\n",
108       "19: ('Equatorial Guinea', 7496)\n",
109       "20: ('United States of America', 7461)\n",
110       "21: ('New Zealand', 7398)\n",
111       "22: ('Turkmenistan', 7396)\n",
112       "23: ('Pakistan', 7348)\n",
113       "24: ('Somalia', 7288)\n",
114       "25: ('Monaco', 7267)\n"
115      ]
116     }
117    ],
118    "source": [
119     "import numpy as np\n",
120     "\n",
121     "rng = np.random.default_rng()\n",
122     "\n",
123     "countries = np.loadtxt(\"./Data/countries.txt\", dtype='str')\n",
124     "countries = [y.replace('_', ' ') for y in countries]\n",
125     "nukes_avg = (nukes_low + nukes_high) / 2\n",
126     "nukes = rng.triangular(nukes_low,\n",
127     "                       nukes_avg,\n",
128     "                       nukes_high,\n",
129     "                       size=np.shape(countries))\n",
130     "nukes = [round(y) for y in nukes]\n",
131     "\n",
132     "x = list(zip(countries, nukes))\n",
133     "x.sort(key=lambda tup: tup[1], reverse=True)\n",
134     "\n",
135     "print(\"Top 25 countries with the most nukes (non-private):\")\n",
136     "for i, y in enumerate(x[:25]):\n",
137     "    print(f\"{1 + i:2}: {y}\")"
138    ]
139   },
140   {
141    "cell_type": "markdown",
142    "id": "22e2bf56",
143    "metadata": {},
144    "source": [
145     "### Apply exponential model"
146    ]
147   },
148   {
149    "cell_type": "code",
150    "execution_count": 3,
151    "id": "58ba906b",
152    "metadata": {},
153    "outputs": [
154     {
155      "name": "stdout",
156      "output_type": "stream",
157      "text": [
158       "Using epsilon 5, the algorithm chose Turkmenistan, which is the number 22 best choice.\n"
159      ]
160     }
161    ],
162    "source": [
163     "def exponential_mech(nukes, nukes_high, epsilon):\n",
164     "    # Create list of privatized probabilities for each country\n",
165     "    nukesX = [4 * i / nukes_high for i in nukes]\n",
166     "    nukesX = [np.exp(epsilon * i / (2 * sensitivity)) for i in nukesX]\n",
167     "    nukesProb = nukesX / np.linalg.norm(nukesX, ord=1)\n",
168     "\n",
169     "    # Pick a country according to the privatized probabilities\n",
170     "    choice = rng.choice(countries, 1, p=nukesProb)[0]\n",
171     "    place = [y[0] for y in x].index(choice) + 1\n",
172     "    \n",
173     "    return choice, place\n",
174     "\n",
175     "choice, place = exponential_mech(nukes, nukes_high, epsilon)\n",
176     "\n",
177     "print(f\"Using epsilon {epsilon}, the algorithm chose {choice}, which is the \" +\n",
178     "          f\"number {place} best choice.\")"
179    ]
180   },
181   {
182    "cell_type": "markdown",
183    "id": "3f0a0af7",
184    "metadata": {},
185    "source": [
186     "### Analysis"
187    ]
188   },
189   {
190    "cell_type": "code",
191    "execution_count": 4,
192    "id": "e09e3c58",
193    "metadata": {},
194    "outputs": [
195     {
196      "data": {
197       "application/vnd.jupyter.widget-view+json": {
198        "model_id": "0fe00cb9502543f59894a5c989feddde",
199        "version_major": 2,
200        "version_minor": 0
201       },
202       "text/plain": [
203        "  0%|          | 0/39 [00:00<?, ?it/s]"
204       ]
205      },
206      "metadata": {},
207      "output_type": "display_data"
208     }
209    ],
210    "source": [
211     "from common import get_epsilons\n",
212     "from tqdm.notebook import tqdm\n",
213     "\n",
214     "epsilons = get_epsilons(max_epsilon, epsilon_step)\n",
215     "\n",
216     "data = []\n",
217     "for epsilon in tqdm(epsilons):\n",
218     "    epsilon_data = []\n",
219     "    for j in range(num_samples):\n",
220     "        _, place = exponential_mech(nukes, nukes_high, epsilon)\n",
221     "        \n",
222     "        epsilon_data.append(place)\n",
223     "    data.append(np.mean(epsilon_data))"
224    ]
225   },
226   {
227    "cell_type": "markdown",
228    "id": "9f93a11a",
229    "metadata": {},
230    "source": [
231     "### Plotting"
232    ]
233   },
234   {
235    "cell_type": "code",
236    "execution_count": 5,
237    "id": "eb014efc",
238    "metadata": {
239     "scrolled": false
240    },
241    "outputs": [
242     {
243      "data": {
244       "image/png": "",
245       "text/plain": [
246        "<Figure size 640x480 with 1 Axes>"
247       ]
248      },
249      "metadata": {},
250      "output_type": "display_data"
251     }
252    ],
253    "source": [
254     "import matplotlib.pyplot as plt\n",
255     "\n",
256     "plt.plot(epsilons, data)\n",
257     "plt.xlabel(\"Epsilon\")\n",
258     "plt.ylabel(\"Mean distance from ideal choice\")\n",
259     "plt.title(\"Effect of epsilon on privacy\")\n",
260     "plt.show()"
261    ]
262   }
263  ],
264  "metadata": {
265   "kernelspec": {
266    "display_name": "Python 3 (ipykernel)",
267    "language": "python",
268    "name": "python3"
269   },
270   "language_info": {
271    "codemirror_mode": {
272     "name": "ipython",
273     "version": 3
274    },
275    "file_extension": ".py",
276    "mimetype": "text/x-python",
277    "name": "python",
278    "nbconvert_exporter": "python",
279    "pygments_lexer": "ipython3",
280    "version": "3.9.7"
281   }
282  },
283  "nbformat": 4,
284  "nbformat_minor": 5
285 }