JCI: BigData

Zagadnienia omówione na wykładzie

02.03.2023: Wstęp

Indeks TF.IDF

$\mathcal{D}=\{d_1, \ldots, d_m\}$ - zbiór dokumentów
$\Omega = \{w_1, \ldots, w_n\}$ - zbiór słów występujących w dokumentach
$TF(w,d)$ = (liczba wystąpień słowa $w$ w dokumencie $d$)/(liczba wszystkich słów w dokumencie $d$)
(term frequency)
$IDF(w,\mathcal{D}) = \log_2\left(\frac{|\mathcal{D}|}{|\{d\in\mathcal{D}: w \in d\}|}\right)$ (inverse document frequency)
$TF.IDF(w,d,\mathcal{D}) = TF(w,d) \cdot IDF(w,\mathcal{D})$

Licznik Morrisa

  init:: C = 0
  onInc:: if (random() < (1/2)^C) then C = C+1
  onGet:: return (2^C - 1)

Twierdzenie: Niech $C_n$ oznacza wartość zmiennej C po $n$ wywołaniach funkcji onInc(). Wtedy $$ E[2^{C_n}] = n+1 $$ Wniosek: Zmienna losowa $\hat{n} = 2^C - 1$ jest nieobciążonym estymatorem liczby $n$.

09.03.2023: MOM trik

Koncentracja zmiennej losowej $\hat{n}^+ = \sum_{i=1}^{k} \hat{n}_i$
Własności mediany
Koncentracja zmiennej $$ \hat{n}^{++} = \textrm{median}(\{\hat{n}^+_1, \ldots,\hat{n}^+_l\})$$
MOM trick = Median Of Means Trick: mamy algorytm A który szacuje szukaną wartość z dokładnością $\epsilon$ z prawdopodobieństwem $\geq \frac34$; przekształcamy go w algorytm zwracający szukaną wartość z tą samą dokładnością ale z prawdopodobieństwem $\geq 1 - \delta$: powtarzamy A $O(\log(1/\delta))$ i zwracamy medianę.

16.03.2023: Funkcje haszujące - I

Rolling has hashing
Uniwersalne rodziny haszujące
Filtry Blooma

Do przeczytania: A. Broder and M. Mitzenmacher Network Applications of Bloom Filters: A Survey.

23.03.2023: Streaming - I

Rodziny $k$ - uniwersalne funkcji haszujących
Przykład k-niezależnej rodziny haszującej ze zbioru $\ZZ_p \to \ZZ_p$: $$h_{\vec{a}}(x) = \sum_{i=0}^{k-1} a_i \cdot x^i~,$$ gdzie $\vec{a} = (a_0,a_1,\ldots,a_{k-1}) \in \ZZ_p^k$.
Skorzystaliśmy ze wzoru interpolacyjnego Lagrange'a.
Algorytm R Vittera
Tw. Algorytm R generuje próbkę zgodnie z rozkładem jednostajnym.
Niech $L$ będzie momentem zmiany w algorytmie $R$. Niech $N$ będzie momentem następnej zmiany. Wtedy $$ \Pr[N\leq L + k] = \frac{k}{L+k}~. $$

30.03.2023: Godziny dziekańskie

13.04.2023: Streaming - II

Optymalizacja algorytmu Vittera
Sliding window: algorytm Bravermana

20.04.2023: Streaming - III

Łańcuchy Markowa
Diabelskie schody
Metoda Bojko

27.04.2023: Locality sensitive hashing

Przestrzenie metryczne
Transformacje metryk: nakładanie funkcji wklęsłych; twierdzenie Steinhausa.
Odległość Jaccarda: $d_J(A,B) = \frac{|A\triangle B|}{|A\cup B|}$
Podobieństwo Jaccarda: $J(A,B) = \frac{|A\cap B|}{|A\cup B|}$
Min-hash: $\mathrm{minHash}(A,h) = \min\{h(a): a\in A\}$
Tw (na razie bez dowodu): Jeśli $\mathcal{H}$ jest niezależną rodziną funkcji haszujących, to $$\Pr_{h\in\mathcal{H}}[\mathrm{minHash}(A,h) = \mathrm{minHash}(B,h)] = J(A,B)$$

Jacek Cichoń

Big Data

Zasady zaliczania kursu

Literatura