Grupowanie danych

Grupowanie danych

Grupowanie danych.

Grupowanie: przeprowadzić analizę procedury Metoda_KS (dostępnej w tej bazie) oraz uruchomić ją dla parametru równego 3, dokonać porównania wyników z zapisami w kolumnie class. Modyfikując procedurę Metoda_KS dostosować ją do grupowania danych w tabeli klienci -zmienioną odległość i procedurę przesłać jako odpowiedź . Przeprowadzić grupowanie danych w tabeli Klienci dla parametru równego 3 – w oparciu o uzyskane rezultaty opisać każdą z grup (uzyskane wyniki grupowania oraz opis jakościowy każdej z grup dołączyć do odpowiedzi w pkt 2 tego zadania).

Analiza zadania i procedury:

Zmienna @p_ilosc wprowadzana podczas wywoływania procedury oznacza liczbę „grup”.
Początkowo każdej grupie (kolumna „nr”) przypisywana jest losowa ujemna wartość od 0 do 150 (ponieważ tyle istnieje wierszy w tabeli), pozostałe pole zostają wypełnione wartościami z ich dodatnich odpowiedników.

Dla przykładu zostaje wylosowana liczba 2, tworzony jest dodatkowy wiersz (poprzez tabele wynik_losowania) gdzie wartość kolumny „nr” będzie wynosić „-2” natomiast wartości pozostałych kolumn będą takie same jak w wierszu nr=2.

Wartości ujemne są po to aby w łatwy sposób można było ponawiać wykonanie a tym samym uszczególniać (resetować) centroid. Procedura działa tak długo aż po przejściu wszystkich wierszy w tabeli wartości w kolumnach „przydział” oraz „przydział_s” są takie same oraz żadna z nich nie jest pusta.

Weryfikacja przeprowadzana jest w następujący sposób: co przebieg tabeli uaktualniane są wartości centroidu (na podstawie wartości zebranych ze wszystkich wierszy należących do danej grupy), w związku z tym po uaktualnieniu należy ponownie sprawdzić czy grupa do której należy dany wiersz jest prawidłowa, jeśli stanie się tak dla każdego wiersza wtedy wartości pozostaną takie same w związku z czym procedura się zakończy, jeśli chociaż jedno pole „przydział_s” zostanie zaktualizowane, procedura wykona kolejny „przebieg” po tabeli. I tak do skutku, co oczywiście informuje użytkownika w stosownym komunikacie po wykonaniu przebiegu. (ile wierszy pozostało z różnymi wartościami).

Każdy wiersz co przebieg ma obliczaną swoją „długość”, dzięki której dopasowywany jest do odpowiedniej grupy, czyli do centroidu do którego mu najbliżej.

Analiza przykładu:

nr DOCHODY_MSC_OSOBA STABILNOSC_ZATR ZOBOWIAZANIA_MSC STABILNOSC_RODZ przydzial przydzial_s
-80 4622,81720430108 4,0752688172043 0,24236559139785 6,54838709677419 NULL NULL
-104 2430,39130434783 1,34782608695652 0,215652173913044 3,04347826086957 NULL NULL
-142 2713,05882352941 1,70588235294118 0,559117647058824 3,41176470588235 NULL NULL

Grupowanie polega na obliczeniu centroidów, wyżej wymienionych grup a następnie „długości” (odległości) każdego wiersza z osobna względem tych centroidów, wynik zostanie zakwalifikowany do grupy do której ma najbliżej.

nr DOCHODY_MSC_OSOBA STABILNOSC_ZATR ZOBOWIAZANIA_MSC STABILNOSC_RODZ przydzial przydzial_s
1 3841 4 0,25 8 -80 -80
150 3700 1 0,81 2 -142 -142

Wzór wyglądać będzie:
|WartoscWiersza – WartoscGrupy|/AVG(DOCHODY_MSC_OSOBA) + |WartoscWiersza – WartoscGrupy|/AVG(STABILNOSC_ZATR) + |…|/AVG(ZOBOWIAZANIA_MSC) + |…|/AVG(STABILNOSC_RODZ)

Wiersz 1:
|3841-4622|/3842 + |4-4.07|/3.1 + |0.25-0.24|/0.31 + |8-6.54|/5.28 = ~0.53 |3841-2430|/3842 + |4-1.34|/3.1 + |0.25-0.21|/0.31 + |8-3.04|/5.28 = ~2.29 |3841-2713|/3842 + |4-1.70|/3.1 + |0.25-0.55|/0.31 + |8-3.41|/5.28 = ~2.87

wniosek – najbliżej do grupy -80

Wiersz 150:
|3700-4622|/3842 + |1-4.07|/3.1 + |0.81-0.24|/0.31 + |2-6.54|/5.28 = ~3.92 |3700-2430|/3842 + |1-1.34|/3.1 + |0.81-0.21|/0.31 + |2-3.04|/5.28 = ~2.57 |3700-2713|/3842 + |1-1.70|/3.1 + |0.81-0.55|/0.31 + |2-3.41|/5.28 = ~1.58

wniosek – najbliżej do grupy -142

Po ponownym pogrupowaniu (jak napisane wyżej) centroid jest uaktualniany co powoduje ponowny przydział do poszczególnych grup.
I można by rzec tak w nieskończoność dopóki grupy dla każdego z wieszy pozostaną (po uaktualnieniu centroidów) niezmienione.

Wyniki grupowania w MS SQL:

nr DOCHODY_MSC_OSOBA STABILNOSC_ZATR ZOBOWIAZANIA_MSC STABILNOSC_RODZ przydzial przydzial_s
-80 4622,81720430108 4,0752688172043 0,24236559139785 6,54838709677419 NULL NULL
-104 2430,39130434783 1,34782608695652 0,215652173913044 3,04347826086957 NULL NULL
-142 2713,05882352941 1,70588235294118 0,559117647058824 3,41176470588235 NULL NULL
1 3841 4 0,25 8 -80 -80
2 4642 4 0,38 6 -80 -80
3 5037 4 0,13 8 -80 -80
4 7690 4 0,44 7 -80 -80
5 4693 6 0,19 9 -80 -80
6 6218 5 0,06 9 -80 -80
7 5923 3 0,41 6 -80 -80
8 5993 5 0,04 9 -80 -80
9 6642 6 0,13 8 -80 -80
10 7224 5 0,19 8 -80 -80
11 6295 5 0,25 5 -80 -80
12 6303 5 0,46 5 -80 -80
13 6279 3 0,14 6 -80 -80
14 4033 5 0,41 5 -80 -80
15 4953 3 0,12 5 -80 -80
16 4674 3 0,31 9 -80 -80
17 7544 6 0,06 8 -80 -80
18 6244 3 0,22 8 -80 -80
19 3662 6 0,34 5 -80 -80
20 3783 4 0,21 7 -80 -80
21 4818 5 0,13 9 -80 -80
22 3434 4 0,15 5 -80 -80
23 5032 5 0,07 6 -80 -80
24 7817 4 0,11 7 -80 -80
25 4405 4 0,48 9 -80 -80
26 4606 3 0,17 6 -80 -80
27 6167 4 0,11 9 -80 -80
28 6277 6 0,14 6 -80 -80
29 4227 6 0,28 7 -80 -80
30 3709 3 0,13 9 -80 -80
31 7543 5 0,43 8 -80 -80
32 6525 5 0,49 9 -80 -80
33 6176 4 0,15 8 -80 -80
34 5708 5 0,1 7 -80 -80
35 4573 6 0,39 8 -80 -80
36 6614 4 0,31 5 -80 -80
37 4141 4 0,14 6 -80 -80
38 6273 3 0,07 8 -80 -80
39 3113 3 0,23 7 -80 -80
40 7124 5 0,44 7 -80 -80
41 3841 5 0,47 8 -80 -80
42 7600 4 0,38 9 -80 -80
43 6375 3 0,03 5 -80 -80
44 3426 6 0,12 9 -80 -80
45 7796 5 0,03 5 -80 -80
46 4909 6 0,46 9 -80 -80
47 5177 6 0,33 7 -80 -80
48 4678 3 0,45 6 -80 -80
49 7852 3 0,48 7 -80 -80
50 6259 3 0,12 6 -80 -80
51 3198 3 0,32 5 -80 -80
52 3412 3 0,41 7 -80 -80
53 3633 4 0,59 6 -80 -80
54 3408 4 0,17 5 -80 -80
55 3249 3 0,17 5 -80 -80
56 3008 3 0,41 6 -80 -80
57 3437 4 0,06 7 -80 -80
58 3872 4 0,47 5 -80 -80
59 3949 4 0,45 5 -80 -80
60 3680 4 0,45 5 -80 -80
61 3801 3 0,41 6 -80 -80
62 3617 3 0,21 7 -80 -80
63 3536 4 0,16 6 -80 -80
64 3946 4 0,29 5 -80 -80
65 3324 3 0,44 7 -80 -80
66 3592 4 0 5 -80 -80
67 3831 4 0,02 6 -80 -80
68 3274 4 0,16 7 -80 -80
69 3930 4 0,32 6 -80 -80
70 3034 4 0,43 5 -80 -80
71 3225 4 0,18 5 -80 -80
72 3793 3 0,12 5 -80 -80
73 3154 4 0,12 5 -80 -80
74 3550 4 0,13 5 -80 -80
75 3143 4 0,04 7 -80 -80
76 3230 4 0,31 6 -80 -80
77 3987 4 0 7 -80 -80
78 3483 3 0,55 7 -142 -142
79 3268 4 0,38 5 -80 -80
80 3422 3 0,25 5 -80 -80
81 3478 3 0,07 6 -80 -80
82 3877 3 0,04 6 -80 -80
83 3262 4 0,14 6 -80 -80
84 3960 4 0,01 5 -80 -80
85 3560 3 0,45 7 -80 -80
86 3480 3 0,17 7 -80 -80
87 3428 4 0,4 5 -80 -80
88 3047 3 0,53 5 -142 -142
89 3485 4 0,34 7 -80 -80
90 3696 4 0,28 7 -80 -80
91 3179 3 0,17 7 -80 -80
92 3455 3 0,52 7 -142 -142
93 3538 3 0,53 5 -142 -142
94 3144 4 0,58 5 -142 -142
95 3841 4 0,07 6 -80 -80
96 3762 4 0,1 5 -80 -80
97 3843 4 0,4 5 -80 -80
98 3527 4 0,55 4 -142 -142
99 3457 3 0,39 3 -142 -142
100 3700 4 0,3 6 -80 -80
101 2402 2 0,01 2 -104 -104
102 2280 1 0,02 3 -104 -104
103 2362 1 0,65 2 -142 -142
104 2508 1 0,33 4 -104 -104
105 2391 2 0,26 2 -104 -104
106 2849 2 0,29 3 -104 -104
107 2819 1 0,21 2 -104 -104
108 2386 1 0,6 2 -142 -142
109 2200 1 0,62 4 -142 -142
110 2748 2 0,52 3 -142 -142
111 2915 1 0,55 3 -142 -142
112 2561 1 0,47 4 -142 -142
113 2132 1 0,29 4 -104 -104
114 2045 2 0,73 3 -142 -142
115 2187 2 0,39 3 -104 -104
116 2787 2 0,5 3 -142 -142
117 2128 1 0,09 2 -104 -104
118 2914 1 0,64 3 -142 -142
119 2423 1 0,43 2 -142 -142
120 2350 1 0,23 3 -104 -104
121 2125 1 0,09 3 -104 -104
122 2937 1 0,24 3 -104 -104
123 2857 2 0,5 3 -142 -142
124 2123 1 0,3 3 -104 -104
125 2421 1 0,64 2 -142 -142
126 2977 2 0,62 2 -142 -142
127 2603 2 0,48 3 -142 -142
128 2754 2 0,13 4 -104 -104
129 2108 2 0,3 4 -104 -104
130 2200 1 0,71 2 -142 -142
131 2234 1 0,56 2 -142 -142
132 2834 1 0,33 3 -104 -104
133 2471 1 0,23 4 -104 -104
134 2476 1 0,17 4 -104 -104
135 2048 1 0,61 3 -142 -142
136 2620 1 0,08 2 -104 -104
137 2467 1 0,51 4 -142 -142
138 2375 2 0,61 4 -142 -142
139 2256 1 0,47 4 -142 -142
140 2110 2 0,45 3 -142 -142
141 2619 1 0,48 2 -142 -142
142 2224 1 0,49 4 -142 -142
143 2413 1 0,34 3 -104 -104
144 2908 1 0,49 4 -142 -142
145 2782 1 0,69 3 -142 -142
146 2471 1 0,53 4 -142 -142
147 2607 2 0,07 4 -104 -104
148 2090 2 0,2 3 -104 -104
149 2295 1 0,36 2 -104 -104
150 3700 1 0,81 2 -142 -142