학위논문작업 #4 클러스터링 로그 뽑기 (3) #
#2025-08-14
1. CCM selection #
비교하기 좋은 샘플 CCM 두개를 뽑았다!
# CCM1
[ccm_idx 28615] Start expand_cluster: left_cur_dist=0, right_cur_dist=0, es_l=65, left_max_dist=325, right_max_dist=325
#CCM2
[ccm_idx 28624] Start expand_cluster: left_cur_dist=0, right_cur_dist=0, es_l=1, left_max_dist=5, right_max_dist=5
- CCM1
- position: 28881
- position index: 28615
- H-score: 0.05290
- Eps scaler: 1
- Deps: 5
- CCM2
- position: 28890
- position index: 28624
- H-score: 6.4062
- Eps scaler: 65
- Deps: 325
#
핵심로직
- 최대허용거리: Deps
- CCM2의 H-중요도는 6.4062로 CCM1(0.05290)보다 크다.
- CCM2의 중요도가 높음에 따라 Deps는 325로 CCM1(5)보다 훨씬 크다.
- Deps 조절: Eps scaler(es)
- 이웃 포인트의 중요도를 반영하여 CCM의 Eps scaler를 조정한다.
- 조정된 Eps scaler로 최대허용거리 Deps를 조절하여 클러스터의 크기를 결정한다.
#
2. 클러스터링 - CCM1 #
Deps Update (Left)
i | pos index | Hscore | update? | Eps scaler | es(i) | deps(i) |
---|---|---|---|---|---|---|
0 | 28624 | 0.0529038269 | - | 1 | 1 | 5 |
1 | 28623 | 0.0449008643 | 1 ≤ 5 | 1 | 1 | 5 |
2 | 28622 | 0.0436942488 | 2 ≤ 5 | 1 | 1 | 5 |
3 | 28621 | 0.2605608459 | 3 ≤ 5 | 3 | 1.6666666667 | 8.3333333333 |
4 | 28620 | 0.0074206791 | 4 ≤ 8.3333333333 | 1 | 1.4444444444 | 7.2222222222 |
5 | 28619 | 0.0163255306 | 5 ≤ 7.2222222222 | 1 | 1.2962962963 | 6.4814814815 |
6 | 28618 | 0.6153727137 | 6 ≤ 6.4814814815 | 7 | 3.1975308642 | 15.9876543210 |
7 | 28617 | 0.4035666820 | 7 ≤ 15.9876543210 | 5 | 3.7983539095 | 18.9917695473 |
8 | 28616 | 0.4287883211 | 8 ≤ 18.9917695473 | 5 | 4.1989026063 | 20.9945130316 |
9 | 28615 | 6.4602604280 | 9 ≤ 20.9945130316 | 65 | 24.4659350709 | 122.3296753544 |
10 | 28614 | 0.0404405481 | 10 ≤ 122.3296753544 | 1 | 16.6439567139 | 83.2197835696 |
11 | 28613 | 0.0470476929 | 11 ≤ 83.2197835696 | 1 | 11.4293044759 | 57.1465223797 |
12 | 28612 | 1.6246803744 | 12 ≤ 57.1465223797 | 17 | 13.2862029840 | 66.4310149198 |
13 | 28611 | 0.1746769962 | 13 ≤ 66.4310149198 | 2 | 9.5241353226 | 47.6206766132 |
14 | 28610 | 0.0048142533 | 14 ≤ 47.6206766132 | 1 | 6.6827568818 | 33.4137844088 |
15 | 28609 | 0.0965027767 | 15 ≤ 33.4137844088 | 1 | 4.7885045878 | 23.9425229392 |
16 | 28608 | 0.0250642399 | 16 ≤ 23.9425229392 | 1 | 3.5256697252 | 17.6283486261 |
17 | 28607 | 0.0034666665 | 17 ≤ 17.6283486261 | 1 | 2.6837798168 | 13.4188990841 |
18 | 28606 | 0.0034666665 | 18 > 13.4188990841 | - | - |
- i=1~5
- 이웃 중요도가 낮아 es가 1.2, deps가 6.48 수준을 유지중.
- i=6~8
- 중요도가 높은 변이를 포착하여 es가 4.1, deps가 20.99까지 상승.
- i=9
- 중요도가 매우 높은 변이(H-중요도 6.46)를 포착하여 es가 24.46, deps가 122.32까지 급팽창 -> i=10 이상까지 창이 더 멀리 열릴 수 있음.
- i=10~17
- 최대허용거리 deps가 13.41까지 천천히 감소
- i=18
- ccm과의 거리(18)가 최대허용거리(13.41)를 최초로 초과하여 클러스터링 종료.
#
Deps Update (Right)
i | pos index | Hscore | update? | Eps scaler | es(i) | deps(i) |
---|---|---|---|---|---|---|
0 | 28624 | 0.0529038269 | - | 1 | 1 | 5 |
1 | 28625 | 0.0489875919 | 1 ≤ 5 | 1 | 1 | 5 |
2 | 28626 | 0.0866268470 | 2 ≤ 5 | 1 | 1 | 5 |
3 | 28627 | 0.0441356114 | 3 ≤ 5 | 1 | 1 | 5 |
4 | 28628 | 0.0073318754 | 4 ≤ 5 | 1 | 1 | 5 |
5 | 28629 | 0.0692024466 | 5 ≤ 5 | 1 | 1 | 5 |
5 | 28630 | 0.0577025387 | 6 > 5 | - | - | - |
- i=1~5
- 이웃 중요도가 낮아 es가 1, deps가 5를 유지중.
- i=6
- ccm과의 거리(6)가 최대허용거리(5)를 최초로 초과하여 클러스터링 종료.
#
3. 클러스터링 - CCM2 #
Deps Update (Left)
i | pos index | Hscore | update? | Eps scaler | es(i) | deps(i) |
---|---|---|---|---|---|---|
0 | 28615 | 6.4602604279 | - | 65 | 65 | 325 |
1 | 28614 | 0.0404405481 | 1 ≤ 325 | 1 | 43.6666666667 | 218.3333333333 |
2 | 28613 | 0.0470476929 | 2 ≤ 218.3333333333 | 1 | 29.4444444444 | 147.2222222222 |
3 | 28612 | 1.6246803744 | 3 ≤ 147.2222222222 | 17 | 25.2962962963 | 126.4814814815 |
4 | 28611 | 0.1746769962 | 4 ≤ 126.4814814815 | 2 | 17.5308641975 | 87.6543209877 |
5 | 28610 | 0.0048142533 | 5 ≤ 87.6543209877 | 1 | 12.0205761317 | 60.1028806584 |
6 | 28609 | 0.0965027767 | 6 ≤ 60.1028806584 | 1 | 8.3470507545 | 41.7352537723 |
7 | 28608 | 0.0250642399 | 7 ≤ 41.7352537723 | 1 | 5.8980338363 | 29.4901691815 |
8 | 28607 | 0.0034666665 | 8 ≤ 29.4901691815 | 1 | 4.2653558909 | 21.3267794544 |
9 | 28606 | 0.0191731817 | 9 ≤ 21.3267794544 | 1 | 3.1769039272 | 15.8845196362 |
10 | 28605 | 0.0439198518 | 10 ≤ 15.8845196362 | 1 | 2.4512692848 | 12.2563464242 |
11 | 28604 | 0.0259739440 | 11 ≤ 12.2563464242 | 1 | 1.9675128566 | 9.8375642828 |
12 | 28603 | 0.0279982508 | 12 > 9.8375642828 | - | - | - |
- i=1~11
- 이웃 중요도가 낮아 es가 65에서 1.96 수준까지 감소, deps도 9.83 수준으로 감소
- i=12
- ccm과의 거리(12)가 최대허용거리(9.83)를 최초로 초과하여 클러스터링 종료.
#
Deps Update (Right)
i | pos index | Hscore | update? | Eps scaler | es(i) | deps(i) |
---|---|---|---|---|---|---|
0 | 28615 | 6.4602604279 | - | 65 | 65 | 325 |
1 | 28616 | 0.4287883211 | 1 ≤ 325 | 5 | 45.0 | 225.0 |
2 | 28617 | 0.4035666820 | 2 ≤ 225.0 | 5 | 31.6666666667 | 158.3333333333 |
3 | 28618 | 0.6153727137 | 3 ≤ 158.3333333333 | 7 | 23.4444444444 | 117.2222222222 |
4 | 28619 | 0.0163255306 | 4 ≤ 117.2222222222 | 1 | 15.9629629630 | 79.8148148148 |
5 | 28620 | 0.0074206791 | 5 ≤ 79.8148148148 | 1 | 10.9753086420 | 54.8765432099 |
6 | 28621 | 0.2605608459 | 6 ≤ 54.8765432099 | 3 | 8.3168724280 | 41.5843621399 |
7 | 28622 | 0.0436942488 | 7 ≤ 41.5843621399 | 1 | 5.8779149520 | 29.3895747599 |
8 | 28623 | 0.0449008643 | 8 ≤ 29.3895747599 | 1 | 4.2519433013 | 21.2597165066 |
9 | 28624 | 0.0529038269 | 9 ≤ 21.2597165066 | 1 | 3.1679622009 | 15.8398110044 |
10 | 28625 | 0.0489875919 | 10 ≤ 15.8398110044 | 1 | 2.4453081339 | 12.2265406696 |
11 | 28626 | 0.0866268470 | 11 ≤ 12.2265406696 | 1 | 1.9635387559 | 9.8176937797 |
- i=1~10
- 이웃 중요도가 낮아 es가 65에서 1.96 수준까지 감소, deps도 9.81 수준으로 감소
- i=11
- ccm과의 거리(11)가 최대허용거리(9.81)를 최초로 초과하여 클러스터링 종료.
#
4. 클러스터링 결과 해석 #
# CCM1
[ccm_idx 28615] Final cluster: left_position=28869, right_position=28893, length=25
#CCM2
[ccm_idx 28624] Final cluster: left_position=28872, right_position=28896, length=25
초기 CCM 정보는 다음과 같았는데
- CCM1 (H-score: 0.05290, Deps: 5)
- CCM2 (H-score: 6.4062, Deps: 325)
최종 클러스터 크기는 다음과 같았다
- CCM1: 25(28872-28896)
- CCM2: 25(28869-28893)
결과해석
- 이처럼 최대허용거리가 5, 325로 매우 달랐지만 최종 클러스터 크기는 25로 동일해졌다.
#
엄청조은 챗지피티 해석
- 당초 CCM1은 H-score가 매우 낮고 최대허용거리(Deps)도 5밖에 되지 않아 작은 클러스터로 끝날 것처럼 보였지만, 확장 과정에서 고H-score 변이를 만나 Eps scaler가 급상승하면서 허용 거리가 커졌고, 반대로 CCM2는 시작부터 큰 Deps(325)를 가지고 있었지만, 주변 변이들의 H-score가 낮아 빠르게 Eps scaler와 Deps가 감소하면서 확장이 제한됐습니다.
- 결국 둘 다 확장 가능 거리가 중간 지점에서 비슷해지며 좌·우 방향 확장이 비슷하게 진행되어, 최종 클러스터 길이가 25로 동일해진 거죠.
- 즉, 초기 Deps 크기만으로 최종 클러스터 크기를 예측할 수 없고, 확장 과정에서 만나는 변이의 중요도(H-score)가 클러스터 범위를 크게 좌우한다는 결론입니다.