레벤이나 자로나 모두 문제는...
import jellyfish
s1 = "지푸린 표정이네"
s2 = "찌푸린 표정이네"
s3 = "푸린 표정이네"
# Jaro-Winkler similarity 계산
print("지 vs 찌:", jellyfish.jaro_winkler_similarity(s1, s2))
print("지 vs 푸:", jellyfish.jaro_winkler_similarity(s1, s3))
print("찌 vs 푸:", jellyfish.jaro_winkler_similarity(s2, s3))
출력하면
지 vs 찌: 0.9166666666666666 지 vs 푸: 0.9583333333333334 찌 vs 푸: 0.9583333333333334
S2보다 S3이 S1과 유사하다고 판단하는 거다.
암튼 해결 -> 서열 정렬(Sequence Alignment)에 기반한 텍스트 서식 전이(Format Transfer) 1차 완료!
어찌저찌 어텐션의 미래가 애매하니 자체적인 소형 NLP는 이렇게 가는 것이 맞는 듯 하다.

'Game Programming' 카테고리의 다른 글
| An asset is marked with HideFlags.DontSave but is included in the build 고질병... (0) | 2025.04.09 |
|---|---|
| Türkiye 까페를 연구하다. (0) | 2024.08.14 |
| ASP.NET CORE + Socket (0) | 2024.08.09 |
| 드래곤 메이든 연구일지 20240703 (0) | 2024.07.04 |
| UVC 최적화 난관 (0) | 2024.06.23 |