Java 예제: 한글 초성 중성 종성 분리 (자모분리)

유니코드의 특성을 이용해 자모분리합니다. 예를 들면 ‘간’이라는 글자를 ㄱ, ㅏ, ㄴ 으로 분리하는 예제입니다.

유니코드 한글은 0xAC00 으로부터 초성 19개, 중상21개, 종성28개로 이루어지고 이들을 조합한 11,172개의 문자를 갖는다.

한글코드의 값 = ((초성 * 21) + 중성) * 28 + 종성 + 0xAC00
(0xAC00은 ‘ㄱ'의 코드값)

따라서 다음과 같은 계산 식이 구해진다.

유니코드 한글 문자 코드 값이 X일 때,

초성 = ((X - 0xAC00) / 28) / 21
중성 = ((X - 0xAC00) / 28) % 21
종성 = (X - 0xAC00) % 28

이 때 초성, 중성, 종성의 값은 각 소리 글자의 코드값이 아니라 이들이 각각 몇 번째 문자인가를 나타내기 때문에 다음과 같이 다시 처리한다.

초성문자코드 = 초성 + 0x1100 //(‘ㄱ’)
중성문자코드 = 중성 + 0x1161 // (‘ㅏ’)
종성문자코드 = 종성 + 0x11A8 - 1 // (종성이 없는 경우가 있으므로 1을 뺌)

출처: https://gist.github.com/thirdj/5333532

import java.util.ArrayList;
import java.util.List;
 
import org.springframework.stereotype.Component;
 
@Component
public class UnicodeHandler {
    
    private static final int HANGEUL_BASE = 0xAC00;    // '가'
    private static final int HANGEUL_END = 0xD7AF;
    // 이하 cho, jung, jong은 계산 결과로 나온 자모에 대해 적용
    private static final int CHO_BASE = 0x1100;     
    private static final int JUNG_BASE = 0x1161;
    private static final int JONG_BASE = (int)0x11A8 - 1;
    // 이하 ja, mo는 단독으로 입력된 자모에 대해 적용
    private static final int JA_BASE = 0x3131;
    private static final int MO_BASE = 0x314F;
    
 
    /* https://gist.github.com/thirdj/5333532
     */
    
    public List<Character> splitHangeulToConsonant(String text) {
        
        List<Character> list = new ArrayList<>();
        
        for(char c : text.toCharArray()) {
            System.out.println(c + "|" + (int)c);
            if((c <= 10 && c <= 13) || c == 32) {
                list.add(c);
                continue;
            } else if (c >= JA_BASE && c <= JA_BASE + 36) {
                list.add(c);
                continue;
            } else if (c >= MO_BASE && c <= MO_BASE + 58) {
                list.add((char)0);
                continue;
            } else if (c >= HANGEUL_BASE && c <= HANGEUL_END){
                int choInt = (c - HANGEUL_BASE) / 28 / 21;
                int jungInt = ((c - HANGEUL_BASE) / 28) % 21;
                int jongInt = (c - HANGEUL_BASE) % 28;
                char cho = (char) (choInt + CHO_BASE);
                char jung = (char) (jungInt + JUNG_BASE);
                char jong = jongInt != 0 ? (char) (jongInt + JONG_BASE) : 0;
                
                list.add(cho);
                list.add(jung);
                list.add(jong);
            } else {
                list.add(c);
            }
 
        }
        return list;
        
    }
 
}

@RequestMapping("/splitDemo")
@ResponseBody
public String splitHangeulDemo(String text) throws Exception {
    text = "아햏햏 가나다R디릴맇 률흏 ㄵ ㅄ 럃뱗갸꺎 끼누뒉 눼";
    List<Character> charList = uh.splitHangeulToConsonant(text);
    StringBuilder sb = new StringBuilder();
    for(char c : charList) {
        System.out.println(c + "|" + (int)c);
        sb.append(c + ".");
    }
    return "<pre>" + text + "\n" + sb.toString() + "</pre>";
}

자바(Java) 예제: 페이지네이션(Pagination, 페이징, 페이지 내비게이션) 도와주는 프로그램

페이지네이션, 페이징, 페이지 내비게이션 등 다양한 이름으로 불리는 이것은 웹 페이지에서 흔히 볼 수 있는 페이지 번호를 클릭하면 특정 페이지로 이동하는 부분이나 기법을 통칭하는 용어입니다. 위의 HTML 요소 전부를 편의상 블럭이라고 하겠습니다. 이 예제는 (1) 더보기…

WEB: Backend

자바스크립트 + 스프링 부트(Spring Boot): BASE64로 JSON을 통해 파일 업로드하기

BASE64란 8비트 바이너리 데이터(예를 들어 실행파일이나, ZIP파일 등)를 문자 코드에 영향을 받지 않는 공통 ASCII 영역의 문자들로만 이루어진 일련의 스트링으로 바꾸는 인코딩 방식을 가리키는 개념입니다. 다시 말해서, 바이너리를 읽을 수 있는 스트링 형태로 바꾼 자료형을 더보기…

WEB: Backend

스프링 부트(Spring Boot) 미디 플레이어 만들기 (3): 다음 곡 연속 재생 기능 & 미디 정보 업데이트 및 삭제

이전 글 스프링 부트(Spring Boot) 미디 플레이어 만들기 (1): Timidity++, LAME을 이용해 미디(midi) 파일을 mp3로 변환하는 메소드 만들기 스프링 부트(Spring Boot) 미디 플레이어 만들기 (2): 업로드 페이지, 임시 재생 플레이어 만들기 현재까지 완성된 미디 더보기…

Java 예제: 한글 초성 중성 종성 분리 (자모분리)

글쓴이 yoonbumtae (BGSMM) 날짜 2019년 1월 30일2019년 1월 30일

Java 카테고리의 다른 글

1개의 댓글

자바스크립트 예제: 한글 단어에서 을/를, 이/가, 은/는 구분하기 (받침 여부를 확인해 조사 대입) - BGSMM · 2021년 2월 26일 7:01 오후

답글 남기기 응답 취소

Java

자바(Java) 예제: 페이지네이션(Pagination, 페이징, 페이지 내비게이션) 도와주는 프로그램

WEB: Backend

자바스크립트 + 스프링 부트(Spring Boot): BASE64로 JSON을 통해 파일 업로드하기

WEB: Backend

스프링 부트(Spring Boot) 미디 플레이어 만들기 (3): 다음 곡 연속 재생 기능 & 미디 정보 업데이트 및 삭제

Java 예제: 한글 초성 중성 종성 분리 (자모분리)

글쓴이 yoonbumtae (BGSMM) 날짜 2019년 1월 30일2019년 1월 30일

이 글 공유하기:

Java 카테고리의 다른 글

1개의 댓글

자바스크립트 예제: 한글 단어에서 을/를, 이/가, 은/는 구분하기 (받침 여부를 확인해 조사 대입) - BGSMM · 2021년 2월 26일 7:01 오후

답글 남기기 응답 취소

관련 글

Java

자바(Java) 예제: 페이지네이션(Pagination, 페이징, 페이지 내비게이션) 도와주는 프로그램

WEB: Backend

자바스크립트 + 스프링 부트(Spring Boot): BASE64로 JSON을 통해 파일 업로드하기

WEB: Backend

스프링 부트(Spring Boot) 미디 플레이어 만들기 (3): 다음 곡 연속 재생 기능 & 미디 정보 업데이트 및 삭제