본문 바로가기
카테고리 없음

한국어가 자연어처리 연구 힘든 점

by 만능해결사 2023. 3. 20.

english

자연어처리 연구는 영어가 선두주자

인공지능에서 폭발적으로 성장하는 분야는 챗봇으로 비롯되는 대화형 채팅 프로그램입니다.

챗봇에 의해 대화형 검색 관련 시장은 기하급수적으로 성장하고 있습니다.

이에 인공지능과 대화형 채팅을 적용하기 위해서는 선행적으로 자연어 처리에 대해 연구가 많이 진행되어야 합니다.

인공지능에서 자연어 처리 연구가 가장 많이 연구되는 언어는 '영어'입니다.

영어는 사용측면에서 전 세계 인구가 가장 많이 사용하는 언어입니다.

영어는 역사적 측면에서 영어연구를 위한 과거 자료가 상당량 축적되어 있습니다.

전 세계 인구의 절반이상은 영어 뉴스와 영어 미디어, 영어 책, 영어중심 소셜 미디어 게시물을 작성하고 배포하고 있습니다.

하루에도 방대한 양이 만들어지고 이 영어자료가 그대로 자연어 처리연구에 사용됩니다.

영어는 연구에 대한 리소스가 상당하여 자연어처리 연구진행에 있어 가장 큰 혜택을 보고 있습니다.

이런 방대한 자료를 통해 NLP모델에 대한 훈련 및 평가 그리고 향후 적용계획 등에 폭넓게 연구활동을 할 수가 있습니다.

그리고 세계 비즈니스 시장의 인적교류 언어로 1등은 영어입니다.

전체 인공지능의 상업적 성공을 위해서는 비즈니스 시장에서 가장 활성화되는 언어 중 영어를 통해 자연어 처리연구에 대한 상업적 성공모델을 제시해야 하기 때문이기도 합니다. 영어를 통한 실제 응용프로그램이나 기계학습등에 사용되는 제2외국어에 대해 대처가 가능하며, 영어 모국어 이외에도 번영 등을 통해 관련 자료를 파급하거나 보급할 수가 있는 이점도 있습니다.

영어자료의 내용 중 형태소 분류 및 어법상의 동음이의어 표현등 문법적 부분까지 자연어처리 연구가 가능하여 성과가 조기에 발생하며, 그에 따른 파급 효과가 상당히 좋게 전달되기 때문에 영어에 대한 자연어 연구활동은 폭넓게 이뤄지고 있습니다.

 

한국어가 자연어처리 연구 힘든 점

한국어는 자연어처리 연구에 선호하지 않는 언어입니다.

그 이유를 종합적으로 판단하면 언어자체의 특성과 사회공학적인 이중적 의미를 다수 포함하고 있으며, 언어자체의 복잡성이 많아 한국어는 자연어 처리 연구가 힘들다고 합니다.

한국어의 자연어처리 연구가 힘든 점은 언어 형태소 분류상 명사와 조사의 구분은 명확한 반면 동사와 조사의 구분은 모호하며, 상황적 뉘앙스를 통해 복합의미를 가지고 있는 경우가 상당히 많아 의미적으로 해석하지 않으면 구분이 되지 않는 경우가 너무 많은 이유도 있습니다.

그리고 한국어는 높임말을 사용합니다. 높임말은 비영어권 국가에서는 없는 언어용법으로 차이를 발견하고 식별하는 방법이 상황적 해석 말고는 없어 이점 또한 자연어 연구 처리가 힘든 이유에 속합니다.

한국어의 전체의미해석적으로 동음이의어에 상당히 많이 사용되며, 여러 형태소가 복합적으로 사용되는 경우가 많아 형태소별 구분이 모호한 부분이 다수 발생하여 자연어 연구 처리가 힘들다고 합니다.

그리고 한국어로 표기된 언어연구학적 자료들이 영어나 스페인어, 중국어에 비해 상당히 자료가 없으며, 있더라도 한국어 옛말과 현재 표준어와는 상이한 부분이 많아 현재 한국어 표준어를 통한 자료는 더욱더 제한적으로 연구가 수행될 수밖에 없습니다.

korean

한국어가 자연어처리 연구 활성화 방안

먼저, 한국어에 대한 언어의 복잡함을 줄여야 합니다.

한국어에서 높임말등에 대한 사용용법을 정리하여 1차적인 높임말에 대한 형태소 분리 부분을 진행해야 합니다.

그다음 한국어에 대한 형태소 구분을 품사뿐만이 아니라, 조사 및 기타 형태의 구분 부분을 명시하여 관련 내역을 통해 품사별 구분 및 문장별 처리형태를 만들어야 합니다. 본 내용은 인공지능 내의 기계학습이나 딥러닝에서의 효율성을 극대화하기 위한 선결과제라고 생각하면 좋습니다.

그리고 전체적으로 한국어 자료에 대한 발행 및 번역등이 다수 발생해야 합니다. 한국어의 자연어연구의 토대가 되는 한국어 출판물이나 인터넷상의 게시물등에 대해 관련 자료를 확대 생산해야 합니다.

한국어에 대한 언어 형태적 변화에 대해 검색엔진등에 사용하는 알고리즘을 차용하여 자연어 처리연구에 사용해야 합니다.

검색엔진에 대해서도 한국어에 대한 발전적 알고리즘 형태를 자연어처리 부분에 대비하여 연구분야의 확대되어야 합니다.

이를 위해서는 학계 및 재계에서도 관련 연구 부분에 대한 지원 및 발전방안에 대해 협조하고 대승적 차원에서 연구를 진행해야 합니다.

댓글