본문 바로가기

profile
조회 수 115 좋아요 0 댓글 0
ban-c_26.jpg ban-c_02.jpg ban-c_28.jpg ban-c_31.jpg ban-c_30.jpg

 

 

AI 챗봇(chatbot)과 번역기(飜譯機)를 잘 활용할 궁리를 해보는 이즈음

 

요즘 오랜만에 내 고질병인 호기심이 발동해서 살 맛이 난다.^^; 본격적인 인공지능(AI) 도구들이 실용화되기 시작한 덕분이다. 그래서 이 도구들을 다양하게 시험해 보고 있는 중이다. 이 포스팅에서는 두 가지 이슈에 대해 써보고자 한다. 하난 "내가 글쓰기 도구들에 관심을 가진 이유"이고, 또하난 "번역을 위한 AI 챗봇과 AI 번역기의 활용"에 대한 것이다. 

 

- 내가 AI 글쓰기 도구들에 관심을 가진 이유

 

문자가 기계화된 역사는 의외로 길다. 1829년에 미국에서 윌리엄 오스틴 버트(W. A. Burt)가 그걸 발명했다. 당시의 이름은 타이프라이터가 아니라 타이포그래퍼(typographer)였다. "글자를 그리는 기계"를 의미했다. 타자기는 그로부터 30년이 지나 실용화된다. 그러므로 타자기의 역사는 거의 200년에 가까운 것이다. 

 

난 미국에서 타자기가 발명되고 그게 하나의 문화로 정착한 걸 무척 부러워했다. 그래서 타자기가 존재하되 그게 문화로 정착하지 않은 우리나라의 실정을 바라보며 가슴아파했다. 하지만 한글 타자기의 역사도 짧지는 않다. 1949년에 한글 타자기 공모전이 개최되고, 거기서 안과의사인 공병우 박사가 2등상을 받았다. 그는 기존에 발명된 두 벌씩 한글 타자기의 문제점을 파악하고, 세벌식 타자기를 만들어냈다. 1956년에 물리학자 송계범은 당시에는 30년 가량을 앞선 지나치게 이른 발명이라 각광받지 못 했지만, 현재의 컴퓨터 자판과 비슷한 두 벌식(보류식) 모아쓰기 기술을 개발했다. 1969년에 정부가 네벌식 자판을 공표했고, 1983년에 이르러 개인용 컴퓨터의 보편화에 따라 두벌식 자판이 만들어졌다. 

 

난 대학에 합격하고, 입학하기 전의 몇 개월 동안 타자를 배웠다. 배워두면 쓸 모가 있으리라는 믿음 하나로... 외국인들이 글을 쓸 때 펜이 아닌 타자기로 글을 쓰는 게 멋져 보였기 때문이었다. 군에서 제대하며 스티브 잡스와 스티븐 워즈니액이 역사상 최초의 개인용 컴퓨터 애플 1을 개발했다는 신문뉴스를 봤다. 그 땐 "해외토픽"이라는 아주 작은 칼럼에서 이런 신기한 소식들을 많이 전했었는데, 그 칼럼에서 본 것이다. 다행히(?) 컴퓨터의 입력기가 타자기의 형태였다. 이미 내겐 아주 친숙했던 게 그것이었다. 

 

1980년, 본격적인 개인용 컴퓨터 시대를 연 IBM PC가 출현하기 1년전에 난 컴퓨터를 사용하기 시작했다. 그리고 곧바로 워드 프로세서를 사용하게 되었다. 글쓰기를 좋아하는 내게 신기원이 열린 것이다. 8비트 CP/M 컴퓨터에서 워드프로세서로 워드스타(WordStar)를, 스펠링 체커로 스펠스타(SpellStar)를, 그리고 문법 교정용의 그라마틱(Grammatik)을 사용했다. 모두 영어 프로그램이었다. 하지만 그 컴퓨터에 한글 카드를 꽂아 워드스타로 한글 워드프로세싱을 할 수 있었다. 당시에 내가 한 일은 세계대학총장회(IAUP)란 꽤 큰 국제기구에서 영문 편지쓰기(correspondence), 영문 스피치 작성, 영문 서류 작성, 통번역, IAUP의 영문 기관지(Lux Mundi) 편집 등이었다. 그러므로 감성적인 수필( https://bit.ly/3IJIbRT )이나 논리적인 칼럼을 비롯한 다양한 글쓰기에 빠진 내겐 기계화, 전자화된 글쓰기 도구들이 구세주 같았다. 

c_02.jpg

- IAUP History. 난 1979년부터 1994년까지 꽤 긴 기간동안 IAUP의 영문 업무를 담당했었다. 

 

Seoul-Decl.jpg

- 이런 결의문(resolution), 선언문(declaration), 국제회의용 Keynote Speech, Opening Speech, Luncheon 및 Dinner Speech, 각종 English Correspondence 등등을 지겹게 많이 처리했었다. 

 

1989년 (주)한글과컴퓨터에서 한글 워드프로세서 아래아 한글 1.0을 발표했다. 난 운좋게도 당시의 개발총책인 서울대생 이찬진과 친해서 그 프로그램이 만들어지는 과정을 바로 옆에서 지켜봤다. 이미 오랜 나의 워드프로세싱 경험이 아래아 한글의 개발에 약간의 도움이 되기도 했다. 한글 스펠러는 내가 쓴 컴퓨터 관련서("퍼스널 컴퓨터와 그 응용", 1988년 출간)에서 언급된 영문 스펠러의 원리에 대해 읽은 독자 두 명이 힘을 합쳐 개발해 냈다. 그 후 내가 한컴에 입사하여 개발상무직에 있을 때 글쓰기 취미를 가진 내가 편하잡시고 수많은 무리한 요구를 소프트웨어 엔지니어들에게 했다. 한/영자동전환, 아이디어 프로세서, 자동 각주 및 미주 생성 등이 그중 일부이다. 그런 게으른 자를 위한 기능들과 논문 쓰기에 편한 수많은 기능들이 아래아 한글에 구현되었다. 

_RX_0001.JPG

- 이제 생각하니 이 책을 저술한 시점(1988년)도 까마득해졌다.-_- 서울올림픽하던 해에 난 이런 책이나 쓰고 있었구나.^^;

 

어쨌든 대학교 재학 중에 시작된 나의 글쓰기는 사회에 나와서도, 지금까지도 어떤 식으로든 계속되고 있고, 개인용 컴퓨터나 스마트폰 같은 문명의 이기들은 모두 나의 좋은 글쓰기 도구이다. 내 삶 자체가 컴퓨터를 쓰는 일로 점철된 적도 있었고, 그 때의 감성과 논리가 한 권의 책에 녹아든 것이 "내 삶 나의 컴퓨터(1991년 출간)"였다.

_RX_0003.JPG

- 내게 삶과 컴퓨터가 준 의미는 무엇인가에 대해서 이 책에 썼다. 1991년. 

 

- 번역을 위한 AI 챗봇(chatbot)과 AI 번역기의 활용

 

지금은 영어를 사용할 일이 전에 비해 줄었다. 전엔 직업상 매일 영어를 해야만 한 적도 있지만 지금은 생활에서 실용 영어를 필요로 할 뿐이다. 그래도 웹에서 영어 문서를 읽거나 번역을 한다든가 외국인들과 문자 대화를 해야할 일이 많다. 아무리 영어공부를 열심히 했지만 영어는 내 모국어가 아니다보니 글을 쓰거나 대화를 하고 나서 '뜻은 통했지만 엉터리 영어였네!'하는 생각을 할 때가 많다. 글쓰기를 주로 한글로 하다보니 영문으로 글을 쓰는 것보다는 당연히 한글로 글을 쓰는 게 편하기 마련이다. 

 

AI 번역기의 등장 이전에도 구글 번역기가 있었다. 없는 것보다 나은 건 분명했지만 이의 번역 결과물이 영 신통치가 않다보니 사용량이 줄다가 결국은 안 쓰게 되어버렸다. 그러다 네이버에서 개발한 파파고를 써 보니 그게 차라리 구글 번역기보다 나았다. 최근 영어만 지원하던 AI 챗봇들이 한국어를 지원하게 되면서 번역기로서의 역할도 하게 되었다. 인공지능이 번역을 해준다고 하니 이제 통번역의 새로운 차원이 열리는 것 같았다. 번역을 시켜보면 이게 상당한 수준으로 훌륭한 번역 문장을 만들어낸다. 그러다보니 이의 성능이 엄청난 것으로 기대하는 분들이 많은 듯한데, 그게 또 그렇지만은 않다. 안타깝게도 현재 수준에서는 한계가 있다. 가끔 번역(飜譯)이 아닌 반역(反逆)을 하는데 그게 큰 문제를 일으킬 수도 있기 때문이다. 계약서나 법조문의 번역에서 그런 문제가 생기면 그 파장이 크기 때문이다. 그럼에도 불구하고 쓸 모는 있다. 왜냐하면 번역을 AI에게 다 맡길 만큼 미덥지는 않아도, 그게 꽤 빠르게, 비교적 정확하게 번역을 하기 때문이다. 그러므로 번역을 할 양이 많을 때 일단 그걸 AI에게 초벌 번역을 하게 한 후에 결과로 나온 문장을 사람이 검토하면 된다. 이건 엄청난 시간과 노력을 줄여준다. 그래서 매우 쓸 모가 있다는 거다.  

 

최근에 이들 번역기를 사용하면서 보니 몇 가지 사실을 알게 되었다. 나의 경우, 대개는 ChatGPT보다는 DeepL이 한글 말귀를 더 잘 알아듣는다는 생각이 들었다. 가끔 전자는 헛소리를 하는 일이 있었다. 내 말을 잘못 해석하고 엉뚱한 답을 하는 것이다. 그런데 DeepL은 항상 거의 정확히 말귀를 알아듣고 번역을 해냈다. 근데 그게 문장이나 상황에 따라 차이가 있다는 걸 차차 알게 되었다. 또한 특정한 문장을 번역시켜 보면 또다른 결과가 나타난다. 결국 기계번역이란 게 "기계적인 번역"이 아니라 AI 번역이라 그런 듯하다. 나와 같은 호기심을 가진 동료 한 분(TwoDoors 이태훈 대표)과 특정의 문장을 두고, 번역을 시켜 보니 OpenAI의 ChatGPT나 Google Bard 같은 챗봇이 DeepL이나 Google Translate보다 문장의 의미를 잘 이해하는 것처럼 생각되는 것이었다.(아래 내용들은 이 대표와 상의해 가며 정리한 것이다.)


deepL.jpg

- DeepL은 번역도 잘 해주는데, 그게 맘에 들지 않을 경우 아래있는 대안들 중에서 번역문을 선택해도 된다. 

 

번역 시험을 해 본 한글 문장은 "철수와 그의 아빠는 음정도 박자도 틀렸지만 이 부자의 노래는 나름의 하모니를 만들었다."는 것이다. 그걸 각종 챗봇 및 번역기들을 동원해서 번역해 본 결과는 아래와 같았다. 

 

OpenAI "ChatGPT": Even though Cheolsu and his dad were off-key and off-beat, their singing created a unique harmony of its own.

 

Google "Bard": Chulsoo and his father sang out of tune and out of rhythm, but their song created its own harmony.

 

* MS "Bing AI": Cheol-so and his dad had the wrong notes and beats, but this rich man’s song created its own harmonies

 

위는 챗봇들에게 번역해 달라고 한 결과이다. 그리고 아래는 번역기들에게 요청한 결과이다. 

 

* Naver "Papago": Chul-soo and his father were out of tune and beat, but the rich man's song created its own harmony.

 

* Google Translate: Cheolsu and his father were wrong in pitch and tempo, but this rich man's song created its own harmony.

 

* DeepL SE "DeepL": Chulsoo and his dad got the notes and time signatures wrong, but the rich man's song had its own harmonies.

 

위에서 애스터리스크(*) 표시가 된 것은 엉뚱한 단어를 오역하고 있다. 철수 아버지와 철수를 의미하는 부자(父子)를 재물이 많아 잘 사는 사람의 부자(富者)로 잘못 파악한 것이다. 챗봇 중에서는 Bing AI가 오역을 했고, 번역기는 Papago, Google Translate, DeepL 모두가 오역을 했다. 내가 믿고 자주 사용하던 DeepL이 여기 포함된 것은 의외였다. 챗봇들은 어떤 문장이 진행될 때 그 다음에 나올 말을 추론하는 특징이 있기에 "부자"란 단어를 제대로 파악한 것 같고, 번역기들은 특정 단어에 대한 사전 혹은 유의어 사전(thesaurus) DB에서 1:1 대응을 해서 단어를 대치하는 문제를 지금도 가지고 있는 것 같다. 어쨌건 챗봇들은 대량의 데이터를 때려넣고(?) 학습을 시켰기에 글의 문맥을 파악하여 처리하니 앞문장의 부자(父子)가 뒤에서 부자(富者)로 바뀌는 일이 적은 것이라 생각된다. 

 

챗봇이건 번역기건 같은 문장을 다른 기회에 번역하면 어떤 때는 전에 틀린 것과는 달리 제대로 번역을 하기도 한다는 것이다. 아래와 같이... 

 

Google "Bard": Chul-soo and his father sang off-key and out of sync, but their song created a harmony of its own.

 

DeepL SE "DeepL": Chulsoo and his dad got the notes and time signatures wrong, but the father-son duo created their own harmonies.

 

그러니 아직도 얘네들의 번역은 종잡을 수가 없다. 심지어는 한글 원문에서 단어를 바꾸면 또 결과가 달라지기도 한다. 말하자면 "하모니"란 단어를 쓰면 알아듣고 잘 번역을 하는데, 그걸 "화음"으로 풀어넣으니까 또다시 부자(父子)를 "rich man"으로 번역을 한다. 이건 도대체 무슨 조화속인지 알 수가 없다. 그래서 번역된 결과물을 철저히 검토해야만 한다. 그리고 "이들 부자"라고 할 때와 "이 부자"라고 할 때도 결과물에 차이가 발생한다.(이건 예전 AI들이 오래동안 고양이를 다른 동물과 구별해 내지 못 한 것과 같은 이유인 것 같다. 빅데이터 학습이 덜 된 것이 이유일 것이다.) 

 

그러므로 번역을 할 때는 원문 자체가 훌륭할 필요도 있다. 난해한 문장은 챗봇이나 번역기도 헷갈린다. 원문이 논리적으로 쓰여있으면 제대로 번역한다는 말이다. 그래서 한글을 영문으로 번역할 때와 영문을 한글로 번역할 때 차이가 있다. 영문을 번역할 때가 더 낫다. 단어의 의미 파악의 실수로 인한 문제는 나타날 수 있어도 전체적인 맥락(context)을 잡고 그걸 이해한 올바른 문장으로 번역해 낸다. 이것은 한국어는 주어, 동사, 목적어, 지시대명사 등을 정확히 쓰지 않고 두리뭉실하게 쓰거나 일부를 생략하는 것과는 달리 영어에서는 비교적 이를 정확히 써주기 때문인 듯하다. 특히 긴 한글 문장을 번역할 때 오류가 많이 남을 본다. 그래서 번역할 글을 쓸 때는 호흡이 너무 긴 한 개의 문장보다는 그걸 나눠 짧은 문장으로 만드는 것이 낫다. 

 

그래서 논문, 신문 사설 등과 같이 정제된 논리적인 글에선 DeepL이 완승할 것 같고, 일상적인 비유와 은어가 뒤섞이고, 감성적인 글에선 빅데이터를 무식(?)하게 외워버린 챗봇들이 힘을 쓸 것 같다. 시(詩)처럼 애매모호한 표현을 던져줘도 의외로 제대로 된 문장을 만들어내는 게 챗봇인 건 그래서이다. 그간 내가 쓴 글에 대해서 DeepL이 빠르게 잘 번역을 해준 것은 내가 어떤 글을 쓰건 영어의 논리로 글을 쓴 때문일 것이다. 내가 수필 등 감성적인 글들도 계속 써왔지만 컴퓨터 칼럼이나 기타 스포츠에 대한 칼럼을 쓸 때는 비교적 논리를 강조했기에 문장의 요소들을 생략하지 않는 습관이 생겨서일 것이다. 그런 글들은 독자를 "중학교 2학년생"이라고 가정하고 쓰라는 문장론이나 Creative Writing 코스에서의 철칙을 따르니 그런 경우 DeepL이 보다 빠르게 정확한 번역을 해내는 건 분명한 것 같다. 

 

"헤어지고 싶은 남자, 헤어지지 못 하는 여자"(노래 제목)를 영어로 번역해 달라고 하면 ChatGPT류는 "The man who wants to break up, the woman who can’t break up"으로 답한다. 그런데 DeepL은 "Men who want to break up, women you can't"라 번역할 때도 있고, "The man you want to break up with, the woman you can't"라 번역할 때도 있다. 노래 제목이고 제3자의 시선에서 본 가사인데 말이다. 

 

우리말을 잘 못 하는 경우 "다르다"고 해야할 걸, "틀리다"고 하는 사람들이 많은데, 그런 것까지 구별해서 오류를 잡아줄 정도까지는 돼야 비로소 AI 번역이라고 하겠는데... 그래도 분명한 건 지금이 AI 번역의 초기단계라서 그렇지 머지 않아 이런 문제는 해결되리라 생각한다. 더 많은 데이터를 때려넣고, 유의어 사전을 대폭 강화하면 될 일이니까. 논리있게 바른 우리말을 구사하는 경우, 그걸 AI가 다른 언어로 번역할 때 옳게 번역해 준다. 기계가 번역을 대신해 주니 이젠 외국어를 잘 할 필요가 없다고 생각하는 사람들도 있던데 그건 천만의 말씀이다. 외국어를 잘 하는 사람이라야 AI 번역의 문제점을 파악하고 그 실수를 잡아낼 수 있다. 글을 잘 써야 오역 없는 문장을 만들어낼 수 있다. 결국 AI의 시대도 부익부빈익빈(富益富貧益貧)의 공식(?)은 현행 대로 간다. 반복되는 얘기지만 AI는 그냥 도구이기에 그 도구를 누가 잘 쓸 수 있는가는 그 사람의 능력과 경험치에 종속되는 것이다.  

 

챗봇에게 묻더라도 길게 물어보면 대부분 부정확한 답이 나오니 질문을 짧게, 혹은 기술적으로 해야 제대로 답을 만들 가능성이 커진다. 짧은 문장에서 핵심 단어를 찾는 것과 긴 문장에서 그걸 찾는 게 달라서 그런 것 같다. 나눠서 질문을 하면 각 질문에 명확한 답이 있는데, 긴 질문에서는 중심도 이동하고 뒤져야할 정보가 많다보니 엉뚱한 답이 나오는 것이다. 상대어가 어순이 다른 경우 특히 오류가 생기는 일이 잦다. 그러므로 다양한 테스트를 하면서 원하는 답이 나온 특정의 패턴들을 찾으면 좀 더 유용하게 AI를 다룰 수 있을 것 같다. 


List of Articles
번호 분류 제목 이름 날짜 조회 수 좋아요
1496 기타 Sipping a cup of coffee on a rainy Sunday file 박순백 2023.07.18 25 0
1495 세대간의 임무 교대(Inter-Generational Shift of Duty) 2 file 박순백 2023.07.13 136 0
1494 기타 여름비와 영시(英詩) file 박순백 2023.07.13 64 0
1493 기타 "그 많던 싱아는 누가 다 먹었을까"와 "며느리배꼽" file 박순백 2023.07.13 133 0
1492 기타 도곡리 화요정기방문과 도심역(陶深驛) file 박순백 2023.07.11 70 0
1491 기타 닭이 먼저냐, 달걀이 먼저냐? file 박순백 2023.07.06 179 0
1490 컴퓨터/통신/인터넷 인공지능(AI) 아직 멀었다.-_- file 박순백 2023.07.04 121 0
1489 나이가 든다는 건(Being Aged) 2 file 박순백 2023.07.02 336 1
1488 고요 속의 위로, 휴식의 운율 file 박순백 2023.06.29 105 0
1487 기타 여름꽃 전성시대 file 박순백 2023.06.28 113 1
1486 기타 능소화(凌霄花) file 박순백 2023.06.27 79 0
1485 문화/예술 Roses & Summer file 박순백 2023.06.21 69 0
1484 기타 돈 매크레인의 노래와 바이든의 윤통에 대한 깁슨(Gibson) 기타 선물 file 박순백 2023.06.17 92 0
1483 기타 한국의 방산(防産) 수출, 특히 한-폴 협력관계는 문제가 큰가?“ file 박순백 2023.06.15 135 1
1482 컴퓨터/통신/인터넷 AI 환각이란 무엇이며 어떻게 예방할 수 있나요? file 박순백 2023.06.08 127 0
1481 컴퓨터/통신/인터넷 왜, 여섯 손가락인가? file 박순백 2023.06.08 85 0
1480 문화/예술 호우시절(A Good Rain Knows, 好雨時節), 2009 file 박순백 2023.06.06 146 0
1479 컴퓨터/통신/인터넷 긍정적인 AI의 활용과 아메리칸 파이(American Pie) file 박순백 2023.06.05 73 0
1478 컴퓨터/통신/인터넷 "누가 이 사람을 모르시나요?" - 모니카에게 물었다. file 박순백 2023.06.04 101 0
1477 기타 그 동네 file 박순백 2023.06.03 99 0
목록
Board Pagination Prev 1 2 3 4 5 6 7 8 9 10 ... 80 Next
/ 80