본문 바로가기
정보공유

[정보] Deview2013 naver labs_nsmt_외부공개버전

by 날고싶은커피향 2015. 4. 16.

날고싶은 커피향


Deview2013 naver labs_nsmt_외부공개버전 입니다. 

살펴 보면 좋을 듯 싶습니다. 






Transcript

1. NSMT : 통계적 기계번역기 개발 김준석 부장 / SMT연구lab/Naver Labs johan@navercorp.com

2. CONTENTS 1. NSMT 소개 2. NSMT 서비스 현황 3. NSMT 개발 이야기 4. 검색에 번역기를 활용한 사례 5. 정리

3. 1. NSMT 소개

4. NSMT 소개 Naver Statistical Machine Translation (NAVER에서 개발한 통계적인 방식의 기계번역기) 2011 2012 2013 번역기 개발 시작 모바일 한일번역기 서비스화 영스번역기 한일 통역기 한일번역기 PC버전 서비스화

5. 2. NSMT 서비스 현황

6. NAVER (PC) 일본어사전 (단문번역기) 일본어사전 (웹번역기)

7. NAVER (Mobile) 모바일 일본어 단문번역기 모바일 일본어 웹번역기 모바일 일본어 통역기

8. LINE LINE 번역봇 (한국어-일본어) (영어-스페인어) LIVEDOOR 번역기 (한국어-일본어) (영어-스페인어)

9. 3. NSMT 개발 이야기

10. Word-based SMT He 그는 made conversation with 제시카 와 대화 He 그는 made 했다 conversation 대화 with Jessica 제시카 Jessica 했다

11. Phrase-based SMT He made conversation with Jessica 그는 대화했다 제시카와 He 그는 made conversation 대화했다 with Jessica 제시카와

12. Hierarchical Phrase-based SMT X3 X2 X1 He made conversation with 그는 제시카 X1 Jessica 와 대화했다 X2 X3 X3->(X1 made conversation with X2, X1 X2 와 대화했다)

13. SMT 시스템 구조 Monolingual Corpus Bilingual Corpus Alignment & Phrase extraction N-gram Translation Model Language Model Pr( f1J | e1I ) f1 f 2 f J tokenizer Pr(e1I ) decoder generator I I ˆ e arg maxe[P (f1J | e1 ) P (e1 )] Search task Translation model Fundamental Equation of MT language model e1e2 eI

14. SMT 시스템 개발 과정 Monolingual Corpus Bilingual Corpus Alignment & Phrase extraction N-gram Translation Model Language Model Pr( f1J | e1I ) f1 f 2 f J tokenizer Pr(e1I ) decoder NAVER 자체 개발 generator e1e2 eI

15. Translation Model 학습 Bilingual Corpus GIZA++ (IBM Model) K2J Word Alignment J2K Word Alignment Alignment Symmetrization Bi-directional Word Alignment Phrase Extraction Heuristic Phrase-Table

16. 학습된 Translation Model PB Source 아침/NOUN /JOSA /NCA /NCC /PC 0.750 0.116 0.050 0.001 아침/NOUN /JOSA /NCA /PS /PC 0.045 0.229 0.017 0.026 아침/NOUN /JOSA Target Probability /NCA /PC 0.333 0.229 0.517 0.415 Source Target for a long time 오랫동안 0.133 0.030 0.388 0.015 am afraid of X1 X1을 무서워하다 0.922 0.002 0.930 0.005 not only X1 but also X2 X1 뿐만 아니라 X2 0.136 0.001 0.105 0.020 X1 as well as X2 X2 뿐만 아니라 X1 0.901 0.002 0.041 0.002 HPB Probability

17. Decoding Tokenized Source Language Translation Options Translation Model Hypothesis Expansion Hypothesis Recombination Pruning Language Model Generate Target Language

18. Stack decoding Translation Options Decoding 진행방향

19. Decoding by CYK 알고리즘 [1,8] not only X1 but also X2 X1 뿐만 아니라 X2[1,7] [1,6] [2,7] [3,8] [1,5] [2,6] [3,7] [4,8] [1,4] [2,5] [3,6] [4,7] [5,8] [1,3] [2,4] [3,5] [4,6] [5,7] [6,8] [1,2] [2,3] [3,4] [4,5] [5,6] [6,7] [7,8] [1,1] [2,2] [3,3] [4,4] [5,5] [6,6] [7,7] [8,8] He likes not only alcohol but also tobacco Bottom-up Chart Parsing [2,8]

20. Cube Pruning 1/3 Trigram(, 뿐만, 아니라) + Trigram(뿐만, 아니라, 담배) + Trigram(아니라, 담배, ) (8,8) 담배 (8,8) 타바코 (8,8) 흡연 (8,8) 담배 향 2.0 + 0.5 1.0 3.0 5.4 8.0 5.0 (5,5) 1.0 2.5 (5,5) 알코올 1.1 2.4 (5,5) 주류 3.5 (5,5) 약주 4.0 Non-monotonic due to LM !!

21. Cube Pruning 2/3 1.0 3.0 1.0 2.5 5.0 1.1 5.4 8.0 2.4 5.4 8.0 3.5 4.0 1.0 3.0 1.0 2.5 5.0 1.1 2.4 5.5 3.5 5.1 4.0

22. Cube Pruning 3/3 1.0 3.0 1.0 2.5 5.0 1.1 5.4 8.0 2.4 5.4 8.0 3.5 4.0 1.0 3.0 5.4 1.0 2.5 5.0 7.2 1.1 2.4 5.5 3.5 5.1 4.0 1.0 3.0 1.0 2.5 5.0 1.1 2.4 5.5 3.5 5.1 8.0 4.0

23. Rule 축까지 고려 1/5

24. Rule 축까지 고려 2/5

25. Rule 축까지 고려 3/5

26. Rule 축까지 고려 4/5

27. Rule 축까지 고려 5/5

28. 3. NSMT 개발 이야기 번역기 평가

29. 번역기 품질 평가 정량적 평가(Automatic Evaluation) : BLEU 정성적 평가(Human Evaluation) : Blind Test (3점 척도) 평가 문장 설계 만화 자막 신문 6% 문어체(50%) 13% 13% 매뉴얼 15% TESTSET 출처 분포 SNS 15% Wiki 8% 구어체(50%) 게시판 8% e-mail 회화 문학 8% 6% 8%

30. 비교 평가 결과 2011년말 평가 BLEU평가(2400문장), Human Evaluation(200문장) 한일번역기 3개 경쟁사와 번역 품질 비교 KJ BLEU 50 41.95 41.71 40.7 40 KJ Human Eval. 60 45 A 33.74 46.75 B 50 40.25 40 30 20 20 10 0 0 A B C NSMT JK BLEU 50 42.94 34.41 40 38.8 C NSMT JK Human Eval. 41.43 60 51.5 43 A B 48.75 C NSMT 44 40 30 20 20 10 0 0 A B C NSMT

31. SMT 개발 FLOW 리소스 확보 병렬데이터 품사 tagger 기본 실험 심화 실험 Decoding 방식 결정 parameter 튜닝 내부 모델간 경쟁 경쟁사와 비교실험 오류 분석 개선을 위한 노력 유지보수 오류 수정 customizing 기능 추가

32. 3. NSMT 개발 이야기 심화 실험 사례

33. Pre-Reordering (영어->한국어) 영어의 어순을 Dependency-Parser결과와 Reordering Rule을 이용해서 수정 참고논문: Using a Dependency Parser to Improve SMT for Subject-Object-Verb Languages, Franz Och, ACL 2009

34. Pre-Reordering (영어->한국어) Human Evaluation BLEU 50 18 16 14.71 15.65 14.45 45 40 40 14 12 46 35.14 35 10.07 30 10 25 8 20 6 15 4 2 10 10 5 0 0 PB PB.Re HPB HPB.Re PB PB.Re HPB HPB.Re

35. Pre-Reordering (영어->스페인어) 형용사/명사 열에서 영어/스페인 어순 다름 I PRP ME PP like VBP gusta VMI the DT Spanish JJ jugador NC el DA soccer NN de SP player NN fútbol NC español AQ 학습 및 입력 단계에서 어순을 수정 후 번역 I PRP ME PP like VBP gusta VMI the DT el DA player NN jugador NC soccer NN de SP Spanish JJ fútbol NC español AQ

36. Pre-Reordering (영어->스페인어) BLEU Human Evaluation 32 90 31 85 29.8 30 29 85.5 80 28.5 75.5 75 28 70 27 65 26 25 60 PB PB.Re PB PB.Re

37. 2-Step SMT (한국어->영어) English에 대해서 parser를 이용한 Pre-Reordering Intermediate English (IE) 생성 (한국어-IE, IE-English Translation Table학습) 한국어-IE 간의 번역 (Step 1) IE-English간의 번역 (Step 2) 참고논문: Post-ordering in Statistical Machine Translation. Katsuhito Sudoh, MT Summit 2011

38. 2-Step SMT (한국어->영어) BLEU Human Evaluation 25 20 37.4 40 20.87 18.28 17.11 35 25 15 29.12 30 21 20 10 15 10 5 5 0 0 PB 2 STEP HPB PB 2 STEP HPB

39. 3. NSMT 개발 이야기 유지 보수

40. NSMT 유지보수 사내 열혈 번역기 사용자 피드백 외부 번역기 사용자로부터 CS 사용자 만족도 평가 결과 Log 분석 작업 및 보완 번역기 관련 SNS 모니터링

41. 한일번역기 관련 SNS 모니터링

42. 4. 검색에 번역기를 활용한 사례

43. QR (Query Reformulation) 사용자가 넣은 쿼리가 사용자의 의도에 적합한 문서를 찾기에 최적이 아닌 경우, 더 나은 검색 결과를 찾기 위한 쿼리 변형 (query reformulation) ぎょうざのtokenizer <s> ぎょうざ ぎょうざ + の の + 皮 皮 餃子 革 行者 餃子 </s>

44. Cross-Language IR 카라, 장근석 カラ, チャングンソク SMT INDEXING SEARCH

45. 5. 정리

46. Summary PB, HPB 방식의 SMT 자체 기술 개발 Naver 사전 서비스 및 LINE 번역봇에 솔루션 제공 한국어/일본어, 영어/스페인어 번역기 서비스화 유지보수에도 각별한 신경 검색에 번역기 기술 적용

47. Q&A

48. THANK YOU

반응형