[정보] NDC 2017 마이크로토크 - 프로그래머가 뉴스 읽는 법

by 날고싶은커피향 2017. 10. 10.

방대한 양의 텍스트를 쉽고 빠르게 읽을 수 있는 방법이 없을까  고민하시는 분들
참고 하세요..

NDC 2017 마이크로토크 - 프로그래머가 뉴스 읽는 법 from Sumin Byeon


1. 프로그래머가 뉴스 읽는 법 세 줄 요약 서비스 개발 이야기 NDC 2017
 변수민 @왓 스튜디오, 넥슨코리아
7.  https://www.flickr.com/photos/peterhess/2976755407
 8.  문제: 이 모든 것을 다 읽고 소화하는 것은
 산술적으로 불가능하다.
9.  해결책: 이런걸 만들자 긴 글 짧은 요약문 뿅!
10.  Any sufficiently advanced technology is indistinguishable from magic Arthur C. Clarke
 11.  Any sufficiently advanced technology is indistinguishable from magic Arthur C. Clarke
 12.  정말로 컴퓨터가 긴 글을 요약해주나요?
13.  위키피디아: 고양이 고양이(cat)는 포유류에 속하는 동물이다. 일반적으로 "고양이"라 함은 인간에게 길들여진 집고양이(domestic cat)를 말한다. 야생고양이(wild cat)는 약 10만 년에서 7만 년 전부터 존재했다. 2007년 기준으로 최근의 연구에 따르면 길들여진 고양이의 기원은 약 1만 년 전 근동지방에서 스스로 숲 속을 나와 사람들이 모여사는 마을에 대담 하게 정착하여 길들여진 5마리 정도의 아프리카들고양이(Felis silvestris lybica)로 추측된다.[3] 고양이는 인류로부터 오랫동안 반려동물로 사랑받아 왔다. 실례로 고대 이집트의 벽화에는 고양이를 새 사냥에 이 용하는 그림이 있다. 동아시아의 십이지에는 포함되어 있지 않지만, 타이와 베트남에서는 토끼 대신 고양이가 십이 지 중 하나이다. 스핑크스처럼 털이 거의 없거나 맹크스처럼 꼬리가 없는 품종도 있다. 품종은 장모종, 중모종, 단모종으로 나뉘며. 단모종의 대표종은 아비니시안 고양이, 장모종의 대표종은 페르시안 고양이가 있다. 애완견과는 달리, 옛 습성이 살아 있고 발톱을 숨길 수 있어서 쥐나 작은 새를 사냥할 수 있는데, 혀로 가시가 있는 뼈에 붙은 고기를 핥아서 먹을 수 있다.
15.  위키피디아: 고양이 고양이(cat)는 포유류에 속하는 동물이다. 고양이는 인류로부터 오랫동안 반려 동물로 사랑받아 왔다. 단모종의 대표종은 아비니시안 고양이, 장모종의 대표 종은 페르시안 고양이가 있다.
16.  미래에셋 애널리스트 보고서
 “4월 채권 투자 전략” 서론 우리는 지난해 연간전망과 1~3월에 발간한 주요 자료들을 통해 올해 연간으로 국내외 금리 상승폭이 생각보다 크지 않을 것이라는 전망을 제시했다. 다만 1분기는 트럼프 취임 이후 트 럼플레이션에 대한 확인 과정을 겪으면서 채권시장에 긍정적이지는 않을 것으로 보았다. 3 월 FOMC가 메인 이벤트가 될 것으로 보았으며 미국채10년 기준 12월에 기록한 고점인 2.60% 정도면 충분하다고 보았다. 3월을 마무리하는 현 시점에서 미국채10년 금리는 2.4% 내외 수준이다. 3월에 연방금리 인 상이 단행되었지만 연준은 통화정책 정상화를 많이 서두르지 않는 모습이다. 어디까지나 ‘data dependent’하게 금리인상을 단행할 것이다. 글로벌 금융시장의 중요한 변수로 등장 한 트럼플레이션에 대한 기대는 감세와 인프라 투자안 발표 연장과 트럼프케어 좌초로 의구 심이 높아졌다. 우리는 올해 유의미한 경제충격이 발생하여 미국채10년 금리가 다시 2.0% 아래로 떨어질 정도를 전망하고 있지 않다. 그렇지만 1분기까지 심리지표(soft data)를 중심으로 기분이 좋 아진 글로벌 경기가 생각보다는 더딘 실물지표(hard data) 개선으로 점검이 필요하다는 생 각이다. 3월 FOMC 직전까지 60%를 육박했던 6월 금리인상 전망은 다시 50%로 떨어졌다< 그림 1>. 연말까지도 추가 2번 인상은 가능하나 3번을 더할 수 있다는 기대도 10%대에 머물 고 있다. 올해 1분기는 유가반등에 따른 가격효과(p)와 순환적으로 개선 중인 재고사이클이 맞물린데다 트럼프 트레이드까지 가세해 위험선호가 우세한 환경이었다. 그 과정에서도 금 리는 상단테스트를 진행했지만 생각보다 고점을 잘 지켜냈다. 그렇다면 2분기는 기대만으로 앞서간 위험자산이 얼마나 하단이 단단한지를 증명해야 할 시 점이라는 판단이다. <그림 2>에서 보듯 트럼프 재정정책 기대가 흔들리고 연준이 금리정상 화에 무리하지 않을 것이라는 기대는 금리하락으로 이어졌고 달러인덱스를 100p 아래로 끌 어내렸다. 주식시장은 아직 명확한 악재는 없다고 판단 여전히 고공행진을 이어가고 있다. 아직 트럼프 정책카드가 다 까진 것도 아니고 글로벌 경기개선에 큰 변화가 생긴 것도 아닌 상황에서 주식이 매도를 서두를 이유는 없다. 오히려 단기급등 부담을 해소하기 위한 건전한 조정을 기다리고 있다는 부분도 염두에 두고 있다. 그럼에도 최근 달러약세를 감안하고도 유 가가 하락하고 있는 환경은 찜찜하다. 공급이슈 중심으로 상승한 유가의 안정성이 다시 한번 부각되고 있다. 2분기 중 유가가 40달러 초반까지 하락한다면 6월에 연준은 금리인상을 단행하기 어려울 것 이다. 유가하락은 다시금 위험선호(risk-on)를 재점검하게 할 것이고 시장금리는 이를 감안 하여 하단을 좀 더 낮추면서 테스트 과정을 거칠 것이다. 이 기준으로 미국채10년 금리는 2 분기 중 올해 성장률 전망 수준인 2.20% 정도까지는 하락할 것으로 본다. 미국10년 금리가 2.20% 정도면 현재 금리역전폭을 감안하여 한국10년 금리는 2.00% 정도까지도 열어둘 필 요가 있겠다. 작년 4분기 손실을 기록한 이후 올해 1분기 채권투자는 돌다리를 두드리며 건너왔다. 그 과 정에서 결국 국내외 채권투자는 시간가치를 고려하여 결국 플러스(+) 수익을 기록했다<그림 3>. 2분기 금리하락 구간에서 무리하게 추격매수를 할 이유는 높지 않지만 자칫 투자지연에 따른 상대적 기회비용에 대한 고민이 필요하다. 최근 국내 경기지표도 개선흐름을 나타내면 서 금리인하 기대가 소멸되었다고 해도 올해 미국 금리인상 때문에 국내 통화정책이 긴축으 로 돌아설 가능성은 없다.
17.  미래에셋 애널리스트 보고서
18.  미래에셋 애널리스트 보고서
 “4월 채권 투자 전략” 서론 3월 FOMC 직전까지 60%를 육박했던 6월 금리인상 전망은 다시 50%로 떨어 졌다<그림 1>. 2분기 중 유가가 40달러 초반까지 하락한다면 6월에 연준은 금 리인상을 단행하기 어려울 것이다. 이 기준으로 미국채10년 금리는 2분기 중 올해 성장률 전망 수준인 2.20% 정도까지는 하락할 것으로 본다.
19.  샤이니 - 링딩동 Baby 네게 반해 버린 내게 왜 이래 두렵다고 물러서지 말고 그냥 내게 맡겨봐라 어때 my lady Ring Ding Dong Ring Ding Dong Ring Diggi Ding Diggi Ding Ding Ding Ring Ding Dong Ring Ding Dong Ring Diggi Ding Diggi Ding Ding Ding Ring Ding Dong Ring Ding Dong Ring Diggi Ding Diggi Ding Ding Ding Ring Ding Dong Ring Ding Dong Ring Diggi Ding Diggi Ding Ding Ding butterfly 너를 만난 첫 순간 눈이 번쩍 머린 stop 벨이 딩동 울렸어 난 말야 멋진놈 착한놈 그런 놈은 아니지만 나름대로 괜찮은 bad boy 너도 마치 butterfly 너무 약해 빠졌어 너무 순해 빠졌어 널 곁에 둬야겠어 더는 걱정마 걱정마 나만 믿어보면 되잖아 니가 너무 맘에 들어 놓칠 수 없는 걸 baby 내 가슴을 멈출 수 oh crazy 너무 예뻐 견딜 수 oh crazy 너 아니면 필요없다 crazy 나 왜 이래 We wanna go rocka, rocka, rocka rocka, rocka, rocka (so fantastic) go rocka, rocka, rocka rocka, rocka, rocka (so elastic) fantastic fantastic fantastic fantastic elastic elastic elastic elastic Ring Ding Dong Ring Ding Dong Ring Diggi Ding Diggi Ding Ding Ding 오직 너만 들린다 Ring Ding Dong Ring Ding Dong Ring Diggi Ding Diggi Ding Ding Ding 머리속에 울린다 Ring Ding Dong Ring Ding Dong Ring Diggi Ding Diggi Ding Ding Ding 내 가슴에 울린다 Ring Ding Dong Ring Ding Dong Ring Diggi Ding Diggi Ding Ding Ding I call your butterfly 날이 가면 갈수록 못이 박혀 너란 걸 헤어날 수 없다는 걸 나를 선택해 (돌이키지 말고) 선택해 (도망가지 말고) 네게 빠진 바보인 나 날 책임져야 돼 baby 내 가슴을 멈출 수 oh crazy 너무 예뻐 견딜 수 oh crazy 너 아니면 필요없다 crazy 나 왜 이래 난 착하디 착한 증후군이 걸린 너를 이해 못 하겠다 넌 가끔씩 그런 고정 이미지를 탈피 이탈해봐 괜찮다 break out(hey) break out(hey) break out(hey) break out (hey) Ding Ding Ding Ding Dong Dong Dong Dong 사실 난 불안해 어떻게 날 보는지 어쩌면 어쩌면 내게 호감을 갖고 있는지 몰라 이토록 안절부절 할 수밖에 없어 돌이킬 수 없는 걸 complicated girl 절대 NO란 대답하지 마 나 괜찮은 남자란 걸 내가 미쳐버릴지 몰라 Don't be silly Girl (silly girl) you're my miracle(my miracle) 너만 가질 수 있다면 내겐 다 필요없는 걸 baby 내 가슴을 멈출 수 oh crazy 너무 예뻐 견딜 수 oh crazy 너 아니면 필요없다 crazy 나 왜 이래 We wanna go rocka, rocka, rocka rocka, rocka, rocka (so fantastic) go rocka, rocka, rocka rocka, rocka, rocka (so elastic) fantastic fantastic fantastic fantastic elastic elastic elastic elastic Ring Ding Dong Ring Ding Dong Ring Diggi Ding Diggi Ding Ding Ding 오직 너만 들린다 Ring Ding Dong Ring Ding Dong Ring Diggi Ding Diggi Ding Ding Ding 머리속에 울린다 Ring Ding Dong Ring Ding Dong Ring Diggi Ding Diggi Ding Ding Ding 내 가슴에 울린다 Ring Ding Dong Ring Ding Dong Ring Diggi Ding Diggi Ding Ding Ding
 21.  샤이니 - 링딩동 baby 내 가슴을 멈출 수 oh crazy. 내 가슴에 울린다. 날 책임져야 돼.
22.  Overbooked flight on Delta? They now can offer nearly $10,000 for you to give up your seat Delta is letting employees offer customers almost $10,000 in compensation to give up seats on overbooked flights, hoping to avoid an uproar like the one that erupted at United after a passenger was dragged off a jet. In an internal memo obtained Friday by the Associated Press, Delta Air Lines said gate agents can offer up to $2,000, up from a previous maximum of $800, and supervisors can offer up to $9,950, up from $1,350. United is reviewing its own policies, including incentives for customers, and will announce any actions by April 30, a spokeswoman said. The airline would not disclose its current compensation limit. Other airlines did not immediately comment on whether they would raise their ceiling. Full coverage of the United Airlines controversy » When there aren't enough seats, airlines usually ask for volunteers by offering travel vouchers, gift cards or cash. Last year Delta got more passengers to give up their seats than any other U.S. airline, partly by paying more than most of the others. As a result, it had the lowest rate among the largest U.S. airlines of bumping people off flights against their will — something that is legal but alienates customers and requires the airline to pay compensation of up to $1,350 per person. Overselling flights is a fact of life in the airline business. Industry officials say that it is necessary because some passengers don't show up, and that overbooking keeps fares down by reducing the number of empty seats. The practice has been questioned, however, since a 69-year-old man was violently dragged off a sold-out United Express flight over the weekend. He and three others were ordered off the plane after four airline employees showed up and demanded seats so they could be in place to operate a flight the next day in Louisville, Ky. It has turned into a public relations nightmare for the entire industry, not just United, and led to calls from politicians and consumer advocates to suspend or ban overbooking. Ben Schlappig, a travel blogger who first wrote about the Delta compensation increase, said it shows Delta is trying to reduce forced bumping. He said he couldn't imagine many situations in which people wouldn't jump at nearly $10,000. Delta no doubt hopes that gate agents and their supervisors won't need to make maximum offers, and the financial cost to the airline is likely to be limited. If Delta paid $9,950 to every person it bumped involuntarily last year, that would total $12 million. Delta earned nearly $4.4 billion. Raising the limits "lets them solve some PR problems" and might head off U.S. Transportation Department regulations to curb overbooking, said another travel blogger, Gary Leff. "They can say, 'Look, we're already solving the problem.'" An Associated Press analysis of government data shows that in 2015 and 2016, Delta paid an average of $1,118 in compensation for every passenger that it denied a seat. Southwest Airlines paid $758, United $565, and American Airlines $554. After the incident in Chicago, critics questioned why United didn't offer more when no passengers accepted the airline's $800 offer for volunteers to give up their seats. "If you offer enough money, even the guy going to a funeral will sell his seat," said Ross Aimer, a retired United pilot. <http://www.latimes.com/business/la-fi-delta-overbooking-20170414-story.html>
 24.  Overbooked flight on Delta? They now can offer nearly $10,000 for you to give up your seat Delta is letting employees offer customers almost $10,000 in compensation to give up seats on overbooked flights, hoping to avoid an uproar like the one that erupted at United after a passenger was dragged off a jet. In an internal memo obtained Friday by the Associated Press, Delta Air Lines said gate agents can offer up to $2,000, up from a previous maximum of $800, and supervisors can offer up to $9,950, up from $1,350. He said he couldn't imagine many situations in which people wouldn't jump at nearly $10,000.
 25.  요약 품질이 괜찮았나요?
26.  세계 최초인가요? 사실 이런 서비스는 이미 존재한다
 (e.g., https://summariz3.herokuapp.com) 하지만 나는 더 많은 것을 원했다
27.  텍스트 요약
28.  URL 요약
29.  PDF 텍스트 추출 ➜
30.  PDF 텍스트 추출 본업이 바빠서 미래의 나에게 미뤄둠… ➜
31.  API 공개 POST /api/v1/summarize HTTP/1.1 Accept: application/json text=Stick to the plan, and if you
 get into trouble, I'll bail you out.
 32.  API 공개 비용 문제로 다른 해결 방법을 찾음 ➜ Dockerization
 33.  소스코드 공개 https://github.com/suminb/tldr https://github.com/suminb/tldr-web
 34.  어떻게 만들었나요?
35.  TextRank
 먼저, 가장 중요한 ‘요약’ 기능
36.  TextRank
 먼저, 가장 중요한 ‘요약’ 기능 A graph-based ranking model for text processing
 37.  PageRank
 38.  PageRank
 39.  TextRank Mihalcea, Rada, and Paul Tarau. "TextRank: Bringing Order into Texts." Department of Computer Science, University of North Texas (2004)
 40.  TextRank • PageRank의 텍스트 버전 • 웹페이지 ➜ 문장 • 하이퍼링크 ➜ Lexical, semantic relationship
 41.  문장들간의 관계 • 고양이(cat)는 포유류에 속하는 동물이다. • 고양이는 거의 모든 포유류와 같이 7개의 경추를 가지고 있다.
42.  문장들간의 관계 • 고양이(cat)는 포유류에 속하는 동물이다. • 고양이는 거의 모든 포유류와 같이 7개의 경추를 가지고 있다.
43.  Similarity Function
 44.  Iterative Algorithm
 45.  Iterative Algorithm Mihalcea, Rada, and Paul Tarau. "TextRank: Bringing Order into Texts." Department of Computer Science, University of North Texas (2004)
 46.  TextRank TextRank: Bringing Order into Texts (Mihalcea and Tarau, 2004)
 47.  https://github.com/davidadamojr/TextRank
 48.  그럼 한국어는요? TextRank 그대로 쓸 수 있나요?
49.  https://github.com/theeluwin/textrankr
 50.  코딩중에 최고는 안코딩이니라 (not writing any code myself)
 51.  그 다음, 텍스트 추출 태그, 스크립트, 스타일시트, 광고 등 본문의 내용과는 상관 없는 내용 제거
52.  텍스트 추출 • newspaper
 본문 내용 추출 • beautifulsoup4
 HTML 문서 해석(parsing)
 53.  고비용 계산
54.  고비용 계산
55.  마이크로 서비스 tldr-web: 웹 프론트엔드 tldr: 백엔드 서비스
56.  http://tldr.kr
 57.  미래의 야심찬 계획 tldr tldr tldr tldr-web
 58.  여러분들께 아직 말씀드리지 않은 한 가지(!)
59.  사실 이 발표는…
60.  https://www.slideshare.net/suminb/how-programmers-invest 2016년 NDC에서 발표했던 의 후속편
61.  만들고 싶은 것 • 보유하고 있는, 관심 있는 주식 종목들과 관련된 뉴스 기사 요약 • IR 자료, 공시 자료 요약 • 매일 이메일로 배달되는 애널리스트 보고서 요약
 (애널리스트 보고서에 의존해서 투자 결정을 내리지는 않지만, “이런 것도 있구나” 와 같은 인사이트를 얻을 수 있음)
62.  보조 도구로서의 가치 • 결국에는 직접 글을 읽고 내용을 이해해야 하지만 • “읽어봐야 하는 내용인가” 를 빠르게 판단할 수 있는 척도
63.  슬랙 봇 애널리스트 보고서를 취합해주는 봇 텍스트 추출과 요약은 아직… 나중에는 뉴스와 공시 자료도…
64.  여러분의 참여를 기다리고 있습니다 • https://github.com/suminb/tldrhttps://github.com/suminb/tldr-webhttps://github.com/suminb/scout
 65.  감사합니다 @suminb suminb@nexon.co.kr
