라이프로그


(공부)잡담 miscellany

어제 박사학생들 세미나가 있었는데, 별로 안친한데 얼굴은 알고 있던 애가 발표할 차례.  발표한 새 논문은, patent citation에 대해서.  아 또 넘치고 넘치는 citation network 연구에 의미없는 뭐 하나 보탠거겠지, 하며 시큰둥한 맘으로 들어갔는데.. 의외로 새로운 얘기가 나와서 좀 솔깃했다.  요약하면,
- citation은 비슷한 내용에 대해서는 과거로 거슬러 올라간 고리짝 연구물보다는 최신 연구물을 인용한다는 가정
이 가정을 통해 Pareto 법칙(the richer get richer)은 의미를 조금 잃게 된다.  그럼에도 오래될수록 인용수 높긴 하지만..
- citation은 명성(얼마나 그동안 많이 인용되었는지)때문이 아니라 관련 내용의 적용범위와 퀄리티 때문에 이루어진다는 설정
그로 인해 인용될 확률을 범용성과 퀄리티의 함수로 나타낼 수 있다.  아 그렇지..  이런 지극히 당연한 얘기가 왜 그동안 안나왔을까..
- 결론은, 실제 20년치 데이터를 분석해보니 citation은 power-law가 아니라 Gamma distribution에 더 잘 근사되더라. (97.**%)
그럼 개별 patent로서는 preferential attachment가 아니라 exponential distribution이라고 볼 수 있는건가 하는 의문이 들었다.

며칠이 지나도록 충격에서 회복 못할만큼 엄청나게 깨빡난게 엊그젠데, 같은 문제를 아주 약간, 정말 아주 간단한 세팅 하나만 보완해서 들고갔는데, 안선생 반응은 180도 달랐다.  "바로 이거야, 이렇게 해서 들고 오라고!  이제서야 논리적으로 명확하잖아?!"  머 그럼 내가 엊그제 완전 기분나빴던거 다 잊고 헤헤 웃을 줄 알았냐?!  근데 사실 기분 회복...  채찍과 당근 전략... ㅡㅡ;  사육당하고 있는 처지라는걸 깨달았다.  박사과정 학생이란, 선생에게 사육당하고 있는 한 마리 원숭이에 불과하다.  원숭이 주제에 사육사에게 불만 품을 수 없다는...

아 근데 진짜 이 프로젝트 하기 싫어 죽겄다.  정이 안간다고 해야되나..  왜 열라 잘생긴 꽃미남도 잘생긴 것과 상관없이 정이 안들 수도 있는 것 처럼, 이 프로젝트는 첫번째 프로젝트보다 훨씬 핵심적인 경제학의 이슈임에도 정말 하기 싫으면서 자꾸만 딴거 하고 싶은게 생기고 재미있을것 같은 주제는 새록새록 떠오르는데.....  아마... 혹시... 아... 이럼... 안되는건데......................... 아, 바로 그것?!!........  네, 유신랑, 바로 그것이죠! ㅡㅡ;  (공주도 아닌 것이...)

트랙백

이 글과 관련된 글 쓰기 (트랙백 보내기)
TrackbackURL : http://econclass.egloos.com/tb/2470477 [도움말]

덧글

  • Seldon 2009/11/05 22:57 # 삭제 답글

    세미나 내용이 눈길을 끄네요. 질문이 하나 생기는데, '범용성'과 '퀄러티'를 어떤 방식으로 정량화할 수 있는지와 범용성과 퀄러티가 높은 논문들에 대한 the rich get richer 효과도 (약하게라도) 있을텐데 이에 관한 힌트를 주실 수 있을까요?
  • 너구리 2009/11/05 23:54 #

    모델에서는 범용성 a_i ~ U(0,1), 퀄리티 b_i ~ U(0,1)로 표준화하고, prob. to be cited는 h의 함수로 나타냈는데, h는 [b_i - 1/2 * a_i, b_i + 1/2 * a_i]에서만 정의되도록 했어요. 퀄리티와 범용성을 확률변수로 가정한 것이지요. 그럼 퀄리티와 범용성이 1에 가까울수록 h의 존재 범위가 커지니까 cumulative prob. to be cited는 커진답니다. 당연히 파레토 법칙이 여전히 유효하지만, 그게 단지 preferential attachment처럼 많이 인용되었기 때문에 또 인용된다는게 아니라, 원래 그 patent 자체가 탁월하기 때문이라는 해석이 가능하죠.
  • Seldon 2009/11/06 20:07 # 삭제

    네... 답변 감사합니다. 그리고 아래 shape parameter를 여쭤본 건 그 값이 1보다 큰지 작은지가 일단 궁금했던 건데, 1보다 작다면 감마 함수가 거듭제곱 분포 + 지수함수적 cutoff 모양이기 때문입니다.

    그나저나 건강 조심하세요~~
  • 너구리 2009/11/07 00:42 #

    어.. 그래요?? 이해가 잘 안되서요.. shape parameter가 1보다 작으면 감마함수는 지수함수*scale parameter 비슷한 모양인데... 설명 좀 부탁드립니다. ㅡㅡ?
  • Seldon 2009/11/07 10:29 # 삭제

    http://en.wikipedia.org/wiki/Gamma_distribution 를 보면 감마 함수가 x^(k-1) * exp(-x/θ) 꼴인데요, k가 1보다 작으면 x의 지수가 음수가 되죠. 이러면 x의 거듭제곱 꼴에 지수함수가 곱해진 형태인데, 전자를 중심(?)으로 보자면 후자는 exponential cutoff로 볼 수 있고요. 그래서 한 얘기입니다. 그런데 k는 0보다 크다는 조건이 있기는 하네요. 아무래도 normalize가 되려면 관련된 조건이 필요하겠죠. 물리쪽에서는 보통 x가 매우 큰 영역에서만 관심이 있으므로, k가 1보다 작을 때 x=0에서 생기는 발산은 적절히 해결될 수 있다고 믿고요... 세미나 발표 내용이 모든 x에 대해서 잘 정의된 분포에 대해 잘 풀어낸 거라면 제가 생각하는 그림과는 그냥 다른 그림일 수도 있겠네요.
  • byontae 2009/11/05 22:59 # 답글

    안그래도 이번에 기생충학회 50주년 기념회 가서 한국 기생충학 저널의 citation관련 강연을 들었는데 분석방식이 심하게 단순하다는 느낌이 들더라구요. 요즘 PLoS 같은 오픈 엑세스 저널이 늘어나면서 기존의 citation 분석 방식에 의문을 제기하는 의견들이 많이 나오고 있는 것 같습니다.
  • 너구리 2009/11/06 00:00 #

    근데.. 대체 논문 인용수를 분석하는게 무슨 의미가 있는지 솔직히 잘 모르겠지만.. 오픈 엑세스 저널도 그렇고.. 특히나 논문 인용의 경우에는 어떤 사람은 해당 논문 쓰기 위해 읽고 공부한 논문을 죄다 reference로 달아놔서 참고문헌만 서너페이지 넘어가기도 하고, 어떤 사람은 해당 논문의 본문에서 언급된 논문만 reference에 집어놓고, 개별, 분야별 성향이 다르다보니 말이죠. 물론 어제 세미나에서 patent의 경우에는 법적인 규제가 확실하다보니 이런 논란의 여지는 없지만, 개인적으론 다른 citation 연구에서는 딱히 그냥 호기심 이상의 의미를 찾지 못하겠습니다.
  • Seldon 2009/11/05 23:04 # 삭제 답글

    아 그리고 감마 분포함수의 shape parameter가 어느 정도 나오는지도 궁금하네요.
  • 너구리 2009/11/06 00:00 #

    .... 파라미터값까지 기억할 리 없죠... ㅡㅡ;;
덧글 입력 영역


twitter