잊지 않겠습니다.

 

  쇼너짱의
         Warm IT up !!  

 

*쇼너짱은 누규?
검색 
분류 전체보기 (206)
Shoner Life (26)
Media와 IT (68)
모바일퓨처리스트 (7)
Mobile (12)
UX공부&경험 (3)
실버라이트와닷넷 (7)
Python&Django (2)
정보검색&시각화 (13)
에너지와 환경 (3)
멋진 장면,글,노래 (9)
쇼너짱 me2DAY (56)
Project P (0)
me2sms  MS  실버라이트  me2mms  show  MSP  me2photo  ucc  KTF  휴대폰 
 쇼너짱의 생각
└>shoner's me2DAY
 나만의 MSP 공..
└>Can you feel..
 MSP(Microsoft..
└>상범이의 이야..
 Microsoft Stu..
└>쇼너짱의 Warm..
 MSP 2기 활동..
└>쇼너짱의 Warm..
«   2009/07   »
      1 2 3 4
5 6 7 8 9 10 11
12 13 14 15 16 17 18
19 20 21 22 23 24 25
26 27 28 29 30 31  
+ 6 Fingers
+ Blogom
+ DJ SUNGWOO
+ Eluard's Play..
+ happysphere
+ Mook
+ OutSider
+ The Dynamo Of..
+ ♡♡♡♡♡
+ 꿈꾸는아이,..
+ 루카쨩
+ 멜로디언님의..
+ 밥알양(no-name)
+ 소명
+ 이야기#2
+ 작은아이!
+ 절대미녀 누님
+ 지에고의 게임..
+ Total : 160,527
+ Today : 41
+ Yesterday : 242
  

MSP Banner
Channel 8 ImagineCup09
Silverlight
DreamSpark
xna Team
미투데이

믹시


My blog is worth $1,129.08.
How much is your blog worth?

 

 

 

+   [정보검색&시각화]   |  2009/06/22 03:01  


특정 주제에 대한 블로그 별 비중을 넣자!!
(글 중에 특정 주제에 관한 글이 많을 수록 해당 주제와 블로그간의 적합성 높음)
블로그의 모든 토픽의 랭크 점수를 합한 값 a
특정 토픽의 랭크 점수 x
루트(x/a)

1. 블로그 별로 모든 토픽의 랭크 점수를 합해서(a), 블로그리스트에 저장
2. 블로그토픽 테이블에서 블로그별로 루트(x/a)저장
3. 루트(x/a)와 그냥 x 결과 비교
4. 루트(x/a)가 변별력이 없을 경우 새로운 공식 도입하여 블로그토픽에 새로운 레코드로 저장

기존의 tf값 변경 ->   1 + log(tf)
상대용어빈도도 루트 !!
루트 한거 안한거 따로 만들어 보자

 

블로그 사이트 랭킹 문제는 권위있는 웹페이지를 찾는 것과는 다른데에 있다.

블로고스피어에서 블로그 사이트들은 매우 드물게 링크 되어 있고, PageRank[24]나 HITS[16]와 같은  웹 랭킹 알고리즘은 블로그 사이트 랭크에 적합하지 않다.
웹페이지 랭킹 알고리즘의 random sufer model[24]은 드문 링크 구조에 대해서는 제대로 된 효과를 얻기 어렵다.
일시적 상황(상태)은 블로그 도메인에서 최대한 중요하다. 하나의 웹페이지가 시간이 지나면서 점차 권위를 얻는 동안, 하나의 블로그 포스트나 한명의 블로거의 영향은 시간이 흐르면서 오히려 권위를 떨어뜨린다.

최근연구 (Blogrank-Ranking weblogs based on connectivity and similarity features)는
토픽 기반의 링크 정보 비중을 올려서 -> 암시적인 링크들을 더하기를 제안
만약 두 블로그가 같은 토픽에 대하야 말하고 있다면, 토픽 유사성이나 정보 유행 기반의 두 블로그는 선으로 이어지게 된다.  그러나, 토픽 기반의 링크 구성은 여전히 연구 분야로 남아있다.

 

2009-06-21 오후 9시30분 경

구글 블로그 검색
http://blogsearch.google.com/blogsearch?hl=ko&ie=UTF-8&q=이승엽&btnG=블로그+검색&lr=
대표 블로그: 관련이 높은 블로그 5개 최상위에 보여줌
-> 하지만 과연 수많은 블로그 중에서 가장 이승엽과 관련이 높은지(대표성이 있는지)는 모르겠음
(최신성에 비중이 좀 있는듯)
페이지 랭킹: 제목 가중치 + 본문 빈도수 + 최신 글 가중치
이승엽 결과수 : 65534
기타 : 꽤 최신 글도 보여줌 (30분전 글도 보임)


블로그얌
[포스트 검색시]
http://www.blogyam.co.kr/search/searchyam_post.asp?searchtext=%C0%CC%BD%C2%BF%B1
대표 블로그: 관련높은 블로그를 하나 보여줌 -> 하지만 관련성은 그닥
페이지 랭킹:  본문 + 어느정도 최신 글 + 제목 가중치 약한듯
이승엽 결과수 : 4512건
기타 : 연관검색어 제공, 영상첨부 블로그는 따로 아이콘으로 표시
[블로그 검색시]
http://www.blogyam.co.kr/search/searchyam_blog.asp?searchpart=1&searchtext=%C0%CC%BD%C2%BF%B1&searchsort=
결과: 블로그 하나 뜸


올블로그
[키워드 검색시]
http://search.allblog.net/?keyword=이승엽&type=undefined
HOT이라며 글 2개 보여줌 - 이승엽의 비중이 적은 블로그도 하나 포함
검색 결과를 추천글, 최신글로 보여줌, 상위 3개~5개는 이미지도 포함
검색 범위 조정이 가능 7723~2049
페이지 랭킹 : 제목 비중 + 본문 + 최신성 (블로그에서의 키워드 비중은 안봄)
추천글 순서로 보기->
상위 글을 눌러봐도, 별로 추천적이지 않음; 추천순서로 보는 기능은 제대로 작동안하는듯
(http://link.allblog.net/19912084/http://blog.daum.net/thewayofwater/199)
연관태그 클라우드 보여줌
검색어 키워드가 많이 잡히는 블로그 탑순위10개 보여줌
(하지만 그 순위의 타당성이 없다)
[블로그 검색시]
http://search.allblog.net/?keyword=이승엽&type=100
상위에 블로그 3개 보여줌 -> 정확하지가 않다. (없는 페이지 거나 글이 몇개 없는 블로그)
연관 태그 클라우드

나루
한달 전 글까지만 보여줌
랭킹 : 최신성에 대한 비중은 약한 편, + 제목 비중 + 본문 빈도수 +  포스트수,방문자수 많은 블로그 순서가 강한듯(모든 정보를 다 모아놓고, 관련 포스트도 물론 꽤 있음, 하지만 전문 블로그라보단 스크랩 블로그 느낌) 또는 블로그는 유명하지 않아도 본문 빈도수가 높을 경우
왼쪽에 블로그 페이지 리스트 오른쪽엔 블로그 리스트(블로그 제목이나 설명에 키워드 가중치, 글 제목이나 본문은 별 상관없는듯)

저작자 표시 비영리 동일 조건 변경 허락

 
     IIR, 검색, 검색엔진, 구글블로그검색, 나루, 블로그, 블로그 검색, 블로그얌, 올블로그, 정보검색
     0   0
이 글의 관련글(트랙백) 주소 ::    http://shoner.pe.kr/trackback/257 관련글 쓰기

 

+   [정보검색&시각화]   |  2009/06/22 01:44  


문서 클러스터링(document clustering)
- 사전(a priori) 분류체계 없이 문서간의 유사성에 근거하여 유사한 문서들의 집단을 형성하는 기법
- 비지도학습(unsupervised learning) 분류

텍스트 범주화(text categorization)

- 사전 분류체계에 기초하여 분류대상이 되는 문서를 가장 적합한 범주에 할당함으로써 
  문서들의 집단을 형성하는 기법
- 기계학습 방법 사용
- 지도학습(supervised learning) 분류

출처 : http://dewey.yonsei.ac.kr/ir/clustering.ppt





관련 논문:

이재윤 · 최보영 · 정영미 저, 문헌 자동분류에서 용어가중치 기법에 대한 연구,  한국정보관리학회, 한국정보관리학회 학술대회 논문집, 한국정보관리학회 제7회 학술대회 논문집, 2000. 8, pp. 41~44.
http://dewey.yonsei.ac.kr/memexlee/doc/kosimc2000.htm


이재윤(Jae-Yun Lee) 저, 피벗 역문헌빈도 가중치 기법에 대한 연구,  한국정보관리학회, 정보관리학회지 제20권 제4호, 2003. 12, pp. 233~248.
저작자 표시 비영리 동일 조건 변경 허락

 
     IIR, 범주화, 용어가중치, 자동분류, 정보검색, 클러스터링
     0   0
이 글의 관련글(트랙백) 주소 ::    http://shoner.pe.kr/trackback/256 관련글 쓰기
<<이전 | 1 | 2 | 3 | 4 | 5 ... | 103 | 다음>>