2008. 5. 2. 18:12
     

 아아~ 이거 힘드네요. ㅜ_ㅜ 일단 RSS를 통해 티스토리에서 댓글만 뽑아내려고 했는데, 잘 안되서 파이썬으로 파싱하는 걸로 방향을 바꿨습니다. 파이썬 라이브러리 중에 Beautiful Soup를 사용해서 간단히 파싱하여 댓글을 추출하는 것까지는 금방했습니다.

 그런데 문제는 UTF-8로 인코딩된 웹페이지를 파일로 저장하려니 ASCII로 저장하는 것이 기본인지 저장할 수 없다는 에러가.... 이렇게 황당한 일이... ㅡ_ㅡa... 파이썬을 쓰면서 한글 처리를 별로 안해서 크게 불편함을 몰랐는데, 이번에 제대로 걸렸네요. ㅜ_ㅜ

 이래 저래 해보다가 결국 포기 ㅜ_ㅜ)/~ 차라리 티스토리에 웹페이지를 하나 더 넣어서 댓글만 표시하게 하는게 더 편하겠습니다. ㅜ_ㅜ)/~

 댓글 추출하는 소스는 만든게 아까워서 올려놓습니다. 애휴... 밥이나 먹어야겠군요. ㅜ_ㅜ)/~




 ps) 아아... 이게 무슨 삽질인지... 쉽게 처리하는 방법을 아시면 댓글로 제보 부탁드립니다.



Android App

Posted by 호기심 많은 kkamagui(까마귀, 한승훈)

댓글을 달아 주세요

  1. BlogIcon 이상한사람 2011.03.31 13:38  댓글주소  수정/삭제  댓글쓰기

    지나가던 사람입니다.ㅎ 저는 HTML에서 모든 태그를 벗기는 작업을 하고싶어서 정보를 찾아다니고 있습니다.ㅎ
    유니코드때문에 문제가 있다고 하셨는데... 혹시나..해서
    간단한 소스를 올려봅니다... 도움이 되실련지는 모르겠네요.

    # -*- coding: cp949 -*-
    import urllib
    from HTMLParser import HTMLParser
    from django.utils.encoding import smart_str, smart_unicode
    from BeautifulSoup import BeautifulSoup

    file = open("urlopenData.txt", 'w')

    response = urllib.urlopen("http://www.beans-r-us.biz/prices.html")
    text = smart_str(response.read())#유니코드 뭐시기때문에 django에 포함된 smart_str을 사용해야 에러 안남

    print(text)
    file.write(text)

    django 모듈에 있는 smart_str() 이녀석을 사용하면 유니코드 어쩌구 아스키어쩌구하는 문제가 없어지더라구요.ㅎㅎ
    이문제가 아니실수도 있지만...
    아.. 쓰고보니 작성하신 날짜가....08년도군요..ㄷㄷㄷ 수고하세용.ㅎ
    아...혹시나.. 태그벗기는 간단한 방법있으시면...힌트라도..ㅎㅎ

    • Favicon of http://www.mint64os.pe.kr BlogIcon kkamagui 2011.04.02 15:10  댓글주소  수정/삭제

      오오~ 감사합니다. ^^)-b

      스마트 스트링이라는 것이 있었군요. ;)

      나중에 한번 살살 해보겠습니다. ^^