티스토리 뷰

발생일: 2016.04.14

키워드: python Temporary file, 파이썬 임시파일, tempfile.TemporaryFile, unicode, utf8, 유니코드, Create temporary file with unicode encoding, unicode object, 유니코드 객체

문제:
파일 내의 특정 패턴의 단어를 다른 단어로 치환하려고 한다.
다음 순서대로 실행하려고 했다.

1. 원본 파일을 라인 단위로 읽어 특정 단어를 치환한 후에,
2. 치환한 라인을 순서대로 임시 파일에 쓴다.
3. 전체 파일을 다 읽었다면, 임시 파일의 내용을 원본 파일에 복사한다.

임시 파일은 tempfile 모듈을 이용해 생성했는데, 임시 파일을 쓰려고 하니 아래와 같은 에러가 발생했다.

UnicodeEncodeError: 'ascii' codec can't encode character ...

왜 그런걸까?


해결책:

유니코드 객체를 인코딩 없이 임시 파일에 쓰려고 했던 게 문제였다.

TemporaryFile에서는 별도로 인코딩을 설정하는 옵션이 없기 때문에,
읽어온 라인을 utf-8로 인코딩해서 쓰도록 수정했다.

아래 강조한 부분이 수정한 부분이다.

def replace_characters(filepath):
    in_file = codecs.open(filepath, 'r', 'utf-8')
    out_file = tempfile.NamedTemporaryFile(mode='w', delete=False)
    for line in in_file:
        new_line = replace_specific_pattern(line)
        out_file.write(new_line.encode('utf-8'))
    in_file.close()
    out_file.close()
    shutil.copy(out_file.name, filepath)


논의:

파이썬에서는 유니코드 데이터를 다루는 별도의 unicode 타입이 있고,
u'가'와 같이 유니코드 타입을 생성할 수 있다.

>>> type('가')
<type 'str'>
>>> type(u'가')
<type 'unicode'>

unicode와 str을 서로 변환할 때엔, unicode.encode()와 str.decode()를 사용하면 된다.

- unicode.encode(character_set):
        유니코드 객체를 특정 캐릭터셋을 이용해 스트링 바이트로 인코딩한다.
- str.decode(character_set):
        스트링 바이트를 특정 캐릭터셋을 이용해 유니코드 객체로 디코딩한다.

(encode()는 unicode에서 호출하고, decode()는 str에서 호출하는 것에 주의한다)


아래처럼 유니코드 객체를 스트링 바이트로 인코딩할 수 있다.

>>> a = u'가'.encode('utf8')
>>> type(a)
<type 'str'>
>>> a
'\xea\xb0\x80'

utf8 대신 다른 캐릭터셋을 사용할 수도 있다.

>>> b = u'가'.encode('euckr')
>>> type(b)
<type 'str'>
>>> b
'\xb0\xa1'

유니코드 객체로부터 인코딩해 만든 스트링 객체를 디코딩하면, 다시 유니코드 객체를 얻을 수 있다.

>>> a2 = a.decode('utf8')
>>> type(a2)
<type 'unicode'>
>>> a2
u'\uac00'
>>> a2 == u'가'
True


문제의 상황은,
파일을 특정 캐릭터셋으로 읽어온 값이 유니코드 객체였는데,
별도의 인코딩을 지원하지 않는 임시 파일에 유니코드 객체를 쓰려고 했기 때문이었다.

아래 코드와 주석을 보면 원인과 해결 방법을 이해할 수 있다.

def replace_characters(filepath):
    # 이해를 쉽게 하기 위해, codecs 대신 open()으로 읽게 변경했다
    with open(filepath, 'r') as input:  
        in_file = input.read()
    type(in_file) #-> <type 'str'>
    in_file = in_file.decode('utf-8')
    type(in_file) #-> <type 'unicode'>
    out_file = tempfile.NamedTemporaryFile(mode='w', delete=False)
    for line in in_file:
        new_line = replace_specific_pattern(line)
        type(new_line) #-> <type 'unicode'>
        encoded = new_line.encode('utf-8')
        type(encoded) #-> <type 'str'>
        out_file.write(encoded)
    in_file.close()
    out_file.close()
    shutil.copy(out_file.name, filepath)



참고: 


반응형
댓글
공지사항