티스토리 뷰

발생일: 2016.04.14

키워드: python Temporary file, 파이썬 임시파일, tempfile.TemporaryFile, unicode, utf8, 유니코드, Create temporary file with unicode encoding, unicode object, 유니코드 객체

파일 내의 특정 패턴의 단어를 다른 단어로 치환하려고 한다.
다음 순서대로 실행하려고 했다.

1. 원본 파일을 라인 단위로 읽어 특정 단어를 치환한 후에,
2. 치환한 라인을 순서대로 임시 파일에 쓴다.
3. 전체 파일을 다 읽었다면, 임시 파일의 내용을 원본 파일에 복사한다.

임시 파일은 tempfile 모듈을 이용해 생성했는데, 임시 파일을 쓰려고 하니 아래와 같은 에러가 발생했다.

UnicodeEncodeError: 'ascii' codec can't encode character ...

왜 그런걸까?


유니코드 객체를 인코딩 없이 임시 파일에 쓰려고 했던 게 문제였다.

TemporaryFile에서는 별도로 인코딩을 설정하는 옵션이 없기 때문에,
읽어온 라인을 utf-8로 인코딩해서 쓰도록 수정했다.

아래 강조한 부분이 수정한 부분이다.

def replace_characters(filepath):
    in_file = codecs.open(filepath, 'r', 'utf-8')
    out_file = tempfile.NamedTemporaryFile(mode='w', delete=False)
    for line in in_file:
        new_line = replace_specific_pattern(line)
    shutil.copy(out_file.name, filepath)


파이썬에서는 유니코드 데이터를 다루는 별도의 unicode 타입이 있고,
u'가'와 같이 유니코드 타입을 생성할 수 있다.

>>> type('가')
<type 'str'>
>>> type(u'가')
<type 'unicode'>

unicode와 str을 서로 변환할 때엔, unicode.encode()와 str.decode()를 사용하면 된다.

- unicode.encode(character_set):
        유니코드 객체를 특정 캐릭터셋을 이용해 스트링 바이트로 인코딩한다.
- str.decode(character_set):
        스트링 바이트를 특정 캐릭터셋을 이용해 유니코드 객체로 디코딩한다.

(encode()는 unicode에서 호출하고, decode()는 str에서 호출하는 것에 주의한다)

아래처럼 유니코드 객체를 스트링 바이트로 인코딩할 수 있다.

>>> a = u'가'.encode('utf8')
>>> type(a)
<type 'str'>
>>> a

utf8 대신 다른 캐릭터셋을 사용할 수도 있다.

>>> b = u'가'.encode('euckr')
>>> type(b)
<type 'str'>
>>> b

유니코드 객체로부터 인코딩해 만든 스트링 객체를 디코딩하면, 다시 유니코드 객체를 얻을 수 있다.

>>> a2 = a.decode('utf8')
>>> type(a2)
<type 'unicode'>
>>> a2
>>> a2 == u'가'

문제의 상황은,
파일을 특정 캐릭터셋으로 읽어온 값이 유니코드 객체였는데,
별도의 인코딩을 지원하지 않는 임시 파일에 유니코드 객체를 쓰려고 했기 때문이었다.

아래 코드와 주석을 보면 원인과 해결 방법을 이해할 수 있다.

def replace_characters(filepath):
    # 이해를 쉽게 하기 위해, codecs 대신 open()으로 읽게 변경했다
    with open(filepath, 'r') as input:  
        in_file = input.read()
    type(in_file) #-> <type 'str'>
    in_file = in_file.decode('utf-8')
    type(in_file) #-> <type 'unicode'>
    out_file = tempfile.NamedTemporaryFile(mode='w', delete=False)
    for line in in_file:
        new_line = replace_specific_pattern(line)
        type(new_line) #-> <type 'unicode'>
        encoded = new_line.encode('utf-8')
        type(encoded) #-> <type 'str'>
    shutil.copy(out_file.name, filepath)

