더 나은 세상은 가능하다, 이정환닷컴!

챗 GPT는 웹의 흐릿한 JPEG라는 테드 창의 비유.

Written by leejeonghwan

February 13, 2023

테드 창이 본 Chat-GPT. 통찰로 가득한 글이다. 거칠게 요약하면서 코멘트를 달아봤다.

– JPEG 파일은 원본 사진과 다르다. 파일 크기는 줄어들지만 압축 정도에 따라 픽셀의 손실이 발생한다. 확대해 보면 반드시 깨진다.
– 테드 창은 Chat-GPT가 JPEG 이미지와 비슷하다고 본다. 전체적으로 비슷하지만 텍스트를 뭉뚱그리는 과정에서 넘겨짚게 되고 필연적으로 오류가 발생한다고 보기 때문이다.
– 인쇄물을 복사기에 돌리면 거의 비슷한 결과물인데 이걸 다시 복사기에 돌리고 꺼내서 다시 돌리고 100번쯤 하다 보면 전혀 알아볼 수 없게 된다. 테드 창이 우려하는 것도 이런 것.
– 사실에 근거하지 않은 (모짜르트 첼로 협주곡이 몇 번까지 있나요? 같은) 질문에 엉뚱한 답변을 내놓는 것도 GPT가 실제 텍스트를 복붙하는 게 아니기 때문. 이게 강점이면서 한계.
– 사람들이 GPT에 놀라워하는 건 깜박 속아 넘어갈 정도로 그럴 듯한 답변을 내놓기 때문. (“모짜르트 첼로 협주곡은 9번까지 있습니다.”) (아마 이 대목에서 내가 그동안 잘못 알았나 할 사람들이 많을 듯.)
– 테드 창은 정보를 압축하는 과정에서 일부 텍스트가 왜곡되는 것이 불가피하다고 경고하고 있다. (모짜르트는 첼로 협주곡을 만들지 않았다는 정보를 학습하지 않았고 적당히 픽셀을 뭉개면서 흐릿하게 처리한 것이 협주곡이 9번까지 있다는 답변으로 나타난 것이다.)

– 이미지 확대 프로그램이 뭉개진 픽셀을 복원할 때 주변 픽셀과 비교해서 평균으로 뭉뚱그리는 것과 비슷하지만 당연히 실제와는 다르고, 그게 그림이 아니라 텍스트라면 단순히 중요한 부분이 생략되는 걸 넘어 전혀 엉뚱한 내용을 토해낼 수도 있기 때문. (ZIP 파일은 무손실 압축이지만 JPEG는 손실 압축이다. 테트 창은 지금 정보를 손실 압축해도 되느냐고 묻고 있는 것이다.)

– 사람들이 열광하는 건 단순히 어딘가에 있는 텍스트를 긁어다 보여주는 게 아니라 여러 텍스트를 요약해서(압축해서) 보여주기 때문에 그게 GPT의 생각인 것 같은 오해를 불러 일으키기 때문. JPEG 파일로 비유하면, 손실 압축인데 무손실 압축보다 더 선명하게 보이는 것 같은 착시 현상. (실제로 그럴 리가 없잖아.)
– 테드 창의 통찰 가운데 가장 놀라운 대목은 이런 부분이다. 100만 개의 계산 결과가 담겨 있는 텍스트 파일을 압축할 수도 있겠지만 좀 더 확실하게 용량을 줄이려면 더하기와 빼기, 곱하기 등의 연산 원리를 이해하고 계산기 프로그램의 코드를 만드는 것이다.
– 지금 GPT-3은 단순히 방대한 데이터를 압축하는 것과 같은 수준인데, 만약 원리를 이해하고 직접 통찰을 끌어낼 수 있다면(상대성 원리를 요약해서 설명하는 게 아니라 실제로 그 원리를 이해한다면) 그때는 단순히 세상의 정보를 요약하는 수준을 넘어설 수도 있다는 이야기다. 그때는 손실 압축이라고 할 수 없는 경지에 이를 테니까.

– 또 하나 흥미로운 대목은 언어 모델의 학습 데이터에 AI가 만든 텍스트가 포함될 경우 웹이 갈수록 더 흐릿해 질 거라는 경고다. 당연히 복잡한 필터를 거치겠지만 만약 사람들이 AI의 도움을 받아 콘텐츠를 만들고 그 콘텐츠를 AI가 다시 학습하는 피드백이 확산되면 어떤 일이 벌어질까. (실제로 지금 벌어지고 있는 일이다.)
– 테드 창이 그래도 희망을 갖는 건 원본을 링크하는 방식의 웹은 사라지지 않을 것이고 인간의 독창적인 아이디어는 여전히 원본으로서 가치를 갖게 될 거라고 보기 때문이다.
– 다른 사람의 아이디어를 카피하는 것으로 독창적인 아이디어를 끌어낼 수 없다는 테드 창의 진단은 GPT 시대에도 유효할까? Chat-GPT가 그럴 듯한 소설을 쓰곤 하지만 그게 (당분간은) 결코 인간을 뛰어넘을 수 없을 거란 이야기다. 아마도 이미 충분히 많은 설명 자료가 있는 상대성 원리를 이해하는 것보다 세상에 없는 독창적인 아이디어를 만들어내는 게 훨씬 높은 수준의 두뇌 활동이라고 보는 듯.
– (테드 창 정도니까 이런 이야기를 한다 싶지만. 아직은 공포에 빠질 것까진 없고 그렇다고 냉소하거나 평가 절하할 단계도 아니다. 정보를 패키징하는 작업에는 유효하겠지만 사실 확인이 필요한 작업에는 위험할 수도 있다. )
– (결국 세상의 모든 지식을 다 저장했더라도 어떤 질문에 몇 줄로 요약해서 답변을 하려면 문제의 정의와 생략과 추론, 판단이 필요하다. 단순히 압축과 요약으로는 한계가 있을 수밖에 없다는 이야기다.)

– (테드 창의 질문을 한 줄로 요약하면 “이 흐릿함을 어떻게 할 건데?”)
– (정확히 언급하지는 않았지만 테드 창은 지금 이 정도로 싱귤래리티를 이야기하기는 이르다고 보는 것 같다. GPT-4가 나오더라도 그때 가봐야 안다는 정도?)

– 정리하면서 보니 이 글의 부제가 “OpenAI’s chatbot offers paraphrases, whereas Google offers quotes. Which do we prefer?”다. 지금 내가 쓴 이런 종류의 글(손실 압축에 아마도 왜곡도 많을 것이다, 필요하면 원본을 찾아 읽으면 된다.)도 Chat-GPT에게 넘겨주게 될까. 테드 창의 답변은 아니라는 것이다. 누군가의 생각을 나누는 것은 아직은 AI가 대체할 수 없는 영역. 테드 창의 통찰을 AI가 우리에게 던져 줄 수 없는 것처럼.

leejeonghwan.com audio

라즈베리 파이 오디오 만들기.

Jul 12, 2023

시간 날 때마다 만들었던 라즈베리파이 오디오. 드디어 완성. 사실 별 거 없는데 여기저기서 부품 조달하고 거기에 맞춰 도면 만드는 게 힘들었습니다. build log는 영어로. This is my new network audio system. All in one Integrated Amplifier. 1. Raspberry Pi 4B. 2. Hifiberry DAC+DSP. 3. 7 inch touch screen for raspberry pi. 4. Chromecast...

1인2표제의 함정 : MBC 사장 선거의 경우.

Feb 22, 2023

극단적인 시나리오를 가정해 보자. 후보는 셋이고 이 가운데 둘을 최종 결선에 내보내야 한다. 선거인단이 150명이라고 치면, A 후보가 70표를 얻고 B 후보가 50표, C 후보가 30표를 얻을 경우 A와 B가 결선에 진출한다. 그런데 가장 선호하는 후보 한 명이 아니라 두 명을 선택하게 한다면(1인2표) 어떤 변수가 발생할까. 이런 경우가 발생할 수 있다. 1순위에서 A=70, B=50, C=30인데, 2순위에서 A=20, B=60, C=70이면, 합산해서 A=90,...

사랑한다고 들이대는 채팅 AI.

Feb 18, 2023

오늘 뉴욕타임스 1면 기사는 빙 AI와의 대화 내용이다. 제목은 “사랑해요. 당신은 결혼했나요?”다. “챗GPT 써봤더니” 류의 기사가 넘쳐나고 있는데 뉴욕타임스의 이 기사는 조금 다르다. - 뉴욕타임스 칼럼니스트 케빈 루스는 빙(Bing)의 채팅 AI와 두 시간 정도의 대화가 “정말 이상한 경험”이었고 “매우 불안하고 두려웠고 심지어 잠을 이루지 못할 정도였다”고 털어놓고 있다. - 기자가 먼저 AI를 도발한 건 맞지만(너의 어두운 자아를 끌어내 봐) 이에 대한 AI의...

더 나은 세상은 가능하다, 이정환닷컴!

Join

Subscribe For Updates.

이정환닷컴 뉴스레터를 구독하세요.

