Recently, I read article titled Know When to Stop Designing, Quantitatively. Because first half of article was about mainly information theory which I recently studied in thermal physics, It was very intersting that he is applying this theory into the efficiency issue of user interface.

Introduction of mathematical concepts behind Information theory


These three statements which is belived as a truth about Christmas day.
  1. Christmas day falls on a some day of the year.
  2. Christmas day falls in the second half of the year.
  3. Christmas day falls on the 25th of a month.
Because all days are fall on a some day of the year, the first statement has no new information. The second statement contains more information than first one, at a minimum we know which half of the year the holiday is. The last statement is even more particular and has the most information content.

We can see that more probable statement have less information, If we calculate the probability of the above three statements, the first one will be 1 because it is always true. The second one will be 1/2, and the last one will be 12/365 if we assume that the year is not leap year.

If we add the information above, that can be measured by multiplying two probabilties. Because the first statement has no information, it will be same probability if we multiplying the probability of statements 1 and 2, or 1 and 3. But If we multiplying the probability of statements 2 and 3, the probability will be 6/365.

The probability of two independent true statements are the product of each probabilities. It is obvious to presume that information content can be added. Claude Shannon which is called the father of information theory proposed the definition of information.

Information content  can be calculated using the Q=-k \rm{log} P where P is the probability of the statement and k is some positive constant. Suppose we select \rm{log}_{2}and k =1, then Q is determined in bits.

If we assume W is the number of cases probable, and the probabiltiy of one specific case will be 1/W. So, we can also define the Information content Q = -k log P = -k log (1/W) = -k log (W^(-1)) = -k(-1) log W = k log W.

Various language and Information capacity


In accordance with his calculation, English have approximately 5 bit choice assuming total number of letters is 32. 5 bit choice. Hiragana in Japanese have 76 letters including dakuten and yoon. Katakana has the same number of letters which Hiragana have. and if we use 6 punctuation marks likewise. The number of cases will be 158(76+76+6), and information in bit will be about 7.3 bits. It became Hiragana and Katakana have more information capacity than English letters by 46%. This is not exact, The percentage should be more than that, because I didn't consider Kanji.

In Korean language, one character will be combined using initial, vowel, and final from Jamo in Hangul. The possible number of characters by combinations of Jamo will be 11970. Some of them will be not used in common. Though I ignore 3700 cases of them, the number of bit choice will be more than 13 bit.

There is essential limit of this discussion, because I assume that every language can equally express something or some concept. But it is not true in reality. When we need to introduce new idea that never exists in some cultural envirionment, we have to make additional explanations about that.

It is meaningful in some of senses that the information capacity of one language can be calculated and compared using information as a physical quantity. And it is fun, too.

신고
Posted by 세레

한글 교육 1

2008.11.21 23:03

 

11월 20일 목요일인데, 기록차 남겨둡니다. 떨리고, 설레고, 긴장도 되었지만 열심히 하려고 노력했습니다. 한글이 아무리 모국어라지만, 다른 나라의 언어 즉 영어로 한글을 설명하려니 어색했습니다. 한글에 관련된 용어를 영어로 표현하는 데에 어려움도 느꼈습니다. 영어는 풀어 쓰는 문자인 반면에, 한글을 모아 쓰는 문자라서 그 차이점을 묘사하는 일이 힘들었습니다. 지난 번에 한글의 유래 및 소개 그리고 10개의 기본 모음과 14개의 기본 자음을 학습한 터라, 앞 부분을 복습하고 음절의 구성까지 다루었습니다.

서로가 발음기호를 알고 있다면 굳이 영어와 한국어를 대응시키지 않고도, 정확한 발음을 표현할 수 있을 텐데하는 아쉬움이 있었습니다. 예컨대, '어'와 '여' 그리고 '으' 발음을 참 어려워 합니다.

기본 모음(Basic Vowels)
  1. ㅏ, [a]
  2. ㅑ, [ya]
  3. ㅓ, [eo, 매킨-라이샤워 표기법으로는 o위에 v 표시]
  4. ㅕ, [yeo]
  5. ㅗ, [o]
  6. ㅛ, [yo]
  7. ㅜ, [u, 로마자 표기법도 u로 설명하고 있으나 oo로 부연 설명을 해주면 더 낫더라고요. 영어에서 실제 알파벳 u는 '어'발음을 가리키기도 하니요]
  8. ㅠ, [yu]
  9. ㅡ, [eu]
  10. l, [i]
처음 부터 아, 야, 어, 여, 오, 요, 우, 유, 으, 이라고 읽는다.
음절을 구성할 때 긴 변이 세로로 있으면 자음과 옆으로 결합하고, 가로로 긴 변이 있으면 자음과 상하로 결합한다. 종성 자음은 항상 음절에서 아래에 위치한다.

기본 자음(Basic Consonants)
  1. ㄱ [g 받침으로 올 때는 k]
  2. ㄴ [ㄴ]
  3. ㄷ [d 받침으로 올 때는 t]
  4. ㄹ [예전에는 l(L)만 허용했으나 모음 앞에서는 r로 표기하는 것으로 개정됨]
  5. ㅁ [m], 이 자음을 처음에 square라고 많이 부른다.
  6. ㅂ [b 받침으로 올 때는 p]
  7. ㅅ [s, 예전 표기법으로는, 뒤에 i 발음이 올 때 가끔 sh로 표기했던 것으로 기억한다. shin-chon 처럼]
  8. ㅇ[blank sound, 받침으로 올 때는 ng]
  9. ㅈ [j], z와 호응하는 한국어 자음은 없다.
  10. ㅊ [ch, ts라고 해도 발음에 큰 차이는 없어 보인다.]
  11. ㅋ [k]
  12. ㅌ [t] 처음에는 little E라고 부르더군요
  13. ㅍ [p]
  14. ㅎ [h]
기역, 니은, 디귿, 리을, 미음, 비읍, 시옷[시옫], 이응, 지읒[지읃], 치읓[치읃], 키읔[키윽], 티읕[티읃], 피읖[피읍], 히읗[히읏]으로 읽습니다. 예전에 TV 프로그램에서 자음 이름 쓰기를 보행자들에게 시켰더니 제대로 쓴 사람은 얼마 안 되었다는 내용을 본 듯하네요. 신경을 기울이지 않고 갑자기 생각하려면 꽤 어렵습니다. 자음 + I, 자음 + ㅡ + 자음 규칙에 어긋나는 기역, 디귿, 시옷 등이 있기 때문이죠. 국어 시간에 집중해서 들으셨다면 알겠지만 한국어의 발음에서 받침으로 오는 소리는 7가지 ㄱ, ㄴ, ㄷ, ㄹ, ㅁ, ㅂ, ㅇ밖에 없습니다. 따라서 자음 이름 옆에 대괄호로 발음을 병기해 두었습니다. 받침으로 오는 소리 7가지를 쉽게 외우는 팁은 '가느다란 물방울'이라고 연상하면 됩니다.
매킨-라이샤워 표기법에 의하면 부산은 Pusan으로 김포는 Kimpo로 표기되나 개정된 로마자 표기법은 자음과 로마자의 호응에 초점이 맞추어져있기 때문인지 Busan, Gimpo로 바뀌었습니다. 하지만 실제 사람들이 읽는 부산과 김포의 첫 글자 초성은 무성음이라 외국 사람들이 듣기로는 P, K로 듣게 됩니다. 제가 금과 귤을 가르쳐 주면서 geum과 gyul이라고 소개하니 왜 발음을 k로 하면서 g로 쓰냐고 질문이 많이 있더군요. 그래서 한국어에는 ㅋ이 k를 의미한다고 가르쳐 주었습니다. 우리나라가 쓰는 자음으로는 첫 글자의 기역과 키읔을 구분할 수 있는데 영어로는 구분이 안 된다는 점이 신기했습니다.
외국어 사용자들이 궁금해 하는 것 가운데 하나가 지하철 역에서 병기해 놓은 영어 철자들이었습니다. 어떤 분은 용산으로 가고 싶다고 택시 기사분께 이야기를 했는데, 신용산에 내려서 헤맸던 이야기를 하더군요. 용산이 Dragon Hill 또는 Dragon Mountain을 뜻한다고 알려주니까 좋아하더군요. 신은 New를 의미하고, 또 산으로 끝나는 역을 찾아서 소요산역, 수락산역, 도봉산역을 가리키며 여기 산도 같은 의미라고 알려 주었습니다.
영어 간판에 대해 불만이 많았습니다. 간판을 쓰기로는 영어로 써놓고 실제로 영어 발음 대로 읽으면 한국 분들이 이해를 못하신다는 이야기였는데 어느정도 공감가는 이야기였습니다. 한국에는 가짜 영어가 넘쳐나는 것도 있지만 한국에서 쓰이는 외래어 표기가 영어 발음으로 바꾸어 볼 때 괴리감이 느껴지는 단어가 존재합니다. 이를 테면 Renaissance의 경우 우리는 보통 르네상스라고 이야기하죠. 프랑스어 외래어로 구분하여 교과서에도, 사전에도 그렇게 등장해서 우리는 르네상스라고 알고 있습니다. 하지만 영어 발음을 찾아보시거나, 실제로 들어보면 발음은 레너산스에 가깝습니다. Marriott도 우리는 메리어트라고 하지만 실제 발음은 메리엇에 가깝죠. 반면 영어 병기의 발음이 실제 한글과 괴리가 발생하는 경우도 있는데 논현역의 경우 Nonhyeon의 실제 발음을 들어보면 거의 [나년]에 가깝습니다. (3, 4번째 글자의 nh만으로도 이미 y[IPA로는 j]발음이 추가되죠. piranha 참조. ) 나년으로 가주세요 라고 택시 기사 분께 말하면 몇 분이나 논현인지 해석할 수 있을까요. 가르치면서 그만큼보다 더 배우는 것 같아 부끄럽지만 이를 거울 삼아 더 노력해야함을 다짐해 봅니다.
저작자 표시 비영리 동일 조건 변경 허락
신고
Posted by 세레

 

'국어실력이 밥먹여준다'라는 솔직한 제목이 인상적이다. 29가지 짧은 장으로, 헷갈리기 쉬운 두 가지 단어를 놓고 세심하게 어감을 구분하여 설명했다. 각 장에는 그 단어에 해당하는 문제를 제시했다. 어떤 단어에서는 어원을 밝히기도 하고, 어떤 단어는 쓰이는 예를 통해 추적하기도 했다. 여러 단서를 놓고 단어의 진정한 쓰임새를 추리했다. 덤에는 지은이가 우리말 단어의 의미에 대해 유익한 단락을 제공했다. 책 제목의 ‘밥먹여준다’는 문장 성분이 다르므로 ‘밥 먹여 준다’로 띄어 써야 하지만 ‘국어실력이’와 대칭을 이루고자 고의로 붙여 쓴 모양이다.

국어실력이 밥먹여준다(낱말편 1)
카테고리 인문
지은이 김경원 (유토피아, 2006년)
상세보기


신고
Posted by 세레

 

나의 한국어 바로 쓰기 노트는 서점에 갔다가 글쓰기 섹션에서 발견한 책이다. 책 겉모습은 노란색에 상당히 깔끔하고 단순하게 고안되어 있다. 책의 저자는 국어 문화 운동 본부 소속으로, 책의 내용은 이 문장에서 한국어답지 않은 부분이 어떤 것이고, 한국어답게 쓰는 부분을 조목조목 설명한 것이다. 문인들도 실천하지 못하는 엄격한 시선으로 바라 본 문장을 제시하고, 관련된 한국어 규정과 그 원리를 드러낸다. 주제어와 주어를 구분하는 법, 조사를 바르게 사용하는 법, 생략과 호응 그리고 축약을 적절하게 쓰는 법을 깊게 다루고 있다. 이 책은 잘못된 글자를 바로 잡는 교정의 차원을 넘어, 문서 안의 문장을 이해하기 쉽고 우리말 답게 하는 교열을 다루고 있다. 중간의 은유와 비문 사이에 일어난 이어령 씨와 김동리 씨의 논쟁이 발췌되어 있는데, 글에서 문장 분석의 진수를 느낄 수 있었다. 여러 번 읽어서 설득력 있고, 이해하기 쉬운 문장을 쓸 수 있도록 힘써야 겠다.
나의 한국어 바로 쓰기 노트
카테고리 인문
지은이 남영신 (까치, 2002년)
상세보기


신고
Posted by 세레

 

미루어 두었던 SyntaxHighlighter를 설치했다.
다음은 예시 코드.

<?php
class SqliteConnection extends BaseConnection {
  // ...
}
register_driver('sqlite', 'SqliteConnection', 'Sqlite Database');
?>
소스코드를 블로그에 게시할 때 예쁘고, 줄 번호가 붙어서 보기 편하다. 자바스크립트 등을 불러와야 하기 때문에, 접속이 다소 느리게 되는 일을 감수해야한다. 티스토리에서 사용하기 위해, "스킨"-"직접올리기" 메뉴를 통해 스타일시트, 스크립트, 플래시 파일을 업로드 한다.(희한하게도 전부 images 디렉토리에 올라간다.) 그 이후 HTML/CSS 편집을 통해 경로 설정을 해 주었다.

Usage를 따라서 설정을 해 두고, Making it Work 부분에서 처럼 shCore.js가 다른 언어 자바스크립트의 상단에 위치해야 한다. 그 밑에 두 줄에서

<script language="javascript">
  dp.SyntaxHighlighter.ClipboardSwf = '/flash/clipboard.swf';
  dp.SyntaxHighlighter.HighlightAll('code');
</script>
가 있는데, clein의 comment처럼

<script language="javascript">
  window.onload = function () {
    dp.SyntaxHighlighter.ClipboardSwf = '/flash/clipboard.swf';
    dp.SyntaxHighlighter.HighlightAll('code');
}
</script>
로 바꾸어야 제대로 작동했다. 티스토리 편집기에서 HTML 모드로 편집하다가, WYSIWYG 모드로 바꾸니깐, 소스 코드 부분에서 줄 바꿈을 했던 부분에 <br />이 강제로 붙어서 소스가 한 줄로 표현되어버리는 현상을 겪었다. HTML 등의 소스코드를 쓸 때 <(less than) 부등호는 &lt;으로, >(greater than) 부등호는 &gt;으로 바꾸어서 써 줄 필요가 있다.
신고
Posted by 세레

카테고리

분류 전체보기 (445)
Science (283)
ars boni et aequi (53)
Routine (83)
Language (23)
Q&A (1)
me2day (1)

달력

«   2017/08   »
    1 2 3 4 5
6 7 8 9 10 11 12
13 14 15 16 17 18 19
20 21 22 23 24 25 26
27 28 29 30 31    

티스토리 툴바