중국어에서 글을 쓸 때 단어 사이에 공백을 넣으면 어떨까요? 중요한 작은 일들 크든 작든.

16

저는 MySQL 전체 텍스트 검색이 일본어, 중국어 텍스트는 물론 다른 언어에서도 작동하도록 만들고 싶습니다. 문제는 이러한 언어와 아마도 다른 언어에는 일반적으로 단어 사이에 공백이 없다는 것입니다. 텍스트와 동일한 문장을 입력해야 하는 경우에는 검색이 유용하지 않습니다.

영어도 작동해야 하기 때문에 각 문자 사이에 공백을 넣을 수는 없습니다. 이 문제를 PHP나 MySQL로 해결하고 싶습니다.

자체 인덱스가 되어야 하는 문자를 인식하도록 MySQL을 구성할 수 있습니까? 색인 주변의 공백을 버릴 수 있도록 이러한 문자를 인식할 수 있는 PHP 모듈이 있습니까?

부분적인 해결책:

$string_with_spaces = preg_replace("/[".json_decode(""\u4e00"")."-".json_decode(""\uface"")."]/", " $0 ", $string_without_spaces);

이렇게 하면 구체적으로 처리해야 하는 최소한 일부 문자에서 문자 클래스가 만들어집니다. 색인된 텍스트를 건너뛰는 것이 허용된다는 점을 언급해야 할 것 같습니다.

프로브에 삽입해야 하는 모든 문자 범위를 아는 사람이 있습니까?

또한 PHP에서 이러한 문자를 표현하는 더 좋고 이식 가능한 방법이 있어야 합니까? 리터럴 유니코드의 소스 코드는 완벽하지 않습니다. 모든 문자를 인식할 수는 없습니다. 내가 사용해야 하는 모든 컴퓨터에 표시되지 않을 수도 있습니다.

3

단어 사이에 공백을 사용하지 않는 다른 현대 언어로는 태국어, 라오스어, 크메르어(캄보디아), 버마어(미얀마)가 있습니다. 베트남어에서는 외국어를 제외한 모든 음절 사이에 공백을 사용하는 것과 관련된 문제가 있다. - 히피트레일 12월 18일 10 2010-12-18 12:48:10

  • 답변 2개
  • 정렬:

    활동

15

언급된 언어에 대한 단어 위반이 필요합니다. 언어적 접근 , 예를 들어 다음을 사용하는 것 사전기본적인 이해와 함께 발생하는 규칙.

나는 각 개별 문자를 중국어의 별도 단어로 간단히 분리하고 최종 사용자가 제공한 검색 기준의 동일한 "토큰화"를 적용하는 비교적 성공적인 전체 텍스트 검색 응용 프로그램에 대해 들었습니다. 그런 다음 검색 엔진은 검색 기준과 동일한 순서로 단어 문자를 제공하는 문서에 대해 더 나은 순위를 제공합니다. 히라카나와 가타가나 문자 세트를 사용하면 짧은 알파벳이 있는 유럽 언어와 텍스트가 더 유사해지기 때문에 이것이 일본어와 같은 언어로 확장될 수 있는지 잘 모르겠습니다.

편집하다:
자원
이 단어는 문제뿐만 아니라 관련 문제를 세분화하는 것입니다. 사소하지 않은그것에 관해 책 전체가 쓰여졌다는 것입니다. 예를 들어 CJKV 정보 처리를 참조하세요(CJKV는 중국어, 일본어, 한국어 및 베트남어를 의미하며 많은 텍스트에서 베트남어에 대해 논의하지 않으므로 CJK 키워드를 사용할 수도 있습니다). 이 주제에 대한 한 호출기에서는 일본어 단어 분리가 어렵다는 것도 참조하세요.
이 주제를 다루는 대부분의 자료는 모국어의 주요 언어 중 하나로 작성되었으므로 해당 언어에 상대적으로 능숙하지 않은 사람들에게만 제한됩니다. 이러한 이유로 검색 엔진을 테스트하는 데 도움이 되도록 단어 분리 논리 구현을 시작한 후에는 원어민 한두 명에게 도움을 구해야 합니다.

다양한 아이디어
당신의 아이디어 break라는 단어를 체계적으로 암시하는 특징을 식별합니다.(따옴표, 괄호, 하이픈 같은 기호 등)이 좋으며 이는 아마도 일부 전문적인 단어 분리에서 사용되는 경험적 방법 중 하나일 것입니다. 그러나 일화적인 발견을 바탕으로 처음부터 목록을 작성하기보다는 그러한 목록에 대한 평판이 좋은 출처를 찾아야 합니다.
관련된 아이디어는 단어를 다음과 같이 나누는 것입니다. 가나에서 한자로의 전환(하지만 그 반대는 아닐 것 같아요) 그리고 아마도 히라가나-가타카나또는 그 반대의 전환.
깨진 올바른 문자와 관련 없이, 색인은 각 히라가나 문자를 해당 가타카나 문자로 체계적으로 변환함으로써 이점을 얻을 수 있습니다 [-또는 그렇지 않을 수도 있습니다- ;-)]. 교육받지 못한 생각일 뿐이에요! 나는 이것이 도움이 될지 알기에는 일본어에 대해 충분히 알지 못합니다. 직관적으로 이것은 여러 유럽 언어에서 실행되는 것처럼 악센트가 있는 문자를 체계적으로 변환하여 그에 상응하는 악센트가 없는 문자로 변환하는 것과 느슨하게 관련되어 있습니다.

아마도 개별 문자를 체계적으로 색인화하고 검색어에 대한 근사치를 기준으로 검색 결과의 순위를 매기는 것에 대해 앞서 언급한 아이디어가 약간 수정될 수 있습니다. 예를 들어 연속된 가나 문자를 함께 유지한 다음 다른 규칙을 사용하여 불완전하게 만들 수 있습니다. 하지만 매우 실용적인 검색 엔진입니다.

그렇지 않은 경우에도 실망하지 마십시오... 앞서 언급했듯이 이것은 결코 사소한 일이 아니며 잠시 멈춰서 한두 권의 책을 읽으면 장기적으로 시간과 비용을 절약할 수 있습니다. "이론"과 모범 사례에 대해 더 많이 배우려고 노력하는 또 다른 이유는 현재 당신이 집중하고 있는 것처럼 보인다는 것입니다. 위반하는 말 하지만 가까운 시일 내에 검색 엔진도 다음과 같은 이점을 누릴 수 있습니다. 결과적 의식 ; 실제로 이 두 질문은 적어도 언어적으로 관련이 있으며 동시에 처리할 때 유용할 수 있습니다.

이 불쾌하지만 가치 있는 노력에 행운이 있기를 바랍니다.

0

@Joe: 천만에요. 나는 언어학과 NLP에 관심이 있는 것 같지만 CJK 언어에 대한 지식은 거의 없습니다. 검색에 도움이 될 수 있는 몇 가지 키워드와 온라인 링크를 추가한 내 편집 내용을 읽어보세요. 행운을 빕니다 :-) - mjv 10월 22일 09

구두점은 모든 언어의 필수적인 부분입니다. 평범한 쉼표는 문장의 의미를 근본적으로 바꿀 수 있습니다. "처형은 용서할 수 없습니다."라는 이야기를 기억하십시오. 그리고 번역가와 편집자의 작업에는 최소한 두 가지 구두점 시스템에 능숙해야 합니다.

이 게시물의 아이디어는 기사 번역에 대해 논의하던 중 탄생했습니다. 원본 자료에서 백분율 기호는 숫자와 공백으로 구분되어 있었고 이것이 내 눈에 띄었습니다. 이 경우 러시아어 텍스트에서는 공백이 사용되지 않습니다(문은 여전히 ​​논란의 여지가 있지만 전문가는 이에 도달하지 않았습니다) 이 문제에 대한 합의). 그러다가 우리는 그것에 대해 이야기해야겠다고 결정했습니다. 다국어 현지화 부서의 전문가들이 외국 동료들을 인터뷰하고 자료를 준비하여 이제 여러분과 공유합니다. 이 정보가 도움이 되기를 바랍니다.

처음과 끝에서

문장에서 마침표, 쉼표, 콜론, 세미콜론, 물음표 및 느낌표와 같은 구두점 배치가 어떻게 진행되는지 살펴보겠습니다.

우리는 모두가 러시아어에 대해 기억하기를 바랍니다. 문장을 서로 구분하는 구두점은 끝, 마침표에만 배치됩니다. 표현을 추가해야 하는 경우(특히 개인 서신에서) "!!!", "?!"와 같은 문자 조합이 사용됩니다. 등등. 영어, 독일어, 이탈리아어, 캐나다 프랑스어, 아랍어, 브라질 포르투갈어에서는 점, 타원 및 해당 "동지"가 동일한 규칙을 따릅니다.

프랑스어의 기타 규칙: 콜론, 세미콜론, 느낌표 및 물음표 앞에는 줄 바꿈 없는 공백이 옵니다.

스페인어는 우리가 선택한 언어 중 문장 부호가 문장의 틀을 이루는 유일한 언어입니다. 구문 시작 부분에 물음표와 느낌표가 "약간" 반전된 형태인 "¿" 및 "¡"로 중복됩니다.

중국인은 유럽인의 관점에서 구두점에 대해 가장 특이한 접근 방식을 가지고 있습니다. 마침표는 。, 쉼표는 ,, 느낌표는 !, 물음표는 ?와 같습니다. 문장에서 그들은 러시아어 대응 문자처럼 작동합니다. 유일한 차이점은 모든 문장 부호 문자가 2바이트이기 때문에 중국어는 공백을 사용하지 않는다는 것입니다. 키보드에 입력된 상형문자는 라틴 알파벳 문자보다 두 배 더 넓습니다. 따라서 구두점은 일반적으로 상형 문자와 동일한 공간을 차지합니다. 이 기능은 DOS를 실행하는 이전 IME에서 작업한 사용자가 백스페이스 키를 두 번 눌러 잘못 입력된 상형 문자를 제거할 때 발생했습니다. 공백은 주로 영어 등 다른 언어의 단어와 문자를 구분하는 데 사용됩니다.

귀여운 특징

러시아어에서는 하이픈이나 대시가 사용됩니다. 하이픈은 길이가 짧아 복합어를 전달하고 연결하는 데 꼭 필요합니다. 대시가 훨씬 더 깁니다. 의미 부분을 분리하는 역할을 합니다: 다른 문장, 한 문장의 두 부분, 대화 등. 러시아어 교과서를 보면 이러한 기호 사용의 모든 미묘함을 기억할 수 있습니다.

하이픈과 대시는 영어, 독일어, 프랑스어, 브라질 포르투갈어에서도 비슷한 조건으로 존재합니다. 게다가 미국 영어에서는 대시가 양쪽에 공백으로 구분되어 있지만 영국 영어에서는 일반적으로 그렇지 않습니다.

이번 달 이 주제에 대한 세 번째 강의에는 다양한 국가의 연사가 포함될 예정입니다. (미국식 영어)

동물원에는 사자, 표범, 호랑이, 재규어, 치타 등 고양이가 너무 많아서 좋아하는 고양이를 선택하기가 매우 어려웠습니다. (영국식 영어)

스페인어, 이탈리아어, 아랍어에서는 하이픈과 대시가 동일하게 보입니다("-"). 중국인은 하이픈을 전혀 사용하지 않고 대시만 사용합니다. 라틴 알파벳 문자 옆에는 하이픈, 긴 대시 및 중간 대시가 있을 수 있습니다. 하이픈은 길이가 짧아 복합어를 전달하고 연결하는 데 꼭 필요합니다. 대시가 훨씬 더 깁니다. 의미 부분을 분리하는 역할을 합니다.

언어 하이픈 엠 대시(Alt 0151)
러시아인
영국식 미국식예, 하이픈 연결 및 복합어 결합용예, 의미 부분을 분리하려면: 다른 문장, 한 문장의 두 부분, 대화 등.
영어
영국인
예, 하이픈 연결 및 복합어 결합용예, 의미 부분을 분리하려면: 다른 문장, 한 문장의 두 부분, 대화 등. 양쪽에 공백으로 구분되지 않습니다.
독일 사람예, 하이픈 연결 및 복합어 결합용예, 의미 부분을 분리하려면: 다른 문장, 한 문장의 두 부분, 대화 등.
프랑스 국민예, 하이픈 연결 및 복합어 결합용예, 의미 부분을 분리하려면: 다른 문장, 한 문장의 두 부분, 대화 등.
프랑스계 캐나다인예, 하이픈 연결 및 복합어 결합용예, 의미 부분을 분리하려면: 다른 문장, 한 문장의 두 부분, 대화 등.
스페인 사람예, 모든 경우에-
포르투갈 인
브라질 사람
예, 하이픈 연결 및 복합어 결합용예, 의미 부분을 분리하려면: 다른 문장, 한 문장의 두 부분, 대화 등.
이탈리아 사람예, 모든 경우에-
아라비아 사람예, 모든 경우에-
중국인라틴 알파벳 문자 옆에만예, 모든 경우에
짝을 이루는 문자 유형


따옴표는 모든 언어에 존재하지만 민족 의상처럼 다르게 보입니다. 러시아어에는 프랑스어에서 온 전통적인 "크리스마스 트리"와 따옴표 안의 문구와 손으로 쓸 때 사용되는 독일어 "발"이 있습니다. 스페인어, 브라질 포르투갈어, 이탈리아어 및 아랍어는 큰따옴표를 사용합니다.

영어에서는 '단일' 및 '이중' 따옴표를 사용합니다. 첫 번째는 제목에, 두 번째는 인용에 사용됩니다. 마침표와 쉼표는 따옴표 안에 있습니다. 프랑스어 텍스트에는 "헤링본"이 있지만 러시아어와 한 가지 차이점이 있습니다. 인용된 텍스트의 시작 부분과 열린 인용 부호 사이, 그리고 문구 끝과 닫는 인용 부호 사이에 연속적인 공백이 있습니다.

중국어에는 서로 다른 용도로 사용되는 세 가지 유형의 따옴표가 있습니다. 이는 책, 영화 및 기타 저자 작품의 이름입니다. 그 외의 경우에는 중국인은 「such」를 사용합니다. 유럽 ​​전통의 따옴표(“크리스마스 트리”, “발”, “싱글” 또는 “더블”)는 번역본이나 유럽 언어의 문구와 함께 사용되는 경우에만 찾을 수 있습니다. 그들은 중국어 번체에서는 인기를 얻지 못했습니다.

따옴표는 모든 언어에 존재하지만 민족 의상처럼 다르게 보입니다.

언어«…» „…“ “…” ‘…’ 《…》 「…」
러시아인표준, 마침표 및 쉼표 외부따옴표 안의 문구와 손으로 쓰는 경우의 대체 표현손으로 쓸 때의 대안- - -
영어
미국 사람
- - 제목 표준- -
영어
영국인
- - 인용시에는 마침표와 쉼표를 원칙으로 함제목 표준- -
독일 사람- 기준- - - -
프랑스 국민따옴표 열기 및 닫기 앞의 표준, 줄바꿈하지 않는 공백- - - - -
스페인 사람- - 기준- - -
포르투갈 인
브라질 사람
- - 기준- - -
이탈리아 사람- - 기준- - -
아라비아 사람- - 기준- - -
중국인번역에서만 또는 유럽 언어의 문구와 함께 사용번역에서만 또는 유럽 언어의 문구와 함께 사용번역에서만 또는 유럽 언어의 문구와 함께 사용책, 영화 및 기타 저작물의 제목에 대한 표준기타 경우의 기준
상징주의

백분율과ppm도 특별히 표준은 아닙니다. 독일어, 프랑스어, 스페인어에서는 이러한 문자를 줄바꿈하지 않는 공백으로 구분해야 합니다. 러시아어, 영어, 이탈리아어, 아랍어, 브라질 포르투갈어로는 숫자 바로 뒤에 쓰세요. 우리가 기억하는 것처럼 러시아인의 경우 상황은 모호합니다.

도와 인치는 일반적으로 공백 없이 숫자 뒤에 배치됩니다.

흥미로운 사실: 프랑스인들은 큰 숫자를 쓸 때 세 자리 숫자 블록을 공백으로 구분합니다. 예: 987,654,321.12.

중국어에는 도(도)와 백분율(百分比 및 百分之)에 대한 자체 문자가 있습니다. 그러나 일반적인 °와 %는 앞에 공백 없이 함께 사용됩니다.

대화 설정

대화 형식도 언어마다 다릅니다. 러시아어에서는 각 줄 앞에 엠 대시를 넣습니다. 브라질 포르투갈어 사용자도 마찬가지입니다.

영어에서는 "큰따옴표"와 "작은따옴표"가 사용됩니다. 예를 들면 다음과 같습니다.

마리나는 사이먼에게 여행가방을 건네며 말했습니다. “여기 백만 파운드가 있어요.

마리나는 계속해서 이렇게 말했습니다. '이반과 이야기를 나눴는데 그는 "사이먼이 천만 달러를 요구하는데 그건 너무 많은 것 같아요."라고 말했습니다.'

독일어에서는 대화 형식이 전통적인 따옴표인 "발"을 사용하여 지정됩니다. 프랑스인들은 줄의 작성자가 변경되는 경우에 짧은 대시뿐만 아니라 "헤링본"도 사용합니다. 대화의 일부는 스페인어에서도 엔 대시로 구분됩니다.

이탈리아어와 아랍어는 대화에 큰따옴표를 사용합니다.

중국인은 대개 대화에 '따옴표'나 이에 상응하는 영어만 사용합니다.

크든 작든


영어, 프랑스어, 스페인어, 포르투갈어, 브라질어 및 이탈리아어에서는 모든 것이 러시아어 사용자에게 간단하고 친숙합니다. 대문자는 문장 시작 부분, 약어 및 고유명사에 사용됩니다.

독일어가 훨씬 더 재미있어요. 명사, 이름, 직함, 호칭(Sie)은 모든 대소문자(Ihr, Ihre, Ihrer, Ihres, Ihrem, Ihren)에서 대문자로 표기합니다. 문장에서 정관사(das Gute) 또는 부정관사(ein Lächeln), 전치사(Blau), 대명사(dein Stottern), 수사(nichts Aufregendes) 또는 형용사와 함께 명사로 사용되는 형용사, 분사 및 부정사 굴절형(Sprechen 칭찬). 그냥 모든 것 :-)

아랍어 알파벳은 소문자와 대문자를 구분하지 않지만 대부분의 문자에는 두 개, 세 개, 네 개의 서로 다른 철자가 있습니다. 즉, 단어의 시작, 중간, 끝 부분에 사용되며 때로는 단어 밖의 단일 문자에 사용됩니다. 중국어에서도 비슷한 상황이 발생했습니다. 소문자나 대문자를 구별하는 것이 불가능할 것 같습니다. 그리고 중국 저자가 텍스트의 특정 부분을 강조해야 할 경우 밑줄을 긋거나 볼드체를 사용합니다.

중국에서 프로젝트를 진행했거나 중국에서 캠페인을 펼친 사람이라면 중국의 디자인 아이디어가 서양의 디자인 아이디어와 다르다는 것을 알고 있을 것입니다. 멀리서 사례를 찾을 필요가 없습니다. 중국에서 국제 브랜드를 위해 일하거나 중국에서 판매되는 제품을 만드는 경우 Baidu.com 또는 QQ.com을 통해 귀하의 브랜드가 중국 온라인에서 어떻게 표현되는지 확인하세요. 공간.

가장 큰 차이점은 사이트가 매우 복잡해 보인다는 것입니다. 페이지를 읽을 수 없게 만드는 것처럼 보이는 많은 텍스트, 링크, 심지어 애니메이션까지.

디지털 혼란처럼 보일 수도 있지만 중국 웹사이트는 여러 가지 이유로 그렇게 설계되었습니다. 중국에서 사업을 시작할 계획이라면 현지 웹 경험을 익히는 것이 좋습니다.

중국어는 전혀 다르다

먼저, 알아야 할 몇 가지 사실은 다음과 같습니다.

1. 중국어에는 대문자가 없습니다. 서양 독자들은 문장의 시작과 끝을 찾기 위해 텍스트에서 대문자를 식별하도록 훈련받았습니다. 이것이 바로 중국 사이트가 비슷한 문자 집합처럼 보이는 이유입니다.

2. 문자 사이에는 공백이 없습니다. 서양 언어는 단어를 구분하기 위해 공백을 사용하는데, 이는 중국어도 사용하지 않는 것입니다. 여기서 긴 문자열은 완전히 정상이지만 서양 사용자에게는 혼란을 줍니다.

3. 반죽 좀 해보셨나요?원칙적으로 모든 것이 명확하지 않습니까? 글자가 반대인 단어는 첫 글자와 마지막 글자가 올바른 위치에 있고 완전히 거꾸로 쓰여지지 않는 한 읽기 쉽습니다. 이 때문에 사람들은 단어 하나하나를 읽기보다 눈으로 텍스트를 훑어봅니다. 그러나 같은 방식으로 중국어 텍스트를 훑어볼 수 없기 때문에(문자가 익숙하지 않다고 가정), 그러한 문자의 행은 특히 혼란스러워 보입니다.

4. 한자는 라틴어나 키릴 문자보다 훨씬 더 "밀도"가 높습니다. 즉, 한 문자에 평균 획이 1~2개 있는 데 비해 10개의 획이 있습니다. 이로 인해 서양 사용자에게는 중국어 텍스트가 "오버로드"된 것처럼 보입니다.

다음으로 당황스러운 특징은 전형적인 중국 웹사이트가 하나의 큰 링크처럼 보인다는 것입니다. Sohu.com에서는 문자 그대로 모든 문자가 링크의 일부입니다.

이에 대해서는 두 가지 이론이 있습니다. 첫 번째는 한자는 알파벳 키보드로 입력하기 어려워 검색창을 이용하는 대신 링크를 클릭하는 경향이 있다는 점이다.

한자를 입력하는 것은 문자를 그리거나 서양 문자를 사용하여 병음을 표기하는 것을 포함하기 때문에 이는 상당히 합리적입니다.

상형문자가 작성되거나 그 필사본이 인쇄된 후에는 사용자가 올바른 기호를 선택해야 하는 기호 옵션이 나타납니다. 검색을 위해 이 작업을 계속 반복하는 것은 꽤 어려운 것 같습니다.

그러나 또 다른 이론이 있습니다. 그리고 중국의 Google 검색 기능을 제공하는 검색 엔진 Baidu의 인기를 고려하면 이를 믿을 만한 이유가 있습니다. 이 이론에 따르면, 많은 중국인은 여전히 ​​저속 인터넷을 사용하고 있습니다. Akamai 연구의 통계를 통해 이를 확인할 수 있습니다.

국가 및 인터넷 속도에 따른 온라인 인구 비율: 4MB/초 미만, 4MB/초 이상, 10MB/초 미만, 10MB/초 이상

보시다시피 중국인의 3분의 2는 4Mbps 미만의 연결 속도로 인터넷을 사용합니다. 이는 전 세계 평균 속도보다 훨씬 낮으며 서구 국가에서는 거의 찾아볼 수 없는 속도입니다.

결론적으로 인터넷 속도가 상대적으로 느리기 때문에 링크가 많은 한 페이지를 로드한 다음 새 탭에서 여는 것이 합리적입니다. 이를 통해 사용자는 페이지를 한 번에 하나씩 로드하기 위해 고통스럽게 오래 기다릴 필요 없이 페이지를 병렬로 탐색할 수 있습니다. 전화 접속 인터넷 연결을 기억하는 사람들은 우리가 말하는 내용을 이해할 것입니다.

마지막으로, 중국 웹사이트에서는 깜박이는 텍스트와 배너를 많이 사용합니다.

그 이유는 서양의 텍스트보다 중국어의 다른 글꼴을 사용하여 관심을 끌기가 훨씬 더 어렵기 때문인 것 같습니다. 여기에는 다음과 같은 여러 가지 이유가 있습니다.

1. 한자의 글꼴은 몇 가지 밖에 없습니다.
2. 이탤릭체는 존재하지 않으며 볼드체는 일반적으로 사용되지 않습니다.
3. 최소 글꼴 크기 - 12픽셀

더욱이 (그리고 여기서 우리는 문화적 요소로 전환합니다) 중국인은 서구인보다 번쩍이는 그래픽에 덜 관심이 있는 것 같습니다. 결과적으로 우리에게 과부하처럼 보이는 것은 그들에게는 정상입니다.

게다가 서양 사이트에 팝업이 표시되면서 중국 리소스는 더 이상 예전처럼 다르게 보이지 않습니다.

결론적으로

중국어는 세계에서 가장 오래된 문자 언어 중 하나입니다. 그 역사는 적어도 3천년 전으로 거슬러 올라간다. 이에 대한 비문은 상 왕조(BC 1766-1123)의 대모갑에서 발견되었습니다.

한문의 역사

중국어 문자는 수메르어나 이집트어보다 젊지만 중왕국의 문자 발명이 어떤 식으로든 근동 문자에 의해 자극을 받았다는 증거는 없습니다. 한자의 가장 초기 예는 뼈와 조개에 적힌 점술입니다. 그것은 점술가에게 묻는 질문과 그에 대한 대답으로 구성됩니다. 이 초기 글은 초기에는 그림 문자를 기반으로 했음을 보여줍니다. 예를 들어, '소'라는 단어는 동물의 머리로 묘사되었고, '걷다'라는 단어는 발의 그림으로 묘사되었습니다.

그러나 시간이 지남에 따라 중국어 문자는 많은 변화를 겪었고, 그 무렵(기원전 206년 - 서기 220년)에는 비유적인 성격이 대부분 사라졌습니다. 현대 상형문자는 서기 3세기와 4세기에 형성되었습니다. 이자형. 놀랍게도 그 후에도 거의 변하지 않았습니다. 표준양식 외에도 손으로 직접 작성한 양식도 있습니다. 가장 흔한 것은 Tsaoshu와 Xingshu입니다. 첫 번째 유형은 특별한 훈련을 받지 않은 사람들이 읽기가 매우 어렵습니다. Xingshu는 Caoshu의 빠른 속도와 표준 쓰기 사이의 일종의 절충안입니다. 이 형식은 현대 중국에서 널리 사용됩니다.

중국어에는 몇 개의 문자가 있습니까?

어휘의 각 형태소를 표현하기 위해 중국어는 단일 구별 문자를 사용합니다. 대다수의 기호는 의미론적 의미를 지닌 음성 소리의 서면 버전입니다. 비록 문자 체계가 혁명과 정치적 격변으로 인해 시간이 지나면서 바뀌었지만 그 원리와 상징은 본질적으로 동일하게 유지되었습니다.

중국어 단어 문자는 원래 사람, 동물 또는 사물을 묘사했지만, 수세기에 걸쳐 점점 양식화되어 더 이상 그들이 표현하는 것과 닮지 않게 되었습니다. 그 중 약 56,000개가 있지만 그 중 대다수는 일반 독자에게 알려지지 않았습니다. 글을 읽으려면 그 중 3,000개만 알면 됩니다. 아마도 이 수치는 중국어에 몇 개의 문자가 있는지에 대한 질문에 가장 확실하게 답할 것입니다.

단순화된 로고그램

1956년 수천자 학습 문제는 한자 표기의 단순화로 이어졌다. 그 결과, 약 2000개의 로고그램이 읽고 쓰기가 더 쉬워졌습니다. 그들은 또한 해외 중국어 수업에서도 가르칩니다. 이러한 기호는 더 간단합니다. 즉, 기존 기호보다 그래픽 요소가 적습니다.

간체 문자는 수백 년 동안 존재해 왔지만, 1950년대 중화인민공화국이 건국된 이후 읽고 쓰는 능력을 향상시키기 위해 공식적으로 문자에 포함되었습니다. 단순화된 로고그램은 인민일간지인 인민일보에서 사용되며, 뉴스와 영상의 자막에도 사용됩니다. 그러나 올바르게 쓰는 사람들은 전통적인 버전을 모를 수도 있습니다.

이 시스템은 중국(홍콩 제외)과 싱가포르에서 표준이며, 중국어 번체는 홍콩, 대만, 마카오, 말레이시아, 한국, 일본 및 기타 국가에서 계속 표준으로 사용됩니다.

음성 문자

광둥어 사용자들은 자신만의 음성 기호 시스템을 개발했습니다. 이러한 문자는 전통 한자 외에도 만화책이나 신문, 잡지의 연예 섹션 등에서 사용됩니다. 종종 이러한 상형문자는 사전에서 찾을 수 없습니다. 비공식 로고를 사용하여 전달합니다.

병음

중국은 서양인들이 중국어를 더 쉽게 이해할 수 있도록 병음 시스템을 개발했습니다. 이는 단어를 전달하는 데 사용됩니다. 1977년 중국 당국은 유엔에 병음 체계를 사용하여 중국의 지리적 위치를 지정해 줄 것을 공식 요청했습니다. 병음은 라틴 알파벳에 더 익숙하고 중국어를 배우는 사람들이 사용합니다.

중국어를 쓸 때 띄어쓰기를 하면 좋은 점

1. 가독성 향상: 단어 경계를 추가하면 중국어 텍스트를 읽을 때 인지 부하가 ​​줄어듭니다. 공백 없이 텍스트를 쓰면 독자는 단어가 시작하고 끝나는 위치를 분석하는 동시에 텍스트의 의미를 이해하려고 노력해야 하므로 이미 어려운 작업이 복잡해집니다.

2. 중국어로 작성된 텍스트의 보다 정확한 기계 처리: 중국어 텍스트 처리를 시작하려면 먼저 텍스트를 분할해야 합니다. 이는 상형문자를 사용하는 언어를 처리할 때 쉬운 작업이 아니다. 매우 정확하지 않은 빠른 기계 방법(~90%)과 보다 정확한 느린 방법(~94-97%)이 있지만 완벽한 방법은 없습니다.
중국어 글에 단어 사이에 공백이 있으면 분할이 필요하지 않으며 중국어 텍스트를 기계로 처리하는 것이 훨씬 쉬워질 것입니다. 결과적으로 중국어 번역 작업이 크게 단순화됩니다.

3. 학생들이 중국어를 더 쉽게 배울 수 있도록: 단어 사이에 공백이 있으면 단어와 문장을 더 쉽게 이해할 수 있습니다. 처음 중국어를 배울 때는 단어 사이에 공백이 없어 단어 경계를 이해하기 어려워 사전에 없는 단어를 찾는 데 많은 시간을 보냈습니다. 단어 사이에 공백을 도입하면 중국어 학습자가 더 빠르고 효율적으로 어휘를 쌓을 수 있습니다.

중국어 텍스트에서 단어 사이에 공백이 필요하지 않은 이유는 무엇입니까?

1. 단어란 무엇입니까? 중국어에서 '단어'의 개념은 상당히 모호합니다. 단어의 시작과 끝은 어디입니까? 러시아어(및 알파벳을 기반으로 하는 다른 언어) 원어민에 대한 간단한 질문은 중국어 원어민을 혼란스럽게 할 수 있습니다. 예를 들어, 과거형을 나타내는 조사 了는 단어의 일부로 간주되어야 합니까?
예를 들어, 小刘来了 문장에서 공백을 넣을 위치 - 小刘_来了 또는 小刘来_了? 단어 사이에 공백이 있는 텍스트를 읽는 데 익숙하지 않은 중국어 사용자에게 공백을 삽입하는 것은 복잡할 뿐입니다. 글로 쓰여진 언어에 대한 이해.

2. 전통: 중국어 문자는 3,000년 이상 존재해 왔으며 이 기간 동안 단어 사이의 공백은 도입되지 않았습니다. 왜 지금 소개합니까?

3. 중국어 텍스트는 단어 사이에 공백이 없어 더 아름답게 보입니다. 공간을 도입하면 중국어 학습자가 이해하기 쉬워지겠지만, 이제 막 배우는 사람의 편의를 위해 언어 체계를 적용하는 사람은 아무도 없습니다.

추신 1.고대 유럽 텍스트에도 단어 사이에 공백이 없었습니다.

추신 2:러시아어에서는 공백이 없으면 진술의 의미가 바뀌기 때문에 공백이 필요합니다.
비교: Absurd_things 및 Carrying_ Different_things.

추신 3.:러시아어 텍스트도 공백 없이 쓰면 원어민이 완벽하게 이해합니다. 하지만 나중에는 우리의 뇌가 적응합니다.