क्या होगा यदि चीनी भाषा में लिखते समय शब्दों के बीच रिक्त स्थान रखा जाए? महत्वपूर्ण छोटी चीज़ें, बड़ी या छोटी.

16

मैं MySQL पूर्ण पाठ खोज को जापानी और चीनी पाठ के साथ-साथ किसी भी अन्य भाषा के साथ काम करना चाहूंगा। समस्या यह है कि इन भाषाओं में, और शायद अन्य भाषाओं में, आमतौर पर शब्दों के बीच जगह नहीं होती है। जब आपको पाठ में वही वाक्य दर्ज करना हो तो खोज उपयोगी नहीं है।

मैं प्रत्येक पात्र के बीच रिक्त स्थान नहीं रख सकता क्योंकि अंग्रेजी में भी काम करना होगा। मैं इस समस्या को PHP या MySQL के साथ हल करना चाहूंगा।

क्या मैं उन वर्णों को पहचानने के लिए MySQL को कॉन्फ़िगर कर सकता हूं जो उनकी अपनी अनुक्रमणिका होनी चाहिए? क्या कोई PHP मॉड्यूल है जो इन वर्णों को पहचान सकता है ताकि मैं इंडेक्स के चारों ओर रिक्त स्थान निकाल सकूं?

आंशिक समाधान:

$string_with_spaces = preg_replace("/[".json_decode(""\u4e00"")."-"।json_decode(""\uface"")."]/", " $0 ", $string_without_spaces);

यह कम से कम कुछ ऐसे पात्रों का चरित्र वर्ग बनाता है जिनका मुझे विशेष रूप से इलाज करने की आवश्यकता है। मुझे शायद यह उल्लेख करना चाहिए कि अनुक्रमित पाठ को छोड़ना स्वीकार्य है।

क्या कोई उन सभी प्रकार के वर्णों को जानता है जिन्हें मुझे जांच में सम्मिलित करने की आवश्यकता होगी?

साथ ही, PHP में इन वर्णों का प्रतिनिधित्व करने का एक बेहतर, पोर्टेबल तरीका होना चाहिए? लिटरल यूनिकोड में स्रोत कोड सही नहीं है; मैं सभी पात्रों को नहीं पहचानता; हो सकता है कि वे उन सभी मशीनों पर दिखाई न दें जिनका मुझे उपयोग करने की आवश्यकता है।

3

अन्य आधुनिक भाषाएँ जो शब्दों के बीच रिक्त स्थान का उपयोग नहीं करती हैं वे हैं थाई, लाओ, खमेर (कम्बोडियन), और बर्मीज़ (म्यांमार)। वियतनामी में, एक संबंधित समस्या यह है कि विदेशी शब्दों को छोड़कर सभी अक्षरों के बीच रिक्त स्थान का उपयोग किया जाता है। - हिप्पीट्रेल 18 दिसंबर 10 2010-12-18 12:48:10

  • 2 उत्तर
  • छँटाई:

    गतिविधि

15

उल्लिखित भाषाओं के लिए शब्द उल्लंघन की आवश्यकता है भाषाई दृष्टिकोण , उदाहरण के लिए जो उपयोग करता है शब्दकोषबुनियादी समझ के साथ-साथ नियम उत्पन्न हो रहे हैं.

मैंने अपेक्षाकृत सफल पूर्ण-पाठ खोज अनुप्रयोगों के बारे में सुना है जो चीनी भाषा में प्रत्येक व्यक्तिगत चरित्र को एक अलग शब्द के रूप में अलग करते हैं, बस अंतिम उपयोगकर्ताओं द्वारा प्रदान किए गए खोज मानदंडों के समान "टोकनीकरण" को लागू करते हैं। खोज इंजन तब दस्तावेज़ों के लिए बेहतर रैंकिंग प्रदान करता है जो खोज मानदंड के समान क्रम में शब्द वर्ण प्रदान करता है। मुझे यकीन नहीं है कि इसे जापानी जैसी भाषाओं तक बढ़ाया जा सकता है, क्योंकि हिराकाना और कटगाना वर्ण सेट पाठ को लघु वर्णमाला के साथ यूरोपीय भाषाओं के समान बनाते हैं।

संपादन करना:
संसाधन
यह शब्द समस्याओं के साथ-साथ संबंधित मुद्दों को भी विघटित करने के लिए है गैर तुच्छइसके बारे में पूरी किताबें लिखी गई हैं। उदाहरण के लिए सीजेकेवी सूचना प्रसंस्करण देखें (सीजेकेवी का मतलब चीनी, जापानी, कोरियाई और वियतनामी है, आप सीजेके कीवर्ड का भी उपयोग कर सकते हैं क्योंकि कई पाठ वियतनामी पर चर्चा नहीं करते हैं)। यह भी देखें इस विषय पर एक पेजर के लिए जापानी में वर्ड ब्रेकिंग कठिन है।
यह स्पष्ट है कि इस विषय को कवर करने वाली अधिकांश सामग्री मूल भाषा में प्रमुख भाषाओं में से एक में लिखी गई है और इसलिए इन भाषाओं में सापेक्ष दक्षता के बिना लोगों तक ही सीमित है। इस कारण से, और खोज इंजन का परीक्षण करने में आपकी सहायता के लिए, एक बार जब आप वर्ड ब्रेक लॉजिक को लागू करना शुरू करते हैं, तो आपको एक या दो देशी वक्ताओं से मदद लेनी चाहिए।

विभिन्न विचार
आपका विचार उन विशेषताओं की पहचान करना जो व्यवस्थित रूप से शब्द विराम का संकेत देती हैं(मान लें कि उद्धरण, कोष्ठक, हाइफ़न-जैसे प्रतीक और ऐसे) अच्छे हैं, और यह संभवतः कुछ पेशेवर शब्द विरामों द्वारा उपयोग किया जाने वाला एक अनुमान है। हालाँकि, आपको ऐसी सूची को वास्तविक निष्कर्षों के आधार पर शुरू से संकलित करने के बजाय एक प्रतिष्ठित स्रोत की तलाश करनी चाहिए।
एक संबंधित विचार शब्दों को तोड़ना है काना-से-कांजी संक्रमण(लेकिन मैं इसका उल्टा अनुमान नहीं लगा रहा हूं), और शायद अंदर भी हीरागाना-से-कटकानाया इसके विपरीत परिवर्तन.
टूटे हुए सही से असंबंधित, सूचकांक प्रत्येक, मान लीजिए, हीरागाना चरित्र को संबंधित कटकाना चरित्र में व्यवस्थित रूप से परिवर्तित करने से लाभान्वित हो सकता है [-या नहीं भी- ;-)]। बस एक अशिक्षित विचार! मैं जापानी भाषा के बारे में इतना नहीं जानता कि यह जान सकूं कि इससे मदद मिलेगी या नहीं; सहज रूप से, यह उच्चारण वाले अक्षरों के व्यवस्थित रूपांतरण और इस प्रकार संबंधित गैर-उच्चारण लिपि में रूपांतरण से संबंधित होगा, जैसा कि कई यूरोपीय भाषाओं में अभ्यास किया जाता है।

शायद व्यक्तिगत चरित्र को व्यवस्थित रूप से अनुक्रमित करने (और खोज शब्द के अनुमान के आधार पर खोज परिणामों को रैंकिंग देने) के विचार को थोड़ा संशोधित किया जा सकता है, उदाहरण के लिए लगातार काना वर्णों को एक साथ रखकर और फिर कुछ अन्य नियम... और अपूर्ण बनाएं, लेकिन काफी व्यावहारिक खोज इंजन.

यदि ऐसा नहीं है तो निराश न हों... जैसा कि कहा गया है, यह मामूली बात नहीं है, और एक या दो किताबें रुककर पढ़ने से लंबे समय में आपका समय और पैसा बच सकता है। "सिद्धांत" और सर्वोत्तम प्रथाओं के बारे में अधिक जानने का प्रयास करने का एक अन्य कारण यह है कि इस समय आप जिस पर ध्यान केंद्रित कर रहे हैं उल्लंघन के शब्द लेकिन निकट भविष्य में सर्च इंजन को भी इससे फायदा हो सकता है परिणामी चेतना ; वास्तव में, ये दोनों प्रश्न कम से कम भाषाई रूप से प्रासंगिक हैं, और एक साथ संसाधित होने पर उपयोगी हो सकते हैं।

इस अप्रिय लेकिन सार्थक प्रयास के लिए आपको शुभकामनाएँ।

0

@जो: आपका स्वागत है। मुझे भाषा विज्ञान और एनएलपी में रुचि है, लेकिन सीजेके भाषाओं के बारे में बहुत कम जानकारी है। कुछ कीवर्ड और ऑनलाइन लिंक जोड़कर मेरा संपादन पढ़ें जो आपकी खोज में मदद कर सकता है :-) - एमजेवी 22 अक्टूबर 09

विराम चिह्न किसी भी भाषा का अभिन्न अंग होते हैं। एक साधारण अल्पविराम किसी वाक्य के अर्थ को मौलिक रूप से बदल सकता है: बस "निष्पादन को क्षमा नहीं किया जा सकता" की कहानी याद रखें। और अनुवादकों और संपादकों के काम के लिए आवश्यक है कि वे कम से कम दो विराम चिह्न प्रणालियों में पारंगत हों।

इस पोस्ट का विचार तब पैदा हुआ जब हम एक लेख के अनुवाद पर चर्चा कर रहे थे। स्रोत सामग्री में, प्रतिशत चिह्न को संख्या से एक स्थान द्वारा अलग किया गया था, और इसने मेरी नज़र को पकड़ लिया - इस मामले में रूसी पाठ में, एक स्थान का उपयोग नहीं किया गया है (हालांकि बयान अभी भी विवादास्पद है - विशेषज्ञ इस पर नहीं आए हैं) इस मुद्दे पर आम सहमति) फिर हमने तय किया कि हमें इस बारे में बात करने की जरूरत है।' बहुभाषी स्थानीयकरण विभाग के विशेषज्ञों ने हमारे विदेशी सहयोगियों का साक्षात्कार लिया और सामग्री तैयार की जिसे अब हम आपके साथ साझा करते हैं। हमें उम्मीद है यह आपको उपयोगी लगेगा।

आरंभ में और अंत में

आइए देखें कि एक वाक्य में विराम चिह्नों के स्थान पर चीजें कैसी होती हैं: अवधि, अल्पविराम, कोलन, अर्धविराम, प्रश्न चिह्न और विस्मयादिबोधक चिह्न।

हम आशा करते हैं कि हर किसी को रूसी भाषा के बारे में याद होगा - विराम चिह्न जो एक दूसरे से अलग वाक्यों को केवल अंत, अवधि में रखा जाता है। यदि आपको अभिव्यक्ति जोड़ने की आवश्यकता है (विशेषकर व्यक्तिगत पत्राचार में), तो वर्णों के संयोजन का उपयोग किया जाता है - "!!!", "?!" और जैसे। अंग्रेजी, जर्मन, इतालवी, फ्रेंच कनाडाई, अरबी और ब्राजीलियाई पुर्तगाली में, बिंदु, दीर्घवृत्त और उनके "कॉमरेड" समान नियमों का पालन करते हैं।

फ़्रेंच में अन्य नियम: कोलन, अर्धविराम, विस्मयादिबोधक चिह्न और प्रश्न चिह्न के पहले गैर-ब्रेकिंग रिक्त स्थान होते हैं।

हमारे चयन में स्पैनिश एकमात्र भाषा है जिसमें विराम चिह्न वाक्य बनाते हैं: एक वाक्यांश की शुरुआत में, प्रश्न और विस्मयादिबोधक चिह्न "थोड़ा" उल्टे रूप में दोहराए जाते हैं - "¿" और "¡"।

यूरोपीय दृष्टिकोण से विराम चिह्नों के प्रति चीनियों का दृष्टिकोण सबसे असामान्य है। उनका काल 。 जैसा दिखता है, अल्पविराम , जैसा दिखता है, विस्मयादिबोधक बिंदु ! जैसा दिखता है, और प्रश्न चिह्न ? जैसा दिखता है। एक वाक्य में, वे अपने रूसी समकक्षों की तरह व्यवहार करते हैं, एकमात्र अंतर यह है कि चीनी रिक्त स्थान का उपयोग नहीं करते हैं, क्योंकि सभी विराम चिह्न डबल-बाइट हैं। कीबोर्ड पर टाइप किया गया चित्रलिपि लैटिन वर्णमाला के किसी भी अक्षर से दोगुना चौड़ा है। इसलिए, विराम चिह्न आमतौर पर चित्रलिपि के समान ही स्थान घेरते हैं। इस सुविधा का सामना उन लोगों को करना पड़ा जो DOS चलाने वाले पुराने IME में काम करते थे, जब बैकस्पेस को दो बार दबाने पर गलत तरीके से दर्ज किया गया चित्रलिपि हटा दिया गया था। रिक्त स्थान का उपयोग मुख्य रूप से अंग्रेजी जैसी अन्य भाषाओं के शब्दों और वर्णों को अलग करने के लिए किया जाता है।

प्यारी विशेषताएँ

रूसी में, या तो हाइफ़न या डैश का उपयोग किया जाता है। हाइफ़न छोटा है और मिश्रित शब्दों को स्थानांतरित करने और जोड़ने के लिए आवश्यक है। डैश काफी लंबा है; यह अर्थपूर्ण भागों को अलग करने का कार्य करता है: विभिन्न वाक्य, एक वाक्य के दो भाग, संवादों में, आदि। आप रूसी भाषा की पाठ्यपुस्तक को देखकर इन संकेतों के उपयोग की सभी बारीकियों को याद कर सकते हैं।

अंग्रेजी, जर्मन, फ़्रेंच और ब्राज़ीलियाई पुर्तगाली में समान परिस्थितियों में हाइफ़न और डैश मौजूद हैं। इसके अलावा, अमेरिकी अंग्रेजी में डैश को दोनों तरफ रिक्त स्थान से अलग किया जाता है, लेकिन ब्रिटिश अंग्रेजी में यह आमतौर पर नहीं होता है:

व्याख्यान - जो इस महीने इस विषय पर तीसरा है - इसमें विभिन्न देशों के वक्ता शामिल होंगे। (अमेरिकी अंग्रेजी)

चिड़ियाघर में बहुत सारी बिल्लियाँ थीं - शेर, तेंदुआ, बाघ, जगुआर और चीता - जिससे पसंदीदा चुनना बहुत मुश्किल हो गया था। (ब्रिटिश अंग्रेजी)

स्पैनिश, इतालवी और अरबी में, हाइफ़न और डैश एक जैसे दिखते हैं: "-"। चीनी बिल्कुल भी हाइफ़न का उपयोग नहीं करते - उनके पास केवल डैश होते हैं। हालाँकि लैटिन वर्णमाला के अक्षरों के आगे हाइफ़न, लंबे डैश और मध्य डैश हो सकते हैं। हाइफ़न छोटा है और मिश्रित शब्दों को स्थानांतरित करने और जोड़ने के लिए आवश्यक है। डैश काफी लंबा है; यह अर्थपूर्ण भागों को अलग करने का कार्य करता है

बोली हैफ़ेन एम डैश (Alt 0151)
रूसी
अंग्रेजी अमेरिकीहाँ, संयुक्त शब्दों के संयोजन और संयोजन के लिएहां, अर्थपूर्ण भागों को अलग करने के लिए: विभिन्न वाक्य, एक वाक्य के दो भाग, संवादों में, आदि।
अंग्रेज़ी
ब्रीटैन का
हाँ, संयुक्त शब्दों के संयोजन और संयोजन के लिएहां, अर्थपूर्ण भागों को अलग करने के लिए: विभिन्न वाक्य, एक वाक्य के दो भाग, संवादों में, आदि। दोनों तरफ रिक्त स्थान से अलग नहीं किया गया।
जर्मनहाँ, संयुक्त शब्दों के संयोजन और संयोजन के लिएहां, अर्थपूर्ण भागों को अलग करने के लिए: विभिन्न वाक्य, एक वाक्य के दो भाग, संवादों में, आदि।
फ़्रेंचहाँ, संयुक्त शब्दों के संयोजन और संयोजन के लिएहां, अर्थपूर्ण भागों को अलग करने के लिए: विभिन्न वाक्य, एक वाक्य के दो भाग, संवादों में, आदि।
फ़्रेंच कैनेडियनहाँ, संयुक्त शब्दों के संयोजन और संयोजन के लिएहां, अर्थपूर्ण भागों को अलग करने के लिए: विभिन्न वाक्य, एक वाक्य के दो भाग, संवादों में, आदि।
स्पैनिशहाँ, सभी मामलों में-
पुर्तगाली
ब्राजील
हाँ, संयुक्त शब्दों के संयोजन और संयोजन के लिएहां, अर्थपूर्ण भागों को अलग करने के लिए: विभिन्न वाक्य, एक वाक्य के दो भाग, संवादों में, आदि।
इतालवीहाँ, सभी मामलों में-
अरबहाँ, सभी मामलों में-
चीनीकेवल लैटिन वर्णमाला के अक्षरों के आगेहाँ, सभी मामलों में
युग्मित प्रकार का पत्र


उद्धरण चिह्न सभी भाषाओं में मौजूद हैं, लेकिन, राष्ट्रीय वेशभूषा की तरह, वे अलग दिखते हैं। रूसी भाषा में दोनों पारंपरिक "क्रिसमस ट्री" हैं, जो फ्रेंच से आए हैं, और जर्मन "पंजे" हैं, जिनका उपयोग उद्धरण चिह्नों के अंदर एक वाक्यांश में और हाथ से लिखते समय किया जाता है। स्पैनिश, ब्राज़ीलियाई पुर्तगाली, इतालवी और अरबी दोहरे उद्धरण चिह्नों का उपयोग करते हैं।

अंग्रेजी 'सिंगल' और 'डबल' उद्धरण चिह्नों का उपयोग करते हैं: पहला शीर्षकों के लिए, दूसरा उद्धरण के लिए। पूर्णविराम और अल्पविराम उद्धरण चिह्नों के अंदर होते हैं। फ्रांसीसी पाठ में "हेरिंगबोन्स" हैं, रूसी से एक अंतर के साथ: उद्धृत पाठ की शुरुआत और खुले उद्धरण चिह्न के साथ-साथ वाक्यांश के अंत और समापन उद्धरण चिह्न के बीच एक निरंतर स्थान है।

चीनी भाषा में तीन प्रकार के उद्धरण चिह्न होते हैं, जो अलग-अलग उद्देश्यों की पूर्ति करते हैं। ये किताबों, फिल्मों और लेखकत्व के अन्य कार्यों के नाम हैं। अन्य सभी मामलों के लिए, चीनी 「 such」 का उपयोग करते हैं। यूरोपीय परंपरा से उद्धरण चिह्न (चाहे "क्रिसमस ट्री", "पंजे", "सिंगल" या "डबल") केवल अनुवाद में या यूरोपीय भाषाओं के वाक्यांशों के साथ संयोजन में पाए जा सकते हैं। उन्हें पारंपरिक चीनी भाषा में लोकप्रियता नहीं मिली है।

उद्धरण चिह्न सभी भाषाओं में मौजूद हैं, लेकिन, राष्ट्रीय वेशभूषा की तरह, वे अलग दिखते हैं।

बोली«…» „…“ “…” ‘…’ 《…》 「…」
रूसीमानक, अवधि और अल्पविराम बाहरउद्धरण चिह्नों के अंदर और हाथ से लिखते समय वाक्यांश में विकल्पहाथ से लिखते समय विकल्प- - -
अंग्रेज़ी
अमेरिकी
- - शीर्षकों के लिए मानक- -
अंग्रेज़ी
ब्रीटैन का
- - उद्धृत करते समय मानक, पूर्णविराम और अल्पविराम अंदरशीर्षकों के लिए मानक- -
जर्मन- मानक- - - -
फ़्रेंचउद्धरण खोलने और बंद करने से पहले मानक, गैर-ब्रेकिंग स्थान- - - - -
स्पैनिश- - मानक- - -
पुर्तगाली
ब्राजील
- - मानक- - -
इतालवी- - मानक- - -
अरब- - मानक- - -
चीनीकेवल अनुवाद में या यूरोपीय भाषाओं के वाक्यांशों के संयोजन मेंकेवल अनुवाद में या यूरोपीय भाषाओं के वाक्यांशों के संयोजन मेंकेवल अनुवाद में या यूरोपीय भाषाओं के वाक्यांशों के संयोजन मेंपुस्तकों, फिल्मों और लेखकत्व के अन्य कार्यों के शीर्षक के लिए मानकअन्य मामलों के लिए मानक
प्रतीकों

प्रतिशत और पीपीएम भी विशेष रूप से मानक नहीं हैं। जर्मन, फ़्रेंच और स्पैनिश में, इन वर्णों को बिना ब्रेक वाले रिक्त स्थान से अलग किया जाना चाहिए। और रूसी, अंग्रेजी, इतालवी, अरबी और ब्राजीलियाई पुर्तगाली में संख्या के तुरंत बाद लिखें। हालाँकि रूसियों के साथ, जैसा कि हमें याद है, स्थिति अस्पष्ट है।

डिग्री और इंच आमतौर पर बिना किसी रिक्त स्थान के संख्या के बाद रखे जाते हैं।

मजेदार तथ्य: जब फ्रांसीसी बड़ी संख्याएँ लिखते हैं, तो वे तीन अंकों के ब्लॉक को रिक्त स्थान से अलग करते हैं - उदाहरण के लिए: 987,654,321.12।

चीनियों के पास डिग्री (度) और प्रतिशत (百分比 और 百分之) के लिए अपने स्वयं के वर्ण हैं। हालाँकि, सामान्य ° और % का उपयोग उनके सामने रिक्त स्थान के बिना किया जाता है।

संवाद स्थापित करना

संवाद का प्रारूप भी भाषा-दर-भाषा भिन्न होता है। रूसी में, हम प्रत्येक पंक्ति से पहले एक एम डैश लगाते हैं। ब्राज़ीलियाई पुर्तगाली बोलने वाले भी ऐसा ही करते हैं।

अंग्रेजी में, "डबल" और "सिंगल" उद्धरण चिह्नों का उपयोग किया जाता है, उदाहरण के लिए:

'यहां दस लाख पाउंड हैं,' मरीना ने साइमन को एक सूटकेस देते हुए कहा।

मरीना ने आगे कहा: 'मैंने इवान से बात की और उसने कहा, 'साइमन दस मिलियन मांग रहा है, लेकिन यह बहुत ज्यादा है।'

जर्मन में, संवादों को पारंपरिक उद्धरण चिह्नों - "पंजे" का उपयोग करके भी स्वरूपित किया जाता है। फ्रांसीसी "हेरिंगबोन्स" के साथ-साथ छोटे डैश भी लगाते हैं, ऐसे मामलों में जहां पंक्ति का लेखक बदल जाता है। संवाद के कुछ हिस्सों को स्पैनिश भाषा में भी एन डैश के साथ विरामित किया गया है।

इतालवी और अरबी संवाद के लिए दोहरे सीधे उद्धरण चिह्नों का उपयोग करते हैं।

चीनी आमतौर पर अपने संवाद में केवल 「उद्धरण चिह्न」 या उनके अंग्रेजी समकक्ष ही डालते हैं।

छोटे या बड़े


अंग्रेजी, फ्रेंच, स्पेनिश, पुर्तगाली, ब्राजीलियाई और इतालवी में, रूसी बोलने वालों के लिए सब कुछ सरल और परिचित है - संक्षिप्ताक्षरों और उचित नामों के लिए वाक्यों की शुरुआत में बड़े अक्षरों का उपयोग किया जाता है।

जर्मन ज्यादा मजेदार है. संज्ञा, नाम और शीर्षक, संबोधन का विनम्र रूप (सी) सभी मामलों में (इहर, इहरे, इहरेर, इहरेस, इहरेम, इहरेन) बड़े अक्षर से लिखे जाते हैं। विशेषण, कृदंत और इनफ़िनिटिव जो एक निश्चित (दास गुटे) या अनिश्चित (एइन लाचेलन) लेख, पूर्वसर्ग (ब्लाउ में), सर्वनाम (डीन स्टॉटर्न), अंक (निचट्स औफ्रेगेंडेस) या विशेषण के साथ संयोजन में संज्ञा के रूप में एक वाक्य में उपयोग किए जाते हैं। विभक्ति रूप (स्प्रेचेन की सराहना करता है)। बस सब कुछ :-)

अरबी वर्णमाला लोअरकेस और अपरकेस के बीच अंतर नहीं करती है, लेकिन अधिकांश अक्षरों में दो, तीन या चार अलग-अलग वर्तनी होती हैं: किसी शब्द की शुरुआत, मध्य और अंत के लिए, और कभी-कभी शब्द के बाहर एक अक्षर के लिए। चीनी भाषा में भी ऐसी ही स्थिति विकसित हो गई है - यह संभावना नहीं है कि लोअरकेस या अपरकेस वर्णों में अंतर करना संभव होगा। और यदि चीनी लेखकों को पाठ के किसी भाग को उजागर करने की आवश्यकता होती है, तो वे इसे रेखांकित करते हैं या बोल्डफेस का उपयोग करते हैं।

जिसने भी चीन के किसी प्रोजेक्ट पर काम किया है या वहां कोई अभियान चलाया है, वह जानता है कि डिजाइन का स्थानीय विचार पश्चिमी से अलग है। आपको उदाहरणों के लिए दूर तक देखने की आवश्यकता नहीं है - यदि आप चीन में किसी अंतरराष्ट्रीय ब्रांड के लिए काम करते हैं या वहां बेचा जाने वाला उत्पाद बनाते हैं, तो यह देखने के लिए Baidu.com या QQ.com देखें कि आपका ब्रांड चीनी ऑनलाइन में कैसे प्रदर्शित होता है अंतरिक्ष।

सबसे बड़ा अंतर यह है कि उनकी साइटें बहुत अव्यवस्थित दिखती हैं। बहुत सारे पाठ, लिंक और यहां तक ​​​​कि एनिमेशन जो पृष्ठ को पढ़ने में असंभव बनाने के लिए डिज़ाइन किए गए प्रतीत होते हैं।

यह डिजिटल अराजकता जैसा लग सकता है, लेकिन चीनी वेबसाइटें कई कारणों से इसी तरह डिज़ाइन की गई हैं। यदि आप चीन में अपना व्यवसाय शुरू करने की योजना बना रहे हैं, तो हम आपको स्थानीय वेब अनुभव की कुछ विशेषताएं सीखने की सलाह देते हैं।

चीनी भाषा बिल्कुल अलग है

सबसे पहले, यहां कुछ तथ्य हैं जो आपको जानना चाहिए:

1. चीनी भाषा में कोई बड़े अक्षर नहीं होते। पश्चिमी पाठकों को किसी वाक्य की शुरुआत और अंत खोजने के लिए पाठ में बड़े अक्षरों की पहचान करने के लिए प्रशिक्षित किया जाता है। यही कारण है कि चीनी साइटें समान वर्णों के समूह की तरह दिख सकती हैं

2. पात्रों के बीच कोई रिक्त स्थान नहीं है। पश्चिमी भाषाएँ शब्दों को अलग करने के लिए स्थान का उपयोग करती हैं - ऐसा कुछ जो चीनी भाषा भी नहीं करती है। यहां, पात्रों की एक लंबी श्रृंखला पूरी तरह से सामान्य है, जबकि पश्चिमी उपयोगकर्ताओं के लिए यह भ्रमित करने वाली है

3. क्या आपने कुछ आटा गूंथ लिया है?सिद्धांत रूप में, सब कुछ स्पष्ट है, है ना? उल्टे अक्षरों वाले शब्दों को तब तक पढ़ना आसान होता है जब तक कि पहले और आखिरी अक्षर सही जगह पर हों और जब तक वे पूरी तरह से पीछे की ओर न लिखे हों। इस वजह से, लोग हर शब्द को पढ़ने के बजाय अपनी आँखों से पाठ को देखते हैं। लेकिन चूँकि वे चीनी पाठों को उसी तरह से सरसरी तौर पर नहीं देख सकते (यह मानते हुए कि पात्र उनके लिए अपरिचित हैं), ऐसे पात्रों की पंक्तियाँ उन्हें विशेष रूप से अव्यवस्थित लगती हैं।

4. चीनी अक्षर लैटिन या सिरिलिक अक्षरों की तुलना में बहुत अधिक "सघन" होते हैं - एक अक्षर में औसतन एक या दो की तुलना में 10 स्ट्रोक। इससे पश्चिमी उपयोगकर्ता को फिर से चीनी पाठ "अतिभारित" दिखता है।

अगली हैरान करने वाली बात यह है कि एक सामान्य चीनी वेबसाइट एक बड़े लिंक की तरह दिखती है। Sohu.com पर, वस्तुतः प्रत्येक पात्र एक लिंक का हिस्सा है।

इस बारे में दो सिद्धांत हैं. पहला यह है कि चीनी अक्षरों को वर्णमाला कीबोर्ड पर टाइप करना मुश्किल है, इसलिए खोज बॉक्स का उपयोग करने के बजाय, उपयोगकर्ता लिंक पर क्लिक करते हैं।

यह काफी उचित है क्योंकि चीनी अक्षरों को टाइप करने में या तो अक्षरों को चित्रित करना या पिनयिन को लिखने के लिए पश्चिमी अक्षरों का उपयोग करना शामिल है।

चित्रलिपि लिखे जाने या उसका प्रतिलेखन मुद्रित होने के बाद, प्रतीकों के विकल्प दिखाई देते हैं, जिनमें से उपयोगकर्ता को सही चुनना होगा। ऐसा लगता है कि खोज करने के लिए बार-बार ऐसा करना काफी कठिन है।

लेकिन एक और सिद्धांत है. और खोज इंजन Baidu की लोकप्रियता को देखते हुए, जो Google खोज के चीनी समकक्ष की पेशकश करता है, इस पर विश्वास करने का कारण है। इस सिद्धांत के अनुसार, कई चीनी अभी भी कम गति वाले इंटरनेट का उपयोग करते हैं। और अकामाई अध्ययन के आंकड़े इसकी पुष्टि करते हैं।

देश और इंटरनेट स्पीड के आधार पर ऑनलाइन जनसंख्या का प्रतिशत: 4 एमबी/सेकंड से कम, 4 एमबी/सेकंड से ऊपर, 10 एमबी/सेकंड से नीचे, 10 एमबी/सेकंड से ऊपर

जैसा कि आप देख सकते हैं, दो-तिहाई चीनी लोग 4 एमबीपीएस से कम कनेक्शन गति के साथ इंटरनेट का उपयोग करते हैं - यह वैश्विक औसत गति से काफी कम है और पश्चिमी देशों में लगभग अनसुना है।

निचली पंक्ति, इतनी धीमी इंटरनेट गति के साथ, एक पृष्ठ को बहुत सारे लिंक के साथ लोड करना और फिर उन्हें नए टैब में खोलना समझ में आता है। यह उपयोगकर्ताओं को एक-एक करके लंबे समय तक पेज लोड करने के बजाय समानांतर में पेज ब्राउज़ करने की अनुमति देता है। जो लोग डायल-अप इंटरनेट कनेक्शन याद रखते हैं वे समझ जाएंगे कि हम किस बारे में बात कर रहे हैं।

अंत में, चीनी वेबसाइटें बहुत सारे फ़्लैशिंग टेक्स्ट और बैनर का उपयोग करती हैं।

इसका कारण यह प्रतीत होता है कि पश्चिमी ग्रंथों की तुलना में चीनी भाषा में विभिन्न फ़ॉन्ट का उपयोग करके ध्यान आकर्षित करना अधिक कठिन है। और इसके कई कारण हैं, जिनमें शामिल हैं:

1. चीनी अक्षरों के लिए केवल कुछ ही फ़ॉन्ट हैं।
2. इटैलिक मौजूद नहीं है और आमतौर पर बोल्डिंग का उपयोग नहीं किया जाता है।
3. न्यूनतम फ़ॉन्ट आकार - 12 पिक्सेल

इसके अलावा (और यहां हम सांस्कृतिक घटक की ओर मुड़ते हैं), ऐसा लगता है कि चीनी पश्चिमी लोगों की तुलना में चमकते ग्राफिक्स के बारे में कम परवाह करते हैं। परिणामस्वरूप, जो हमें अतिभारित लगता है वह उनके लिए सामान्य है।

और इसके अलावा, पश्चिमी साइटों पर दिखाई देने वाले पॉप-अप के साथ, चीनी संसाधन अब उनसे उतने अलग नहीं दिखते जितने पहले दिखते थे।

निष्कर्ष के तौर पर

चीनी दुनिया की सबसे पुरानी लिखित भाषाओं में से एक है। इसका इतिहास कम से कम 3 हजार साल पुराना है। इस पर शिलालेख शांग राजवंश (1766-1123 ईसा पूर्व) के कछुओं के खोल पर पाए गए हैं।

चीनी लेखन का इतिहास

चीनी लेखन सुमेरियन या मिस्र से पुराना है, लेकिन इसका कोई सबूत नहीं है कि मध्य साम्राज्य में लेखन का आविष्कार किसी भी तरह से निकट पूर्व के लेखन से प्रेरित था। चीनी अक्षरों के सबसे शुरुआती उदाहरण हड्डियों और सीपियों पर लिखी भविष्यवाणियाँ हैं। उनमें दैवज्ञ से एक प्रश्न और उसका उत्तर शामिल है। इस प्रारंभिक लेखन से पता चलता है कि अपने शुरुआती दिनों में यह चित्रलेखों पर आधारित था। उदाहरण के लिए, "गाय" शब्द को एक जानवर के सिर के साथ चित्रित किया गया था, और "चलना" शब्द को एक पैर की तस्वीर के साथ दर्शाया गया था।

हालाँकि, समय के साथ, चीनी लेखन में कई बदलाव आए, और समय (206 ईसा पूर्व - 220 ईस्वी) तक इसने अपनी अधिकांश आलंकारिकता खो दी थी। आधुनिक चित्रलिपि का निर्माण तीसरी और चौथी शताब्दी ईस्वी के दौरान हुआ था। ई. आश्चर्यजनक रूप से, उसके बाद वे लगभग अपरिवर्तित रहे। मानक प्रपत्रों के अतिरिक्त, कई हस्तलिखित प्रपत्र भी हैं। सबसे आम हैं त्साओशू और जिंगशू। पहले प्रकार को विशेष प्रशिक्षण के बिना लोगों के लिए पढ़ना बहुत कठिन है। ज़िंगशू काशू की उच्च गति और मानक लेखन के बीच एक प्रकार का समझौता है। आधुनिक चीन में इस फॉर्म का व्यापक रूप से उपयोग किया जाता है।

चीनी भाषा में कितने अक्षर होते हैं?

शब्दावली में प्रत्येक रूपिम का प्रतिनिधित्व करने के लिए, चीनी एकल विशिष्ट वर्णों का उपयोग करते हैं। अधिकांश संकेत मौखिक ध्वनियों के लिखित संस्करण हैं जिनका अर्थ संबंधी अर्थ होता है। हालाँकि समय के साथ क्रांतियों और राजनीतिक उथल-पुथल के कारण लेखन प्रणाली बदल गई है, लेकिन इसके सिद्धांत, इसके प्रतीकों के साथ, मूलतः वही रहे हैं।

चीनी शब्द अक्षर मूल रूप से लोगों, जानवरों या वस्तुओं को चित्रित करते थे, लेकिन सदियों से वे तेजी से शैलीबद्ध हो गए और अब वे जो प्रतिनिधित्व करते थे, उससे मिलते जुलते नहीं रहे। यद्यपि उनमें से लगभग 56 हजार हैं, उनमें से अधिकांश सामान्य पाठक के लिए अज्ञात हैं - साक्षर होने के लिए उसे उनमें से केवल 3000 को जानने की आवश्यकता है। शायद यह आंकड़ा सबसे विश्वसनीय रूप से इस सवाल का जवाब देता है कि चीनी भाषा में कितने अक्षर हैं।

सरलीकृत लॉगोग्राम

1956 में हजारों अक्षरों को सीखने की समस्या के कारण चीनी अक्षर लिखने का सरलीकरण हुआ। परिणामस्वरूप, लगभग 2000 लॉगोग्राम को पढ़ना और लिखना आसान हो गया। इन्हें विदेशों में मंदारिन कक्षाओं में भी पढ़ाया जाता है। ये प्रतीक सरल हैं, यानी इनमें पारंपरिक प्रतीकों की तुलना में कम ग्राफिक तत्व हैं।

सरलीकृत अक्षर सैकड़ों वर्षों से अस्तित्व में हैं, लेकिन साक्षरता में सुधार के लिए 1950 के दशक में पीपुल्स रिपब्लिक ऑफ चाइना की स्थापना के बाद ही इन्हें आधिकारिक तौर पर लेखन में शामिल किया गया था। सरलीकृत लोगोग्राम का उपयोग लोगों के दैनिक समाचार पत्र पीपुल्स डेली द्वारा किया जाता है और समाचार और वीडियो के लिए उपशीर्षक में उपयोग किया जाता है। हालाँकि, जो लोग सही ढंग से लिखते हैं वे पारंपरिक संस्करण को नहीं जानते होंगे।

यह प्रणाली पीआरसी (हांगकांग को छोड़कर) और सिंगापुर में मानक है, और पारंपरिक चीनी हांगकांग, ताइवान, मकाऊ, मलेशिया, कोरिया, जापान और अन्य देशों में मानक बनी हुई है।

ध्वन्यात्मक पत्र

कैंटोनीज़ भाषियों ने ध्वन्यात्मक संकेतों की अपनी प्रणाली विकसित की है। इन पात्रों का उपयोग पारंपरिक चीनी पात्रों के अलावा किया जाता है, उदाहरण के लिए कॉमिक पुस्तकों या समाचार पत्रों और पत्रिकाओं के मनोरंजन अनुभागों में। अक्सर ये चित्रलिपि शब्दकोश में नहीं मिल पातीं। संप्रेषित करने के लिए अनौपचारिक लॉगोग्राम का उपयोग किया जाता है

पिनयिन

चीनी भाषा को पश्चिम के लिए अधिक समझने योग्य बनाने के प्रयास में, चीन ने पिनयिन प्रणाली विकसित की। इसका उपयोग शब्दों को व्यक्त करने के लिए किया जाता है। 1977 में, पीआरसी अधिकारियों ने पिनयिन प्रणाली का उपयोग करके चीन में भौगोलिक स्थानों का नाम देने के लिए संयुक्त राष्ट्र से आधिकारिक अनुरोध किया था। पिनयिन का उपयोग उन लोगों द्वारा किया जाता है जो लैटिन वर्णमाला से अधिक परिचित हैं और चीनी बोलना सीख रहे हैं।

चीनी लिखते समय रिक्त स्थान डालने के लाभ

1. पठनीयता में सुधार: चीनी पाठ पढ़ते समय शब्द सीमाएँ जोड़ने से संज्ञानात्मक भार कम हो जाता है। यदि पाठ रिक्त स्थान के बिना लिखा गया है, तो पाठक को यह विश्लेषण करने की आवश्यकता है कि शब्द कहां से शुरू और समाप्त होते हैं, साथ ही पाठ के अर्थ को समझने की कोशिश करते हैं, जिससे पहले से ही कठिन कार्य जटिल हो जाता है।

2. चीनी भाषा में लिखे गए पाठों का अधिक सटीक मशीन प्रसंस्करण: चीनी पाठ का ऐसा प्रसंस्करण शुरू करने से पहले, पाठ को पहले खंडित किया जाना चाहिए। चित्रलिपि लेखन का उपयोग करने वाली भाषाओं को संसाधित करते समय यह एक आसान काम नहीं है। कुछ तेज़ मशीन विधियाँ हैं जो बहुत सटीक नहीं हैं (~90%), और कुछ धीमी विधियाँ हैं जो अधिक सटीक हैं (~94-97%), लेकिन कोई भी विधि सही नहीं है।
यदि चीनी लेखन में शब्दों के बीच रिक्त स्थान होता, तो विभाजन की कोई आवश्यकता नहीं होती, और चीनी पाठ की मशीन प्रसंस्करण बहुत आसान हो जाती। परिणामस्वरूप, चीनी से अनुवाद करने का कार्य काफी सरल हो जाएगा।

3. छात्रों के लिए चीनी सीखना आसान बनाना: शब्दों के बीच रिक्त स्थान शब्दों और वाक्यों को समझना आसान बनाता है। जब मैंने पहली बार चीनी सीखना शुरू किया, तो मैंने उन शब्दों को खोजने में बहुत समय बिताया जो शब्दकोश में मौजूद नहीं थे क्योंकि शब्दों के बीच रिक्त स्थान की कमी के कारण चीनी में शब्द सीमाओं को समझना मुश्किल हो गया था। शब्दों के बीच रिक्त स्थान शुरू करने से चीनी भाषा सीखने वालों को तेजी से और अधिक कुशलता से शब्दावली बनाने में मदद मिलेगी।

चीनी पाठ को शब्दों के बीच रिक्त स्थान की आवश्यकता क्यों नहीं है?

1. सबद क्या है? चीनी भाषा में "शब्द" की अवधारणा काफी अस्पष्ट है। शब्द कहाँ से शुरू और ख़त्म होता है? रूसी (और वर्णमाला पर आधारित कोई भी अन्य भाषा) के मूल वक्ता के लिए एक सरल प्रश्न चीनी के मूल वक्ता को भ्रमित कर सकता है। उदाहरण के लिए, क्या भूतकाल को इंगित करने वाले कण 了 को किसी शब्द का भाग माना जाना चाहिए?
उदाहरण के लिए, वाक्य 小刘来了 में स्थान कहां रखा जाए - 小刘_来了 या 小刘来_了?स्वयं चीनी भाषियों के लिए, जो शब्दों के बीच रिक्त स्थान के साथ पाठ पढ़ने के आदी नहीं हैं, रिक्त स्थान डालने से केवल जटिलता होगी लिखित भाषा की समझ.

2. परंपरा: चीनी लेखन 3,000 से अधिक वर्षों से अस्तित्व में है, और इस दौरान शब्दों के बीच रिक्त स्थान का परिचय नहीं दिया गया था। अब उनका परिचय क्यों दें?

3. चीनी पाठ शब्दों के बीच रिक्त स्थान के बिना अधिक सुंदर दिखता है। रिक्त स्थान का परिचय देने से चीनी शिक्षार्थियों के लिए समझना आसान हो जाएगा, लेकिन कोई भी उन लोगों की सुविधा के लिए भाषा प्रणाली को अनुकूलित नहीं करेगा जो इसे सीख रहे हैं।

पी.एस. 1.प्राचीन यूरोपीय ग्रंथों में भी शब्दों के बीच रिक्त स्थान नहीं था।

पी.एस. 2:रूसी भाषा में रिक्त स्थान की आवश्यकता होती है, क्योंकि उनके बिना कथन का अर्थ बदल जाता है।
तुलना करें: बेतुकी_बातें और अलग-अलग चीजें लेकर चलना।

पी.एस. 3.:रूसी पाठ भी एक देशी वक्ता द्वारा पूरी तरह से समझा जाता है अगर यह बिना रिक्त स्थान के लिखा गया हो तो पहले इसे समझना मुश्किल होता है, लेकिन फिर हमारा मस्तिष्क इसे अपना लेता है...