Ами ако китайският въведе интервал между думите при писане? Важни малки неща Големи или малки.

16

Бих искал да накарам MySQL пълнотекстово търсене да работи с японски и китайски текст, както и всеки друг език. Проблемът е, че тези езици, а може би и други, обикновено нямат разстояние между думите. Търсенето не е полезно, когато трябва да въведете същото изречение като в текста.

Не мога просто да поставя интервал между всеки знак, защото английският също трябва да работи. Бих искал да разреша този проблем с PHP или MySQL.

Мога ли да конфигурирам MySQL да разпознава символи, които трябва да бъдат техни собствени индекси? Има ли PHP модул, който може да разпознае тези знаци, така че да мога просто да изхвърля интервалите около индекса?

Частично решение:

$string_with_spaces = preg_replace("/[".json_decode(""\u4e00"")."-".json_decode(""\uface"")."]/", " $0 ", $string_without_spaces);

Това прави класа на героите от поне някои от героите, които трябва да третирам конкретно. Вероятно трябва да спомена, че е приемливо да се пропуска индексиран текст.

Някой знае ли всички диапазони от знаци, които ще трябва да вмъкна в сондата?

Освен това трябва да има по-добър, преносим начин за представяне на тези знаци в PHP? Изходният код в Literal Unicode не е съвършен; Не разпознавам всички знаци; те може да не се показват на всички машини, които трябва да използвам.

3

Други съвременни езици, които не използват интервали между думите, са тайландски, лаоски, кхмерски (камбоджански) и бирмански (Мианмар). Във виетнамския има проблем, свързан с използването на интервали между всички срички, с изключение на чуждите думи. - hippietrail 18 дек 10 2010-12-18 12:48:10

  • 2 отговора
  • Сортиране:

    Дейност

15

Изисква се нарушение на думата за споменатите езици лингвистичен подход , например такъв, който използва речникзаедно с разбиране на осн възникващи правила.

Чувал съм за сравнително успешни приложения за търсене на пълен текст, които просто отделят всеки отделен знак като отделна дума на китайски, просто прилагайки същото „токенизиране“ на критериите за търсене, предоставени от крайните потребители. След това търсачката предоставя по-добро класиране за документи, които предоставят знаци от думи в същия ред като критериите за търсене. Не съм сигурен дали това може да се разшири до езици като японски, тъй като наборите от символи Хиракана и Катагана правят текста по-близък до европейските езици с кратка азбука.

РЕДАКТИРАНЕ:
Ресурси
Тази дума е за разбиване на проблеми, както и свързани с тях въпроси, така че нетривиаленче за това са написани цели книги. Вижте например CJKV обработка на информация (CJKV означава китайски, японски, корейски и виетнамски, можете също да използвате ключовата дума CJK, тъй като много текстове не обсъждат виетнамски). Вижте също Разбиването на думи на японски е трудно за един пейджър по тази тема.
Ясно е, че повечето от материалите, обхващащи тази тема, са написани на един от основните езици на родния език и следователно са ограничени до хора без относително владеене на тези езици. Поради тази причина и за да ви помогнем да тествате търсачката, след като започнете да прилагате логика за разделяне на думи, трябва да потърсите помощ от носител на езика или двама.

Разни идеи
Ваша идея идентифициране на характеристики, които систематично предполагат прекъсване на думата(да речем, кавички, скоби, подобни на тирета символи и подобни) са добри и това вероятно е една евристика, използвана от някои от професионалните разделяния на думи. Трябва обаче да потърсите уважаван източник за такъв списък, вместо да го съставяте от нулата въз основа на анекдотични констатации.
Свързана идея е да се разделят думите на Преходи от кана към канджи(но предполагам, че не е обратното), и може би в хирагана към катаканаили обратно преходи.
Без връзка със счупения правилен, индексът може [-или може да не- ;-)] има полза от систематичното преобразуване на всеки, да речем, знак хирагана в съответен знак катакана. Просто неграмотна идея! Не знам достатъчно за японски, за да знам дали това ще помогне; интуитивно, това би било слабо свързано със систематичното преобразуване на букви с ударение и по този начин в съответстващо писмо без ударение, както се практикува в няколко европейски езици.

Може би идеята, която споменах по-рано за систематично индексиране на отделни символи (и класиране на резултатите от търсенето въз основа на тяхното приближение до думата за търсене), може да бъде леко модифицирана, например чрез поддържане на последователни кана символи заедно и след това някои други правила... и създаване на несъвършени, но доста практична търсачка.

Не се разочаровайте, ако не е... Както беше посочено, това далеч не е тривиално и може да ви спести време и пари в дългосрочен план, като направите пауза и прочетете книга или две. Друга причина да се опитате да научите повече за „теорията“ и най-добрите практики е, че в момента изглежда, че сте фокусирани върху думи на нарушение , но в близко бъдеще търсачката също може да се възползва от последващо съзнание ; наистина, тези два въпроса са поне лингвистично уместни и могат да бъдат полезни, когато се обработват в тандем.

Успех в това неприятно, но достойно начинание.

0

@Joe: Няма за какво. Изглежда, че имам интерес към лингвистиката и НЛП, но много, много малко познания, специфични за CJK езиците. Прочетете моята редакция, добавяйки някои ключови думи и онлайн връзки, които може да помогнат при търсенето ви. Успех :-) - mjv 22 окт 09

Препинателните знаци са неразделна част от всеки език. Една обикновена запетая може радикално да промени смисъла на изречението: просто си спомнете историята за „Екзекуцията не може да бъде помилвана“. А работата на преводачите и редакторите изисква те да владеят поне две пунктуационни системи.

Идеята за този пост се роди, когато обсъждахме превода на една статия. В изходния материал знакът за процент беше отделен с интервал от числото и това ми привлече вниманието - в руския текст в този случай не се използва интервал (въпреки че твърдението все още е спорно - експертите не са стигнали до консенсус по този въпрос). Тогава решихме, че трябва да поговорим за това. Специалисти от отдела за многоезична локализация интервюираха наши чуждестранни колеги и подготвиха материал, който сега споделяме с вас. Надяваме се, че ще ви бъде полезно.

В началото и в края

Нека видим как стоят нещата с поставянето на препинателни знаци в изречение: точки, запетаи, двоеточие, точка и запетая, въпросителни и удивителни знаци.

Надяваме се, че всички си спомнят за руския език - препинателните знаци, които отделят изречения един от друг, се поставят само в края, точка. Ако трябва да добавите израз (особено в лична кореспонденция), се използват комбинации от знаци - “!!!”, “?!” и т.н. На английски, немски, италиански, френско-канадски, арабски и бразилски португалски точките, елипсите и техните „другари“ следват същите правила.

Други правила на френски: двоеточие, точка и запетая, удивителни знаци и въпросителни знаци се предхождат от неразделящи се интервали.

Испанският е единственият език в нашата селекция, в който препинателните знаци рамкират изреченията: в началото на фразата въпросителните и удивителните знаци се дублират в „леко“ обърната форма - „¿“ и „¡“.

Китайците имат най-необичайния подход към препинателните знаци от европейска гледна точка. Тяхната точка изглежда като 。, запетаята изглежда като ,, удивителният знак изглежда като !, а въпросителният знак изглежда като ?. В едно изречение те се държат като руските си колеги, единствената разлика е, че китайците не използват интервали, тъй като всички препинателни знаци са двубайтови. Йероглифът, въведен на клавиатурата, е два пъти по-широк от всяка буква от латинската азбука. Следователно препинателните знаци обикновено заемат същото място като йероглифа. Тази функция е била срещана от тези, които са работили в стари IME, работещи с DOS, когато неправилно въведен йероглиф е бил премахнат чрез двукратно натискане на Backspace. Интервалите се използват главно за разделяне на думи и знаци от други езици, като например английски.

Сладки функции

На руски се използва или тире, или тире. Тирето е кратко и е необходимо за пренасяне и свързване на сложни думи. Тирето е значително по-дълго; служи за разделяне на смислови части: различни изречения, две части на едно изречение, в диалози и др. Можете да си спомните всички тънкости на използването на тези знаци, като разгледате учебник по руски език.

Тиретата и тиретата съществуват при подобни условия в английски, немски, френски и бразилски португалски. Освен това в американския английски тирето е разделено от двете страни с интервали, но в британския английски обикновено не е:

Лекцията – която е третата на тази тема този месец – ще включва лектори от различни страни. (Американски английски)

В зоологическата градина имаше много котки - лъвове, пантери, тигри, ягуари и гепарди - което правеше избора на любима много труден. (Британски английски)

На испански, италиански и арабски тиретата и тиретата изглеждат еднакво: "-". Китайците изобщо не използват тирета - имат само тирета. Въпреки че до букви от латинската азбука може да има тирета, дълги тирета и средни тирета. Тирето е кратко и е необходимо за пренасяне и свързване на сложни думи. Тирето е значително по-дълго; той служи за разделяне на семантични части

Езици Тире Em тире (Alt 0151)
Руски
английски американскиДа, за пренасяне и свързване на сложни думиДа, за разделяне на смислови части: различни изречения, две части на едно изречение, в диалози и др.
Английски
британски
Да, за пренасяне и свързване на сложни думиДа, за разделяне на смислови части: различни изречения, две части на едно изречение, в диалози и др. Не са разделени с интервали от двете страни.
НемскиДа, за пренасяне и свързване на сложни думиДа, за разделяне на смислови части: различни изречения, две части на едно изречение, в диалози и др.
ФренскиДа, за пренасяне и свързване на сложни думиДа, за разделяне на смислови части: различни изречения, две части на едно изречение, в диалози и др.
френски канадскиДа, за пренасяне и свързване на сложни думиДа, за разделяне на смислови части: различни изречения, две части на едно изречение, в диалози и др.
испанскиДа, във всички случаи-
португалски
бразилски
Да, за пренасяне и свързване на сложни думиДа, за разделяне на смислови части: различни изречения, две части на едно изречение, в диалози и др.
ИталианскиДа, във всички случаи-
арабскиДа, във всички случаи-
КитайскиСамо до букви от латинската азбукаДа, във всички случаи
Сдвоен тип писмо


Кавичките съществуват на всички езици, но, подобно на националните носии, те изглеждат различно. В руския език има както традиционни „коледни елхи“, дошли от френски, така и немски „лапи“, които се използват във фраза в кавички и при писане на ръка. Испанският, бразилският португалски, италианският и арабският използват двойни кавички.

Англичаните използват „единични“ и „двойни“ кавички: първите за заглавия, вторите за цитиране. Точките и запетаите са в кавички. Във френския текст има „рибени кости“ с една разлика от руския: има непрекъснат интервал между началото на цитирания текст и отворените кавички, както и между края на фразата и затварящите кавички.

В китайския език има три вида кавички, които служат за различни цели. Това са имената на книги, филми и други авторски произведения. За всички останали случаи китайците използват 「такъв」. Кавичките от европейската традиция (независимо дали са „коледни елхи“, „лапи“, „единични“ или „двойни“) могат да бъдат намерени само в преводи или във връзка с фрази от европейски езици. Те не са придобили популярност в традиционния китайски.

Кавичките съществуват на всички езици, но, подобно на националните носии, те изглеждат различно.

Езици«…» „…“ “…” ‘…’ 《…》 「…」
РускиСтандарт, точки и запетаи отвънАлтернативи във фраза в кавички и при писане на ръкаАлтернативи при писане на ръка- - -
Английски
американски
- - Стандарт за заглавия- -
Английски
британски
- - Стандартно при цитиране, точки и запетаи вътреСтандарт за заглавия- -
Немски- Стандартен- - - -
ФренскиСтандартно, непрекъснато пространство преди отваряне и затваряне на котировки- - - - -
испански- - Стандартен- - -
португалски
бразилски
- - Стандартен- - -
Италиански- - Стандартен- - -
арабски- - Стандартен- - -
КитайскиСамо в преводи или във връзка с фрази от европейски езициСамо в преводи или във връзка с фрази от европейски езициСамо в преводи или във връзка с фрази от европейски езициСтандарт за заглавия на книги, филми и други авторски произведенияСтандартно за други случаи
Символизъм

Процентите и ppm също не са особено стандартни. На немски, френски и испански тези знаци трябва да бъдат разделени с неразделящи се интервали. А на руски, английски, италиански, арабски и бразилски португалски пишете веднага след номера. Въпреки че с руснаците, както си спомняме, ситуацията е двусмислена.

Градусите и инчовете обикновено се поставят след числото без интервали.

Забавен факт: когато французите пишат големи числа, те разделят блокове от три цифри с интервали - например: 987 654 321,12.

Китайците имат свои собствени символи за градуси (度) и проценти (百分比 и 百分之). Обаче обичайните ° и % се използват заедно с тях без интервали пред тях.

Установяване на диалог

Форматирането на диалога също варира от език на език. На руски поставяме тире em преди всеки ред. Говорещите бразилски португалски правят същото.

На английски се използват „двойни“ и „единични“ кавички, например:

„Ето един милион лири“, каза Марина, подавайки куфар на Саймън.

Марина продължи: „Говорих с Иван и той каза: „Саймън иска десет милиона, но това е твърде много.“

На немски диалозите също са форматирани с помощта на традиционни кавички - „лапи“. Французите поставят „рибени кости“, както и къси тирета, в случаите, когато авторът на ред се променя. Части от диалога са прекъснати с тирета и на испански.

Италианските и арабските използват двойни прави кавички за диалог.

Китайците обикновено поставят само 「кавички」 или техен английски еквивалент в своя диалог.

Голям или малък


На английски, френски, испански, португалски, бразилски и италиански всичко е просто и познато на рускоговорящите - главни букви се използват в началото на изреченията, за съкращения и собствени имена.

Немският е много по-забавен. С главна буква се пишат съществителни имена, имена и титли, учтивата форма на обръщение (Sie) във всички падежни форми (Ihr, Ihre, Ihrer, Ihres, Ihrem, Ihren). Прилагателни, причастия и инфинитиви, които се използват в изречение като съществителни в комбинация с определен (das Gute) или неопределен (ein Lächeln) член, предлог (в Blau), местоимение (dein Stottern), числително (nichts Aufregendes) или прилагателно в склонена форма (lautes Sprechen). Просто всичко :-)

Арабската азбука не прави разлика между малки и главни букви, но повечето букви имат две, три или четири различни изписвания: за началото, средата и края на думата, а понякога и за една буква извън думата. Подобна ситуация се разви в китайския език - малко вероятно е да се разграничат малки или главни букви. И ако китайските автори трябва да подчертаят част от текста, те я подчертават или използват удебелен шрифт.

Всеки, който е работил по проект от Китай или е стартирал кампания там, знае, че местната идея за дизайн е различна от западната. Не е нужно да търсите далеч за примери – ако работите за международна марка в Китай или създавате продукт, който се продава там, тогава разгледайте Baidu.com или QQ.com, за да видите как вашата марка е представена в китайския онлайн пространство.

Най-голямата разлика е, че техните сайтове изглеждат много разхвърляни. Много текст, връзки и дори анимации, които изглежда са предназначени да направят страницата невъзможна за четене.

Може да изглежда като дигитален хаос, но китайските уебсайтове са проектирани по този начин поради няколко причини. Ако планирате да стартирате своя бизнес в Китай, съветваме ви да научите някои характеристики на местното уеб изживяване.

Китайският език е напълно различен

Първо, ето няколко факта, които трябва да знаете:

1. В китайския няма главни букви. Западните читатели са обучени да разпознават главните букви в текста, за да намерят началото и края на изречението. Ето защо китайските сайтове могат да изглеждат като набор от подобни знаци

2. Няма интервали между знаците. Западните езици използват интервал за разделяне на думите - нещо, което китайският също не прави. Тук дълъг низ от знаци е напълно нормален, докато за западните потребители е объркващ

3. Направихте ли тесто?По принцип всичко е ясно, нали? Думите с обърнати букви са лесни за четене, стига първата и последната букви да са на правилното място и стига да не са написани изцяло наобратно. Поради това хората преглеждат текста с очите си, вместо да четат всяка дума. Но тъй като те не могат да преглеждат китайски текстове по същия начин (ако приемем, че знаците са им непознати), линиите на такива знаци им изглеждат особено хаотични.

4. Китайските йероглифи са много по-"плътни" от латинските или кирилските букви - средно 10 удара в един знак срещу един или два. Това отново кара китайския текст да изглежда „претоварен“ за западния потребител.

Следващата озадачаваща характеристика е, че един типичен китайски уебсайт изглежда като една голяма връзка. На Sohu.com буквално всеки знак е част от връзка.

Има две теории за това. Първият е, че китайските йероглифи са трудни за въвеждане на азбучна клавиатура, така че вместо да използват полето за търсене, потребителите са склонни да кликват върху връзки.

Това е съвсем разумно, тъй като въвеждането на китайски йероглифи включва или рисуване на знаци, или използване на западни букви за транскрибиране на пинин.

След като се напише йероглиф или се отпечата неговата транскрипция, се появяват опции за символи, от които потребителят трябва да избере правилния. Изглежда, че правенето на това отново и отново за търсене е доста трудно.

Но има и друга теория. И като се има предвид популярността на търсачката Baidu, която предлага китайския еквивалент на Google търсене, има причина да се вярва. Според тази теория много китайци все още използват нискоскоростен интернет. И статистиката от проучване на Akamai потвърждава това.

Процент на онлайн населението в зависимост от държавата и скоростта на интернет: под 4 MB/сек, над 4 MB/сек, под 10 MB/сек, над 10 MB/сек

Както можете да видите, две трети от китайците използват интернет със скорост на връзката под 4 Mbps - това е значително по-ниско от средната глобална скорост и почти нечувано в западните страни.

В крайна сметка, при такива относително ниски скорости на интернет има смисъл да заредите една страница с много връзки и след това да ги отворите в нови раздели. Това позволява на потребителите да разглеждат страници паралелно, вместо болезнено дълго зареждане на страници една по една. Тези, които помнят комутируемите интернет връзки, ще разберат за какво говорим.

И накрая, китайските уебсайтове използват много мигащ текст и банери.

Причината изглежда е, че е много по-трудно да се привлече вниманието с помощта на различни шрифтове на китайски, отколкото в западни текстове. И има редица причини за това, включително:

1. Има само няколко шрифта за китайски йероглифи.
2. Курсивът не съществува и удебеляването обикновено не се използва.
3. Минимален размер на шрифта - 12 пиксела

Освен това (и тук се обръщаме към културния компонент), изглежда, че китайците просто се интересуват по-малко от мигащите графики, отколкото западняците. В резултат на това това, което ни се струва претоварено, за тях е нормално.

И освен това, с появата на изскачащи прозорци на западни сайтове, китайските ресурси вече не изглеждат толкова различни от тях, колкото някога.

Накрая

Китайският е един от най-старите писмени езици в света. Историята му датира от поне 3 хиляди години. Надписи върху него са открити върху черупки на костенурки от династията Шан (1766-1123 г. пр. н. е.).

История на китайската писменост

Китайската писменост е по-млада от шумерската или египетската, но няма доказателства, че изобретяването на писмеността в Средното царство е било стимулирано по някакъв начин от писмеността на Близкия изток. Най-ранните примери за китайски знаци са текстове за гадаене върху кости и черупки. Те се състоят от въпрос към гадателя и отговор на него. Тази ранна писменост показва, че в ранните си дни тя се основава на пиктограми. Например думата „крава“ беше изобразена с глава на животно, а „разходка“ беше изобразена с изображение на крак.

С течение на времето обаче китайската писменост е претърпяла много промени и по времето (206 г. пр. н. е. - 220 г. сл. н. е.) е загубила по-голямата част от своята фигуративност. Съвременните йероглифи са се образували през 3-ти и 4-ти век след Христа. д. Изненадващо, след това те останаха почти непроменени. В допълнение към стандартните формуляри има и няколко ръкописни формуляра. Най-често срещаните са Цаошу и Синшу. Първият тип е много труден за четене от хора без специално обучение. Xingshu е вид компромис между високата скорост на caoshu и стандартното писане. Тази форма се използва широко в съвременен Китай.

Колко знака има в китайския?

За да представят всяка морфема в речника, китайците използват единични отличителни знаци. По-голямата част от знаците са писмени версии на изговорени звуци, които имат семантично значение. Въпреки че писмената система се е променила с течение на времето поради революции и политически катаклизми, нейните принципи, заедно със символите, са останали по същество същите.

Китайските словесни знаци първоначално изобразяват хора, животни или предмети, но през вековете стават все по-стилизирани и вече не приличат на това, което представляват. Въпреки че са около 56 хиляди от тях, по-голямата част от тях са непознати за типичния читател - той трябва да знае само 3000 от тях, за да бъде грамотен. Може би тази цифра най-надеждно отговаря на въпроса колко знака има в китайския език.

Опростени логограми

Проблемът с изучаването на хиляди знаци през 1956 г. доведе до опростяване на писането на китайски йероглифи. В резултат на това около 2000 логограми станаха по-лесни за четене и писане. Те също се преподават в курсове по мандарин в чужбина. Тези символи са по-прости, тоест имат по-малко графични елементи от традиционните.

Опростените знаци съществуват от стотици години, но са били официално включени в писмеността едва след основаването на Китайската народна република през 50-те години на миналия век, за да се подобри грамотността. Опростените логограми се използват от ежедневника People's Daily и се използват в субтитрите за новини и видеоклипове. Въпреки това хората, които пишат правилно, може да не знаят традиционната версия.

Тази система е стандартна в КНР (с изключение на Хонконг) и Сингапур, а традиционният китайски продължава да бъде стандарт в Хонконг, Тайван, Макао, Малайзия, Корея, Япония и други страни.

Фонетично писмо

Говорещите кантонски са разработили своя собствена система от фонетични знаци. Тези йероглифи се използват в допълнение към традиционните китайски йероглифи, например в комикси или развлекателните раздели на вестници и списания. Често тези йероглифи не могат да бъдат намерени в речника. За предаване се използват неофициални логограми

Пинин

В опит да направи китайския език по-разбираем за Запада, Китай разработи системата пинин. Използва се за предаване на думи.През 1977 г. властите на КНР отправиха официално искане до ООН за наименуване на географски места в Китай, използвайки системата пинин. Пинин се използва от тези, които са по-запознати с латинската азбука и се учат да говорят китайски.

Ползи от въвеждането на интервали при писане на китайски

1. Подобрява четливостта: Добавянето на граници на думите намалява когнитивното натоварване при четене на китайски текст. Ако текстът е написан без интервали, читателят трябва да анализира къде започват и свършват думите, като в същото време се опитва да разбере значението на текста, като по този начин усложнява и без това трудната задача.

2. По-точна машинна обработка на текстове, написани на китайски: Преди да може да започне такава обработка на китайски текст, текстът трябва първо да бъде сегментиран. Това не е лесна задача при обработката на езици, които използват йероглифно писане. Има бързи машинни методи, които не са много точни (~90%), и има бавни методи, които са по-точни (~94-97%), но нито един метод не е съвършен.
Ако китайското писане имаше интервали между думите, нямаше да има нужда от сегментиране и машинната обработка на китайски текст щеше да стане много по-лесна. В резултат на това задачата за превод от китайски ще бъде значително опростена.

3. Улесняване на изучаването на китайски за учениците: интервалите между думите правят думите и изреченията по-лесни за разбиране. Когато за първи път започнах да уча китайски, прекарах много време в търсене на думи, които не съществуваха в речника, защото липсата на интервали между думите затрудни разбирането на границите на думите на китайски. Въвеждането на интервали между думите би позволило на изучаващите китайски език да изграждат речников запас по-бързо и по-ефективно.

Защо китайският текст не се нуждае от интервали между думите?

1. Какво е дума? Понятието „дума“ на китайски е доста неясно. Къде започва и свършва думата? Един прост въпрос за носител на руски (и всеки друг език, базиран на азбука) може да обърка носител на китайски. Например, трябва ли частицата 了, указваща минало време, да се счита за част от дума?
Например в изречението 小刘来了 къде да поставите интервал – 小刘_来了 или 小刘来_了?За самите говорещи китайски, които не са свикнали да четат текстове с интервали между думите, въвеждането на интервали само ще усложни разбирането на писмения език.

2. Традиция: китайската писменост съществува от повече от 3000 години и през това време не са въвеждани интервали между думите. Защо да ги представяме сега?

3. Китайският текст изглежда по-красив без интервали между думите. Въвеждането на интервали би улеснило разбирането от учащите китайски, но никой не би адаптирал езиковата система за удобство на тези, които тепърва я учат.

P.S. 1.Древните европейски текстове също не са имали интервали между думите.

P.S. 2:На руски език са необходими интервали, тъй като без тях значението на изявлението се променя.
Сравнете: Absurd_things и Carrying_different_things.

P.S. 3.:Руският текст също се разбира отлично от носителя на езика, ако е написан без интервали.В началото е трудно за разбиране, но след това мозъкът ни се адаптира...