2014 January

Word Word dokumentu .docx parsēšana uz HTML (2) (TAHQ69)

Tā kā mēs apskatījām visas satāvdaļas, kas nepieciešamas funkcijai extracttext, apskatīsim, kā tas izskatās kopumā: Bet nezin kāpēc, bet word tā dara, bieži sanāk ka mums vārdi(dažreiz pat burti) ir atsevišķos span tegos. Tāpēc, pirms atgriezt paragrāfu masīvu mēs varam tajā iztīrīt liekos tegus:

Word Word dokumentu .docx parsēšana uz HTML (1) (TAHQ69)

extracttext funkcija dos Jums iespēju no sarežģīti izveidotā Word dokument XML formāta uz internetbrauzerim pieņememu HTML kodu ar nepieciešamo formatējumu. No sākuma mēs pārbaudīsim parsējamā faila formātu. Veidojam ZIP objektu un cenšamies atvērt to kā DOMDocument: Kad esam ieguvuši XML dokumentu, mums tas jāsadala loģiskos blokos. Es izvēlējos to sadalīt pa paragrāfiem. Esam nonākuši pie […]

 Move Up