it-swarm.xyz

Как я могу отфильтровать Microsoft Word Gunk от вставленного содержимого?

У меня есть пользователи, которые пишут в групповой блог и могут вырезать и вставлять, но их вставки включают в себя такие вещи, как

<!– /* Font Definitions */ @font-face {font-family:”Cambria Math”; panose-1:2 4 5 3 5 4 6 3 2 4; mso-font-charset:1; mso-generic-font-family:roman; mso-font-format:other; mso-font-pitch:variable; mso-font-signature:0 0 0 0 0 0;} @font-face {font-family:Calibri; panose-1:2 15 5 2 2 2 4 3 2 4; mso-font-charset:0; mso-generic-font-family:swiss; mso-font-pitch:variable; mso-font-signature:-520092929 1073786111 9 0 415 0;} @font-face {font-family:”Trebuchet MS”; panose-1:2 11 6 3 2 2 2 2 2 4; mso-font-charset:0; mso-generic-font-family:swiss; mso-font-pitch:variable; mso-font-signature:647 0 0 0 159 0;} /* Style Definitions */ p.MsoNormal, li.MsoNormal, div.MsoNormal {mso-style-unhide:no; mso-style-qformat:yes; mso-style-parent:”"; margin-top:0in; margin-right:0in; margin-bottom:10.0pt; margin-left:0in; line-height:115%; mso-pagination:Widow-Orphan; font-size:12.0pt; font-family:”Trebuchet MS”,”sans-serif”; mso-fareast-font-family:Calibri; mso-fareast-theme-font:minor-latin; mso-bidi-font-family:”Times New Roman”; mso-bidi-theme-font:minor-bidi; color:black;} p {mso-style-noshow:yes; mso-style-priority:99; mso-margin-top-alt:auto; margin-right:0in; mso-margin-bottom-alt:auto; margin-left:0in; mso-pagination:Widow-Orphan; font-size:12.0pt; font-family:”Times New Roman”,”serif”; mso-fareast-font-family:”Times New Roman”;} .MsoChpDefault {mso-style-type:export-only; mso-default-props:yes; font-size:12.0pt; mso-ansi-font-size:12.0pt; mso-bidi-font-size:12.0pt; mso-ascii-font-family:”Trebuchet MS”; mso-fareast-font-family:Calibri; mso-fareast-theme-font:minor-latin; mso-hansi-font-family:”Trebuchet MS”; mso-bidi-font-family:”Times New Roman”; mso-bidi-theme-font:minor-bidi; color:black;} .MsoPapDefault {mso-style-type:export-only; margin-bottom:10.0pt; line-height:115%;} @page WordSection1 {size:8.5in 11.0in; margin:1.0in 1.0in 1.0in 1.0in; mso-header-margin:.5in; mso-footer-margin:.5in; mso-paper-source:0;} div.WordSection1 {page:WordSection1;} –>

/* Style Definitions */
table.MsoNormalTable
{mso-style-name:”Table Normal”;
mso-tstyle-rowband-size:0;
mso-tstyle-colband-size:0;
mso-style-noshow:yes;
mso-style-priority:99;
mso-style-qformat:yes;
mso-style-parent:”";
mso-padding-alt:0in 5.4pt 0in 5.4pt;
mso-para-margin-top:0in;
mso-para-margin-right:0in;
mso-para-margin-bottom:10.0pt;
mso-para-margin-left:0in;
line-height:115%;
mso-pagination:Widow-Orphan;
font-size:11.0pt;
font-family:”Calibri”,”sans-serif”;
mso-ascii-font-family:Calibri;
mso-ascii-theme-font:minor-latin;
mso-fareast-font-family:”Times New Roman”;
mso-fareast-theme-font:minor-fareast;
mso-hansi-font-family:Calibri;
mso-hansi-theme-font:minor-latin;
mso-bidi-font-family:”Times New Roman”;
mso-bidi-theme-font:minor-bidi;}

Что я могу сделать, чтобы автоматически отфильтровать такой код?

3
artlung

В WordPress встроена кнопка визуального текстового редактора, которая удаляет форматирование Microsoft Word. Это помечено "Вставить из слова" alt text

8
Chris_O

Я бы предложил использовать плагин Ozh's TinyMCE Advanced . Это позволяет вам добавить опцию "Вставить из Word", которая позаботится обо всем за вас.

Однако, если вам это не интересно, у вас есть еще несколько вариантов. Как это:

function get_rid_of_mso_junk( $content ){
  return preg_replace( '@(mso|panose)[^:]{1,25}:[^;]+;(\s+)?(\n+)[email protected]', '', $content );
}

add_filter( 'content_save_pre', 'get_rid_of_mso_junk' );

Просто продолжайте добавлять нежелательные объявления в первый набор захвата в этом регулярном выражении, чтобы добавить строки, которые следует удалить. Например: (mso|panose|other-junk|annoyance).

5
John P Bloch

Для тех, кто ищет решение этой проблемы, я сделал что-то вроде этого:

function delete_between($beginning, $end, $string) {
    $beginningPos = strpos($string, $beginning);
    $endPos = strpos($string, $end);
    if (!$beginningPos || !$endPos) {
    return $string;
    }

    $textToDelete = substr($string, $beginningPos, ($endPos + strlen($end)) - $beginningPos);

    return str_replace($textToDelete, '', $string);
}

function clean_content( $content ){
    if( is_home() || is_single()){
        $content = delete_between('<!--[if gte mso', ';}', $content);   
        return $content;
    }else{
    return $content;
}

add_filter( 'the_content', 'clean_content' );
add_filter( 'the_excerpt', 'clean_content' );

Вы можете заменить строки в функции delete_between на что угодно. Это, казалось, работало для меня все же.

2
codeprokanner

Я работал с клиентами, которые часто сталкиваются с этой проблемой. Я обнаружил, что хитрость заключается в том, чтобы скопировать и вставить в представление HTML, а затем переключиться обратно в визуальный редактор, чтобы при необходимости отформатировать.

Это также необходимо при копировании с другого сайта. Иногда вы случайно извлекаете определения классов и встроенные стили из внешнего источника, и это может нарушить отображение, если у вас нет тех же классов или стилей, которые настроены или поддерживаются вашим сайтом.

Еще один вариант - открыть пользователям доступ к Windows Live Writer . Это совершенно бесплатный продукт Microsoft, прекрасно сочетающийся с копированием-вставкой из Word и способный взаимодействовать с WordPress - вы пишете свое сообщение, редактируете свое сообщение, используете встроенную проверку орфографии, форматируете сообщение, чтобы отображатькак вы хотите, затем нажмите "Опубликовать", чтобы отправить ваш пост в WordPress через XMLRPC. Это довольно надежная система, которая позволяетневероятнолегко научить начинающего блоггера вести блог ... особенно потому, что интерфейс с самого начала очень похож на Word.

2
EAMann