пятница, 18 июня 2021 г.

Ликбез по подсчету количества частей sms

Еще один специфический пост - на сей раз расскажу вам как правильно подсчитывать количество sms-ок, необходимых для отправки того или иного текста.

Вводные данные: текст, который вы хотите отправить с помощью sms-сервиса, может быть достаточно большим, например, содержать 150-200 символов. Сотовый оператор (или другой sms-провайдер) не может отправить такой длинный текст как одну sms-ку, и потому разбивает ее на несколько частей. В зависимости от кодировки символов в тексте максимальная длина части разная. Отправка сообщения частями не значит, что получатель получит 2 разные sms-ки. В телефоне получателя части соединятся в одну sms-ку. Поэтому для получателя сообщение любой длины будет выглядеть как одна sms-ка.

А вот отправителю сложнее. Если вы используете какое-то стороннее API для отправки sms, то будьте уверены, что длинное сообщение будет отправлено частями. Таким образом, если вы снимаете со своего пользователя сколько-то денег за отправку сообщения, но при этом не учитываете факт отправки по частям, то баланс может не сойтись. Кстати, интересный факт - не все sms-провайдеры держат информацию о правилах деления на части в более-менее открытом доступе. У кого-то придется пошерстить мануал или FAQ, кому-то придется задать вопрос в саппорт. (Из личного опыта интеграции как минимум с 7-8 провайдерами, один из которых - заграничный).

В случае если в сообщении есть хотя бы один символ кириллицы - то максимальная длина одного сообщения составит 70 символов. Точнее даже не символов, а позиций (но об этом позже). То есть 70 и меньше символов будут отправлены как одна sms-ка. Если символов становится больше 70, то провайдер начнет разбивать сообщение на части. Обычно длина каждой части - 67 символов. 70 и 67 это общепринятые значения на данный момент, но лучше уточнить эти лимиты в документации оператора\провайдера.

То есть, если ваше сообщение состоит из 90 символов, то провайдер отправит его как две части: первая часть длиной 67 символов, вторая - 23 символа. Сообщение длиной 71 символ не удастся отправить как одно, тут тоже две части - 67 + 4. Так что либо укладывайтесь в 70, либо пишите еще больше текста, все равно за вторую часть придется платить

Переходим к сообщениям, написанным без использования кириллицы. Здесь лимит длины сообщения составляет уже 160 символов на одну смс и 153 символа на часть (хотя я встречал одного провайдера со 157 символами на часть). Расчет частей аналогичен: сообщение из 190 символов будет состоять из двух частей: 153 и 37 символов каждая.

Следующий важный момент: как определить какую из пар (70/67 или 160/153) использовать для расчета числа частей? Понятно, что если в тексте сообщения есть хотя бы один кириллический символ, то выбор очевиден - 70/67. В остальных случаях используем 160/153. Однако, копнем дальше - что делать, если у вас какой-нибудь многоязычный сервис и хочется корректно рассчитывать число частей для разных языков, даже с учетом национальных особенностей? Здесь на помощь приходит тот факт, что базовой кодировкой сообщений, отправляемых через sms, является GSM 03.38. Таблица символов данной кодировки содержит помимо некоторых ASCII-символов (цифры, латинский алфавит и некоторые знаки препинания) также символы, которые не относятся к ASCII. Пример: испанская ñ или немецкое ß хоть и не входят в ASCII-символы, но в смске займут один символ в отличие от кириллических символов.

Приглядевшись к таблице символов кодировки GSM 03.38 можно заметить, что в ней есть некоторые символы, которые занимают две позиции в смске. К таким символам относится, например, знак евро . Это значит, что если в тексте сообщения есть 69 кириллических символов и семидесятым символом идет знак евро, то формально в сообщении 71 символ, так как знак евро занимает две позиции. Тут тоже надо быть внимательным, чтобы правильно вычислять число частей и тарифицировать отправку.

Как следует из всего вышесказанного, для расчета числа частей надо написать собственный, не самый сложный код. Однако, можно использовать уже имеющиеся библиотеки. Для php можно использовать, например, мной же и написанную библиотеку sms-charset-detector, которая определяет кодировку сообщения. В зависимости от результата, вы можете выбрать какую пару чисел использовать. Для javascript можно использовать, например, sms-counter, здесь можно сразу увидеть число частей, на которое будет разбито сообшение.

Итак, в данном посте вы познакомились с ограничениями на отправку sms-сообщений и узнали основные факты, необходимые для корректного расчета количества частей sms-сообщения.

понедельник, 3 мая 2021 г.

Приведение переменной к массиву

Сегодня краткий пост о том, как привести переменную какого-то типа к типу массив (array).

Итак, первый вариант, сразу приходящий в голову:

$var = 42;
$varArray = [$var];

Он хорош до тех пор, пока $var не является массивом. В случае с массивом мы получаем двумерный массив. Естественно, это нас не устраивает. Поэтому улучшаем конструкцию:

$var = 42;
if (!is_array($var)) {
    $var = [$var];
}

Но тут многовато строк, можно ли попроще?

Вспоминаем, зачем мы здесь реально собрались, и используем приведение типов:

$var = 42;
$varArray = (array) $var;
print_r($varArray);
// Вывод: Array
// (
//   [0] => 42
// )

$var = [42, 42];
$varArray = (array) $var;
print_r($varArray);
// Вывод: Array
// (
//   [0] => 42
//   [1] => 42
// )

На этом всё.

четверг, 11 марта 2021 г.

Doctrine: ошибка парсинга запроса

На самом деле пост довольно специфический. Начну с описания проблемы, встреченной мной уже минимум два раза. Имеем обычный с виду код выполнения запроса:

$conn = $this->getEntityManager()->getConnection();
$conn->executeQuery($query, [
    'param1' => 42,
    'param2' => 'forty-two',
    'param3' => '%some_other_data%',
]);

При выполнении этого кода ловим ошибку типа такой:

SQLSTATE[08P01]: <<Unknown error>>: 7 ERROR:  bind message supplies 0 parameters, but prepared statement "pdo_stmt_000...." requires 3

Казалось бы, что может пойти не так? Мы взяли запрос с именованными параметрами, взяли данные для подстановки и передали всё это в Доктрину. Однако, практика показывает, что при неком специфичном тексте запроса Доктрина не справляется с парсингом текста запроса и считает, что в данном запросе нет именованных параметров. Исходя из моего опыта, такое случалось на запросах с огромным количеством :, так как именно двоеточие определяет начало именованного параметра.

В качестве запроса, ломающего Доктрину можно привести такой (использую postgresql, текст запроса очень приблизительный):

SELECT
    id,
    value::FLOAT,
    exec_date
FROM (
    VALUES
    (
        8095,
        41,
        '2020-01-02 10:48:17'
    ),
    --- Таких values тут сотни две
) as vs (id, value, exec_date)
JOIN
    some_table t ON vs.id = t.foreign_id::INT
WHERE
   t.created_at::TIMESTAMP + interval '3600 second' <= vs.executed_at::TIMESTAMP
   AND t.field_one = :param1
   AND t.field_two = :param2
   --- и еще что-нибудь

Найденное мной быстрое решение - это поменять именованные параметры (:param1) на позиционные (?), с такими данными Доктрина успешно справляется. Если есть желание - можете самостоятельно нырнуть в дебри и поковыряться в регулярках, а возможно где-то уже висит issue (но это не точно), или в третьей версии Доктрины это вообще уже исправлено.

среда, 17 февраля 2021 г.

Интеграция php-кода и html-верстки

Сегодня у нас урок для начинающих. Допустим, вы - начинающий программист, или верстальщик, или вообще пытались мимо проходить, но жизнь заставила соединить верстку (она же html-разметка) и php-код. Как это сделать с минимальными усилиями?

Итак, допустим у вас есть верстка для списка новостей:

<div>
  <h1>Это заголовок списка новостей</h1>
  <div class="some-class">
    <h2>Заголовок новости 1</h2>
    <p>Небольшой блок текста для ознакомления</p>
    <a href="/detail.php?id=1">Читать текст целиком</a>
    <span class="author">Автор новости: И. Иванов</span>
  </div>
  <div class="some-class">
    <h2>Заголовок новости 2</h2>
    <p>Небольшой блок текста для ознакомления</p>
    <a href="/detail.php?id=2">Читать текст целиком</a>
    <span class="author">Автор новости: И. Иванов</span>
  </div>
  <div class="some-class">
    <h2>Заголовок новости 3</h2>
    <p>Небольшой блок текста для ознакомления</p>
    <a href="/detail.php?id=3">Читать текст целиком</a>
    <span class="author">Автор новости: И. Иванов</span>
  </div>
</div>

И есть массив новостей $newsArray, полученный из БД/API/откуда-то ещё. Мы не будем рассматривать, как вы получили этот массив, будем считать, что он у вас есть.

Для лучшего понимания, что и как нужно сделать, разобьем нашу задачу на несколько шагов.

среда, 30 декабря 2020 г.

Порционная обработка записей в цикле

Прямо вот совсем недавно на стеке возник вопрос - как порционно загружать записи из CSV в БД? Вопрос-то простой, но дополнительным условием было - после окончания цикла while нельзя делать дополнительный запрос на вставку.

Простое и понятное решение:

$handle = fopen(/* ... */);
$batch = [];
while (($data = fgetcsv($handle, 4096, ';')) !== false) {
  $batch[] = processData($data);

  if(100 === \count($batch)) {
    runBatchInsert($batch);

    $batch = [];
  }
}
fclose($handle);
if ($batch) {
    runBatchInsert($batch);
}

Как мы видим - здесь мы собираем записи в массив $batch, и как только в этом массиве будет 100 элементов - выполняем запрос на вставку в функции runBatchInsert(). Понятно, что после завершения цикла в $batch могут находиться данные, которые также надо вставить, что мы и делаем вторым вызовом функции runBatchInsert().

Однако, по условию задачи мы не должны использовать второй вызов runBatchInsert(). Это сделать вполне возможно, однако читабельность кода немного ухудшится, поэтому придется добавить немного комментариев, чтобы через месяц не забыть какого лешего это написано именно так, а не как у всех. В результате получаем такой вот код:

$handle = fopen(/* ... */);
$batch = [];
// запускаем "вечный" цикл
while (true) {
  $data = fgetcsv($handle, 4096, ';');
  // если данные есть - добавляем их в $batch
  if (false !== $data) {
    $batch[] = processData($data);
  }

  // если размер батча достиг лимита или мы больше не получили данных
  if(100 === \count($batch) || false === $data) {
    // в батче есть данные - вставляем
    if ($batch) {
      runBatchInsert($batch);
    }

    // данных больше нет - прерываем цикл
    if (false === $data) {
      break;    
    }

    // очищаем батч
    $batch = [];
  }
}
fclose($handle);

Вы сами вольны выбирать какой из подходов использовать, но лично я использую первый.

понедельник, 23 ноября 2020 г.

Загрузка файла при обновлении записи

Иногда на стеке встречается вопрос от новичков - как заменить файл, принадлежащий некоторой сущности. Допустим, в программе есть сущность Книга, и у нее есть файл обложки. Когда книга редактируется - файл обложки может быть изменен.

Многие начинающие разработчики будут полагать, что путь к текущему файлу обложки надо выводить на форму редактирования, затем, аналогично полям <input type="text" />, добавлять его значение в запрос\метод\функцию обновления. По их мнению получается, что если файл не был обновлен, то в БД запишется то же самое значение пути к файлу, что есть в БД сейчас. Выглядит это в их голове как-то так:

if (isset($_POST['update-btn'])) {
    $name = $_POST['name'];

    // вроде как тут должен быть путь к файлу,
    // но <input type="file" /> работает не так
    $file = $_POST['file'];

    $query = "UPDATE tbl_book SET name = '$name', filepath = '$file' WHERE id = 42";
    $dbh->execute($query);
}

Как следствие, у них возникает вопрос - как вывести текущий путь к файлу в <input type="file" />? Ответ прост - никак. Нужно понять две вещи: первое - никакое значение от сервера в <input type="file" /> предустановить нельзя. Второе - работать с заменой файла следует иначе, чем с заменой текстовых значений.

Поэтому правильный алгоритм обновления файла выглядит так:

1. На форме обновления рядом с полем загрузки файла (<input type="file" />) выводим текущий файл, например: Текущая обложка <img src="path/to/file.jpg" />. Так как в общем случае никому не интересно, как файл назван в системе, то такого вывода достаточно: пользователь видит содержимое файла (собственно картинку) и может решить - следует ли загрузить новый файл. Если же действительно надо показать текущий путь к файлу, то выводим, например, Текущий файл расположен по пути "path/to/file.jpg". В обоих случаях path/to/file.jpg - это путь к файлу, хранящийся в БД.

В поле загрузки файла пользователь может загрузить новый файл, а может не загрузить. Поэтому дальше идут два варианта развития событий.

2.1. Пользователь не загрузил файл. Значит, в запросе\методе\функции обновления записи не требуется указывать поле с файлом.

2.2. Пользователь загрузил новый файл. Значит, надо этот файл сохранить в каком-то каталоге и сформировать путь к нему. Далее, в запросе\методе\функции обновления записи указать путь к новому файлу, и после успешного обновления записи удалить с диска старый файл. Старый файл можно и не удалять, если на диске достаточно места.

Схематично код выглядит так, его аналоги можно реализовать в любом фреймворке:

if (isset($_POST['update-btn'])) {
    $name = $_POST['name'];

    if ($_FILES['file']) {
        move_uploaded_file();
        $file = 'path/to/file.jpg';

        // опционально, за этим значением нужно сходить в БД
        $oldFile = 'path/to/old_file.jpg';
    }

    if (isset($file)) {
        $query = "UPDATE tbl_book SET name = '$name', filepath = '$file' WHERE id = 42";
    } else {
        $query = "UPDATE tbl_book SET name = '$name' WHERE id = 42";
    }
    
    $dbh->execute($query);
    
    // опционально
    unlink($oldFile);
}

Это всё, что требуется сделать в случае замены файла в сущности. Никаких костылей изобретать не требуется.

понедельник, 26 октября 2020 г.

Short circuit evaluation в php

Сегодня поближе познакомимся с short circuit evaluation: выясним что это за зверь такой, посмотрим примеры и выясним, как он нам может помочь.

Для начала немного теории. Short circuit evaluation (не могу предложить простого русского перевода) - это стратегия в языках программирования, которая используется, чтобы избежать ненужных вычислений.
Лучше всего это понять на примере булевых выражений. Допустим, мы проверяем условие вида if (checkSomething() && checkSomethingElse()). Если checkSomething() вернет false, то true в итоге уже никак не получить, следовательно, вычислять второе значение в checkSomethingElse() не имеет смысла - любое вычисленное значение никак не повлияет на итоговый результат.