Блог о починке примусов

Веб-разработка на Rust, часть 1

2025-01-21T11:55:00.000+03:00

Всем привет. Это первый пост из серии постов, в котором я попробую создать полноценное веб-приложение на Rust. Зачем? Потому что могу)
В этом посте я:

собственно, установлю Rust
создам и запущу hello-world приложение
перейду к использованию Cargo

1 Итак, сначала установим Rust.
Для этого перейдём по адресу https://www.rust-lang.org/tools/install и воспользуемся рекомендуемым способом (Using rustup (Recommended)), а именно - в консоли запускаем:

> curl --proto '=https' --tlsv1.2 -sSf https://sh.rustup.rs | sh

Через некоторое время видим надпись

Rust is installed now. Great!

Проверим установленную версию компилятора Rust:

> rustc -V
> rustc 1.83.0 (90b35a623 2024-11-26)

Больше информации об установке (а также удалении) Rust можно узнать на уже указанной странице https://www.rust-lang.org/tools/install.

2 Теперь, по классике, напишем hello-world приложение.
Создадим папку для нашего проекта, например my-rust-project и перейдем в неё. Далее создадим файл main.rs, в котором и напишем код приложения:

> mkdir my-rust-project && cd ./my-rust-project
> touch main.rs

Код приложения выглядит следующим образом:

fn main() {
    println!("Hello, World!");
}

Комплилируем и запускаем приложение:

> rustc main.rs
> ./main

Видим вывод: Hello, World!

Приложение работает, можно переходить к следующему шагу! А больше подробностей о создании первого (и не только) приложения на Rust находится в официальной документации.

3 Перейдем к использованию Cargo
Запускать каждый раз rustc, а потом скомпилированный файл, конечно, можно, но для более продуктивной работы разработчики Rust создали Cargo - билд-менеджер и менеджер зависимостей в одном лице. Перепишем же наше hello-world приложение, используя Cargo.

Создаем новый проект:

> cargo new cargo-rust-project

Перейдя в папку cargo-rust-project, видим что Cargo создал нам некоторую структуру проекта, которой мы будем пользоваться в дальнейшем. В папке cargo-rust-project/src уже содержится файл main.rs с кодом hello-world приложения, так что даже и писать ничего не надо. Остается только скомпилировать и запустить, это делается единственной командой:

> cargo run

Видим вывод: Hello, World!

Итак, наше первое hello-world приложение на Rust работает, а значит время переходить к следующему этапу.

Больше информации о Cargo - в официальном руководстве.

Изменение автора коммита в git

2024-05-26T18:00:00.002+03:00

Иногда случается ситуация, что сделанный вами коммит имеет не того автора, что нужно. Например, вы сделали коммит от какого-то персонального аккаунта, а репозиторий рабочий, и надо чтобы автором был рабочий аккаунт.

Чтобы такая ситуация не повторялась, измените в репозитории файл .git/config и внесите туда информацию о нужном аккаунте в виде:

[user] email = developer@domain.tld name = Some Developer

Однако, данные коммита не поменялись, а значит, надо предпринять что-то ещё.

В простейшем случае можно удалить сделанный коммит через git reset HEAD~, заново добавить файлы и сделать новый коммит. Теперь коммит будет иметь нужного автора. Но если в коммите много файлов или так делать лень, то есть другой способ:

git commit --amend --author="Some Developer <developer@domain.tld>"

После этого автором коммита становится указанный человек.

Регулярные выражения в postgresql

2023-04-04T11:12:00.025+03:00

Сегодня поразбираемся с тем, как в postgresql работать с регулярными выражениями.

Исходные данные: таблица users следующего вида:

 id | first_name |     full_name     | last_name |      email      
-------------------------------------------------------------------
 1  |       Иван |     Иван Дмитриев |         - |     ivan@mail.ru
 2  |      Ольга |     Ольга Корнева |         - |         ko@ya.ru
 3  |   Вячеслав | Вячеслав Домашнев |         - |   domv@yandex.ru
 4  |      Игорь |    Игорь Черников |         - | ichern@gmail.com
 5  |     Галина |     Галина Горных |         - | Galina@Yandex.ru

Начнем с простейшего - выберем все записи, где поле email содержит подстроку ya.

Это можно сделать несколькими способами. Самый известный - использовать оператор LIKE. Запрос будет выглядеть так:
SELECT email FROM users WHERE email LIKE '%ya%'

% означает любое количество символов. _ означает один символ.

Второй вариант: используя оператор ~ (тильда) текст запроса можно сократить до:
SELECT email FROM users WHERE email ~ 'ya'

Результат выполнения аналогичен предыдущему.

Заметим, что при использовании ~ не требуется использовать % или _, что сокращает текст запроса. Однако, ~ может не поддерживаться по умолчанию в используемом фреймворке или библиотеке, например в Doctrine.

Далее: если присмотреться, то эти запросы возвращают не все подходящие под условие результаты. А именно не возвращается адрес Galina@Yandex.ru.

Если регулярное выражение требуется усложнить и модификаторов %/_ недостаточно, то используем уже известную ~. Например, найдем все адреса с доменом mail или gmail:
SELECT email FROM users WHERE email ~ '@(gmail|mail)' -- или SELECT email FROM users WHERE email ~ '@(g?)mail'
Для обоих запросов результат выполнения:
email ------------------ ivan@mail.ru ichern@gmail.com

Теперь попробуем в деле функции, которые возвращают подстроки, соответствующие регулярному выражению. Для начала найдем все домены из значений поля email:
SELECT SUBSTRING(email FROM '.*@(.*)') AS domain FROM users
Результат выполнения:
domain ----------- mail.ru ya.ru yandex.ru gmail.com Yandex.Ru

Комбинируя SUBSTRING с другими функциями, можно найти, например, все различные домены первого уровня в почтовых адресах:
SELECT DISTINCT(LOWER(SUBSTRING(email FROM '.*\.(.*)$'))) AS tld FROM users;
Результат выполнения:
tld ---- ru com

И последним заданием попробуем заполнить пока еще пустое поле last_name значениями, взятыми из поля full_name. Считаем, что фамилия - это все символы после пробела в поле full_name:
UPDATE users SET last_name = SUBSTRING(full_name FROM '.*\s(.*)$') -- затем SELECT first_name, last_name FROM users
Результат выполнения:
first_name | last_name ------------+----------- Иван | Дмитриев Ольга | Корнева Вячеслав | Домашнев Игорь | Черников Галина | Горных

Резюмируя:

простейший поиск осуществляем с помощью LIKE или ~ и их регистронезависимых аналогов ILIKE или ~*;
поиск посложнее осуществляем с помощью ~/~*;
для получения подстрок, соответствующих регулярному выражению, используем функцию substring()

Больше информации об использовании регулярных выражений - в официальном руководстве.

Константы и пространства имен в php

2022-06-17T10:10:00.003+03:00

Сегодня поисследуем использование пространств имен (они же неймспейсы) для объявления констант и обращения к ним.

Как сказано в мануале:

классы (включая абстрактные и трейты), интерфейсы, функции и константы зависят от пространства имен.

То есть, если зарегистрировать константы с одинаковыми именами в нескольких неймспейсах, в том числе и глобальном, то за это ничего не будет, и обращение к каждой из констант будет работать без ошибок.

Проверим:

namespace FirstNs { const SUPER_VALUE = 'NS-1'; } namespace SecondNs { const SUPER_VALUE = 'NS-2'; } namespace { const SUPER_VALUE = 'NS-GLOBAL'; var_dump( SUPER_VALUE, FirstNs\SUPER_VALUE, SecondNs\SUPER_VALUE, ); } // Вывод: // string(9) "NS-GLOBAL" // string(4) "NS-1" // string(4) "NS-2"

Ровно то, что нужно.

Но что если мы хотим определить константы методом define.

Не проблема, пробуем написать так:

namespace FirstNs { define('SUPER_VALUE', 'NS-1'); } namespace SecondNs { define('SUPER_VALUE', 'NS-2'); } namespace { define('SUPER_VALUE', 'NS-GLOBAL'); var_dump( SUPER_VALUE, FirstNs\SUPER_VALUE, SecondNs\SUPER_VALUE, ); }

Запускаем и видим:

Warning: Constant SUPER_VALUE already defined in ... Warning: Constant SUPER_VALUE already defined in ... Fatal error: Uncaught Error: Undefined constant "FirstNs\SUPER_VALUE" in ...

Судя по всему, мы пытаемся три раза определить одну и ту же константу в глобальном неймспейсе. Что же делать?

А просто указать нужный неймспейс при определении константы, благо php это позволяет:

namespace FirstNs { define('FirstNs\\SUPER_VALUE', 'NS-1'); // или define(__NAMESPACE__ . '\\SUPER_VALUE', 'NS-1'); } namespace SecondNs { define('SecondNs\\SUPER_VALUE', 'NS-2'); } namespace { define('SUPER_VALUE', 'NS-GLOBAL'); var_dump( SUPER_VALUE, FirstNs\SUPER_VALUE, SecondNs\SUPER_VALUE, ); } // Вывод: // string(9) "NS-GLOBAL" // string(4) "NS-1" // string(4) "NS-2"

Можно даже пойти дальше и в одном неймспейсе определить константу другого неймспейса:

namespace FirstNs { define('SecondNs\\SUPER_VALUE', 'NS-2-1'); } namespace SecondNs { define('FirstNs\\SUPER_VALUE', 'NS-1-2'); }

Делать так в продакшене категорически не рекомендуется.

Итак, сегодня мы разобрались с тем, как определять константы с учетом неймспейсов, используя как ключевое слово const, так и функцию define.

Длина строк в Go

2022-02-08T05:55:00.001+03:00

Этот пост родился из-за странного поведения валидатора Length из пакета ozzo-validation.

Следуя руководству, можно зарегистрировать, например, такой валидатор для строк:

data := "Некоторая строка" err := validation.Validate(data, validation.Required, validation.Length(10, 16), ) fmt.Println(err)

И так как в строке у нас кириллические символы, и более того - кодировка строки utf-8, то валидация не пропускает строку, падая с ошибкой "the length must be between 10 and 16". Почему так происходит, ведь валидируемая строка содержит ровно 16 символов?

Для того, чтобы понять почему валидация выдает ошибку - придется сходить в исходный код валидатора. Поиски приводят к тому, что для определения длины валидируемой строки используется метод Len() из типа reflect#Value. Путешествие дальше приводит нас к тому, что свойство Len вычисляется с помощью встроенной функции len. А как сообщает мануал:

The len built-in function returns the length of v, according to its type:
String: the number of bytes in v.

Следовательно, валидация на основании длины строки в байтах нас не устраивает, так как в случае многобайтных кодировок (коей является utf-8) число символов в строке не равно числу байт в этой же строке.

Хотелось бы, чтобы был метод типа utfLen(). И он есть в пакете unicode/utf8, правда, с немного другим названием - RuneCountInString. И о чудо, данный метод даже используется в валидаторе, если установить дополнительный флаг rune. И это можно сделать применив валидатор RuneLength.

Обновленный код:

data := "Некоторая строка" err := validation.Validate(data, validation.Required, validation.RuneLength(10, 16), ) fmt.Println(err)

Валидация отрабатывает как и ожидается, выводя <nil>.

И не забудьте написать для этого случая тест (ну или хотя бы комментарий), чтобы пытливый программист, использующий код после вас, не смог бы заменить RuneLength на Length, думая, что "и так сойдёт".

P.S. Больше разъяснений про длины строк можно почитать в этом ответе на stackoverflow.

P.P.S. Отличное видео на Youtube, раскрывающее суть кодировок.

Интерпретация переменных в строке

2021-08-04T10:45:00.005+03:00

Сегодня еще один пост о всяких веселых способах написать код в php.

Всем известно (а если не известно, то читайте мануал), что в строках в двойных кавычках переменные и некоторые другие выражения обрабатываются и вместо этой переменной\выражения выводится результат. Простейший пример:

$number = 42; echo "Number is $number"; // outputs "Number is 42"

Теперь зададимся вопросом - а можно ли как-то интерпретировать в строках какие-либо выражения? Например, сложение двух чисел. Естественно, написание в лоб приводит к ошибкам:

$a = 42; $b = 24; echo "Sum is {$a + $b}";

Что же делать? Понятно, что можно завести класс, объявить в нем метод суммирования, но это как-то много кода:

class Summator { public function sum($a, $b) { return $a + $b; } } $a = 42; $b = 24; $o = new Summator(); echo "Sum is {$o->sum($a, $b)}"; // outputs "Sum is 66"

Подумав еще немного можно прийти к следующему - создадим переменную, которая будет хранить анонимную функцию, и в строке вызовем эту переменную:

$a = 42; $b = 24; $sum = function($a, $b) { return $a + $b; }; echo "Sum is {$sum($a, $b)}"; // outputs "Sum is 66"

А с учетом стрелочных функций (с версии 7.4), которые имеют доступ к переменным родительской области видимости, код упрощается до такого:

$a = 42; $b = 24; $sum = fn() => $a + $b; echo "Sum is {$sum()}"; // outputs "Sum is 66"

Ну и наконец самая безумная версия:

$a = 42; $b = 24; echo "Sum is ${0 * ${0}=$a+$b}"; // outputs "Sum is 66"

Что же здесь происходит?

Здесь мы пытаемся вывести переменную с названием, которое получается как результат умножения 0 на переменную ${0}. А значение ${0} является суммой значений $a и $b. Почему php выполняет присваивание значения переменной при парсинге строки - не знаю. Но тем не менее, мы получаем, что переменной ${0} присваивается 66. А так как результатом присваивания является присвоенное значение, то 0 * ${0}=$a+$b превращается в 0 * 66, и выражение ${0 * ${0}=$a+$b} сворачивается в ${0}. То есть мы хотим вывести переменную с названием 0, которую мы уже определили ранее, как сумму $a и $b. Вот и получаем в выводе 66.

Спасибо за внимание и никогда не пишите такой код)

Ликбез по подсчету количества частей sms

2021-06-18T11:00:00.000+03:00

Еще один специфический пост - на сей раз расскажу вам как правильно подсчитывать количество sms-ок, необходимых для отправки того или иного текста.

Вводные данные: текст, который вы хотите отправить с помощью sms-сервиса, может быть достаточно большим, например, содержать 150-200 символов. Сотовый оператор (или другой sms-провайдер) не может отправить такой длинный текст как одну sms-ку, и потому разбивает ее на несколько частей. В зависимости от кодировки символов в тексте максимальная длина части разная. Отправка сообщения частями не значит, что получатель получит 2 разные sms-ки. В телефоне получателя части соединятся в одну sms-ку. Поэтому для получателя сообщение любой длины будет выглядеть как одна sms-ка.

А вот отправителю сложнее. Если вы используете какое-то стороннее API для отправки sms, то будьте уверены, что длинное сообщение будет отправлено частями. Таким образом, если вы снимаете со своего пользователя сколько-то денег за отправку сообщения, но при этом не учитываете факт отправки по частям, то баланс может не сойтись. Кстати, интересный факт - не все sms-провайдеры держат информацию о правилах деления на части в более-менее открытом доступе. У кого-то придется пошерстить мануал или FAQ, кому-то придется задать вопрос в саппорт. (Из личного опыта интеграции как минимум с 7-8 провайдерами, один из которых - заграничный).

В случае если в сообщении есть хотя бы один символ кириллицы - то максимальная длина одного сообщения составит 70 символов. Точнее даже не символов, а позиций (но об этом позже). То есть 70 и меньше символов будут отправлены как одна sms-ка. Если символов становится больше 70, то провайдер начнет разбивать сообщение на части. Обычно длина каждой части - 67 символов. 70 и 67 это общепринятые значения на данный момент, но лучше уточнить эти лимиты в документации оператора\провайдера.

То есть, если ваше сообщение состоит из 90 символов, то провайдер отправит его как две части: первая часть длиной 67 символов, вторая - 23 символа. Сообщение длиной 71 символ не удастся отправить как одно, тут тоже две части - 67 + 4. Так что либо укладывайтесь в 70, либо пишите еще больше текста, все равно за вторую часть придется платить

Переходим к сообщениям, написанным без использования кириллицы. Здесь лимит длины сообщения составляет уже 160 символов на одну смс и 153 символа на часть (хотя я встречал одного провайдера со 157 символами на часть). Расчет частей аналогичен: сообщение из 190 символов будет состоять из двух частей: 153 и 37 символов каждая.

Следующий важный момент: как определить какую из пар (70/67 или 160/153) использовать для расчета числа частей? Понятно, что если в тексте сообщения есть хотя бы один кириллический символ, то выбор очевиден - 70/67. В остальных случаях используем 160/153. Однако, копнем дальше - что делать, если у вас какой-нибудь многоязычный сервис и хочется корректно рассчитывать число частей для разных языков, даже с учетом национальных особенностей? Здесь на помощь приходит тот факт, что базовой кодировкой сообщений, отправляемых через sms, является GSM 03.38. Таблица символов данной кодировки содержит помимо некоторых ASCII-символов (цифры, латинский алфавит и некоторые знаки препинания) также символы, которые не относятся к ASCII. Пример: испанская ñ или немецкое ß хоть и не входят в ASCII-символы, но в смске займут один символ в отличие от кириллических символов.

Приглядевшись к таблице символов кодировки GSM 03.38 можно заметить, что в ней есть некоторые символы, которые занимают две позиции в смске. К таким символам относится, например, знак евро €. Это значит, что если в тексте сообщения есть 69 кириллических символов и семидесятым символом идет знак евро, то формально в сообщении 71 символ, так как знак евро занимает две позиции. Тут тоже надо быть внимательным, чтобы правильно вычислять число частей и тарифицировать отправку.

Как следует из всего вышесказанного, для расчета числа частей надо написать собственный, не самый сложный код. Однако, можно использовать уже имеющиеся библиотеки. Для php можно использовать, например, мной же и написанную библиотеку sms-charset-detector, которая определяет кодировку сообщения. В зависимости от результата, вы можете выбрать какую пару чисел использовать. Для javascript можно использовать, например, sms-counter, здесь можно сразу увидеть число частей, на которое будет разбито сообшение.

Итак, в данном посте вы познакомились с ограничениями на отправку sms-сообщений и узнали основные факты, необходимые для корректного расчета количества частей sms-сообщения.

Приведение переменной к массиву

2021-05-03T11:00:00.001+03:00

Сегодня краткий пост о том, как привести переменную какого-то типа к типу массив (array).

Итак, первый вариант, сразу приходящий в голову:

$var = 42; $varArray = [$var];

Он хорош до тех пор, пока $var не является массивом. В случае с массивом мы получаем двумерный массив. Естественно, это нас не устраивает. Поэтому улучшаем конструкцию:

$var = 42; if (!is_array($var)) { $var = [$var]; }

Но тут многовато строк, можно ли попроще?

Вспоминаем, зачем мы здесь реально собрались, и используем приведение типов:

$var = 42; $varArray = (array) $var; print_r($varArray); // Вывод: Array // ( // [0] => 42 // ) $var = [42, 42]; $varArray = (array) $var; print_r($varArray); // Вывод: Array // ( // [0] => 42 // [1] => 42 // )

На этом всё.

Doctrine: ошибка парсинга запроса

2021-03-11T17:27:00.144+03:00

На самом деле пост довольно специфический. Начну с описания проблемы, встреченной мной уже минимум два раза. Имеем обычный с виду код выполнения запроса:


  $conn = $this->getEntityManager()->getConnection();

  $conn->executeQuery($query, [

      'param1' => 42,

      'param2' => 'forty-two',

      'param3' => '%some_other_data%',

  ]);

При выполнении этого кода ловим ошибку типа такой:

SQLSTATE[08P01]: <<Unknown error>>: 7 ERROR: bind message supplies 0 parameters, but prepared statement "pdo_stmt_000...." requires 3

Казалось бы, что может пойти не так? Мы взяли запрос с именованными параметрами, взяли данные для подстановки и передали всё это в Доктрину. Однако, практика показывает, что при неком специфичном тексте запроса Доктрина не справляется с парсингом текста запроса и считает, что в данном запросе нет именованных параметров. Исходя из моего опыта, такое случалось на запросах с огромным количеством :, так как именно двоеточие определяет начало именованного параметра.

В качестве запроса, ломающего Доктрину можно привести такой (использую postgresql, текст запроса очень приблизительный):


SELECT
    id,

      value::FLOAT,

      exec_date

  FROM (
    VALUES

      (

          8095,

          41,

          '2020-01-02 10:48:17'

      ),

      --- Таких values тут сотни две

  ) as vs (id, value, exec_date)

  JOIN

      some_table t ON vs.id = t.foreign_id::INT

  WHERE

     t.created_at::TIMESTAMP + interval '3600 second' <= vs.executed_at::TIMESTAMP

     AND t.field_one = :param1

     AND t.field_two = :param2

     --- и еще что-нибудь

Найденное мной быстрое решение - это поменять именованные параметры (:param1) на позиционные (?), с такими данными Доктрина успешно справляется. Если есть желание - можете самостоятельно нырнуть в дебри и поковыряться в регулярках, а возможно где-то уже висит issue (но это не точно), или в третьей версии Доктрины это вообще уже исправлено.

Интеграция php-кода и html-верстки

2021-02-17T11:00:00.001+03:00

Сегодня у нас урок для начинающих. Допустим, вы - начинающий программист, или верстальщик, или вообще пытались мимо проходить, но жизнь заставила соединить верстку (она же html-разметка) и php-код. Как это сделать с минимальными усилиями?

Итак, допустим у вас есть верстка для списка новостей:


<div>

  <h1>Это заголовок списка новостей</h1>

  <div class="some-class">

    <h2>Заголовок новости 1</h2>

    <p>Небольшой блок текста для ознакомления</p>

    <a href="/detail.php?id=1">Читать текст целиком</a>

    <span class="author">Автор новости: И. Иванов</span>

  </div>

  <div class="some-class">

    <h2>Заголовок новости 2</h2>

    <p>Небольшой блок текста для ознакомления</p>

    <a href="/detail.php?id=2">Читать текст целиком</a>

    <span class="author">Автор новости: И. Иванов</span>

  </div>

  <div class="some-class">

    <h2>Заголовок новости 3</h2>

    <p>Небольшой блок текста для ознакомления</p>

    <a href="/detail.php?id=3">Читать текст целиком</a>

    <span class="author">Автор новости: И. Иванов</span>

  </div>

</div>

И есть массив новостей $newsArray, полученный из БД/API/откуда-то ещё. Мы не будем рассматривать, как вы получили этот массив, будем считать, что он у вас есть.

Для лучшего понимания, что и как нужно сделать, разобьем нашу задачу на несколько шагов.

Шаг первый - обойдем массив (проитерируемся по массиву) и выведем некий блок-заглушку на каждой итерации. Перейти
Шаг второй - заменим блок-заглушку на статические данные из разметки выше. Перейти
Шаг третий - заменим статические данные на реальные данные из массива. Перейти

Итак, поехали - обходим массив поэлементно.

Первое правило - в большинстве случаев любой массив можно обойти с помощью foreach.

Да, в php есть цикл for и другие варианты обхода массива, но для простого обхода любых массивов используйте foreach.

На каждой итерации выведите что вам угодно, пусть даже пресловутый Hello, world!. Главное на этом шаге - убедиться, что массив обойден и выводимая строка повторена столько раз, сколько элементов в массиве $newsArray.

На этом шаге получаем такой код:

foreach ($newsArray as $news) { echo 'Hello, world! <br />'; }

Заглядываем в полученный html, считаем число "хеллоуворлдов" и убеждаемся, что все в порядке.

Затем переходим к шагу два - выводим заглушку-разметку. В качестве разметки возьмем разметку одного блока <div class="some-class">, и заменим ею вывод "Hello world".

Получим такой код:

foreach ($newsArray as $news) {?> <div class="some-class"> <h2>Заголовок новости 1</h2> <p>Небольшой блок текста для ознакомления</p> <a href="/detail.php?id=1">Читать текст целиком</a> <span class="author">Автор новости: И. Иванов</span> </div> <?php }

Правило номер два - для вывода разметки закрывайте php-тег и выводите разметку как есть.

Другой вариант вывода может выглядеть так:

foreach ($newsArray as $news) { echo '<div class="some-class">'; echo ' <h2>Заголовок новости 1</h2>'; echo ' <p>Небольшой блок текста для ознакомления</p>'; echo ' <a href="/detail.php?id=1">Читать текст целиком</a>'; echo ' <span class="author">Автор новости: И. Иванов</span>'; echo '</div>'; }

Нельзя сказать, что он неправилен, ведь он также работает. Но, во-первых - этот код читается хуже, чем первый вариант. А во-вторых - когда мы начнем выводить вместо шаблонного текста какие-то данные из массива, мы замучаемся с конкатенацией строк и слежением за кавычками. Поэтому: выключаем режим php и выводим html как есть, производительность от этого не пострадает.

Также на этом шаге мы сделаем следующее - выведем статические данные с помощью конструкции echo. Обычно вывод можно записать так <?php echo 'String here'; ?>, но мы воспользуемся сокращенной записью <?='String here'?>, это здорово сократит и сам код и время его написания.

В итоге на этом шаге получаем такой код:

foreach ($newsArray as $news) {?> <div class="some-class"> <h2><?='Заголовок новости 1'?></h2> <p><?='Небольшой блок текста для ознакомления'?></p> <a href="<?='/detail.php?id=1'?>">Читать текст целиком</a> <span class="author">Автор новости: <?='И. Иванов'?></span> </div> <?php }

Снова смотрим на результат работы скрипта и переходим к последнему шагу.

Осталась самая малость - заменить статические данные на реальные данные из массива $newsArray. Здесь все совсем просто - в каждое <?= просто подставляем обращение к нужному ключу текущего массива $news:

foreach ($newsArray as $news) {?> <div class="some-class"> <h2><?=$news['title']?></h2> <p><?=$news['preview']?></p> <a href="<?=$news['detail_url']?>">Читать текст целиком</a> <span class="author">Автор новости: <?=$news['author']?></span> </div> <?php }

Обновляем страницу и смотрим, что получилось. Если все в порядке, то работа успешно закончена - вы соединили верстку и html-код. Следующий шаг в развитии - использование шаблонизаторов. Но это тема для другого поста.

Финальный код в виде гиста, там же пример с обсуждаемыми выше вариантами вывода данных: с закрытием php-тега и без этого.

Порционная обработка записей в цикле

2020-12-30T23:25:00.000+03:00

Прямо вот совсем недавно на стеке возник вопрос - как порционно загружать записи из CSV в БД? Вопрос-то простой, но дополнительным условием было - после окончания цикла while нельзя делать дополнительный запрос на вставку.

Простое и понятное решение:

$handle = fopen(/* ... */); $batch = []; while (($data = fgetcsv($handle, 4096, ';')) !== false) { $batch[] = processData($data); if(100 === \count($batch)) { runBatchInsert($batch); $batch = []; } } fclose($handle); if ($batch) { runBatchInsert($batch); }

Как мы видим - здесь мы собираем записи в массив $batch, и как только в этом массиве будет 100 элементов - выполняем запрос на вставку в функции runBatchInsert(). Понятно, что после завершения цикла в $batch могут находиться данные, которые также надо вставить, что мы и делаем вторым вызовом функции runBatchInsert().

Однако, по условию задачи мы не должны использовать второй вызов runBatchInsert(). Это сделать вполне возможно, однако читабельность кода немного ухудшится, поэтому придется добавить немного комментариев, чтобы через месяц не забыть какого лешего это написано именно так, а не как у всех. В результате получаем такой вот код:

$handle = fopen(/* ... */); $batch = []; // запускаем "вечный" цикл while (true) { $data = fgetcsv($handle, 4096, ';'); // если данные есть - добавляем их в $batch if (false !== $data) { $batch[] = processData($data); } // если размер батча достиг лимита или мы больше не получили данных if(100 === \count($batch) || false === $data) { // в батче есть данные - вставляем if ($batch) { runBatchInsert($batch); } // данных больше нет - прерываем цикл if (false === $data) { break; } // очищаем батч $batch = []; } } fclose($handle);

Вы сами вольны выбирать какой из подходов использовать, но лично я использую первый.

Загрузка файла при обновлении записи

2020-11-23T23:26:00.001+03:00

Иногда на стеке встречается вопрос от новичков - как заменить файл, принадлежащий некоторой сущности. Допустим, в программе есть сущность Книга, и у нее есть файл обложки. Когда книга редактируется - файл обложки может быть изменен.

Многие начинающие разработчики будут полагать, что путь к текущему файлу обложки надо выводить на форму редактирования, затем, аналогично полям <input type="text" />, добавлять его значение в запрос\метод\функцию обновления. По их мнению получается, что если файл не был обновлен, то в БД запишется то же самое значение пути к файлу, что есть в БД сейчас. Выглядит это в их голове как-то так:

if (isset($_POST['update-btn'])) { $name = $_POST['name']; // вроде как тут должен быть путь к файлу, // но <input type="file" /> работает не так $file = $_POST['file']; $query = "UPDATE tbl_book SET name = '$name', filepath = '$file' WHERE id = 42"; $dbh->execute($query); }

Как следствие, у них возникает вопрос - как вывести текущий путь к файлу в <input type="file" />? Ответ прост - никак. Нужно понять две вещи: первое - никакое значение от сервера в <input type="file" /> предустановить нельзя. Второе - работать с заменой файла следует иначе, чем с заменой текстовых значений.

Поэтому правильный алгоритм обновления файла выглядит так:

1. На форме обновления рядом с полем загрузки файла (<input type="file" />) выводим текущий файл, например: Текущая обложка <img src="path/to/file.jpg" />. Так как в общем случае никому не интересно, как файл назван в системе, то такого вывода достаточно: пользователь видит содержимое файла (собственно картинку) и может решить - следует ли загрузить новый файл. Если же действительно надо показать текущий путь к файлу, то выводим, например, Текущий файл расположен по пути "path/to/file.jpg". В обоих случаях path/to/file.jpg - это путь к файлу, хранящийся в БД.

В поле загрузки файла пользователь может загрузить новый файл, а может не загрузить. Поэтому дальше идут два варианта развития событий.

2.1. Пользователь не загрузил файл. Значит, в запросе\методе\функции обновления записи не требуется указывать поле с файлом.

2.2. Пользователь загрузил новый файл. Значит, надо этот файл сохранить в каком-то каталоге и сформировать путь к нему. Далее, в запросе\методе\функции обновления записи указать путь к новому файлу, и после успешного обновления записи удалить с диска старый файл. Старый файл можно и не удалять, если на диске достаточно места.

Схематично код выглядит так, его аналоги можно реализовать в любом фреймворке:

if (isset($_POST['update-btn'])) { $name = $_POST['name']; if ($_FILES['file']) { move_uploaded_file(); $file = 'path/to/file.jpg'; // опционально, за этим значением нужно сходить в БД $oldFile = 'path/to/old_file.jpg'; } if (isset($file)) { $query = "UPDATE tbl_book SET name = '$name', filepath = '$file' WHERE id = 42"; } else { $query = "UPDATE tbl_book SET name = '$name' WHERE id = 42"; } $dbh->execute($query); // опционально unlink($oldFile); }

Это всё, что требуется сделать в случае замены файла в сущности. Никаких костылей изобретать не требуется.

Short circuit evaluation в php

2020-10-26T18:50:00.000+03:00

Сегодня поближе познакомимся с short circuit evaluation: выясним что это за зверь такой, посмотрим примеры и выясним, как он нам может помочь.

Для начала немного теории. Short circuit evaluation (не могу предложить простого русского перевода) - это стратегия в языках программирования, которая используется, чтобы избежать ненужных вычислений.
Лучше всего это понять на примере булевых выражений. Допустим, мы проверяем условие вида if (checkSomething() && checkSomethingElse()). Если checkSomething() вернет false, то true в итоге уже никак не получить, следовательно, вычислять второе значение в checkSomethingElse() не имеет смысла - любое вычисленное значение никак не повлияет на итоговый результат.

Теперь примеры - short circuit evaluation в действии. Определим четыре функции, две из них возвращают true, две других - false. Для проверки поместим в тела этих функций вывод сообщений:

function returnTrue(): bool { echo 'Вызван метод ' . __METHOD__ . PHP_EOL; return true; } function returnTrueToo(): bool { echo 'Вызван метод ' . __METHOD__ . PHP_EOL; return true; } function returnFalse(): bool { echo 'Вызван метод ' . __METHOD__ . PHP_EOL; return false; } function returnFalseToo(): bool { echo 'Вызван метод ' . __METHOD__ . PHP_EOL; return false; }

Проверяем:

if (returnFalse() && returnTrue()) { echo 'Эта строка не выведется'; } else { echo 'Эта строка выведется и это правильно'; } // Вывод Вызван метод returnFalse Эта строка выведется и это правильно

Как видим - short circuit evaluation действительно работает: так как && вернет true только в случае если оба аргумента равны true, а первый вычисленный аргумент не равен true, то вычислять второй не имеет смысла, итоговое выражение от этого не станет true. Поэтому видим, что выполнилась только первая функция returnFalse.

Пример посложнее:

if ((returnTrue() || returnFalse()) && (returnFalseToo() && returnTrueToo())) { echo 'Эта строка не выведется'; } else { echo 'Эта строка выведется и это правильно'; } // Вывод Вызван метод returnTrue Вызван метод returnFalseToo Эта строка выведется и это правильно

Третья проверка показывает, что если все условия могут повлиять на результат - то все они и проверятся:

if (returnFalse() || returnFalseToo() || returnTrueToo()) { echo 'Эта строка выведется и это правильно'; } else { echo 'Эта строка не выведется'; } // Вывод Вызван метод returnFalse Вызван метод returnFalseToo Вызван метод returnTrueToo Эта строка выведется и это правильно

Итак, short circuit evaluation действительно работает и не вызывает функции, если их выполнение не повлияет на результат вычисления. И стоит это учитывать в ваших условиях. Например, рассмотрим такой гипотетический случай:

if (returnsTrue() || checkSomethingFromApi()) { // more code }

Здесь checkSomethingFromApi некая функция, которая достает результат из апи, что-либо проверяет в нем и возвращает какой-то результат. Если вы будете думать, что checkSomethingFromApi будет вызываться всегда, то увы. Так как первой части достаточно для всего результата, то функция checkSomethingFromApi не вызовется никогда. И если checkSomethingFromApi дополнительно делает какое-то еще, явно не обозначенное действие (например, пишет в БД или в кеш), то это действие не выполнится, и в БД не запишется ничего. Следовательно, вам гарантированы часы дебага и разочарование, что "ларчик просто открывался". Инспекции PHPStorm, кстати, могут обратить ваше внимание на такое поведение.

Теперь перейдем к другому моменту: что если мы объединим некоторые логические условия в скобки и возьмем от них отрицание. Будет ли применён short circuit evaluation или будут выполнены все вычисления в скобках, и только потом инвертируется результат? Смотрим в пример:

if (!(returnTrue() || returnFalse()) || !(returnFalse() && returnFalseToo())) { echo 'Эта строка выведется и это правильно'; } else { echo 'Эта строка не выведется'; } // Вывод Вызван метод returnTrue Вызван метод returnFalse Эта строка выведется и это правильно

Как видим, и тут срабатывает short circuit evaluation. В первом условии returnTrue() однозначно определяет результат всего условия как true, отрицание дает false, значит надо перейти к вычислению второго условия. Во втором условии returnFalse() также достаточно для определения результата, и отрицание false дает true. Как видим - вместо предполагаемых четырех функций выполнились всего лишь две.

Итак, мы разобрались что такое short circuit evaluation, посмотрели примеры с его использованием и даже выяснили один подводный камень его использования.

Размеры таблиц и индексов в БД PostgreSQL

2020-09-20T20:49:00.000+03:00

Сегодня рассмотрим несколько команд для определения размеров различных сущностей в PostgreSQL.

Перед тем как начать - рассмотрим вспомогательную функцию pg_size_pretty(), которая:

Преобразует размер в байтах, представленный в 64-битном целом, в понятный человеку формат с единицами измерения

То есть вместо какого-то огромного числа байтов показывает понятную строчку, например:

select pg_size_pretty(100250408::bigint); -- Вывод: pg_size_pretty text -------------- 96 MB

Теперь, вооружившись этой функцией, переходим к основным функциям.

Первое и самое нужное - размер таблицы PostgreSQL без учета индексов и прочих деталей. Для этого есть функция pg_relation_size(), принимающая в качестве аргумента название таблицы. Комбинируем ее с pg_size_pretty() и получаем:

select pg_size_pretty(pg_relation_size('my_table')); -- Вывод (небольшая тестовая таблица в моей БД): pg_size_pretty text -------------- 48 kB

Далее - определим сколько места занимают все индексы для таблицы. Для этого есть функция pg_indexes_size(), также принимающая в качестве аргумента название таблицы:

select pg_size_pretty(pg_indexes_size('my_table')); -- Вывод (опять же для некоей тестовой таблицы): pg_size_pretty text -------------- 88 kB

Функция pg_total_relation_size() определяет сколько места суммарно занимает таблица, ее индексы и данные TOAST, так что ее результат будет отличаться от суммы результатов двух предыдущих запросов.

Ну и чтобы не складывать на калькуляторе размеры всех таблиц и индексов - размер базы данных PostgreSQL определим с помощью pg_database_size():

select pg_size_pretty(pg_indexes_size('my_table')); -- Вывод (опять же для некоей тестовой базы данных): pg_size_pretty text -------------- 8137 kB

Больше информации про описанные функции - здесь: https://postgrespro.ru/docs/postgrespro/12/functions-admin#FUNCTIONS-ADMIN-DBOBJECT

Неочевидное поведение функций конвертации даты

2020-06-01T23:49:00.000+03:00

Продолжаем изучать неочевидное поведение функций php.

Рассмотрим такой код:


$var = strtotime(date('d.m.Y', time()));

Кажется, что здесь выполняется лишняя работа. Сначала мы берем таймштамп, возвращаемый функцией time(), и на его основе получаем строку времени определенного формата. Далее мы преобразуем полученную строку времени обратно в таймштамп. И логично, что таймштампы должны совпадать. Но нет.

Неочевидность в том, что строка времени в формате "d.m.Y" преобразуется в таймштамп начала дня, то есть "d.m.Y" аналогичен "d.m.Y 00:00:00".

Добавляем немного вывода и видим:




$ts = time();


$var = strtotime(date('d.m.Y', $ts));


var_dump(date('d.m.Y H:i:s', $ts));    // string(19) "01.06.2020 22:36:09"

var_dump(date('d.m.Y H:i:s', $var));   // string(19) "01.06.2020 00:00:00"


$varDayStart = strtotime(date('d.m.Y 00:00:00', $ts));

var_dump($var === $varDayStart);    // bool(true)

Таким образом, данный код можно считать одним из способов получения таймптампа начала текущего дня.

Уникальные или неуникальные значения в массиве

2020-04-10T22:09:00.000+03:00

В качестве разминки сегодня решим следующую задачу - предположим, есть массив, некоторые значения в нем повторяются. Требуется получить массив неуникальных (повторяющихся) значений или массив не повторяющихся (уникальных) значений.

Сразу к примеру:


$array = [1, 2, 3, 4, 3, 4, 5, 6, 6];


// Для любого из вариантов задачи нам потребуется знать

// сколько раз в массиве встречается каждое значение

$freqs = array_count_values($array);


// Массив уникальных значений - [1, 2, 5]

$unique = array_keys(

    array_filter(

        $freqs,

        function ($freq) { return 1 === $freq; }

    )

);


// Массив неуникальных значений - [3, 4, 6]

$nonunique = array_keys(

    array_filter(

        $freqs,

        function ($freq) { return 1 < $freq; }

    )

);


// Фильтрация исходного массива с оставлением только повторяющихся значений -[3, 4, 3, 4, 6, 6]

$allNonunique = array_filter(

    $array,

    function ($v) use ($freqs) { return 1 < $freqs[$v]; }

);

В общем-то всё, на досуге можете расширить этот код и задать количество появлений в виде переменной, а не фиксированного значения 1.

Неявное поведение DateTime::createFromFormat

2020-04-06T18:51:00.001+03:00

Данный пост есть результат недавнего обсуждения в одном из php-каналов некоторого странного (как кажется изначально) поведения функции DateTime::createFromFormat.

Рассмотрим простейший код, надо отметить, что исследуемое поведение отмечается только 31-го числа каждого месяца (ну и плюс 29-30 для февраля):


$months = [1, 2, 3, 4];


foreach ($months as $month) {

    $dt = '2019-' . $month;

    echo $dt . ': ' . (\DateTime::createFromFormat('Y-m', $dt))->format('Y-m-d') . PHP_EOL;

}

Обратите внимание, что при создании объекта не указывается день. Так как день не указан, то разумно предположить (это же подтверждается в комментариях), что php берет в качестве дня текущий день запуска скрипта из системных настроек.

Таким образом, запуская скрипт, например, 31-го мая, получим такой вывод:


// ожидаемо, в январе есть 31 число

2019-1: 31.01.2019

// в феврале-2019 нет 29 (и 30 и 31) числа, потому 31-му февраля

// соответствует третье марта (а 29-му февраля - первое марта)

2019-2: 03.03.2019

// ожидаемо, в марте есть 31 число

2019-3: 31.03.2019

// в апреле нет 31 числа, и следующим после 30 апреля идет 1 мая

2019-4: 01.05.2019

Как видим, происходит не то, что ожидается, хотя в другие дни - всё работает нормально, и даже имеющиеся тесты будут проходить.

Можно, конечно, рассуждать о том, что раз день не указан, то может надо кидать эксепшен при создании объекта, но так как такого поведения нет, то придерживаемся мудрого принципа "Явное лучше, чем неявное" и повнимательней пишем свой код.

Всем здоровья)

Строковые представления типов данных, часть 3

2020-03-08T13:10:00.000+03:00

В предыдущих частях (часть 1, часть 2) мы рассмотрели как к строковому типу приводятся скалярные типы данных и null. Сейчас перейдем к таким типам данных как массив, объект и ресурс.

Массив, сразу смотрим пример:


$var = [1,2,3];

$strConcat = 'Эту строку я конкатенирую с переменной ' . $var;

$strEval = "В эту строку я подставляю переменную $var";

echo $var;

echo PHP_EOL;

echo $strConcat;

echo PHP_EOL;

echo $strEval;

// вывод:

Notice: Array to string conversion in file on line ..

Notice: Array to string conversion in file on line ..

Notice: Array to string conversion in file on line ..

Array 

Эту строку я конкатенирую с переменной Array 

В эту строку я подставляю переменную Array

Итак, строковое представление массива это просто слово Array. И так как это не ожидаемая операция над массивом, то выводится еще и Notice. Таким образом, просто взять и вывести массив на экран не получится. Можно обойти массив с помощью цикла и вывести элементы в нужном формате. Естественно, если элементы тоже массивы - их также требуется обойти циклом. И так далее. В случае если массив одномерный - можно воспользоваться функцией implode. Также, если у вас при вставке в БД в поле появляется слово Array - вы поняли, в чем ошибка.

Объект. С объектами ситуация следующая: не всякий объект можно вывести на экран. Например, возьмем такой класс и попытаемся вывести на экран объект данного класса:


class myStdClass

{

    public $intField;

    public $strField;

}



$var = new myStdClass();

$var->intField = 42;

$var->strField = 'Forty two';

$strConcat = 'Эту строку я конкатенирую с переменной ' . $var;

$strEval = "В эту строку я подставляю переменную $var";

echo $var;

echo PHP_EOL;

echo $strConcat;

echo PHP_EOL;

echo $strEval;

// вывод:

Recoverable fatal error: Object of class stdClass could not be converted to string in ... on line ...

Получаем фатальную ошибку, так как php не представляет как привести данный объект к строковому представлению. Но ситуация поправима. Для приведения к объекта к строке требуется определить в классе "магический" метод __toString. Метод, естественно, должен вернуть некую строку, которая и будет строковым представлением объекта.
Модифицируем класс из предыдущего примера:


class myStdClass

{

    public $intField;

    public $strField;


    public function __toString(): string

    {

        return 'intField: ' . $this->intField . '; strField: ' . $this->strField;

    }

}



$var = new myStdClass();

$var->intField = 42;

$var->strField = 'Forty two';

$strConcat = 'Эту строку я конкатенирую с переменной ' . $var;

$strEval = "В эту строку я подставляю переменную $var";

echo $var;

echo PHP_EOL;

echo $strConcat;

echo PHP_EOL;

echo $strEval;

// вывод:

intField: 42; strField: Forty two

Эту строку я конкатенирую с переменной intField: 42; strField: Forty two

В эту строку я подставляю переменную intField: 42; strField: Forty two

Как видим, теперь наш объект прекрасно приводится к строковому представлению.

Я не знаю ни одного случая, когда требуется строковое представление ресурса. Но для полноты картины посмотрим на следующий код:


$var = fopen('/tmp/1.tmp', 'a');

$strConcat = 'Эту строку я конкатенирую с переменной ' . $var;

$strEval = "В эту строку я подставляю переменную $var";

echo $var;

echo PHP_EOL;

echo $strConcat;

echo PHP_EOL;

echo $strEval;

// вывод:

Resource id #5

Эту строку я конкатенирую с переменной Resource id #5

В эту строку я подставляю переменную Resource id #5

Как видим, толку в этом выводе мало, только убедиться что в переменной хранится ресурс. Надеяться на то, что ИД ресурса (в данном выводе - 5) не изменится при следующем запуске, также не стоит.

На этом я завершаю цикл статей по преобразованию типов данных в строки, всем спасибо за внимание.

Строковые представления типов данных, часть 2

2020-02-23T23:28:00.000+03:00

Продолжим рассматривать php преобразует различные типы данных к строковому виду. Первая часть здесь.

Рассмотрим тип данных int. Переменная типа int может быть задана в четырех системах счисления: десятичной, восьмеричной, шестнадцатеричной и двоичной. Независимо от системы счисления, вывод будет преобразован к десятичной системе счисления:


$a = 0;

$b = 42;

$c = 0b101011;   // 43 в десятичной

$d = 054;        // 44 в десятичной

$e = 0x2D;       // 45 в десятичной

$f = -42;


echo $a . PHP_EOL;

echo $b . PHP_EOL;

echo $c . PHP_EOL;

echo $d . PHP_EOL;

echo $e . PHP_EOL;

echo $f . PHP_EOL;

// вывод:

0

42

43

44

45

-42

Числа, превышающие размер типа int (PHP_INT_MAX / PHP_INT_MIN), автоматически конвертируются в тип float и выводятся соответствующе:


$a = PHP_INT_MAX;

$b = 2 + PHP_INT_MAX;

$c = PHP_INT_MIN;

$d = PHP_INT_MIN -1;


echo $a . PHP_EOL;

echo $b . PHP_EOL;

echo $c . PHP_EOL;

echo $d . PHP_EOL;

// вывод:

9223372036854775807

9.2233720368548E+18

-9223372036854775808

-9.2233720368548E+18

Для того чтобы вывести int переменную не в десятичной, а другой системе счисления, нужно воспользоваться функциями форматирования, например, sprintf/printf:


$a = 42;


echo sprintf("%o", $a) . PHP_EOL;  // восьмеричная

echo sprintf("%x", $a) . PHP_EOL;  // шестнадцатиричная, буквы в нижнем регистре

echo sprintf("%X", $a) . PHP_EOL;  // шестнадцатиричная, буквы в верхнем регистре

echo sprintf("%b", $a) . PHP_EOL;  // двоичная

// вывод:

52

2a

2A

101010

Переходим к выводу переменных типа float.


$floatNums = [

    // Первый способ записи float-чисел

    4.2,

    4.2222,

    4.22222222,

    0.2,

    0.0002,

    0.00002,

    0.000002,

    // Второй способ записи float-чисел

    1.2e4,

    // Третий способ записи float-чисел

    1.2E4,

    5E-3,

    5E-4,

    5E-5,

    // int значения превышающие размер типа int конвертируются во float

    PHP_INT_MAX + 20,

];


foreach ($floatNums as $num) {

    echo $num . PHP_EOL;

}

// вывод:

4.2

4.2222

4.22222222

0.2

0.0002

2.0E-5    //числа с пятью и более знаками после запятой выводятся в нотации с основанием и мантиссой

2.0E-6

12000

12000

0.005

0.0005

5.0E-5

9.2233720368548E+18

Как видим - числа выводятся с тем же количеством знаков после запятой, что были указаны при их объявлении. Для указания нужного числа знаков после запятой - пользуйтесь функциями форматирования, например, теми же sprintf/printf или number_format:


$floatNum = 4.23456789;

echo sprintf('%f', $floatNum) . PHP_EOL;

echo sprintf('%.2f', $floatNum) . PHP_EOL;

echo sprintf('%.5f', $floatNum) . PHP_EOL;

echo sprintf('%.12f', $floatNum) . PHP_EOL;



echo number_format($floatNum) . PHP_EOL;

echo number_format($floatNum, 2) . PHP_EOL;

echo number_format($floatNum, 5) . PHP_EOL;

echo number_format($floatNum, 6) . PHP_EOL;



// вывод

4.234568   // по умолчанию выводится 6 знаков после запятой

4.23

4.23457    // можно подумать что это округление, но нет, такой вывод связан с представлением числа в памяти программы 

4.234567890000     // оставшиеся позиции заменяются нулями

4

4.23

4.23457    // аналогично, это НЕ округление

4.234568

Оставшиеся типы данных - массив, объект и ресурс, рассмотрим в заключительном посте.

Сборка мусора в php

2019-12-17T19:06:00.000+03:00

Недавно встретился хороший пост для начинающих о сборке мусора (он же garbage collection) в php. Далее я попытаюсь перевести этот пост на русский и добавить немного собственных данных. Ссылка на оригинальный пост - в конце.

Начнем с того, что так как php - язык интерпретируемый, то вам не нужно заморачиваться управлением памятью - выделением памяти, и что более важно - очисткой памяти. Этим в php занимается специальный механизм, называемый сборкой мусора (или garbage collection, или же gc).

Сборка мусора работает тремя способами:

При уходе переменной из области видимости
При подсчете ссылок
При сборе циклических ссылок

- Как только переменная уходит из области видимости и больше нигде не используется - она автоматически собирается gc. Также с помощью unset можно явно определить, что переменную пора собирать gc. Пример кода:


function display_var() {

    $foo = "bar";

    echo $foo;

}


$user = "Mister X";

unset($user);

В данном коде:

переменная $foo будет автоматически собрана gc сразу после завершения выполнения функции display_var
переменная $user будет собрана gc, так как она явно удалена с помощью unset

- С подсчетом ссылок разобраться чуть сложнее. Официальная часть здесь.

Кратко - для того чтобы понять, можно ли безопасно собрать переменную с помощью garbage collection, используется механизм подсчета ссылок. Данный механизм заключается в следующем - при создании переменной в php создается не просто переменная, а контейнер типа zval, в котором помимо собственно типа и значения переменной, хранится еще два поля - ref_count и is_ref. Далее, если вы присваиваете другой переменной значение этой переменной, то контейнер не копируется с имеющимися данными, а php просто увеличивает ref_count на единицу, так как контейнер используется уже двумя переменными. И так далее.

Как только в какой-то момент переменная удаляется (с помощью unset или ухода из зоны видимости), счетчик ref_count в контейнере уменьшается. Как только счетчик дошел до нуля - считается, что контейнер готов к сборке мусора.

Мониторить состояние контейнера можно при наличии расширения Xdebug с помощью функции xdebug_debug_zval.

- Сборка мусора при наличии циклических ссылок не так сложна, как предыдущий пункт. В этом случае сборка мусора активируется в тот момент, когда в памяти находится 10000 объектов с циклическими ссылками, и один из них уходит из области видимости. Значение 10000 установлено на уровне ядра php и может быть изменено только путем изменения исходного кода и его перекомпиляции. Однако, процесс сборки мусора можно запустить явно, не дожидаясь накопления 10000 объектов, с помощью метода gc_collect_cycles.

Также, так как сборка мусора при наличии циклических ссылок может потребовать значительное количество ресурсов, то такую сборку можно запретить одним из двумя способов:

вызвать метод gc_disable
установить значение zend.enable_gc в false в файле php.ini (gc_disable делает то же самое)

Также можно отметить, что изменения в php7.3 серьезно улучшили механизм сборки мусора - в оригинальном посте можно увидеть бенчмарки сравнения предыдущих релизов и версии 7.3, плюс появилась полезная функция gc_status, выводящая данные об использовании gc. А при наличии уже упомянутого Xdebug можно получить еще больше информации с помощью функции xdebug_start_gcstats.

Вот все основные моменты, что следует знать и помнить о сборке мусора. Оригинальная статья с некоторыми дополнительными плюшками - тут.

Or-pattern в glob

2019-12-12T21:11:00.001+03:00

Короткий пост о том, как в аргументе функции glob использовать шаблон или.

Предположим, каталог содержит следующие файлы:


- file.txt

- picture

- picture.gif

- picture.jpg

- picture.png

- picture1.jpg

И требуется получить файлы имеющие в названии только "picture" ("picture1" не подходит) и с расширениями jpg, png или вообще без расширения.

Естественно, простейшим решением можно считать объединение результатов трех вызовов glob:


print_r(array_merge(

    glob('./picture\.jpg'),

    glob('./picture\.png'),

    glob('./picture')

));

Но давайте попробуем ограничиться одним вызовом. В этом нам поможет изучение странички мануала функции glob, а точнее - списка параметров. В нем нас интересует второй аргумент flags и его значение GLOB_BRACE:


print_r(

    glob('./picture{,\.jpg,\.png}', GLOB_BRACE)
);

Получаем тот же самый набор файлов, что и в первом примере (сортировка не в счет). На этом всё, читайте почаще мануалы и находите решения попроще. Кстати, в комментах можете поделиться еще более хитрыми шаблонами для glob, если у вас таковые есть.

Удаление всех таблиц в схеме данных postgresql

2019-11-20T10:51:00.000+03:00

Иногда требуется удалить все таблицы в выбранной схеме в базе данных postgresql.

Вы можете сказать - можно удалить сразу всю схему (или еще убойней - всю базу). Но нет, при удалении схемы или базы удалится все остальное, что напрямую не зависит от таблиц. Поэтому просто удалим только таблицы. Для этого нам пригодится следующий запрос, результатом которого будет список запросов на удаление каждой таблицы:


SELECT 'drop table if exists "' || tablename || '" cascade;' as pg_tbl_drop

FROM pg_tables

WHERE schemaname='public';

Естественно, вместо schemaname='public' нужно подставить вашу конкретную схему.

Выполнив все полученные запросы, получаем схему без таблиц. Однако, может возникнуть ситуация, что в схеме остались последовательности (sequences). Получить все запросы на удаление последовательностей можно таким запросом:


SELECT 'drop sequence if exists "' || relname || '" cascade;' as pg_sec_drop

FROM pg_class

WHERE relkind = 'S';

Посмотреть все последовательности (на всякий случай) можно с помощью запроса:


SELECT c.relname

FROM pg_class c

WHERE c.relkind = 'S';

И как всегда - при удалении важных данных не забудьте про бэкап.

Неявные преобразования данных в PHP

2019-10-20T23:39:00.000+03:00

Маленький пост о том, как поиметь проблем на ровном месте из-за неявного преобразования данных из одного типа в другой.

Допустим, у вас есть такой простенький код:


$a = ['1' => 'v1', '1-2' => 'v2', '1-3' => 'v3'];

$search = '1-2';

foreach ($a as $key => $value) {

    if ($key == $search) {

        echo 'Key found: ' . $key . PHP_EOL;

    }

}

Видим вывод:


Key found: 1

Key found: 1-2

Возникает закономерный вопрос - почему? Мы же ожидали, что выведется только ключ 1-2. Откуда же в выводе взялся ключ 1?

Давайте копнем чуть глубже и модифицируем код проверки:


if ($key == $search) {

    var_dump($key, $search);

    echo PHP_EOL;

}

Видим вывод:


int(1)

string(3) "1-2"



string(3) "1-2"

string(3) "1-2"

Что мы видим? Что ключ первого элемента массива вместо типа строка (string) стал типом целое число (integer).

Это стандартное поведение ключей типа строка, отмеченное в официальном руководстве. Получаем, что на первой итерации цикла мы сравниваем целое число 1 со строкой 1-2. Немного неожиданно.

Казалось бы - строка 1-2 уж никак не может быть равна целому числу 1. Однако, правила сравнения разных типов (также отраженные в официальном руководстве, таблица Сравнение различных типов) сообщают, что при сравнении числа и строки, строка приводится к числу. И по правилам приведения к числу (опять же описанным к официальном руководстве) мы получаем, что строка 1-2 приводится к числу 1. А уж 1 точно равно 1.

Что можно сказать в заключение:

используйте === вместо ==
почаще читайте официальное руководство.

P.S. Интересно, предложат и заапрувят ли когда-нибудь rfc, который сделает оба сравнения (=== и ==) строгими?

Список аргументов консольного скрипта

2019-09-24T19:14:00.000+03:00

Всем привет. Сегодня будем разбираться, как получить список аргументов php-скрипта, запущенного из консоли.

Обычно запуск скрипта выглядит так:


> php script.php run 20 zzz

// или если у скрипта есть право на исполнение

> ./script.php run 20 zzz

Как же получить переданные в командной строке аргументы run, 20, zzz?

Для этого в php есть две зарезервированные переменные:

$argv - массив, содержит список аргументов. При этом учтите, что имя исполняемого скрипта также является аргументом командной строки и присутствует в списке аргументов. Поэтому, чтобы обратиться к значению run из нашего примера требуется использовать $argv[1], а не 0, так как $argv[0] - это script.php, офссылка.
$argc - число, содержит количество переданных аргументов, также учитывается имя исполняемого скрипта. Для нашего примера $argc равно 4, офссылка.

Как и любые другие глобальные переменные в скрипте, $argv и $argc не защищены от перезаписи. Так что если вы где-то в вашем скрипте напишете $argv = 42; то все ваши входные аргументы будут потеряны. Также, эти переменные не являются суперглобальными, то есть использовать их в функциях без явного указания global (фу) или передачи как аргумент функции - не получится.

Однако, выведя на экран содержимое суперглобальной переменной $_SERVER можно заметить, что данные из $argv и $argc дублируются в аналогичных ключах массива $_SERVER - argv и argc.

В случае если вы хотите передавать именованные аргументы, например:


> php script.php --action=run --time=20 --option=zzz

то php их никак не парсит и просто выдает в $argv массив вида:


Array

(

    [0] => script.php

    [1] => --action=run

    [2] => --time=20

    [3] => --option=zzz

)

Для парсинга таких входных данных существует функция getopt, но ее рассмотрение - это повод для отдельного поста.

Перенос данных нескольких полей в единое поле hstore

2019-07-06T23:16:00.001+03:00

Сегодня опишу вам как решить следующую сверхспецифическую задачу: у нас в БД PostgreSQL есть таблица некоторой структуры:


id | name | attr_1 |  attr_2 |  attr_3 |

---------------------------------------|

 1 | NAME |     v1 |      v2 |      v3 |

Вследствие каких-то причин в проекте решено соединить данные полей attr_1, attr_2, attr_3 в одно поле attrs типа hstore.

Таким образом, новая таблица и запись в ней выглядит так:


id | name |                                        attrs |

---------------------------------------------------------|

 1 | NAME |     attr_1 => v1, attr_2 => v2, attr_3 => v3 |

Естественно, будем все максимально автоматизировать. Для работы нам пригодятся некоторые функции для работы с hstore и немного php, просто чтобы сформировать общий текст запроса. Общий текст запроса выглядит вот так:


UPDATE tableName

SET attrs =

    hstore(

        string_to_array(

            rtrim(

                (CASE WHEN (attr_1 IS NOT NULL) THEN ('attr_1' || '~~~' || attr_1 || '~~~') ELSE '' END)

                ||

                (CASE WHEN (attr_2 IS NOT NULL) THEN ('attr_2' || '~~~' || attr_2 || '~~~') ELSE '' END)

                ||

                (CASE WHEN (attr_3 IS NOT NULL) THEN ('attr_3' || '~~~' || attr_3 || '~~~') ELSE '' END),

                '~'

            ),

            '~~~'

        )

    )

Итак, что же здесь происходит? Начнем с внутренней части.

1. Для значения каждого из полей attr_1, attr_2, attr_3 мы создаем строку вида НазваниеПоля~~~ЗначениеПоля~~~ или просто пустую строку, если значение поля NULL. Все эти строки объединяем в одну результрующую.

2. Далее нам требуется избавиться от ~ в конце объединенной строки. В этом нам помогает rtrim.

3. Потом из объединенной строки мы создаем массив, разбивая строку по разделителю ~~~.

4. И, наконец, полученный массив передаем в метод hstore. Готово.

Отдельно замечу, что разделителем выбран ~~~ потому, что встретить его в значениях полей attr_1, attr_2, attr_3 невозможно. Если в ваших данных может встречаться такой набор символов - используйте другой разделитель из более "странных" символов.

С использованием php можно создать такой скрипт генерации и выполнения запроса:


$fields = [

    'attr_1',

    'attr_2',

    'attr_3',

    // еще поля

];

$glue = '~~~';

$selectPattern = "(CASE WHEN (%s IS NOT NULL) THEN ('%s' || '$glue' || %s || '$glue') ELSE '' END)";

$select = [];

foreach ($fields as $field) {

    $select[] = vsprintf($selectPattern, array_fill(0, 3, $field);

}

$select = implode(' || ', $select);


$this->runSql("

    UPDATE {$table}

    SET attrs = hstore(string_to_array(rtrim(({$select}), '~'), '{$glue}'))

");

По ссылке - улучшенный гист с кодом, обрабатывающим даже поле типа datetime.